Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов

Морозов, Юрий Владимирович

Автоматизация и управление технологическими процессами и производствами (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов

кандидата технических наук: Морозов, Юрий Владимирович
город: Москва
год: 2011
специальность ВАК РФ: 05.13.06

Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов»

Автореферат диссертации по теме "Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов"

на правах рукописи

МОРОЗОВ ЮРИЙ ВЛАДИМИРОВИЧ

АВТОМАТИЗАЦИЯ ПРОЦЕССОВ ИНТЕГРАЦИИ ДАННЫХ В ВЫСОКОНАГРУЖЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ С ОПТИМИЗАЦИЕЙ ХАРАКТЕРИСТИК ПО РЕЙТИНГУ ЗАПРОСОВ

Специальность 05.13.06 - Автоматизация и управление технологическими процессами и производствами (полиграфические средства информации и информационные системы)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

- 7 ИЮЛ 2011

Москва-2011

4851384

Работа выполнена на кафедре «Информатика и вычислительная техника» ФГБОУ ВПО «Московский государственный университет печати».

доктор технических наук, доцент Попов Дмитрий Иванович

доктор технических наук, профессор Марков Аркадий Алексеевич доктор технических наук Остроух Андрей Владимирович

Северо-западный институт печати Санкт-Петербургского государственного университета технологии и дизайна

Защита состоится «15» сентября 2011 г. в 12.00 на заседании диссертационного совета Д 212.147.03 при ФГБОУ ВПО «Московский государственный университет печати им. Ивана Федорова» по адресу 127550, г. Москва, ул. Прянишникова, дом 2А.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Московский государственный университет печати».

Автореферат разослан «2.3 » июня 2011 г

Ученый секретарь

диссертационного совета Д 212.147.03:

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

д.т.н., профессор Агеев В.Н.

1. Общая характеристика работы.

1.1. Актуальность проблемы. Любому крупному предприятию, такому как издательско-полиграфический комбинат, производственный концерн, холдинг или проектная организация приходится иметь дело с огромным объемом разнородной информации, поступающей из различных информационных систем, которую необходимо обрабатывать и анализировать с целью ее последующего использования в бизнес-процессах или технологическом цикле производства.

Решение указанных задач невозможно без использования современных информационных систем интеграции и управления данными. Их применение позволяет повысить эффективность работы предприятий, сократить издержки, оптимизировать численность персонала. На крупных предприятиях, разработка таких систем очень часто связана с необходимостью интеграции данных из высоконагруженных информационных систем и обеспечением приемлемого времени выполнения запроса пользователя.

В силу значительной стоимости создания такого рода систем и специфичности деятельности каждого крупного предприятия или организации, подобные системы разрабатываются, как правило, под заказ, хотя и строятся на базе готовых решений крупных производителей. Эти системы решают задачи в соответствии с конкретными требованиями, установленными техническими заданиями и почти всегда являются уникальными продуктами, применение которых на других предприятиях невозможно или неэффективно.

Следует также отметить, что фирмы - разработчики информационных систем объективно не заинтересованы проводить исследования, направленные на поиски универсальных подходов к их проектированию, поскольку, в конечном счете, это уменьшает коммерческую выгоду от их деятельности.

Следствием сложившейся ситуации является то, что при обилии существующих информационных систем различного направления, тема разработки информационной системы, автоматизирующей процессы интеграции и управления данными, предназначенной для работы в режиме высокой загрузки и позволяющей легко адаптировать их структуру и возможности под конкретные задачи предприятий разного профиля, почти не освещена в публикациях и, следовательно, является актуальной и практически значимой.

1.2. Цель исследования. Целью настоящей диссертационной работы является разработка методики и алгоритмов автоматизации процессов интеграции и управления данными, позволяющих принимать управленческие решения, основанные на неструктурированной информации, поступающей из высоконагруженных информационных систем, с оптимизацией рабочих характеристик по рейтингу поступающих запросов.

1.3. Задачи исследования. В соответствии с поставленной целью в работе решены следующие задачи:

- анализ существующих архитектур, моделей, методов и алгоритмов интеграции и управления данными на промышленных предприятиях;

- исследование проблем оптимизации систем интеграции и управления данными высоконагруженных информационных систем;

- разработка основных функций и структуры автоматизированной системы интеграции и управления данными;

- разработка архитектуры хранилища данных;

- разработка метода рейтингов заявок для уменьшения среднего времени ожидания заявки в очереди;

- разработка методики и алгоритмов определения рейтинга запроса по точности его формулировки.

- оценка эффективности предлагаемых методик, моделей и архитектур на основе моделирования и расчетного исследования.

- решение практических задач по разработке базы данных, проектированию алгоритмов и программного обеспечения системы интеграции и управления данными промышленного предприятия.

1.4. Методы исследования. Для достижения поставленных целей и решения задач использованы методы математической статистики, теории массового обслуживания. Разработка программ для реализации алгоритмов проведена на языках программирования С#, Тгагшай-ЗСЗЬ.

1.5. Областью исследования является автоматизация процессов интеграции и управления данными в информационных системах, разработка методологии построения комплексных систем интеграции и управления данными, разработка специализированного программного обеспечения для этих систем и его оптимизация.

1.6. Научная новизна полученных в данной работе результатов состоит в следующем:

- Предложена структура СИУД, в отличие от существующих архитектур позволяющая в комплексе и в полном объеме решить задачи автоматизации процессов интеграции и управления данными. Программное обеспечение, построенное с использованием данной архитектуры, не нуждается в дополнительной доработке под нужды конкретного предприятия, в отличие от существующих продуктов известных разработчиков,

- Разработана архитектура хранилища данных СИУД, отличающаяся от известных архитектур более высокой производительностью при обработке сложных запросов и эффективностью хранения версионной информации.

- Разработан метод исследования времени ответа СИУД на основе применения модели теории массового обслуживания для систем с приоритетами.

- Разработан метод, позволяющий уменьшить среднее время ответа системы на запрос на основе введения рейтингов запросов, определяемых по степени их информативности (точности), предложен алгоритм вычисления рейтингов.

1.7. Методологической основой исследования являются работы в области интеграции данных промышленных предприятий, основанные на использовании механизмов веб-сервисов, сервисов сообщений, брокера сообщений, хранилищ данных (работы Ф. Миллера, В. Рэйнарди, Д. Уэддингтона, Д.И. Мутина, И.А. Тарханова, В.А. Камакина).

1.8. Достоверность полученных результатов подтверждается использованием математического аппарата теории вероятностей и теории массового обслуживания, выводом основных соотношений для определяющих характеристик модели, результатами полномасштабного тестирования, проведенного с использованием симуляционного моделирования (метод Монте-Карло), успешной апробацией и внедрением разработанного подхода на крупных предприятиях и в организациях различных отраслей промышленности.

1.9. Оценка теоретической значимости результатов работы.

Полученные математические, информационные модели и алгоритмы являются теоретической основой для создания автоматизированной системы интеграции и управления данными.

1.10. Практическая ценность работы. На основании предложенных теоретических разработок была разработана универсальная автоматизированная система интеграции и управления данными промышленных предприятий, позволяющая автоматизировать процессы интеграции данных на предприятиях различных отраслей, в том числе и полиграфической.

Применение данного программного обеспечения позволило автоматизировать процессы интеграции и управления проектными данными ОАО «Атомэнергопроект», операционными данными оборудования АЭС ОАО «ВНИИАЭС». Некоторые модули системы применялись на предприятиях полиграфической отрасли и МГУ Печати им. Ивана Федорова.

1.11. На защиту выносятся следующие положения:

- Структура информационной системы интеграции и управления данными, обеспечивающая в полном объеме необходимый функционал по автоматизации процессов интеграции, управления, версионного контроля и согласования разнородных данных высоконагруженных ИС;

- Архитектура хранилища данных СИУД, позволяющая хранить разнородные данные из различных информационных систем и поддерживающая механизмы согласования данных и контроля версий;

- Метод анализа эффективности работы СИУД на основе введения системы рейтингов, позволяющий использовать в информационных системах элементы теории массового обслуживания для повышения эффективности системы;

- Алгоритм вычисления рейтингов запросов, основанный на точности формулировки запроса, позволяющий снизить среднее время выполнения заявки.

1.12. Апробация работы. Модели и алгоритмы, полученные автором данной работы, докладывались на конференции МедиаФест 2009, использовались в Институте открытого образования МГУ Печати, предприятиях полиграфической отрасли; программное обеспечение, разработанное на их базе, используется в ОАО «Атомэнергопроект», ОАО «ВНИИАЭС»

1.13. Публикации. Основные работы изложены в 5 научных публикациях, в том числе в ведущих рецензируемых научных изданиях, рекомендуемых ВАК -1 статья.

1.14. Структура работы. Диссертационная работа состоит из введения, четырех глав, заключений по каждой главе, основных результатов и выводов, библиографического списка и 3 приложений. Основной текст изложен на 147 страницах, содержит 40 рисунков, 3 таблицы и 3 приложения. Библиографический список содержит 102 наименования.

2. Содержание диссертации.

Во введении обосновывается актуальность работы. Ставятся цели и задачи исследования. Приводятся основные положения работы.

В первой главе проводится анализ современных подходов к автоматизации процессов интеграции и управления данными, описываются их достоинства и недостатки, обосновывается необходимость разработки моделей и алгоритмов

систем интеграции и управления данными, позволяющих комплексно решить проблему автоматизации процессов интеграции и управления данными.

Современные требования к управлению производством предполагают необходимость принятия обоснованных управленческих решений в условиях большого объема поступающей информации и ограниченного времени на ее обработку и анализ. Поэтому для решения проблем систематизации и поиска информации на промышленных предприятиях в настоящее время широко применяются вычислительные средства и разнообразное программное обеспечение.

Данные, используемые каждой информационной системой предприятия, в общем случае, могут сильно розниться: они могут быть как полностью, так и частично струтурированными, получаться из различных источников в различных форматах в различных объемах и в разное время. Отдельного упоминания стоит также проблема достоверности данных. Очевидно, что некоторая часть данных, используемая предприятием, не находится в стационарном состоянии в одном программном комплексе, но проходит свой жизненный цикл, на протяжении которого постоянно меняется и переходит из одного программного комплекса в другой.

Все вышеперечисленные факторы подчеркивают необходимость создания и использования специальных информационных систем, автоматизирующих процессы интеграции и управления данными. В настоящее время, на рынке существует несколько классов продуктов, так или иначе связанных с управлением данными, например, такие, как системы документооборота (Documentum), ERP-системы (SAP, Dynamics) или OLAP-системы. Системы документооборота или ERP-системы являются специализированными для управления предприятием и для реализации механизмов интеграции и управления данными требуют серьезной доработки (а порой и переработки). Системы типа OLAP являются интеграционными, но не являются универсальными: они предназначены для быстрого построения отчетов путем преобразования формы хранения данных. Кроме того, опыт и наработки серьезных производителей программного обеспечения зачастую закрыт для исследователей.

Использование промышленных механизмов и методов, предназначенных для интеграции данных, например таких, как веб-сервисы, коннекторы Java, сервисы сообщений, брокеры сообщений (WebSphere) или же хранилища данных, подробно рассмотрено в работах многих исследователей. Среди них: Биберщтейн Н., Боуз С., Ньюкоммер Э. Миллер Ф., Дэвис Дж., Шороу Д., Рей С., Рибер Д., Фленов М., Уэддингтон Д., Шарма Р., Стиарнс Б., Нг Т., Генкин М., Хапнер М., Барридж Р., Литгихузен Р., Имхофф К., Галеммо Н., Рэйнарди В.

Отмеченные выше промышленные методы и алгоритмы интеграции и управления данными представляют значительный интерес, однако их использование не является эффективным. В случае веб-сервисов, коннекторов, сервисов и брокеров сообщений предприятию предоставляется лишь среда, позволяющая обмениваться данными и преобразовывать их формат, и не предоставляются механизмы хранения и управления этими данными. Для использования этих функций предприятиям необходимо покупать и настраивать дополнительное программное обеспечение, что выливается в дополнительные финансовые, временные и людские затраты.

Работы таких исследователей, как Г. Зауфер, М.Сельваж, Э. Лейн, Б. Мэтьюс, А. Кудинов, Ю.В. КозадоЙ, К.Уайт, П. Лихницкий, К.В. Антипин, A.B. Фомичев, М.Н. Гринев, С.Д. Кузнецов, Л.Г. Новак, П.О. Плешачков, М.П. Рекуц, Д.Р. Ширяев, И.Полотнюк, И. Гордиенко, Д.И. Мутин, И.А. Тарханов, В.А. Камакин, С. Федечкин, А.Н. Ахунов, A.B. Ложечкин, A.A. Ломакин, P.A. Плющенков относятся к решению проблем автоматизации интеграции и управления данными.

При этом, несмотря на наличие большого количества работ по теме интеграции и управления данными, работы, комплексно решающие практические проблемы, отсутствуют. Тем не менее, некоторые идеи и наработки, описанные в работах вышеперечисленных авторов, например такие, как использование стандарта XML для передачи данных, использование реляционной СУБД для хранения данных были развиты и адаптированы для разработанной системы.

Во второй главе дается определение высоконагруженных информационных систем, исследуются факторы, влияющие на эффективность работы высоконагруженных информационных систем, и предлагаются меры по оптимизации их работы.

Современные информационные системы, начиная от операционных систем, заканчивая корпоративными интеграционными системами или СУБД, в своей работе используют механизм очередей и обслуживающих устройств. Иными словами, любая информационная система может быть представлена в виде взаимодействующих систем массового обслуживания. Система называется высоконагруженной в случае, когда среднее число запросов, находящихся в очереди обслуживающего устройства, превышает единицу. Ввиду того, что система практически постоянно находится в работе, задача по минимизации времени ожидания обслуживания имеет большое практическое значение.

Для исследования факторов, влияющих на эффективность работы информационных систем, строится модель исследования со следующими требованиями:

1. Модель системы должна описывать процессы поступления запросов, их накопления и обслуживания.

2. Модель должна допускать наличие приоритетов у определенных групп запросов. Последнее важно, так как запросы могут иметь существенно различное время обработки, и наличие приоритетов, следовательно, влияет на характеристики работы системы.

3. Модель должна допускать использование различных законов распределения для времени обработки запросов различных групп, поскольку дисперсия времени обработки также может существенно различаться и, тем самым, влиять на показатели эффективности системы.

4. Исследование свойств системы должно проводиться в предположении случайного потока не связанных между собой запросов, не подвергаемых предварительной обработке или просеиванию.

В соответствии с требованиями, в главе рассматривается одноканальная система обслуживания с пуассоновским входящим потоком и произвольным распределением времени обслуживания, для которого предполагается существование первых двух моментов.

Допущение модели, касающееся пуассоновского входящего потока запросов, не ограничивает общность рассуждений: во-первых, предметом анализа является исследование свойств системы в стационарном (установившемся) режиме, что позволяет использовать стационарное значение параметра потока, которое не зависит от наличия последействия, а во-вторых, пуассоновский поток является моделью предельного перехода в случае, когда результирующий поток является суммой многих частных потокоь запросов, не связанных между собой и носящих сугубо случайный характер.

Представление модели в виде одноканальной системы допустимо, так как позволяет аналитически исследовать основные параметры и закономерности, влияющие на свойства системы. При этом, переход к большей размерности качественно не меняет указанные свойства, а влияет только на количественные значения показателей эффективности.

Таким образом, описанная выше модель является достаточной для постановки и решения задачи начальной оптимизации системы.

Для исследования свойств системы в отсутствие приоритетов вводятся

следующие обозначения. Обозначим Х- параметр входящего потока заявок, // = —

То

- параметр потока обслуженных заявок, приведенный ко времени работы системы (обратная величина к среднему времени обслуживания заявок То). При определении показателей эффективности системы на установившемся периоде

работы важное значение имеет параметр р = — , характеризующий степень ее загрузки.

Другими важными характеристиками эффективности системы, которые должны быть определены по соотношению X и ц, являются среднее число заявок в системе N в некоторый произвольный момент времени, среднее число заявок в очереди пи№ -среднее время ожидания обслуживания в очереди.

Для экспоненциального времени обслуживания указанные величины могут быть представлены следующими простыми выражениями:

Ы = п = = ——- = (1)

1 -р 1-р 1 -рц р X

Для не экспоненциальных законов времени обслуживания данные выражения не точны, так как математическое ожидание времени, оставшегося до окончания обслуживания заявки после поступления нового требования в систему, может существенно отличаться от исходного. Для стареющих распределений с неубывающей функцией интенсивности наступления события от времени эта величина меньше среднего исходного распределения (например, для регулярного времени обслуживания - в два раза).

Для этого случая указанные выше характеристики определяются по формулам, известным как формулы Поллачека-Хинчина.

Я = ^_.1(1+Л>) (2)

1-/3 2

г=4»=4-^--а+.92) о)

Л Л 1-р 2

Х~Рг . (4)

В указанных формулах 9 есть коэффициент вариации распределения случайного времени £ обслуживания запроса (отношение среднеквадратичного отклонения к математическому ожиданию). Для решения поставленной задачи исследуется влияние на основные параметры системы введения приоритетов. Постулируется следующая дисциплина очереди:

Заявка, имеющая ¡-й приоритет, при поступлении в систему становится в очередь впереди заявок с более низшими приоритетом (¡+1, ¡+2,... Я).

В соответствии с общим подходом предполагается, что Л = £ Як, где Хк -

параметр потока заявок из группы с приоритетом к; при этом потоки, образованные различными группами заявок, являются пуассоновскими.

Пусть также:

Xя '

= АГ = £Л. (5)

(=1

В (5) А, обозначает параметр, характеризующий загрузку системы с учетом запросов до приоритета г включительно. Тогда в результате вывода получим, что

Г = 1

„о-! у т

м к]= я, м + VI )= рк (1 + у\ ) (9)

* *-1 и к £

В формуле (9) есть математическое ожидание времени, оставшегося до окончания обслуживания обрабатываемого запроса после поступления нового требования в систему с учетом всех приоритетов.

Видно, что полученные формулы (6)и (8) полностью совпадают с (2), (3) при

т.е. когда приоритеты запросов не введены.

Цель проводимого исследования состоит в том, чтобы найти параметры запросов, поступающих в систему, используя которые можно минимизировать целевые характеристики, представленные соотношениями (6), (8).

Из (6), (8) следует, что наличие приоритетов оказывает влияние на значение характеристик эффективности через общий член для обеих полученных выше формул:

При этом время нахождения и среднее число заявок в очереди, а также общее среднее время обслуживания отличаются на константу

r-1

Из сказанного следует, что поставленная задача может быть решена на основе введения рейтинга запросов, в зависимости от их информативности (точности). Указанные характеристики влияют на среднее время обработки запроса. Следовательно, если в (6) и (8) приоритеты запросов связать с их рейтингами, получим механизм, формализующий влияние внутренних параметров запросов на характеристики эффективности системы.

В дальнейшем показано, что для всех основных показателей рациональное назначение рейтингов входящих в систему запросов способно повысить эффективность ее работы, причем оптимальное решение может быть получено путем минимизации выражения

Аг = £р*<1,рг>0для любого l<r£R

Доказывается, что задача (12) имеет следующее решение, представленное Теоремой 1:

Пусть в условиях, сформулированных выше, выполняются требования:

ц1 > р2 ... > цЯ, (12)

тогда набор рейтингов в соответствии с (12) обеспечивает решение поставленной экстремальной задач. Другими словами, наиболее высокие рейтинги должны отвечать наименьшим временам обработки запросов системой.

Доказательство Теоремы 1 осуществляется с использованием доказательства вспомогательной Леммы:

Для того, чтобы

SR=Z(, д \ д ч А, = Х>* U-Ar_iXl-Ar) * = i

И-

приняло минимально возможное значение на множестве подстановок 1, 2...Я

. . . , достаточно выполнения условия:

¡1,;2...;л J

при всех 1 < к< И.

\ А

Из Леммы следует, что достигает минимума, если < для любого г.

К Рг

Поскольку = данное условие эквивалентно условию ц,

Р, К М„1

для любого г. Таким образом, 5д будет минимальным, если выполнено г 2 ... > что и доказывает утверждение теоремы.

Из полученного результата следует важный вывод: независимо от значений параметров потоков запросов, поступающих в систему, при введении рейтингов запросов в соответствии со временем их обработки (чем больше указанное время, тем ниже должен быть рейтинг) получается решение искомой оптимизационной задачи.

В соответствии с разработанной теорией далее в работе предлагается подход к определению времени обработки запроса.

Пусть реляционная база данных состоит из совокупности таблиц, причем каждая таблица представляет набор полей, характеризующих свойства объекта Множество значений каждого поля, очевидно, меньше либо равно числу всех записей в таблице. При этом равенство достигается только в том случае, когда значение поля однозначно определяет объект. Пусть N и щ, соответственно, общее количество записей и количество записей, отвечающих значению 1 данного поля. Среднее время и второй момент распределения времени обработки запроса можно вычислить по формулам:

(13)

(14)

Где Тг время, необходимое для обращения к уникальной записи, р( = ^ / N.

Если запрос включает поиск по нескольким полям таблицы, его целесообразно начинать с наиболее информативных полей, то есть с полей, в которых П; и, соответственно, р; минимальны. В этом случае:

Аф^Мпц^Й (15)

, (16)

где к пробегает множество полей таблицы, участвующих в запросе, а к* отвечает полю, в котором (16) минимально.

Если в запросе участвуют несколько таблиц, его обработка производится на основе составления матрицы декартового произведения возвращаемых записей каждой из таблиц.

Исследования, произведенные во второй главе, позволяют сформулировать следующие основные выводы:

1. Время обработки запросов в значительной мере влияет на скорость работы всей системы.

2. Рациональное назначение рейтингов запросов позволяет снизить среднее время ожидания заявки в очереди, уменьшив, тем самым, время отклика системы.

3. Рейтинги запросов определяются только временем их обработки.

4. Предложен подход к оценке среднего времени обработки запросов в зависимости от информативности (точности) их формул.

В третьей главе предложена структура автоматизированной системы интеграции и управления данными промышленного предприятия, позволяющей интегрировать разнородные данные из высоконагруженных информационных систем предприятия и обеспечивающей контроль целостности, достоверности и контроля версий.

Разработанная структура является многозвенной (рис. 1). Подобный подход увеличивает масштабируемость системы, позволяя переносить различные подсистемы на отдельные физические сервера. Для хранения информации используется реляционная СУБД. С одной стороны, данный тип СУБД предусматривает увеличение сложности системы за счет необходимости добавления ORM (Object-relational mapping, объектно-реляционное отображение) подсистем, в роли которых выступает система исполнения запросов к СУБД. С другой стороны, производительность и надежность объектных СУБД, позволяющих упростить архитектуру системы, до сих пор подробно не исследована в научных трудах, а, следовательно, можно столкнуться с неизвестными проблемами при проектировании сложных и высоконагруженных

Подсистема извлечения и преобразования данных предназначена для изменения формата данных, поступающих из различных интегрируемых подсистем, в объектную форму, используемую внутри системы интеграции и управления. Данная подсистема является важной частью СИУД, так как обеспечивает интегрируемые системы универсальным набором интерфейсов обмена информацией. Подсистема обеспечивает следующие интерфейсы обмена:

- Обмен при помощи загрузки / выгрузки файлов.

- Обмен данными через сервис с локальными системами.

- Обмен данными через сервис с удаленными системами.

XML веб-сервис предназначен для взаимодействия с удаленными информационными системами и приложениями через интернет. Использование отдельного внешнего XML веб-сервиса обуславливается следующими причинами:

- Наличием на отдельном сервере сетевых экранов, дополнительных протоколов аутентификации и шифрования, требующих дополнительных аппаратных ресурсов.

- Увеличением отказоустойчивости: если злоумышленникам удастся вывести из строя сервер, это никак не скажется на функциональности других подсистем и модулей системы интеграции и управления информацией.

- Так как взаимодействие отдельного XML веб-сервера с системой можно ограничить лишь несколькими портами, то существует возможность создать демилитаризованную зону для этого сервера.

Внешний XML веб-сервис предоставляет в общем случае следующие функции:

- Аутентификацию внешних пользователей.

- Шифрование запросов и ответов на запросы.

- Описание опубликованных типизированных интерфейсов взаимодействия.

- Описание нетипизированного интерфейса взаимодействия.

- Обеспечивает взаимодействие с единой системой по описанным интерфейсам.

Подсистема обслуживания объектных запросов - центральная часть единой интеграционной информационной системы, предназначенная для получения запросов в объектной форме, их накопления, выполнения и передачи ответов в объектной форме. В общем случае, подсистема обслуживания является распределенной и состоит из узлов диспетчирования заявок и узлов исполнения. Узел диспетчирования - это программа, расположенная на отдельном или общем сервере, основными функциями которой являются прием заявок от других подсистем, организация очереди заявок, распределение и передача заявок из очереди узлам исполнения.

Узел исполнения - это программа, расположенная на отдельном или же общем сервере, занимающаяся исполнением объектных запросов, полученных от узла диспетчирования. Каждый узел исполнения зарегистрирован на одном из узлов-диспетчеров, так что узел-диспетчер может направлять запросы на обслуживание на разные узлы исполнения (рис. 2).

В разработанной архитектуре подсистема обслуживания объектных запросов реализует следующие функции:

- Получение заявок в объектной форме на получение, изменение и удаление объектов.

- Реализация очереди заявок с приоритетом.

- Исполнение заявок.

- Взаимодействие с объектным кэшем для минимизации количества взаимодействий с СУБД.

- Взаимодействие с подсистемой исполнения запросов к БД.

- Взаимодействие с подсистемой исполнения бизнес-процессов для передачи информации по объектам, участвующим в этих процессах.

Портал

Диспетчер 1

Диспетчер К

Клиютиов ПО

¡ддлроь»

...... ....... .1..... ..

Узел 1 ) Узел 2 ; Узел В ) ( Узел 4

\ ,/ \ / ./ \ у

' Г___ _т

I-,-Запросы-1

ПрОСЫ^

Узел N

Диспетчер 2

Система извлечения, преобразования данных

Рис. 2. Структура подсистемы обслуживания объектных запросов

Подсистема исполнения запросов к БД предназначена для получения запросов в объектной форме, перевода их в язык ТЭОЬ. исполнения и возврата результирующих данных в объектной форме. Подсистема выполнена в виде отдельной веб-службы и может располагаться физически как на отдельном сервере, так и на общем сервере с подсистемой обработки объектных запросов.

В общем случае подсистема исполнения запросов к БД реализует следующие функции:

- Получение заявок в объектной форме на получение, изменение и удаление объектов.

- Преобразование объектной формы в форму ТЭрЬ с учетом синтаксиса конкретного производителя базы данных.

- Помещение запроса в форме Т8(2Ь в очередь.

- Выполнение запроса к БД.

- Получение ответа на запрос и преобразование его в объектную форму.

Подсистема управления бизнес-процессами предназначена для выполнения функций и процедур над бизнес-объектами в соответствии с существующими описаниями. Подсистема получает бизнес-объекты от подсистемы исполнения объектных запросов и производит над ними необходимые операции. Измененные объекты автоматически сохраняются в базе данных, для чего имеются интерфейсы взаимодействия с подсистемой исполнения запросов к БД.

В разработанной модели подсистема управления бизнес-процессами реализует следующие функции:

- Получение заявок на вызов бизнес-процесса.

- Взаимодействие с системой исполнения для получения необходимых для работы бизнес-объектов.

- Обеспечение контекста исполнения бизнес-процесса.

- Взаимодействие с подсистемой исполнения запросов к БД для сериализации и десериализации медленных бизнес-процессов.

- Взаимодействие с подсистемой исполнения запросов к БД для сохранения изменений объектов.

- Передача результата выполнения в подсистему исполнения объектных запросов.

Подсистема распределенного кэша предназначена для временного хранения бизнес-объектов с целью уменьшения числа взаимодействий с базой данных и увеличения скорости работы всей системы.

Среди основных функций подсистемы распределенного кэша:

- Предоставление механизмов взаимодействия с подсистемой исполнения объектных запросов.

- Временное хранение часто используемых бизнес-объектов.

- Обеспечение синхронизации и блокировок объектов при редактировании бизнес-объектов или выполнении бизнес-процессов.

Для синхронизации объектов, находящихся в распределенном кэше, разработан способ синхронизации распределенного кэша с превентивной блокировкой. При разработке данного способа были поставлены следующие цели:

- Свести к минимуму вероятность возникновения конкурирующих запросов.

- Разработать четкий алгоритм разрешения взаимных блокировок в случае возникновения конкурирующих блокировок.

- Разработать полностью потокобезопасный кэш.

В случае синхронизации распределенного кэша с превентивной блокировкой каждый объект может состоять в трех статусах: нормальном, активном и блокированном. Объект, находящийся в нормальном статусе, может быть просто сохранен в кэше или же использоваться в операциях, требующих права только для чтения. Объект находится в активном статусе, если предполагается, что в ближайшее время объект может быть изменен. Объект переводится в этот статус, когда пользователь открывает конкретный объект на просмотр, и у него есть права на изменение. Объект находится в статусе «блокирован», если пользователь находится в режиме редактирования или изменил некоторые данные.

При переводе объекта из статуса «нормальный» в статус «активный» всем группам узлов с распределенным кэшем посылается уведомление о переводе объекта в другой статус. При этом в таблице состояния объектов отмечается, какой узел перевел объект в новый статус. После этого, чтобы другим узлам заблокировать этот объект, необходимо дополнительно «согласовать» блокировку с этой группой узлов.

При переводе объекта из статуса «активный» в статус «блокированный» всем группам узлов с распределенным кэшем посылается соответствующее уведомление. При этом любые попытки других узлов обработки заблокировать этот объект будут отвергнуты.

Подобный подход с превентивной блокировкой позволяет выявить конкурирующие запросы уже на ранней стадии. Действительно, в ситуации, когда за блокировку отвечает конкретный сервер группы узлов, невозможен случай конкурентной борьбы.

Модель базы данных СИУД должна разрабатываться с учетом специфики всей системы. На основе этих требований в работе формулируются требования к модели БД:

- Модель должна позволять хранить неограниченное количество типов объектов.

- Модель должна позволять изменять типы объектов «на лету».

- Модель должна обеспечивать стабильную скорость извлечения данных вне зависимости от степени наследования объектов.

- Модель должна обеспечивать возможность сквозного поиска по свойствам.

- Модель должна обеспечивать возможность эффективного хранения версий.

В качестве решения, реализующего все перечисленные требования, была

предложена объектная модель БД, разработанная в диссертационной работе. В основе объектной модели лежит идея, что любой информационный объект описывается как набор свойств, связей и методов, а типы объектов отличаются друг от друга лишь набором этих свойств, связей или методов. Соответственно, если в основу заложить именно свойства и связи, то данный подход позволит описать сколь угодно сложный информационный объект. Для модели, изображенной на рис. 3, структуру хранения можно изобразить следующим образом (рис. 4 и 5):

Рис.3. Пример бизнес-модели

Классы Менеджер

Операция

Заказ

Связи

Менеджер Заказ 1:М

Заказ Операция 1:М

ФИО

Табельный номер

Номер

Дата формирования

Стоимость

Порядковый номер

Трудозатраты

Наименование

Дата формирования

Стоимость

Порядковый номер Трудозатраты

Рис. 4. Пример хранения схемы в объектной модели базы данных

Хранилище string

1с1 объекта | И класса поля |Значение

Хранилище short

Id объекта j (d класса íd поля |Значение

Хранилище decimal J

Id объекта ¡ Id класса № поля }Значение

Хранилище Оэ1е"Пте |

И объекта | И класса М поля ¡Значение

Хранилище связей 1

Id класса 1 Id класса 2 jld связи

Рис. 5. Уровень данных в объектной модели

Модель состоит из двух уровней: уровня схемы и уровня данных. Уровень схемы хранит всю метаинформацию по классам бизнес-объектов, необходимую для создания и функционирования экземпляров классов. Уровень данных состоит из перечня таблиц, в которых хранятся значения свойств бизнес-объектов, связи между этими объектами и прочая информация, связанная непосредственно с конкретными экземплярами классов.

База данных, спроектированная с использованием предложенного подхода, позволяет:

- Хранить неограниченное количество классов бизнес-объектов, так как схема БД не зависит от количества и состава классов.

- Изменять классы «на лету», поскольку описание классов не связано с физической структурой БД.

- Извлекать всю необходимую информацию с одинаковой скоростью вне зависимости от степени наследования, так как каждое значение свойства имеет ссылку на класс объекта и свойство.

- Поскольку свойство - это отдельная сущность в БД, то сквозной поиск по свойству не представляет сложности.

- Благодаря принципиально иному способу хранения данных, БД с предложенной моделью хранит данные намного эффективнее.

Кроме того, разработанная модель БД реализует все функции управления данными: полноту, целостность, достоверность и контроль версий.

Для обеспечения полноты и целостности информации, хранимой в БД, используется механизм доменов. Домен - сущность СИУД, определяющая область действия элементов схемы и данных. Каждому интегрируемому приложению ставится в соответствие свой домен, который может содержать собственную, отличную от других доменов, схему данных.

Домен 1 Класс

Свойство А

Свойство В

Домен 2 I Класс

Свойство В Свойство С Свойство Э

Домен 3

Класс

Свойство О

Свойство Е

Домен интеграции

Класс

Свойство А -*{ Свойство В

Свойство С -Н Свойство О

Свойство Е

Рис. 6. Механизм доменов

Для обеспечения достоверности информации, хранимой в БД, можно воспользоваться механизмом доменов и процедур согласования. Процедура согласования - автоматическая или ручная процедура, позволяющая выбрать правильное значение свойства, если свойство представлено в нескольких интегрируемых приложениях.

Например, некоторый класс объекта является составным и получает информацию о своих свойствах из трех приложений. В базе данных будут созданы четыре домена, при этом интеграционный домен будет содержать только уникальные свойства (рис. 6). Значения свойств, повторяющихся в разных доменах, могут определяться автоматически по предопределенным правилам или же вручную через интерфейс пользователя СИУД. До момента согласования данных значения таких свойств в домене интеграции пустые, а данные носят статус недостоверных. После процедуры согласования все значения свойств в домене интеграции заполняются, а данные получают статус достоверных.

Для реализации функционала контроля версий в системе присутствуют четыре типа версий:

- Предыдущие версии - версии информационных объектов на определенный момент времени в прошлом. Предыдущие версии не подлежат изменению.

- Текущая версия - версия информационного объекта на текущий момент времени. Только текущая версия может изменяться в результате получения новых данных из интегрируемых систем, участия в бизнес-процессах или других операций над объектом.

- Утвержденная версия - версия информационного объекта, подписанная ответственным лицом. Эта версия используется для получения официальной информации по объекту системы. Статус утвержденной версии объект получает после прохождения процедуры утверждения. Утвержденная версия не подлежит изменению.

- Утверждаемая версия - версия информационного объекта, участвующая в процедуре утверждения. После успешного прохождения процедуры, утвержденная версия становится предыдущей, а утверждаемая - текущей. Утверждаемая версия не подлежит изменению.

С учетом рассмотренных требований модель базы данных СИУД уровня схемы, построенная по объектному принципу, выглядит следующим образом:

Нашло

процедуры / \

I Текущая согласоиния^ Утверждаемая версия ! версия

Окончание

/ процедуры / \

I Предыдущая' (согласования Утвержденная Версия / другой версии! версия /

Рис. 7. Диаграмма состояний версий Основываясь на подходе к определению рейтинга запроса, описанном в главе 2, был разработан алгоритм определения рейтингов запросов, нашедший свое применение в подсистеме исполнения объектных запросов. Основной алгоритм состоит из двух частей. В первой части алгоритма вычисляются значения N и набор {л,}, являющихся, соответственно, общим количеством объектов и количеством записей, отвечающих значению 1 свойства объекта.

Далее вычисляется величина (13) при условии, что значением Т] - время, необходимое для обращения к уникальной записи, - можно пренебречь из-за модели базы данных, предполагающей примерно одинаковые значения для любых объектов. Эта величина отражает среднее количество записей, которое может быть возвращено в качестве ответа на запрос. Чем меньше объем возвращаемых записей (объектов), тем меньше потребуется времени на извлечение, пересылку и преобразование, а, следовательно, и на исполнение запроса.

Данные первого момента для всех свойств каждого типа объектов записываются в специальную таблицу, из которой в дальнейшем загружаются в подсистему исполнения объектных запросов. Общий вид первой части алгоритма представлен на рис. 8.

Окончание процедуры согласования

Начало

Для каждого класса

Для каждого \ свойства /

Для каждого уникального значения

Вычисление N1 И пДО

! Сохранение в БД {

( Конец

Рис. 8. Алгоритм вычисления первого момента Вторая часть алгоритма состоит из уточнения данных по первому моменту полученными реальными значениями времени исполнения и ранжирования этой величины с учетом доступного количества рейтингов.

При инициализации системы значения первых моментов, предварительно рассчитанные для всех типов объектов, загружаются в память системы исполнения объектных запросов. В соответствии с минимальным и максимальным значениями моментов, а также количеством возможных рейтингов, вычисляются интервалы моментов и соответствующие им рейтинги.

При поступлении простого запроса на поиск приоритет назначается по минимальному значению момента для всех полей, по которым осуществляется поиск. При поступлении сложного запроса, приоритет запросу назначается как произведение минимальных значений моментов полей всех классов объектов в запросе (рис 9).

Загрузка М[Т] Из БД

Вычисление интервалов приоритетов

ЩГ\ =ттШк[Г\-шрМы[Т].. ,шшМШ[Т\

ЩТ\=т.Шк[Т\\

Выполнение запроса

Уточнение моментов

Конец

Рис. 9. Принципиальный алгоритм вычисления рейтинга заявки.

Четвертая глава включает исследования эффективности предложенных моделей и обоснование целесообразности их использования в СИУД. Для проведения исследований в главе формулируются критерии эффективности, методика и алгоритмы исследования.

На основе данных, полученных в исследовании, делаются выводы об эффективности предложенной объектной модели БД на больших объемах данных при хранении версионной информации или же при большом количестве одновременных запросов. Согласно результатам моделирования, представленным на рис. 10, предложенная объектная модель становится эффективной на больших объемах данных, что соответствовало примерно 3 млн. объектов на тестовой системе. При этом, увеличение количества одновременно выполняющихся запросов вызывает меньшее падение производительности на объектной модели данных: при 20 одновременно выполняющихся запросах время обработки заявки увеличивается примерно в 3 раза для разработанной объектной модели, примерно в 5,5 раз при проецировании классов к таблицам, и более чем в 10 раз при проецировании классов к объектам с использованием наследования (рис. 11).

Эффективность хранения версионной информации в объектной модели выше при любых количествах хранимых версий, что следует из данных экспериментального анализа, результаты которого представлены в виде графика (рис. 12).

_ 3.500

класс к таблице —к— Класс к таблице + наследование —»--Объектная модель

Рис. 10. Зависимость времени обработки заявки от количества хранимых объектов

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 -«—Класс к таблице ™е»»Класс к таблице + наследование —Объектная модель

Рис. 11. Зависимость времени обработки заявки от количества одновременных запросов

— 450.00 «

-•—Класс «таблице —«—Класс к таблице + наследование —♦—Обьектная модель Рис. 12. Зависимость размера файла БД от количества версий объектов

В заключении формулируются основные выводы, полученные в работе. Основные выводы и результаты работы.

В процессе выполнения диссертационной работы была решена научная задача по автоматизации процессов интеграции и управления данными высоконагруженных информационных систем промышленного предприятия с оптимизацией рабочих характеристик по рейтингу входящих запросов. Основные результаты и выводы диссертационной работы:

1. Проведен анализ существующих архитектур, моделей и алгоритмов систем интеграции и управления данными, а также моделей, применяемых для исследования их свойств. Исследование позволяет сделать вывод об их недостаточной универсальности и эффективности.

2. Разработана модель исследования высоконагруженной автоматизированной системы интеграции и управления данными.

3. Проведено теоретическое исследование разработанной модели, определены параметры системы, непосредственно влияющие на время обработки запросов. Предложено и обоснованно использование метода рейтингов заявок для уменьшения среднего времени ожидания заявки в очереди, что позволяет минимизировать время отклика системы.

4. Разработана методика и алгоритм определения рейтинга запросов в зависимости от информативности (точности) их формулировки,

5. Разработана автоматизированная система интеграции и управления данными информационных систем. Предложена структура системы, определены основные функции подсистем.

6. Разработана методика хранения бизнес-объектов в БД, архитектура хранилища данных, алгоритмы сериализации и десериализации.

7. Разработан набор программных интерфейсов, обеспечивающих возможность использования плагинов для добавления в систему новых возможностей.

8. Доказана эффективность предложенных архитектур и алгоритмов хранилища данных и подсистемы кэширования.

9. Разработанное программное обеспечение полностью или отдельные его подсистемы внедрены и применяются в МГУ Печати им. Ивана Федорова, на предприятиях полиграфической отрасли, в ОАО «Атомэнергопроект», ОАО «ВНИИАЭС» для автоматизации процессов интеграции и управления данными.

Публикации по теме диссертационной работы.

Публикации в ведущих рецензируемых научных изданиях, рекомендуемых ВАК:

1. Морозов Ю.В. Оценка эффективности и оптимизация режима работы информационных систем // Известия высших учебных заведений. Проблемы полиграфии и издательского дела 2'2010, М.: 2010. С. 96 - 104.

Другие публикации:

2. Морозов В.Б., Морозов Ю.В. Экспоненциальные оценки безотказности сложных восстанавливаемых изделий со стареющими элементами // Сборник тезисов международной конференции «Математические методы в теории надежности». Москва 2009. С. 147 - 156.

3. Морозов Ю.В. Модуль автоматизации задач администрирования процессов компьютерного тестирования материалов // Вестник МГУП №5. М.: 2008. С. 87 -88.

4. Морозов Ю.В. Использование стандарта XML для передачи и хранения информации в системах тестирования // Вестник МГУП №6. М. 2008. С. 26 - 31. 5. Морозов Ю.В. Использование механизма рефлексии для создания расширяемых систем // Сборник тезисов международного студенческого фестиваля информационных технологий «МедиаФест 2009». М. 2009. С. 72 - 73

Подписано в печать 15.06.2011. Формат 60x84/16. Бумага офсетная. Печать на ризографе. Усл. печ. л. 1.39. Тираж 100 экз. Заказ № 102/89. Отпечатано в РИЦ МГУП имени Ивана Федорова. 127550, Москва, ул. Прянишникова, 2а

Оглавление автор диссертации — кандидата технических наук Морозов, Юрий Владимирович

Введение.

Глава 1. Анализ существующих методов и наработок в области систем интеграции и управления данными.

1.1. Понятие и назначение информационной системы.

1.2. Понятие и назначение систем интеграции и управления информацией.

1.3. Особенности построения систем интеграции и управления данными на предприятиях полиграфической отрасли.

1.4. Обзор существующих промышленных методов интеграции и управления данными.

1.5. Существующие работы по информационным системам интеграции и управления информацией.

1.6. Задачи, решаемые в диссертационной работе.

1.7. Выводы по главе.

Глава 2. Оценка эффективности и оптимизация работы информационных систем.

2.1. Общая постановка задачи.

2.2. Теоретическое исследование свойств модели.

2.3. Оптимизация параметров модели информационной системы.

2.4. Оптимизация параметров модели информационной системы с учетом нескольких режимов ее применения.

2.5. Подход к определению длительностей обработки запросов в информационной системе.

2.6. Выводы по главе.

Глава 3. Модели и алгоритмы автоматизации системы интеграции и управления данными.

3.1. Модель системы интеграции и управления данными.

3.1.1. Подсистема извлечения и преобразования данных.

3.1.2. Функции и алгоритмы работы подсистемы извлечения и преобразования данных.

3.1.3. XML веб-сервер.

3.1.4. Подсистема обслуживания объектных запросов.

3.1.5. Подсистема исполнения запросов к БД.

3.1.6. Подсистема управления бизнес-процессами.

3.1.7. Подсистема распределенного кэша.

3.2. Способы синхронизации распределенного кэша.

3.2.1. Два подхода к построению распределенного кэша.

3.2.2. Способ синхронизации распределенного кэша с превентивной блокировкой.

3.3. Распределенная система обработки заявок.

3.3.1. Единый подход к построению распределенной системы обработки заявок

3.3.2. Узел распределенной системы обработки заявок.

3.3.3. Особенности реализации распределенной системы обработки заявок

3.3.4. Реализация группы узлов распределенной системы обработки заявок

3.4. Архитектура хранилища данных интеграционной информационной системы.

3.4.1. Модели баз данных СИУД.

3.4.2. Управление данными и модель БД СИУД.

3.4.3. Модель базы данных комплексной интеграционной информационной системы.

3.4.3.1. Уровень схемы.

3.4.3.2. Уровень данных.

3.4.4. Преимущества и недостатки предложенной модели.

3.5. Модель данных уровня бизнес-логики.

3.5.1 Уровень бизнес-логики.

3.5.2 Сравнение механизмов рефлексии и метасловаря.

3.5.3 Модель данных уровня бизнес-логики основанная на механизме метасловаря.

3.5.3.1. Подуровень данных.

3.5.3.2. Подуровень метаописания.

3.6. Модель и алгоритмы подсистемы исполнения запросов к БД.

3.6.1. Модель системы исполнения запросов к БД.

3.6.2. Алгоритм преобразования запроса из объектной формы в форму Т8(}Ь

3.7. Алгоритм определения приоритета запроса.

3.8. Выводы по главе.

Глава 4. Исследования эффективности Моделей и построение модели системы интеграции и управления данными издательства.

4.1. Исследование эффективности объектной модели базы данных.

4.1.1. Критерии оценки эффективности модели базы данных.

4.1.2. Методика исследования эффективности моделей баз данных.

4.1.3. Бизнес-модель и вид запросов для оценки эффективности моделей баз данных.

4.1.4. Алгоритмы исследования эффективности модели данных.

4.1.5. Результаты исследования.

4.1.6. Выводы.

4.2. Исследование влияния кэша бизнес-объектов на скорость работы системы.

4.2.1 Методика исследования.

4.2.2. Алгоритмы исследования влияния подсистемы кэширования

4.2.3. Результаты исследования.

4.2.4. Выводы.

4.3. Модель системы интеграции и управления данными полиграфическо-издательского комплекса.

4.3.1. Уровни системы.

4.3.2. Подсистема банка информации.

4.3.3. Подсистема интеграции издательской информации.

4.3.4. Подсистема интеграции производственной информации.

4.3.5. Выводы.

4.4. Выводы по главе.

ОБЩИЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Морозов, Юрий Владимирович

Современные требования к управлению производством предполагают необходимость принятия обоснованных управленческих решений в условиях большого объема поступающей информации и ограниченного времени на ее обработку и анализ. Сказанное в полной мере относится к любым современным предприятиям, таким как издательско-полиграфические комбинаты, производственные концерны, холдинги или проектные организации.

Поэтому для решения проблем систематизации и поиска информации в различных отраслях промышленности в настоящее время широко применяются вычислительные средства и разнообразное программное обеспечение.

Однако, исторически, в процессе внедрения информационных технологий в производство и построение бизнес-процессов, программное обеспечение разрабатывалось для решения отдельных задач, будь то математические или экономические расчеты, компьютерное моделирование и проектирование или же помощь в принятии решений. Соответственно, 1Т-инфраструктура любой современной организации включает в себя множество программного обеспечения, разработанного в разное время различными производителями, функционирующего на разных платформах и реализующего различные подходы к его построению.

Данные, используемые каждой программой предприятия, в общем случае могут сильно различаться: они могут быть как полностью, так и частично структурированными, получаться из различных источников в различных форматах в разное время и в различных объемах. Это могут быть как данные, вводимые непосредственно вручную в программу, данные, получаемые автоматически от устройств (датчиков), или же данные из других информационных систем, загружаемые вручную, полуавтоматически или автоматически. Также может варьироваться и скорость получения и обработки данных. Для систем, поддерживающих интерфейсы обмена, это время может измеряться миллисекундами, в то время как при отсутствии таковых, запаздывание может достигать и нескольких суток.

Отдельного упоминания стоит проблема достоверности данных. Очевидно, что некоторая часть данных, используемая предприятием, не находится в стационарном состоянии в одном программном комплексе, но проходит свой жизненный цикл, на протяжении которого постоянно меняется и переходит из одного программного комплекса в другой. Например, при расчете стоимости издания, специалист издательства предполагает некоторую стоимость на основе специализированных расчетов с учетом средней стоимости аналогичных заказов по отрасли. Эта смета предварительно утверждается ответственными лицами. Однако после того, как издание будет проходить каждый шаг цикла производства, смета будет изменяться, причем данные о затратах будут поступать из различных специализированных систем, будь то издательские системы или системы управления производством. Таким образом, данные переходят из одной системы в другую, а отсутствие прозрачного механизма передачи и наличие человеческого фактора могут привести к искажению данных, которое будет сложно обнаружить впоследствии.

Все вышеперечисленные факторы подчеркивают необходимость создания и использования специальных информационных систем управления данными. В настоящее время на рынке существует несколько классов продуктов, так или иначе связанных с управлением данными, например такие, как системы документооборота, ERP-системы, DWH-системы или OLAP-системы. Системы документооборота или ERP-системы являются специализированными и для реализации механизмов интеграции и управления данными требуют серьезной доработки (а порой и переработки). Системы типа DWH или OLAP являются интеграционными, но не являются универсальными. OLAP-системы предназначены для быстрого построения отчетов путем преобразования формы хранения данных, а DWH-системы в большинстве случаев не предлагают возможности управления информацией и работают по принципу «собрать всю информацию в одну базу».

Вопросы информационных систем управления данными были затронуты в работах многих авторов, но все эти работы обладали некоторыми недостатками: часть работ обладала проработанной теоретической частью, но при этом отсутствовало или было недостаточным описание практической реализации описанных принципов; другая часть работ описывала интеграцию и управление данными для систем лишь определенного класса (телекоммуникационных систем, баз данных) и не имела возможность быть применима в других отраслях; третья часть работ опускала целые разделы, требующие особого внимания (интеграция бизнес-процессов).

Существующие промышленные системы интеграции данных разрабатываются, как правило, под заказ, хотя и строятся на базе готовых решений. Эти системы решают задачи в соответствии с конкретными требованиями, установленными техническими заданиями и почти всегда являются уникальными продуктами, применение которых на других предприятиях невозможно или неэффективно.

В связи с этим, тема Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов является актуальной, так как до сих пор данная тема не была рассмотрена в комплексе.

Объектом исследования данной работы являются информационные системы, разработанные специально для интеграции данных других информационных систем, т.е. работающие с высоконагруженными системами, и создания тем самым единого информационного пространства.

Проблема, решению которой посвящена эта работа, состоит в поиске характеристик интеграционных систем, наиболее сильно влияющих на производительность, их оптимизацию, созданию моделей, методов и алгоритмов оптимизации, автоматизация процессов интеграции и управления данными, позволяющих предоставлять универсальный и полный механизм интеграции и управления разнородными данными различных информационных систем.

Целью настоящей диссертационной работы является разработка методики и алгоритмов автоматизации процессов интеграции и управления данными, позволяющих принимать управленческие решения, основанные на неструктурированной информации, поступающей из высоконагруженных информационных систем, с оптимизацией рабочих характеристик по рейтингу поступающих запросов.

Задачи исследования. В соответствии с поставленной целью в работе решены следующие задачи:

- разработка основных функций и структуры автоматизированной системы интеграции и управления данными;

- разработка архитектуры хранилища данных;

- разработка метода рейтингов заявок для уменьшения среднего времени ожидания заявки в очереди;

- разработка методики и алгоритмов определения рейтинга запроса по точности его формулировки.

Областью исследования является автоматизация процессов интеграции и управления данными в высоконагруженных информационных системах, разработка методологии построения комплексных систем интеграции и управления данными, разработка специализированного программного обеспечения для этих систем и его оптимизация.

Методы исследования. Для достижения поставленных целей и решения задач использованы методы математической статистики, теории массового обслуживания; разработка программ для реализации алгоритмов проведена на языках программирования С#, ТгашасЬ-ЗС^Ь.

Достоверность подтверждается использованием математического аппарата теории вероятностей и теории массового обслуживания, выводом основных соотношений для определяющих характеристик модели, результатами полномасштабного тестирования, проведенного с использованием симуляционного моделирования (метод Монте-Карло), успешной апробацией и внедрением разработанного подхода на крупных предприятиях и в организациях различных отраслей промышленности.

Научная новизна работы полученных в данной работе результатов состоит в следующем:

- Разработай метод исследования времени ответа СИУД на основе применения модели теории массового обслуживания для систем с приоритетами.

Практическая ценность. На основании предложенных теоретических разработок была разработана универсальная автоматизированная система интеграции и управления данными промышленных предприятий, позволяющая автоматизировать процессы интеграции данных на предприятиях различных отраслей, в том числе и полиграфической.

На защиту выносятся следующие положения:

Авторский вклад. Все выносимые на защиту результаты и положения диссертационной работы получены и разработаны лично автором или при его непосредственном участии.

Внедрение результатов. Применение программного обеспечения, основанного на разработанных моделях и алгоритмах, позволило автоматизировать процессы интеграции и управления проектными данными ОАО «Атомэнергопроект», операционными данными оборудования АЭС ОАО «ВНИИАЭС». Некоторые модули системы применялись в различных издательско-полиграфических комплексах и МГУ Печати им. Ивана Федорова.

Апробация результатов работы. Модели и алгоритмы, полученные автором данной работы, докладывались на конференции МедиаФест 2009, использовались в Институте открытого образования МГУ Печати, предприятиях полиграфической отрасли; программное обеспечение, разработанное на их базе, используется в ОАО «Атомэнергопроект», ОАО «ВНИИАЭС»

Публикации. Основные работы изложены в 5 научных публикациях, в том числе 1 статья в ведущих рецензируемых научных изданиях, рекомендуемых ВАК.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключений по каждой главе, основных результатов, библиографического списка и приложений.

Заключение диссертация на тему "Автоматизация процессов интеграции данных в высоконагруженных информационных системах с оптимизацией характеристик по рейтингу запросов"

ОБЩИЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В процессе выполнения диссертационной работы была решена научная задача по автоматизации процессов интеграции и управления данными высоконагруженных систем промышленных предприятия с оптимизацией характеристик по рейтингу запросов посредством разработки архитектуры, моделей и алгоритмов универсальной информационной системы интеграции и управления данными.

Общие результаты диссертационной работы:

8. Доказана эффективность предложенных архитектур и алгоритмов хранилища данных и подсистемы кэширования.

Библиография Морозов, Юрий Владимирович, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Автоматизация распараллеливания программ / Марлей В.Е., Воробьев

2. B.И., Крылов P.A., Петров М.Ю., Быков Я.А. // Тр. СПИИРАН СПб.: Институт информатики и автоматизации РАН. — 2005. — Т. 2, Вып. 2. —1. C. 101-110.

3. Алексеев А.Ю. Динамические структуры данных. Практикум по программированию / А.Ю. Алексеев, С. А. Ивановский, Д.В. Куликов. -СПб.: ТЭТУ, 2000. 76 С.

4. Алексеев В.Е., Таланов В.А. Графы и алгоритмы. Структуры данных. Модели вычислений. М.: «Бином. Лаборатория знаний», 2006. - 320 с.

5. Антипин К.В. Оперативная интеграция данных на основе XML: системная архитектура BizQuery / Антипин К.В., Фомичев A.B., Гринев М.Н., Кузнецов С.Д., Новак Л.Г., Плешачков П.О., Рекуц М.П., Ширяев Д.Р. -М.: Института системного программирования РАН , 2004.

6. Ахунов А.Н. Интеграция информации в реляционных базах данных па основе виртуального репозитория. Диссертация кандидата технических наук 05.13.11. Уфа: 2004. - 125 с. ил.

7. Бакалов, В. П. Цифровое моделирование случайных процессов М. : Сайнс-пресс, 2002. - 88 с.

8. Баргесян A.A. Методы и модели анализа данных: OLAP и Data Mining / A.A. Баргесян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб.: БХВ-Петербург, 2004. - 336 е.: ил.

9. Берштейн Л.С. и др. Модели и методы принятия решений в интегрированных интеллектуальных системах / Л.С. Берштейн. Ростов на Дону: Изд-во Ростовского ун- та, 1999.

10. Бергер Л.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б., Горбач И.В., Меломед Э.Л., Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. СПб.: БХВ-Петербург, 2007. - 928 е.: ил.

11. Бесекерский В.А.Теория систем автоматического управления. СПб.: Профессия, 2003. - 751 е.: ил.

12. Биберштейн П., Боуз С. Компас в мире сервис-ориентированной архитектуры (SOA). Пер. с англ. М.: КУДИЦ-Пресс, 2007. - 256 стр.

13. Браст Э. Дж. Разработка приложений на основе Microsoft SQL Server 2005. Мастер-класс / Эндрю Дж. Браст, С. Форте / Пер. с англ. — М.: " Издательство «Русская редакция», 2007. 880 е.: ил.

14. Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н. Вагин, ЕЛО. Головина, A.A. Загорянская, И.И. Фомина / Под ред. В.Н. Вагина, Д.А. Поспелова. М.: ФИЗМАТЛИТ, 2004. - 704 с.

15. Веб-сервисы. Для профессионалов: Пер. с англ. / Ныокомер Э. СПб.: Питер, 2003. -250 с.

16. Вероятностные методы в инженерных задачах: справочник / А. Н. Лебедев, М. С. Куприянов, Д. Д. Недосекин, Е. А. Чернявский. -СПб. : Энергоатомиздат, 2000. 333 с.

17. Волгин П.Н., Куприянов A.A. Основы информационного взаимодействия автоматизированных систем при решении задач управления // Автоматизация процессов управления. СПб.: 2008. - №1. - С. 45-51.

18. Волкова В.Н., Денисов A.A. Теория систем: учебное пособие М.: "Высшая школа", 2006. — 511с.

19. Венц Кристиан. Программирование в ASP.NET AJAX. Пер. с англ. -СПб: Символ-Плюс, 2008. - 512 с.

20. Голосов А., Полотнюк И. Автоматизация образовательных учреждений на базе интеграционной платформы // PCWEEK :hUp://www.pcvveek.ru/themes/detail.php?ID=72592 (03.04.2011)

21. Вирт Н. Алгоритмы и структуры данных М.: ДМК Пресс, 2010. - 272 с.

22. Генкин М. Освоение JCA-транзакций. // IBM Developer Works : http://\vww.ibm.com/developerworks/ru/library/j-jca/ (03.04.2011)

23. Гиг Дж. ван. Прикладная общая теория систем. Пер. с англ. М.: "Мир", 1981. —336с., ил.

24. Грабер М. SQL. М.: Лори, 2009. - 672 с.

25. Дерин, X. Случайные процессы марковского типа с дискретными аргументами / X. Дерин, П. Келли // ТИИЭР. 1989. - Т. 77, № 10. - С. 4271.

26. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы обработки данных. Пер. с англ., М.: Мир, 1980. - 610 с.

27. Дюбуа Д., Прад А. Теория возможностей. Приложения к представлению знаний в информатике: пер. с фр. М.: Радио и связь, 1990. - 288 с.

28. Ерофеев Д.А. Методы и средства информационной поддержки управления бизнес-процессами производственного предприятия. Диссертация кандидата технических наук 05.13.06. -Уфа.: 2007. 194 с. ил.

29. Заде Л.А. Основы нового подхода к анализу сложных систем и процессов принятия решений // Математика сегодня (Сборник статей. Перевод с англ.). М., «Знание», 1974. С. 3 - 49.

30. Камакин В.А. Методология построения автоматизированных корпоративных информационных систем поддержки авиационного производства на основе управления затратами. Диссертация доктора технических наук 05.13.06. Рыбинск: 2007. 340 с. ил.

31. Кнут Д. Искусство программирования. Том 1. Основные алгоритмы.: Пер. с англ. М.: ООО «И.Д. Вильяме», 2010. - 720 с.

32. Кнут Д. Искусство программирования. Том 3. Сортировка и поиск.: Пер. с англ. М.: ООО «И.Д. Вильяме», 2009. - 824 с.

33. Козадой Ю.В. Исследование типовых процессов интеграции в медицинских информационных системах. // Программные продукты и системы №2. М.: 2009. С. 52-54.

34. Конноли Т. Бегг К. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. Пер. с англ. М.: ООО «И.Д. Вильяме», 2003. - 1439 с.

35. Коршунов, Ю. М. Математические основы кибернетики / Ю. М. Коршунов. М.: Энергоатомиздат, 1987.-494 с.

36. Крачтен Ф. Введение в Rational Unified Process.: Пер. с англ. М.: Вильяме, 2002.- 500 с.

37. Кудинов А. Хранилище данных как основа корпоративной интеграции

38. PCWEEK : http://www.pcweek.ru/themes/detail.php?ID=72592 (03.04.2011)

39. Кумунжиев, К. В. Теория систем и системный анализ : учебное пособие -Ульяновск : УлГУ, 2003. 240 с.

40. Курейчик В.М. Генетические алгоритмы. Таганрог: изд-во ТРТУ, 1998. -242 с.

41. Курейчик В.М., Неупокоева Н.В. Перспективные технологии решения оптимизационных задач // Перспективные информационные технологии и интеллектуальные системы, №2(14)/2003. Таганрог, 2003. С.80 84.

42. Литтихузен Р. Разработка и использование заказных адаптеров в архитектуре Java ЕЕ Connector Architecture // interface.ru : http://www.interface.ru/home.asp?artld=21612 (03.04.2011)

43. Лихницкий П. Интерес к продуктам Informática в России и СНГ растет, несмотря на кризис // Connect! Мир связи. №11. М.:2009. С. 37-45.

44. Ложечкин А.В. Методы и средства интеграции разнородных информационных систем на железнодорожном транспорте. Диссертация кандидата технических наук 05.13.06. Спб: 2004. - 158 с. ил.

45. Ломакин А.А. Автоматизированные системы управления технологией бизнес-процессов в секторах B2B/B2G на базе программного обеспеченияс открытым исходным кодом. Диссертация кандидата технических наук 05.13.06. -М.: 2005. 194 с. ил.

46. Луттикхузен Р. Разработка и использование заказных адаптеров в архитектуре Java ЕЕ Connector Architecture. Oracle, 2009.

47. Макки А. Введение в .NET 4.0 и Visual Studio 2010 для профессионалов. Пер. с англ. М.: ООО «И.Д. Вильяме», 2010. - 416 с.

48. Могилёв А.В., Пак Н.И., Хеннер Е.К. Информатика: Учеб. пособие для студ. пед. ву-зов / Под ред. Е.К. Хеннера. М., Academia, 2004. - 211 с.

49. Моделирование информационных систем : учебное пособие / под ред. О. И. Шелухина. — М. : Радиотехника, 2005. — 368 с.

50. Морозов В.Б., Морозов Ю.В. Экспоненциальные оценки безотказности сложных восстанавливаемых изделий со стареющими элементами // Сборник тезисов международной конференции «Математические методы в теории надежности». Москва 2009.

51. Морозов Ю.В. Модуль автоматизации задач администрирования процессов компьютерного тестирования материалов // Вестник МГУП №5. М.: 2008. С. 87- 88.

52. Морозов Ю.В. Использование стандарта XML для передачи и хранения информации в системах тестирования // Вестник МГУП №6. М. 2008. С. 26 -31.

53. Морозов Ю.В. Использование механизма рефлексии для создания расширяемых систем // Сборник тезисов международного студенческого фестиваля информационных технологий «МедиаФест 2009». М. 2009. С. 72 -73 с.

54. Морозов Ю.В. Оценка эффективности и оптимизация режима работы информационных систем // Известия высших учебных заведений. Проблемы полиграфии и издательского дела 2'2010, М.: 2010. С. 96 104.

55. Мутин Д. И. Управление гетерогенными данными в корпоративной информационной системе на основе XML-технологий. Диссертация кандидата технических наук : 05.13.01. М.: 2009. 152 с.

56. О персональных данных: федеральный закон Российской Федерации // Российская газета. Федеральный выпуск. М., 2006. -№ 4131. - С. 7.

57. Парс Р., Морони JL, Гриб Д. Основы ASP.NET AJAX. : Пер. с англ. М.: ООО «И.Д. Вильяме», 2008. - 288 с.

58. Пауэлл Томас. Ajax: настольная книга программиста / Томас Пауэлл ; пер. с англ. и ред. Ф.М. Елистратова. М.: Эксмо, 2009. - 720 с.

59. Пауэре 111. Добавляем AJAX. Спб.: БХВ-Петербург, Русская Редакция, 2008.-448 с.

60. Плющенков P.A. Исследование и разработка методов и средств интеграции информационно-программных систем управления предприятием. Диссертация кандидата технических наук 05.13.06. М.: 2006. 135 с. ил.

61. Погодаев А.К., Блюмин C.JI. Адаптация и оптимизация в системах автоматизации и управления: Монография. Липецк: ЛЭГИ, 2003. - 128 с.

62. Полотнюк И. Межведомственная интеграция. // Открытые системы. М.:2006. №2. С. 27-29.

63. Попов Д.И. Комплексная автоматизация и управление процессами аттестации персонала промышленных предприятий: диссертация на соискание ученой степени доктора технических наук. Москва, 2007. -290 с.

64. Растригин J1.A. Современные принципы управления сложными объектами. М: Сов. радио, 1980. - 232 с.

65. Саати Т. Элементы теории массового обслуживания. Пер. с англ. — М.: Советское радио, 1971. 520 с.

66. Тарханов И.А. Односторонняя интеграция информационных систем в территориально распределённых организациях. Диссертация на соискание степени кандидата технических наук. 05.13.10. М.: 2009, 134 с.

67. Теория вероятностей и математическая статистика: Учеб. пособие для вузов/В. Е. Гмурман. 9-е изд., стер. - М.: Высш. шк., 2003. -479 с: ил.

68. Тихонов, В. И. Марковские процессы / В. И. Тихонов, М. А. Миронов. -М. : Советское радио, 1977. 488 с.

69. Токмаков Г.П. Унифицированные сервисы данных и их использование при разработке интегрированных систем. // Автоматизация процессов управления. М.: 2009, № 13.

70. Трухаев Р. И. Модели принятия решений в условиях неопределенности. -М.: Наука, 1981.-258 с.

71. Туманов В.Е., Маклаков C.B. Проектирование реляционных хранилищ данных. М.: Диалог-МИФИ, 2007. - 336 с.

72. Уоткинз Д. Программирование на платформе .NET / Д. Уоткинз, М. Хаммонд, Б. Эйбрамз. М.: Вильяме., 2003. - 368 с.

73. Уильям Р. Станек. Microsoft SQL Server 2008. Справочник администратора. Спб.: БХВ-Петербург, Русская Редакция, 2009. - 720 с.

74. Федечкин С. Хранилище данных: вопросы и ответы // PC WEEK №31. -М.:2003. С. 86-90.

75. Федечкин С. Как создать единое информационное пространство, которое позволит банку развиваться // OLAP.ru : http://www.olap.ru/best/news/m010917287.asp (03.04.2011)

76. Фленов М.Е. Transact-SQL. Спб.: БХВ-Петербург, 2006. - 576 е.: ил.

77. Фленов М.Е. Библия С# СПб.: БХВ-Петербург, 2009. - 560 с.

78. Фленов М.Е. SOA сервис ориентированное программирование // flenov.info Электронный ресурс. URL: http://www.flenov.inlo/favorite.php?artid=36 (03.04.2011)

79. Хендерсон К. «Профессиональное руководство по Transact-SQL» Спб.: Питер, 2005. - 558 е.: ил.

80. Хинчин А.Я. О формулах Эрланга в теории массового обслуживания // «Теория вероятностей и ее применения», т.7 вып.З. М. 1962, стр.330-335.

81. Хендерсон К. «Профессиональное руководство по SQL Server. Хранимые процедуры, XML, 11TML» Спб.: Питер, 2004. - 624 е.: ил.

82. Черняк J1. SOA и сервисы данных // Открытые системы. 2008. - №2. - С. 30-34.

83. Эшби У.Р. Введение в кибернетику: пер. с англ. / под. ред. В.А.Успенского М.: "КомКнига", 2005. — 432с.

84. Batini, С., Lenzerini, M., and Navathe, S.: A Comparative Analysis of Methodologies for Database Schema Integration. ACM Computer Surveys. 1986. pp.323-364

85. Bean J. SOA and Web Services Interface Design. Apress. 2010. 384 pp.

86. Beckner M. Pro EDI in BizTalk Server 2006 R2: Electronic Document Interchange Solutions Apress, 2007. 185 pp.

87. Coles M. T-SQL Programmer's Guide. Apress. 2008. 688 pp.

88. Connecting Your Business Using IBM Websphere Message Broker V7 As ab Esb. IBM Redbooks, 2010. pp. 158.

89. Claudia Imhoff, Nicholas Galemmo, Jonathan G. Geiger. Mastering Data Warehouse Design: Relational and Dimensional Techniques. Wiley, 2003. 456 pp.

90. David Waddington. An Architected Approach to Integrated Information. Kalido. 2004. 24pp.

91. Dunphy G, Metwally A. Pro BizTalk 2006 Apress, 2006. 528 pp.

92. Heilig L. Understanding SAP NetWeaver Identity Management Galilleo Press, 2010. 320 pp.

93. Java Message Service API Tutorial and Reference: Messaging for the J2EE Platform / M. Hapner, R. Burridge, R.Sharma, J.Fialli, K. Haase. Sun Microsystems.- 2008. 148 pp.

94. Machanic A. Expert SQL Server 2008 Development. Apress. 2010. 430 pp.

95. Microsoft SQL Server 2008: Data Mining интеллектуальный анализ данных: Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. - СПб.: БХВ-Петербург, 2009. - 720 е.: ил. - (В подлиннике).

96. Miller. F.P. Event-driven SOA. 2010. 72 pp.

97. Miller. F.P. Java Message Service. Alphascript publishing. 2010. 88 pp.

98. Ross A. SAP NetWeaver BI Accelerator SAP Press, 2008. 260 pp.

99. Sharma R. J2EE Connector Architecture and Enterprise Application Integration / R. Sharma, B. Stearns, T. Ng. Addison-Wesley Pub Co. -2001. 251 pp.

100. Takacs L. Investigation of Waiting Time Problems by Reduction to Markov Processes, Acta Math. Acad. Sci. Hungary, vol. 6, pp. 101-129, 1955

101. The Definitive Guide to SOA: Oracle® Service Bus, Second Edition (The Definitive Guide) / J. Davies, D. Schorow, S.Ray, D. Rieber. Apress. 2008. 550 pp.

102. The TSIMM1S Project: Integration of Heterogeneous Information Sources / Chawathe S., Garcia-Molina H., Hammer J., Ireland K., Papakonstantinou Y., Ullman J., Widom J. IPSJ. 1994. pp. 7-18

103. Vincent Rainardi. Building a Data Warehouse. With Examples in SQL Server. Apress. 2008. 541 pp.

104. WebSphere MQ Solutions in г.- Microsoft .NET Environment. Saida Davies, Michael Hainan, Sachin Kulkarni. IBM, 2004

Похожие работы

Информатика, вычислительная техника и управление
05.13.00