автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка математического и программного обеспечения для систем управления мастер-данными
Автореферат диссертации по теме "Разработка математического и программного обеспечения для систем управления мастер-данными"
На правах рукописи
4849272
Линев Константин Андреевич
РАЗРАБОТКА. МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ СИСТЕМ УПРАВЛЕНИЯ МАСТЕР-ДАННЫМИ
Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
9 «ЮН 2011
Москва 2011
4849272
Работа выполнена в Московском государственном институте электроники и математики (техническом университете).
Научный руководитель Белов Александр Владимирович,
кандидат технических наук, доцент
Официальные оппоненты Кульба Владимир Васильевич
доктор технических наук, профессор
Бабешко Владимир Николаевич
кандидат технических наук
Ведущая организация: Федеральное государственное учреждение
«Государственный научно-исследовательский институт информационных технологий и телекоммуникаций»
Защита состоится 28 июня 2011 года в 14:00 на заседании диссертационного совета Д 212.133.01 Московского государственного института электроники и математики (технического университета) по адресу: 109028, Москва, Б. Трех-святительский пер., д.З.
С диссертацией можно ознакомиться в библиотеке Московского государственного института электроники и математики (технического университета). Автореферат разослан 27мая 2011 года.
Ученый секретарь диссертационного совета кандидат технических наук доцент
С.Е. Бузников
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. В последние годы развитие информационных технологий вышло далеко за рамки чисто научного исследования. Практически каждая организация на самых ранних этапах своего развития приходит к необходимости применения в своей работе тех или иных программных продуктов. Возникло понятие информационной среды предприятия, представляющей собой совокупность всех программных продуктов, которые управляют теми или иными аспектами его работы.
Стремление увеличить прозрачность и управляемость предприятий приводит к тому, что возникает необходимость во все большей консолидации информационной среды. Каждый программный компонент информационной среды должен обладать способностью отвечать на запросы, уведомлять о своем состоянии другие части среды и эффективно взаимодействовать с любым другим ее компонентом.
С другой стороны, активное внедрение программных решений долгое время проводилось без учета возможности последующей интеграции. Это привело к тому, что задача создания внутри организации единого информационного пространства наталкивается на целый ряд проблем, связанных с тем, что существующие разрозненные подсистемы хранят одни и те же данные общего назначения в самых различных, зачастую, мало совместимых формах.
Первым шагом в решении задачи интеграции информационной среды является предоставление разным ее компонентам возможности успешно обмениваться данными и правильно их интерпретировать. Как правило, в организации существует определенный набор относительно постоянной информации, которая проникает практически во все аспекты ее деятельности. Списки подразделений, сотрудников, стандартов, спецификаций, все это создает терминологический контекст существования предприятия. Эта информация неизбежно попадает и в программные компоненты среды. И, как правило, в каждом из них выглядит по-своему.
Соответственно, чтобы осуществлять взаимодействие компонентов друг с другом сначала надо добиться того, чтобы они одинаково обрабатывали одни и те же базовые понятия. И решение этой задачи в настоящее время выделилось в отдельное направление разработки программного обеспечения, которое принято называть управлением нормативно-справочной информацией (НСИ), или иначе мастер-данными.
Определение 1. Под мастер-данными будем понимать условно-постоянную часть всей корпоративной (учрежденческой) информации, не претерпевающую существенных изменений в процессе повседневной деятельности организации, на основании которой формируются текущие документы.
Важность и актуальность проблемы интеграции разрозненных компонентов информационной среды и, в частности, консолидации справочной информации отмечались в работах Когаловского М.Р., Калиниченко JI.A., Чернобровцева А., Гулько Д., Михайлова С, Помазкова Я. Уолтера Р.. Существует ряд коммерческих решений, обеспечивающих управление справочной информации, таких, как SAP MDM, Oracle Data Hub, Microsoft MDS, Talend Open Studio, СУ НСИ Интергех.
Ограничения современных систем управления НСИ (СУ НСИ) и их коммерческий, закрытый характер обуславливают потребность в разработке метода проектирования СУ НСИ, независимого от продуктов какой-то конкретной компании и позволяющего априори оценить надежность работы спроектированной системы. Таким образом, проведенный обзор литературы, а также анализ существующих программных продуктов показал актуальность тематики настоящей работы.
Цель данной работы заключается в том, чтобы разработать эффективный метод проектирования систем управления мастер-данными.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Анализ существующих технологий управления нормативно-справочной информацией;
2. Разработка модели данных, предназначенной для описания НСИ, гарантирующей возможность представления справочной информации в разных формах для разных компонентов информационной среды;
3. Обеспечение явной поддержки данной моделью элементов математического моделирования, необходимых при описании справочников, но отсутствующих в распространенных моделях данных, таких как иерархии, множества и наследование одними сущностями свойств других сущностей;
4. Обеспечение реализуемости модели на базе наиболее распространенных в настоящее время технологий программирования;
5. Разработка на основе данной модели программного обеспечения системы управления НСИ;
6. Разработка метода верификации качества работы распределенной СУ НСИ с учетом взаимодействия мастер-данных с текущими данными;
7. Применение разработанного метода для оценки качества работы системы управления мастер-данными, используемой при проведении Всероссийской переписи населения (ВПН-2010).
Методы исследования. Исследования базируются на использовании методов и средств теории реляционных баз данных, формул Хорна первого порядка, объектно-ориентированного проектирования, теории графов и статистического анализа. Научная новизна
1. Разработана оригинальная модель данных, специально предназначенная для проектирования СУ НСИ.
2. Разработана математическая модель распределенной СУ НСИ, позволяющая моделировать взаимодействие текущих данных и НСИ.
3. Предложен подход и разработан метод .решения задачи обнаружения потенциальных сбоев в работе СУ НСИ на этапе проектирования системы, основанный на разработанной модели. Основные результаты, выносимые на защиту
1. Модель данных, позволяющая описывать НСИ с учетом ее сложной структуры и многообразия представлений в информационной среде;
2. Математическая модель, описывающая взаимодействие мастер-данных с текущими данными в распределенной СУ НСИ;
3. Метод обнаружения потенциальных сбоев в работе распределенной СУ НСИ, связанных с взаимодействием текущих данных и мастер-данных, на этапе проектирования системы;
4. Программный комплекс, обеспечивающий имитационное моделирование распределенной СУ НСИ на основании предложенной модели и позволяющий обнаруживать возникающие в ходе моделирования сбои. Практическая ценность
1. Разработанная в диссертационной работе модель данных позволяет существенно сократить время, затрачиваемое на проектирование и реализацию СУ НСИ.
2. Разработанная модель распределенной СУ НСИ, а также метод априорного обнаружения потенциальных сбоев в работе распределенной СУ НСИ позволяет снизить риски, связанные с ошибками проектирования и повысить эффективность планирования процессов разработки и внедрения СУ НСИ. Внедрение результатов работы 1. Разработанная модель данных и метод обнаружения потенциальных сбоев в работе СУ НСИ использовались при проектировании и разработке подсистемы ведения справочников территориальных единиц (ВСТЕ), входящей с состав автоматизированной системы ВПН-2010, обеспечивающей сбор, обработку и получение итогов Всероссийской переписи населения 2010 года.
2. Полученные в диссертации результаты использованы в учебном процессе на кафедре «Кибернетика» МИЭМ (Москва) в рамках дисциплины «Компьютерные технологии в экономике и финансовая деятельность банковских предприятий».
3. Полученные в диссертации результаты использованы в учебном процессе в институте ИБС НИТУ «МИСиС» (Москва) на кафедре «Информационные бизнес системы» в рамках дисциплины «Архитектура предприятия и проектирование КИС».
Апробация работы
Основные положения и результаты работы докладывались на следующих научно-технических конференциях и семинарах:
1. Информационные бизнес системы. Первая Всероссийская ежегодная научно-практическая конференция. 2009 г.
2. Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. 2009 г.
3. Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. 2010 г.
4. Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. 2011 г.
5. Научный семинар кафедры «Кибернетика» МИЭМ под руководством д.т.н., проф. В.Н. Афанасьева.
Публикации результатов
По материалам диссертации опубликовано 8 научных работ, в том числе 4 в журналах, входящих в список рекомендованных изданий ВАК РФ. Структура и объем диссертации
Диссертация состоит из введения, 5 глав, заключения, списка литературы в 61 наименование и трех приложений, всего 147 страниц, включая 4 рисунка и 2 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность направления исследования диссертационной работы, формулируется цель и задачи диссертации, определяется научная новизна и дается общая характеристика работы, перечисляются положения, выносимые на защиту.
В первой главе работы приведен обзор текущего состояния проблемы управления нормативно-справочной информацией. Проанализированы современные решения в области моделирования данных и верификации сетей передачи данных, и сделан вывод о необходимости построения модели данных, учитывающей специфику НСИ. Также проведен обзор современных решений в области управления НСИ и выделены особенности НСИ, как типа данных. В ходе анализа были выделены следующие недостатки современных СУ НСИ:
1. Не существует научно обоснованной методики проектирования СУ
НСИ;
2. Как правило, СУ НСИ носят коммерческий характер и требуют приобретения других программных продуктов производителя;
3. Предназначены в основном для крупных предприятий;
4. Поддержка сложных структур данных ограничена;
5. Не предоставляют средств априорной оценки эффективности работы.
В заключении первой главы сформулирована содержательная постановка задачи разработки математической модели СУ НСИ.
Во второй главе работы приведена структура модели данных, явным образом обеспечивающей описание не только НСИ, но и знаний о ее структуре, семантическом смысле и многообразии ее представлений. Модель построена таким образом, чтобы допускать сравнительно простую реализацию с помощью СУБД на базе реляционной модели в качестве хранилища данных.
Далее приведены основные понятия этой модели данных:
Определение 2. Справочник, это базовое понятие модели. Представляет собой четверку (Б, Р, Ь, Е), где Б - коллекция атрибутов справочника, Б - коллекция граней справочника , Ь - коллекция связей справочника, Е -коллекция записей справочника.
Понятие справочника можно считать аналогом понятия отношения в реляционной модели данных. Атрибуты справочника определены по аналогии с атрибутами отношения в реляционной модели, записи справочника определены по аналогии с понятием кортежа в реляционной модели.
Определение 3. Связью справочника называется четверка (С, п, I, 1), где С - справочник, входящий в хранилище справочников, п - признак обнуляемое™ связи: «истина» или «ложь», I - тип связи, а 1 - это связь или специальный элемент «пусто», то есть признак отсутствия связи, в зависимости от типа связи. Будем называть 1 присоединенной связью. Если 1 — это элемент «пусто», будем говорить, что присоединенная связь отсутствует.
Связь может обладать рядом декларируемых свойств, которые служат для поддержания целостности справочника. В частности связь может гарантировать отношение "один к одному". В этом случае обратная связь становится присоединенной связью, упомянутой в определении. Такие связи один к одному могут также использоваться для того, чтобы определить отношение наследования одним справочником свойств другого. Связь может рассматриваться, как частный случай атрибута, наделенного дополнительными свойствами, и таким образом может храниться в реляционной таблице в качестве атрибута отношения.
Определение 4. Ассоциацией называется четверка (Т, V, Р, Е), где Т -декартово произведение множеств идентификаторов записей одного или более справочников, V - его конечное подмножество, Р - набор свойств ассоциации, а Е - степень обусловленности ассоциации. Будем говорить, что ассоциация А верна для записей х и у из справочников X и У, если для А Т=Х*У и V содержит элемент ([х],[у]). Ассоциация А соответствует предика-
ту А(х, у), принимающему значение «истина» тогда и только тогда, когда ассоциация верна.
Ассоциации используются для того, чтобы реализовать отношение "многие ко многим", а так же описать правила, по которым оно образуется. С помощью свойств ассоциации, отношение может приобретать такие свойства, как транзитивность и коммутативность, а так же приобретать зависимость от справочников и других ассоциаций, выраженную в предикатах Хорна, для которых в качестве модели используются понятия описываемой модели. Ассоциации позволяют явно описать такие структуры данных, как иерархии и множества.
Ассоциацию можно считать частным случаем справочника, который содержит только связи и таким образом она также может храниться в реляционной таблице.
Определение 4. Гранью справочника X называется четверка (А, Б, II, Р). Где А - это подмножество множества атрибутов и связей справочника, к которому принадлежит грань. О - отображение множества записей справочника X в другой справочник XI, не входящий в хранилище справочников. Я
— отображение из множества записей справочника XI в множество записей, набор атрибутов и связей которых соответствует таковым в справочнике X. Р
— набор свойств грани.
С помощью граней моделируется переход справочника из одной формы в другую в разных частях информационной среды. Понятие грани позволяет не только учесть возможность преобразования справочника в ходе работы системы, но и определить, для каких преобразований возможно непротиворечивое обновление. Для граней справочников был разработан алгоритм, позволяющий, при соблюдении ограничений на преобразования данных, обеспечить непротиворечивое обновление данных в справочнике X путем изменения записей справочника XI.
Аналогичные результаты получены для групп связанных справочников. Также было проведено сопоставление предложенной модели и реляционной
модели данных и введена алгебра запросов к построенной модели, являющаяся расширением реляционной алгебры. Для данной алгебры сформулировано и доказано следующее утверждение:
Утв. 1. Построенная алгебра является реляционно полным языком запросов, замкнутым относительно понятия справочника.
Понятие справочника было расширено таким образом, чтобы позволить хранить в одном справочнике множество версий одной и той же записи, тем самым обеспечивая хранение истории изменения справочников.
В третьей главе поставлена и решена аналитически для наиболее простых случаев задача определения вероятности функционирования распределенной СУ НСИ с заданной топологией в течение некоторого заранее известного срока эксплуатации без возникновения сбоев определенных типов, связанных с взаимодействием между мастер-данными и основанными на них текущими данными.
Для решения задачи была построена обобщенная математическая модель распределенной СУ НСИ, основанная на понятиях, введённых в главе 2, благодаря которой возможно выявить, какие элементы системы управления НСИ вызывают наибольший риск возникновения проблемной ситуации. Таким образом, модель позволяет устранять недостатки системы там, где они оказывают наибольшее негативное влияние на работу СУ НСИ в целом. Основными объектами построенной модели СУ НСИ являются:
1. Ориентированный связанный граф Г (И, в, В) произвольной топологии без петель.
2. Множество узлов N (I, V, С), каждый из которых характеризуются множеством I справочников, которые используются в данном узле, множеством V номеров версий этих справочников в узле и С — потоками событий изменения номеров версий каждого справочника.
3. Множество «зеленых» дуг в (¡, Ь, Б, X) которые соответствуют путям передачи изменений НСИ, где 1 - справочник, изменения которого передаются, Ь — латентность канала (то есть время, необходимое для пе-
редачи блока изменений за вычетом собственно времени, необходимого для передачи каждого отдельного изменения), Б время передачи одного изменения, X - случайная величина, определяющая время, которое проходит с момента появления первого после предыдущей отправки изменений нового номера версии справочника / до того, момента, как все появившиеся с этого момента новые версии начинают передаваться по зеленой дуге. То есть эта случайная величина определяет время, в течение которого накапливаются новые версии, входящие в один блок изменений.
4. Множество «синих» дуг В (I, Б, X), которые соответствуют каналам передачи текущей информации, где I - множество справочников, участвующих в передаче данных, Б - время передачи данных, X - поток случайных событий возникновения нового передаваемого пакета данных. Подчиняясь потокам случайных событий и задержкам передачи, присвоенным зеленым дугам, новые номера версий справочников возникают в узлах модели и с течением времени копируются во все узлы, связанные с узлом исходного появления новой версии. При этом на синих дугах возникают пересылки текущих данных, в моменты времени, определяемые потоками случайных событий. Все фигурирующие в модели потоки случайных событий и случайные величины считаются независимыми друг от друга.
На основании данной модели была сформулирована задача обнаружения ситуаций, когда отправленный по синему каналу пакет текущих данных прибывает в принимающий узел раньше, чем в принимающий узел по зеленым дугам будут доставлены все версии справочника, которые находились в отправляющем узле в момент отправки. В результате сообщение не будет корректно обработано принимающей стороной. Данная ситуация была названа ситуацией запаздывающего обновления.
Далее приводится аналитическое решение задачи о вычислении вероятности возникновения ситуации запаздывающего обновления, в случае, если изменения НСИ передаются немедленно после того, как произошли, потоки
возникновения изменений и отправления документов являются потоками Пуассона, а все узлы, которые соединены синими дугами соединены также и сонаправленными с синими зелеными дугами, через которые осуществляется обновление всех справочников, которые участвуют в формировании передаваемых по синим дугам текущих данных, а граф Г не содержит циклов из зеленых дуг, осуществляющих обновление одного и того же справочника.
При данных условиях вероятность бесперебойной работы СУ НСИ в течение срока эксплуатации Т0 вычисляется по формуле (1)
г-ППЕ—-[^оЦ^'Т^пп(И . (1)
С 1т. О т- ^ ; С ■
а
где С - справочник, / - индекс узла графа, - суммарная плотность потока событий обновлений справочника С в узле / с учетом обновлений, поступающих из других узлов, у - индексы синих дуг, исходящих из узла / узлов,
I а
- плотность потока событий передачи текущих данных по_/-ой дуге, -так называемый интервал уязвимости после обновления справочника С в узле I в течение которого по узлу у могут быть отправлены данные, которые вызовут возникновение ситуации запаздывающего обновления, наконец, М^ -
это число, заведомо большее, чем число обновлений справочника С, которое может произойти в узле /, показатель который зачастую бывает известен проектировщику СУ НСИ еще на этапе проектирования системы.
Далее проводится аналитическое решение задачи для случая, когда задержка между возникновением нового изменения и отправлением блока изменений по зеленой дуге определяется случайной величиной с показательным распределением при сохранении всех прочих условий. Полученное решение существенно усложняется по сравнению с приведенным выше, и его применение на практике потребует аппроксимации точного решения с помощью численных методов. Отсюда делается вывод о том, что метод имитационного моделирования может оказаться более продуктивен при решении
задачи вычисления вероятности бесперебойной работы распределенной СУ НСИ в общем случае, нежели поиск общего аналитического решения.
В четвертой главе работы описана программная реализация программного комплекса, имитирующего распространение обновлений справочной информации по распределенной СУ НСИ, основанного на предложенной в третьей главе модели. В главе формулируются следующие основные требования к разрабатываемому комплексу:
1. Должен обеспечивать реализацию всех понятий и механизмов предложенной в третьей главе модели СУ НСИ;
2. Не должен накладывать каких-либо дополнительных ограничений на топологию исследуемой сети распространения мастер-данных;
3. Должен быть реализован таким образом, чтобы облегчить дальнейшую поддержку и расширение функциональности, в частности, получение дополнительных показателей для анализа;
С учетом приведенных выше требований проведен обзор и анализ современных технологий разработки ПО. По результатам анализа в качестве базовой технологии для построения комплекса была выбрана технология .Net компании Microsoft. В качестве языка описания моделируемой системы был выбран язык XML, так как технология .Net предоставляет встроенный механизм преобразования объектов в памяти компьютера в XML-документы и обратно, так называемый механизм сериализации.
Моделирование абстракции модели распределенной СУ НСИ в терминах объектно-ориентированного программирования было произведено путем создания отдельного класса для каждого отдельного понятия. Узлы, синие и зеленые дуги были смоделированы в качестве отдельных классов, причем два типа дуг наследовались от общего класса «дуга». Для управления событиями изменения справочников и передачи документов были реализованы класс «событие» и класс «последовательность событий», последний содержит коллекцию событий, а так же экземпляр генератора случайных событий, который описывает правило возникновения новых событий в данной последова-
телыюсти. Каждый узел содержит по одной последовательности событий для каждого справочника. Также, каждая синяя дуга содержит последовательность событий передачи текущих данных. Каждая зеленая дуга содержит генератор случайных событий, который описывает способ срабатывания передачи изменений после того, как в исходном узле появилось новое событие изменения справочника. События изменения справочников могут порождать вторичные события изменения справочников в других узлах по мере того, как изменения распространяются по зеленым дугам графа. Такие зависимые события содержат ссылку на своего «предка».
Комплекс сначала полностью строит все последовательности событий за все время эксперимента, а потом путем сопоставления последовательностей событий в узлах и синих дугах определяет, содержатся ли среди всех построенных событий ситуация запаздывающего обновления. Для уведомления одних объектов об изменении других применяется механизм подписки на события, входящий в состав технологии .Net.
В дальнейшем в главе описаны способы решения основных технических проблем, возникших в ходе разработки комплекса:
1. Отсутствие в .Net средств встроенной поддержки сериализации слож-носвязанных множеств объектов (в частности, содержащих кольцевые ссылки) в формат XML. Проблема была преодолена с помощью использования плоской коллекции объектов, как промежуточного представления модели, адаптированного к сериализации.
2. Взаимозависимость событий в системе и отсутствие у программиста априорного знания о том, в каком порядке возникают события в системе. Из-за этого в ходе работы комплекса может возникнуть необходимость изменить время возникновения уже обработанного и внесенного в последовательность события, а значит и всех зависимых от него событий. Проблема была преодолена с помощью явной реализации таких цепочек изменения положения событий в последовательностях посредством механизма делегатов и подписки на события платформы .Net.
Было проведено сопоставление результатов аналитического решения и компьютерного моделирования на примере двух задач о распространении НСИ.
Рис. 1: Схема распределенной СУ НСИ, рассматриваемой в примере 1
Пример 1. В этом примере рассматривается задача об обмене изменениями двух справочников между двумя отделами одной и той же компании. Схематическое изображение исследуемой СУ НСИ приведено на рисунке 1. Зеленые дуги обозначены пунктирными линиями, синие - сплошными. Изменения возникают с равными интервалами I, изменения каждого справочника возникают в своем отделе и немедленно передаются по зеленой дуге. Латентность зеленых дуг обозначена как Ь, время передачи данных по дугам, как Б, плотность потока Пуассона событий передачи текущих данных по синим дугам обозначена за X. За единицу времени принят один день.
Задлнм
Рис. 2: Схема распределенной СУ НСИ, рассматриваемой в примере 2
Пример 2. Во втором примере рассматривается задача о круговом обмене данными справочника текущих заданий между тремя отделами компании. Схематическое изображение исследуемой СУ НСИ приведено на рисунке 2. Зеленые дуги также обозначены пунктирными линиями, а синие -сплошными. Изменения справочника возникают случайно, передаются немедленно и описываются потоками Пуассона с плотностью X. За единицу времени принят один час. Латентность всех зеленых ребер составляет Ь = 0.5, время передачи Б = 0.016666. Плотность потоков возникновения событий передачи текущих документов по синим дугам X = 0.5, время передачи документа по синей дуге Б = 1.016666.
Результаты сопоставления аналитического решения с результатами моделирования задачи с помощью разработанного комплекса приведены в таблице 1.
В пятой главе описано применение предложенной модели для решения прикладной задачи управления иерархическими справочниками. Реализованный программный продукт носит название «Ведение справочников тер-
риториальных единиц» (ВСТЕ) и входит в состав АС ВПН-2010. ВСТЕ основано на реляционной СУБД Microsoft SQL Server 2005 с применением дополнительных библиотек, реализованных на языке программирования С#. ВСТЕ осуществляет управление иерархическим справочником административно-территориальных единиц и муниципальных образований ТЕРСОН, представляющим собой две взаимосвязанные иерархии, элементы которых также обладают признаками, правила проверки целостности которых зависят от положения элемента в иерархии. В ходе ведения справочника должно обеспечиваться ведение также и полной истории его изменений.
Пример 1 Пример 2
Аналитическое решение 106 сбоев в течение двух лет 26.3% месяцев без сбоев
Результат имитационного моделирования 105.481 сбоев в течение двух лет 25.2% месяцев без сбоев, в среднем 1.41 сбоев в месяц.
Таблица 1: Результаты имитационного моделирования В главе приводится описание справочника ТЕРСОН в терминах разработанной модели данных. Использование этой модели в качестве инструмента проектирования позволило сократить длительность общего цикла разработки на 15%, что подтверждено соответствующим актом о внедрении.
Также, в главе рассматривается задача об обновлении справочника ТЕРСОН и связанного с ним справочника адресов в процессе изменения административно-территориальной структуры Российской Федерации. С помощью описанного в главе 4 программного комплекса было проведено моделирование обмена данными между компонентами АС ВПН-2010, расположенными на трех разных уровнях структурных подразделений Федеральной службы государственной статистики: в центральном аппарате, территориальных органах и районных центрах. Была спрогнозирована возможность бесперебойной работы системы с вероятностью более 98.5% при условии, что рабочие таблицы будут строиться с учетом изменений справочников, произо-
шедших ранее, чем за 5.5 дней до формирования запроса на построение таблицы. Данная информация использовалась в ходе проектирования АС ВПН-2010 и, в частности, подсистемы ВСТЕ.
В заключении подводятся итоги проделанной работы. Приводятся основные выводы и результаты работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработана оригинальная модель данных на базе реляционной модели данных, учитывающая характерные особенности задачи управления НСИ. Для модели построена алгебра запросов по аналогии с реляционной алгеброй, доказана реляционная полнота этой алгебры и ее большая выразительность по сравнению с реляционной. Доказана возможность обновления справочников через их особые альтернативные версии, получившие название граней;
2. Разработанная модель допускает хранение всех своих объектов в реляционной СУБД, при условии реализации логики обработки не выразимых в реляционной модели ее абстракций путем введения промежуточного слоя доступа к данным над СУБД;
3. Модель успешно использована при проектировании подсистемы ВСТЕ, входящей в автоматизированную систему ВПН-2010, предназначенную для обработки результатов Всероссийской переписи населения 2010;
4. Разработана оригинальная модель, описывающая функционирование распределенной СУ НСИ на основе двуцветных графов. Получено аналитическое решение для задачи вычисления вероятности возникновения сбоев, связанных с взаимодействием текущих данных и мастер-данных;
5. Реализован программно-аппаратный комплекс, позволяющий имитировать процесс работы распределенной СУ НСИ, описанной с помощью предложенной модели. Программа апробирована как путем испытания на примерах, для которых получено аналитическое решение, так и при
решении промышленной задачи в рамках проектирования компонентов АС ВПН-2010.
Публикации по теме диссертационной работы Публикации в изданиях, включенных в перечень ВАК РФ
1. Линев К.А., Разработка систем управления нормативно справочной информацией для систем обработки статистической информации - М., Бизнес-информатика №4(10) за 2009 г, стр. 29-32
2. Линев К. А., Каркасное решение для построения СУ НСИ для систем сбора, контроля качества и обработки статистической информации - М., Качество. Инновации Образование, №4 за 2010 год, страницы 52-56.
3. Линев К.А., Моделирование мастер-знаний - М., Информатизация образования и науки № 4(8)/2010 , стр. 156-172
4. Линев К.А., Организация распределенных систем управления нормативно-справочной информацией - М., Информатизация образования и науки № 1(9)/2011 , стр. 128-139
Публикации в других изданиях
5. Линев К.А., Разработка системы управления НСИ для систем обработки статистической информацией, Информационные бизнес системы. Первая Всероссийская ежегодная научно-практическая конференция. Материалы конференции. - М., Академия ИБС: МФТИ, 2009, стр. 32-36.
6. Линев К.А., Исследование задач построения СУ НСИ для систем обработки статистической информации, Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М., МИЭМ, 2009, стр. 155-156.
7. Линев К.А., Моделирование мастер-знаний, Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. -М., МИЭМ, 2010, стр. 147-148.
8. Линев К.А., Разработка математического и программного обеспечения для систем управления мастер-данными, Научно техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. -М., МИЭМ, 2011, стр. 136-137.
Подписано к печати " ТА." мая 2011 г. Отпечатано в отделе оперативной полиграфии МИЭМ.
Москва, ул. М. Пионерская, д. 12. Заказ № 121 . Объем 1,0 п.л. Тираж 120 экз.
Оглавление автор диссертации — кандидата технических наук Линев, Константин Андреевич
Введение.
Глава 1. Современное состояние проблемы проектирования систем управления НСИ.
1. Анализ современных подходов к моделированию данных.
1.1 Сетевая и иерархическая модели данных.
1.2 Реляционная модель данных.
1.3 Объектные СУБД.
1.4 Моделирование знаний.
2. Анализ современного состояния систем управления НСИ.
2.1 НСИ, как особенный класс данных.
2.2 Класификация СУ НСИ.
3. Анализ современных методов верификации сетей передачи данных
4. Выводы.
Глава 2. Построение модели данных для СУ НСИ.
1. Основные определения.
2. Моделирование истории изменения справочников.
3. Утверждения об обновлении справочников через их грани.
4. Объединения нескольких справочников в МКМ.
5. Выводы.
Глава 3. Верификация сетей распространения мастер-данных.
1. Математическая постановка задачи.
2. Аналитическое решение в простейшем случае.
3. Отложенная передача данных.
4. Выводы.
Глава 4. Компьютерное моделирование распространения мастер-данных.
1. Разработка архитектуры решения по моделированию распространения мастер-данных.
2. Особенности моделирования двухпоточной модели СУ НСИ на базе платформы .Net.
3. Сравнение численного и аналитического решений.
4. Выводы.
Глава 5. Управление НСИ для Всероссийской переписи населения
1. Структура обрабатываемых справочников.
2. Моделирование справочника ТЕРСОН с помощью МКМ.
3. ВСТЕ в жизненном цикле НСИ ВПН-2010.
4. Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Линев, Константин Андреевич
В современном мире информационные технологии стали неотъемлемой частью абсолютно любой организации. Точно также, как совершенно в любой организации неизбежно возникает отдел, подразделение или какая-то другая* часть, занимающаяся бухгалтерским учетом, точно также любое предприятие, в котором больше одного сотрудника, неизбежно подвергается информатизации. Обнаружив многочисленные преимущества, которые несет в себе внедрение компьютерных технологий, предприятия стремятся развить свою информационную структуру, извлечь как можно больше выгоды из своих вложений в автоматизацию производства и создание средств обмена данными и документами внутри предприятия. И в конечном итоге они стремятся к интеграции своей информационной среды. С целью ли достижения большей прозрачности, или большей оперативности управления, или повышения качества бизнес-процессов, но ставится задача превратить каждый программный компонент информационной среды в часть целого, способную отвечать на запросы, уведомлять о своем состоянии другие части среды, поддаваться настройке и эффективно взаимодействовать с любым другим компонентом среды, с каким только можно придумать осмысленный способ взаимодействия.
Однако повсеместное распространение информационных систем и взрывообразное, стихийное их развитие, наблюдавшее в последние годы, оказывается, создают препятствия для такой интеграции. Одно решение "говорит" на языке, совершенно непонятном другому решению, и даже отдаленно не похоже на аналогичное, которое было внедрено в компании, которую только что поглотила организация, стремящаяся к унификации своей информационной среды.
Объединение разрозненных участков информационной среды становится непростой задачей. И первым шагом в ее решении служит сообщение разным компонентам среды возможности понимать данные, с которыми они работают. Как правило, в организации существует определенный набор относительно постоянной информации, которая проникает практически во все аспекты ее деятельности. Списки подразделений, сотрудников, стандартов, спецификаций, все это создает терминологический контекст существования- предприятия. Вся эта информация неизбежно попадает и в программные компоненты среды. И как правило в каждом из них выглядит по-своему.
Соответственно, чтобы добиться возможности взаимодействия компонентов друг с другом сначала надо добиться того, чтобы они одинаково обрабатывали одни и те же базовые понятия. И решение этой задачи в настоящее время выделилось в отдельное направление разработки программного обеспечения, которое называется управление нормативно-справочной информацией, или иначе мастер-данными.
Существует ряд коммерческих решений в этой области, обзор некоторых из них можно найти в первой главе этой работы. Вкратце можно сказать, что эти решения имеют два общих свойства. Во-первых, они все в первую очередь решают задачу интеграции мастер-данных в единое информационное пространство. Интеграция достигается либо путём представления справочников в единой, общей для всего предприятия форме и адаптации всей информационной среды для работы с этим новым, единым справочником, либо путем построения множества преобразований из каждого существующего представления каждого справочника в каждое отличное от него. Таким образом достигается возможность обмена данными между прежде изолированными частями информационной среды. Это решение, пусть и является существенным шагом вперед по сравнению с неконтролируемым внедрением программных компонент, не связанных друг с другом, лишь частично решает проблему. Ведь мастер-данные, будучи сложными, медленно меняющимися данными, с которыми редко связаны большие объемы информации требуют специфического управления. Вовторых, все эти системы являются коммерческими решениями, которые 5 предназначены для внедрения в больших компаниях в, виде отдельного компонента. В то же время,: задача управления мастер-данными решается постоянно при разработке любой крупной информационной системы; И внедрение отдельного сервера управления мастер-данными поряду причин, в том числе и экономических, может быть нежелательным. В? то же время; в открытой; печати практически отсутствуют материалы, посвященные методике разработки систем; или подсистем" управления мастер-данными. То есть все; существующие в настоящее время решения являются проприетарными и предназначены исключительно для внедрения в крупных организациях.
Эта работа своей целью предложить способ проектирования системы управления мастер-данными; который можно было использовать в системе любого размера, на основе любой платформы. Что необходимо для того; чтобы спроектировать и реализовать компонент управления НСИ? Во-первых, необходима формальная модель, которая с одной стороны позволила бы описывать с максимальной степенью достоверности, или, как предлагается в дальнейшем говорить в этой работе, с сохранением максимального объема знаний о системе те данные, которые должны быть сохранены в системе, а с другой стороны позволяла бы реализацию своих абстракций с разумными трудозатратами на основании существующих технологий программирования и хранения баз данных. Во-вторых, необходим способ априорной верификации проектируемой системы управления мастер-данными. Так как по самой своей природе системы управления мастер-данными являются распределенными системами и основные проблемы, которые в них возникают связаны с передачей данных из одной точки внедрения в другую, речь идет об описании механизма верификации распределенной сети распространения мастер-данных в рамках информационной среды.
Таким образом, данная работа ставит перед собой следующий задачи:
• Анализ существующих технологий управления нормативно-справочной информации;
• Разработать специфически предназначенную для описания мастер-данных модель данных, гарантирующую возможность представления данных в разных формах для разных компонентов информационной среды;
• Обеспечить явную поддержку данной моделью элементов математического моделирования, необходимых при описании справочников, но отсутствующих в распространенных моделях данных, таких как иерархии, множества и наследование одними сущностями свойств других сущностей;
• Обеспечить реализуемость модели на базе наиболее распространенных в настоящее время технологий программирования;
• Реализовать на основе данной модели действующий программный продукт по управлению НСИ и тем самым продемонстрировать ее практическую применимость;
• Разработать механизм верификации качества работы распределенной СУ НСИ, с учетом взаимодействия мастер-данных с текущими данными;
• Реализовать этот механизм и применить его для оценки реально существующей системы управления мастер-данными, тем самым продемонстрировать его эффективность в качестве средства оценки результатов проектирования новых систем управления мастер-данными. I
В соответствии с поставленной целью и сформулированными задачами, в данной работе на защиту выносятся следующие результаты:
• Модель данных, позволяющая описывать НСИ с учетом ее сложной структуры и многообразия представлений в информационной среде;
• Математическая модель, описывающая взаимодействие мастер-данных с текущими данными в распределенной СУ НСИ;
• Метод обнаружения потенциальных сбоев в работе распределенной СУ НСИ, связанных с взаимодействием текущих данных и мастер-данных, на этапе проектирования системы;
• Реализация программного комплекса, обеспечивающего имитационное моделирование распределенной СУ НСИ на основании предложенной модели и позволяющего обнаруживать возникающие в ходе моделирования сбои.
Заключение диссертация на тему "Разработка математического и программного обеспечения для систем управления мастер-данными"
4. Выводы
В данной главе описана реально решаемая в настоящее время задача по обеспечению актуальности и полноты одной из важнейших пар справочников, задействованных в автоматизированной обработке результатов всероссийской переписи населения 2010. Описана архитектура подсистемы, решающей эту задачу, спроектированной на основе модели МКМ. Отмечено снижение затрат на разработку и рисков с ней связанных в результате применения заранее продуманной модели, успешно описывающей все необходимые системе функции.
Описан перспективный путь развития подсистемы, обеспечивающий постоянную адаптацию результатов переписи к текущему территориальному делению. С помощью двухпоточной модели распределенной СУ НСИ предсказано запаздывание результатов работы системы по отношению к текущим нормативным документам, совпадающая с экспертными оценками. Тем самым подтверждена применимость модели к реальным системам и снижены риски, сопутствующие реализации доработок, необходимых для дальнейшего развития АС ВПН-2010.
Заключение
Корректное управление мастер-данными — это актуальная и: сложная задача. Настолько сложная, что в данной работе для работы с ними было предложено воспользоваться элементами логического программирования и объектно-ориентированного моделирования. Следуя поставленным: н начале работы целям, были разработаны математические инструменты, существенно облегчающие проектирование даже весьма сложных по своей структуре СУ НСИ. При разработке этих инструментов были достигнуты следующие результаты:
• Разработана оригинальная модель данных МКМ на базе релядионной модели данных, учитывающая характерные особенности задачи управления НСИ. Для модели построена алгебра запросов по аналогии с реляционной алгеброй, доказана реляционная полнота этой алгебры и ее большая выразительность по-сравнению с реляционной. Доказана возможность обновления справочников через их особые альтернативные версии, получившие название граней;
• Так как модель основана на реляционной модели данных, она допускает хранение всех своих объектов в реляционной СУБД, а реализация ее логики требует введения слоя доступа к данным над I
СУБД, который бы использовал бы не выразимые в ре л зэдиоыной модели абстракции для манипуляции данными там, где это необходимо системе;
• Модель успешно использована при проектировании подсистетугы ВСТЕ, входящей в автоматизированную систему ВПН-2010, предназначенную для обработки результатов всероссийской переписи населения 2.010;
• Разработана оригинальная модель, описывающая функционирование распределенной СУ НСИ на основе двуцветных графов, существенно отличная от сетей Петри. Идентифицированы два схожих класса потенциальных проблем обновления. Получено аналитическое решение для задачи вычисления вероятности возникновения одной, наиболее опасной, из них в некоторых случаях;
• Реализован программно-аппаратный комплекс, позволяющий имитировать процесс работы распределенной СУ НСИ, описанной с помощью предложенной модели. Программа апробирована, как путем испытания на примерах, для которых получено аналитическое решение, так и при решении промышленной задачи в рамках проектирования дальнейшего пути развития АС ВПН-2010. Оригинальное сочетание компонентов модели МКМ, каждый из которых, хотя и имеет аналоги в различных видах программного обеспечения, но никогда не использовался, как часть СУ НСИ составляет научную новизну модели МКМ. Двухпоточная модель распределенной СУ НСИ и поставленная в ее рамках проблема, обнаружения конфликтов на основании сравнения набора обновлений в исходном и принимающем узлах при пересылке рабочих документов из одного узла распределенной системы в другой также являются оригинальными разработками, впервые предложенными в этой работе. Решение этой проблемы, как численное, так и аналитическое следовательно также являются оригинальными.
В заключение работы хотелось бы выразить благодарность моему научному руководителю, доценту, к.т.н., Белову Александру Владимировичу и заведующему кафедрой Кибернетики профессору, д.т.н., Афанасьеву Валерию Николаевичу за их помощь в подготовке этой работы. Также, хотелось бы выразить благодарность компании "КРОК Инкорпорэйтед" за разрешение на публикацию материалов, связанных с АС ВПН-2010 и содействие в проведении апробации результатов данной работы на практике. Полученный в ходе работы над АС ВПН-2010 опыт оказался без преувеличения бесценен при написании данной работы.
Библиография Линев, Константин Андреевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Когаловский М.Р. Перспективные технологии информационных систем, Mi: ДМК Пресс, 2003 г., стр. 82-129
2. Когаловский М.Р. Абстракции и модели в системах баз данных. М.: СУБД, 1998 г., № 4-5 стр. 73-813: CODASYL DBTG Report.-New York: ACM, 1969. 191 р.
3. ANSI/X3/SPARC Study Group on Data Base Management Systems. Interiin Report. FDTBull. ASM-S1GMOD. v. 7, no. 2 (1975), р. 1140. .
4. Цикритзис Д., Лоховски Д. Модели данных, М.: Финансы и статистика, 1983 г., стр. 1-334.
5. Как работать над терминологией. Основы и методы КНТТ АН; СССР. М.: Наука, 1968. - 76 с.
6. Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных, М.: Наука, 1983 г. стр. 1-424
7. The Codasyl Approach to Data Base Management. Т. William Olle. Wiley, 1978, p. 1-287
8. Ульман Дж. Основы систем баз данных, М.: Финансы и статистика, 1983, стр. 1-331.
9. Замулин A.B. Системы программирования баз данных и знаний, Новосипирск: Наука, 1990 г., стр. 39-122
10. Codd, E.F. (June 1970). "A Relational Model of Data for Large SharedData Banks". Communications of the ACM (Association for Computing Machinery) 13 (6): p. 377-387
11. Когаловский M.P. Технология баз данных на персональных ЭВМ, М.: Финансы и статистика, 1992 г., стр. 185-189.
12. Selinger, P. G.; Astrahan, M. M.; Chamberlin, D. D.; Lorie, R. A.; Price, T. G. (1979). "Access Path Selection in a Relational Database Management System". Proceedings of the 1979 ACM SIGMOD International Conference on Management of Data. pp. 23—34
13. Ullman J. Principles of Database and knowledge-base systems. Volume II: The New Technologies, Stanford:Computer Science Press, 1989, p. 633-733.
14. Codd, E.F. (June 1970). "A Relational Model of Data for Large Shared Data Banks". Communications of the ACM 13 (6): p. 377387.
15. Калиниченко JI.A. Стандарт систем управления объектными базами данных ODMG-93, Краткий обзор и оценка состояния, М?.: СУБД №1, 1996 г., стр. 102-109
16. Burleson D. OODBMSs gaining MIS ground but RDBMSs still own the road. Software Magazine, 1994, 14(11), p. 63
17. Darwen H., Date C.J. The Third Manifesto: Foundation of Object/Relational Databases, Mass.: Addison-Wesley, 1998, C.J.Date: Relational Database Writings 1994-1997.
18. Кузнецов С.Д., Третий манифест Дейта и Дарвена, М?.: "Открытые системы", N 4, 2000, стр. 61-66
19. Alfred Horn, (1951) «On sentences which are true of direct unions of algebras», Journal of Symbolic Logic, 16, p. 14-21.
20. Иван Братко. Алгоритмы искусственного интеллекта на языке PROLOG — М.: Вильяме, 2004. — 640 с
21. Тамм Б.Г., Тыугу Э.Х. Применение знаний в автоматизированных системах проектирования и управления, М.: Финансы и статистика, Прикладная информатика №1(8), 1985 г. стр. 7.
22. Лавров С.С. Расширяемость языков. Подходы и практика. М.: Финансы и статистика, Прикладная информатика №2, стр. 17-22
23. Doctorow С. Metacrap: Putting the torch to seven straw-men of the meta-utopia, Электронный ресурс. — Электронные данные. — 2001 г. Режим доступа:http://www.well.com/~doctorow/metacrap.htm, свободный. — Загл. с экрана. — Яз. англ.
24. Nigel Shadbolt, Wendy Hall, Tim Berners-Lee, The Semantic Web Revisited, ШЕЕ Intelligent Systems, may/june 2006, p. 96-101
25. Алексей Чернобровцев. Задачи управления мастер-данными Электронный ресурс. — Электронный журнал. — [М?].: Открытые системы, 2007 г. Режим доступа: http://www.osp.ru/os/2007/05/4260254/, свободный. - Загл. с экрана. — Яз. рус.
26. Дмитрий Гулько. Мастер-данные: найден кратчайший путь к COA Электронный ресурс. Электронный журнал. - [М?].: CNews, 2006 г. — Режим доступа:http://www.cnews.ru/reviews/index.shtml72006/12/21/2293682, свободный. Загл. с экрана. - Яз. рус.
27. John, Сох. Object databases driving new generation of applications. Network World №49 T13. 1996 r. Framingham: Network World. Стр. 32
28. Talend MDM Technology Электронный ресурс. Электронные данные. - Los Altos: Talend Inc. - Режим доступа: http://www.talend.com/master-data-management/talend-mdm-features.php, свободный. - Загл. с экрана. - Яз. англ.
29. Семенов Ю.А., Telecommunication technologies -телекоммуникационные технологии Электронный ресурс. -Электронные данные. [М?]: ГНЦ ИТЭФ, 2010 г. - Режим доступа: http://book.itep.ru/10/petri.htm, свободный. - Загл. с экрана. - Яз. рус.
30. С. Ghezzi, D. Mandrioli, S. Moraska, M. Pezze. A general way to put time in Petri nets, Pittsburg, Pennsylvania: Proc. 5th Internat. Workshop on Software Specification and Design, 1989, p. 60-67.
31. Козюра B.E., Непомнящий B.A., Новиков P.M. Верификация раскрашенных сетей Петри методом роверки моделей, Новосибирск: Сибирское отделение РАН, институт проблем информатики им. А.П. Ершова, препринт 89, 2004 г., стр 5-23
32. Marsan М.А. Stochastic Petri nets: elementary introduction, Lect. Notes in Computer Science Vol. 424, 1989.
33. Chiardo G., German R., Lindemann C. A characterization of the stochastic process underlying a stochastic Petri net, New York: IEEE Transaction on software engeneering, vol. 20№7, july 1994 p, 506514
34. Campas J., Colom J.M., Jungnitz H., Silva M. Approximate throughput computation of stochastic marked graphs, New York: IEEE Transaction on software engeneering, vol. 20№7, july 1994 p, 526-535
35. Дейт, К. Дж. Введение в системы баз данных. Москва, Санкт-Петербург, Киев: Вильяме, 2005 г. Стр. 163-391.
36. Словарь по кибернетике / Под редакцией академика В. С. Михалевича, Киев: Главная редакция Украинской Советской Энциклопедии имени М. П. Бажана, 1989, стр. 534. — 751 с.
37. Чжун Кай-лай, Однородные цепи Маркова. Перев. с англ., М.: Мир, 1964 г., стр. 425
38. Grimes R. Managed Or Unmanaged? Электронный ресурс. — Электронные данные. 2007 — Режим доступа: http://www.grimes.demon.co.uk/dotnet/manunman.htm, свободный. - Загл. с экрана. - Яз. англ.
39. Шатохин В. Вопросы производительности .NET Framework Электронный ресурс. — Электронные данные. — MyCode, 2006 -2008 г. Режим доступа:http://www.mycode.ws/index.php7elijNasp/aspnetl391702016322007 1212.htm, свободный. Загл. с экрана. - Яз. англ.
-
Похожие работы
- Специальное математическое и программное обеспечение минимизации межинтерфейсных потерь при многофазном проектировании
- Разработка и применение методики создания информационной модели проблемной области автоматизации проектирования штампов
- Повышение эффективности процесса разработки систем управления промышленной электроавтоматикой на основе интеграции внешних программных компонентов
- Методы преобразования клиент-серверного программного обеспечения в сервис-ориентированное
- Математическое и программное обеспечение проектирования Интранет-интерфейсов при конкурентной разработке информационных систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность