автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интегрированная система обработки распределенной информации радиационно-химического мониторинга на основе технологии хранилища данных

кандидата технических наук
Гершанов, Илья Владимирович
город
Москва
год
2004
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Интегрированная система обработки распределенной информации радиационно-химического мониторинга на основе технологии хранилища данных»

Автореферат диссертации по теме "Интегрированная система обработки распределенной информации радиационно-химического мониторинга на основе технологии хранилища данных"

На правах рукописи

ГЕРШАНОВ Илья Владимирович

ИНТЕГРИРОВАННАЯ СИСТЕМА ОБРАБОТКИ РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИИ РАДИАЦИОННО-ХИМИЧЕСКОГО МОНИТОРИНГА НА ОСНОВЕ ТЕХНОЛОГИИ ХРАНИЛИЩА ДАННЫХ

05.13.01 - Системный анализ, управление и обработка информации (химическая технология)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва 2004 г.

Работа выполнена в Московской Государственной Академии тонкой химической технологии им. М.В.Ломоносова

Научный руководитель

доктор технических наук, профессор Соболев Андрей Игоревич

Официальные оппоненты:

доктор технических наук, профессор Кузин Рудольф Евгеньевич

доктор технических наук, профессор Чарышев Шамиль Фаттахович

Ведущая организация

ФГУП Всероссийский научно-исследовательский институт химической технологии (ВНИИХТ)

Защита состоится " 27 " " апреля " 2004 года в 14.00 час. на заседании диссертационного совета Д 212.120.08 при Московской Государственной Академии тонкой химической технологии им. М.ВЛомоносова по адресу: 119571, г. Москва, пр. Вернадского, 86.

С диссертацией можно ознакомиться в библиотеке МИТХТ им. М.В.Ломоносова (г. Москва, ул. Малая Пироговская, 1).

Реферат разослан " 26 " " марта " 2004 года.

Ученый секретарь диссертационного совета,

кандидат технических наук

Бурляева Е.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Ан ализ отечественных и зарубежных источников информации показывает, что проблема обработки больших потоков разнородной, или однотипной, но хранящейся в различных форматах информации, которая накапливается в настоящее время в основном в реляционных базах данных, стоит достаточно остро. Использование в реляционных СУБД языка запросов позволяет производить определенные выборки данных, осуществлять их простейшую статистическую обработку, но не решает всей проблемы. Резкое увеличение количества накопленной информации по различным аспектам деятельности того или иного предприятия, и желание все более разностороннего ее анализа с позиций выявления новых зависимостей, чтобы на их основе выработать ответственные управленческие решения, показало невозможность осуществления такого анализа в рамках классических реляционных баз. Ситуация усугубляется тем, что существующие реляционные базы данных предназначены в для оперативной работы, и по мере накопления в них данных и увеличения занимаемого дискового пространства, замедляется работа с базой. Встает вопрос очистки оперативных баз и сохранения отдельных данных, которые могут понадобиться в будущем, в электронном архиве. Для решения подобных вопросов в информационных технологиях возникло новое направление - концепция хранилищ и витрин данных. Основными функциями хранилища данных является сбор информации из различных источников, интеграция данных в логические модели по предметным областям, хранение информации в легко доступной и понятной форме для различных категорий пользователей и предоставление ее разнообразным системам поддержки принятия решения Использование новой технологии не предполагает выбор программного продукта с готовым архитектурным решением. Это, скорее, руководство к выработке гибкого приложения, удовлетворяющего нуждам организации, которое учитывает возможное расширение предметной области ее деятельности, уровень существующей информационной инфраструктуры организации и при этом отвечающего определенным характеристикам

Все чаще руководители крупных организаций соглашаются на "инвентаризацию" информации, накапливаемой в том или ином виде в ее структурных подразделениях, с тем, чтобы выработать единый подход к организации хранения консолидированной корпоративной информации и обеспечению удобного доступа к ней руководителям разных рангов.

Целью настоящей работы является разработка интегрированной системы обработки распределенной информации радиационно-химического мониторинга, позволяющей создать однородную информационную среду на основе данных оперативных систем с использованием технологии хранилищ данных.

Для достижения поставленной цели в работе решаются следующие задачи: проведение анализа основных направлений деятельности регионального- комплекса по обращению с радиоактивными отходами (РАО) и охране окружающей среды и аудита его информационных систем с целью объединения предметных областей, описывающих его технологические процессы;

построение функциональной схемы централизованного хранилища данных предприятия на основе новых структурных характеристик информации;

формирование вербальной модели радиационно-химического мониторинга на основе системного анализа функционирующих в ГУЛ Мос НПО "Радон" экологических баз данных;

инвентаризация форматов данных оперативных систем, согласование способов классификации информации и определение этапов разработки интегрированной системы обработки распределенной информации радиационно-химического мониторинга; разработка алгоритма вычисления агрегированных оценок для выборок данных радиационно-химического мониторинга, ограниченных слева техническими возможностями измерительной аппаратуры;

разработка схемы хранилища данных и репозитария метаданных интегрированной системы обработки распределенной информации радиационно-химического мониторинга.

Научная новизна. В работе получены следующие новые результаты: на основе проведенного системного анализа сформирована вербальная модель информационных потоков в системе радиационно-химического мониторинга на примере ГУЛ Мос НПО "Радон";

на базе ER-модели по схеме типа "снежинка" разработана структура интегрированной системы обработки распределенной информации радиационно-химического мониторинга; разработан алгоритм получения агрегированных оценок для выборок данных радиационного мониторинга, ограниченных слева техническими возможностями измерительной аппаратуры;

получены основные показатели для проектирования централизованного хранилища данных предприятия ГУЛ Мос НПО "Радон".

Практическая значимость; Проведен аудит разрозненных локальных информационных систем крупного территориально разобщенного предприятия осуществляющего обращение с РАО и охрану окружающей среды (ГУЛ МосНПО "Радон")

Разработанное программное обеспечение алгоритма вычисления агрегированных оценок для данных, ограниченных слева техническими возможностями измерительной

аппаратуры, реализовано в существующей информационно-аналитической системе радиоэкологического мониторинга ГУЛ Мос НПО "Радон". " Разработанная схема интегрированной системы обработки распределенной информации и репозитария метаданных реализованы в практической работе ГУЛ МосНПО "Радон" при создании интегрального программного комплекса по региональному радиоэкологическому мониторингу.

" Полученные решения конкретных производственных проблем хранения информации используются в учебном процессе кафедры Информационных технологий МИТХТ при чтении курса "Информационные банки данных в химической и биотехнологии".

Апробация работы

Основные результаты работы докладывались и обсуждались на III Международной научно практической конференции "Проблемы регионального и муниципального управления" (Москва, 2001), IV Международной научно-практической конференции "Участие молодых ученых, инженеров и педагогов в разработке и реализации инновационных технологий" (Москва, 2003), 16 Международной научной конференции "Математические методы в технике и технологиях" (Санкт-Петербург, 2003), а также на ежегодных научно-методических семинарах ГУЛ Мос НПО "Радон".

Публикации

Полученные в работе результаты изложены в 8 опубликованных работах, в том числе в 6 статьях в сборниках статей и 2 тезисах международных научных конференций.

Структура и объем диссертации

Работа состоит из введения, 4 глав и заключения, изложенных на 88 страницах, включая библиографию из 48 источников, 15 рисунков и 7 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, сформулирована цель, определены решаемые задачи, дана общая характеристика работы.

В первой главе сделан обзор литературных источников, в основном посвященный проблемам, связанным с разработкой и проектированием Хранилищ и Витрин данных — сравнительно новому направлению в информационных технологиях. Рассматриваются методология разработки хранилищ, возможные архитектуры их построения, требования к аппаратурному и программному обеспечению. Обращается внимание на важность метаданных в Хранилищах, рассматриваются задачи, решаемые при заполнении их данными. Большое внимание уделено технологии построения Витрин (киосков) данных, рекомендациям по выбору программных продуктов для реализации Хранилищ и Витрин. Анализируются архитектуры систем поддержки принятия решения, тесно связанные с ХД, оцениваются их достоинства и недостатки. Рассматриваются вопросы, касающиеся целей проведения

экологического мониторинга, кратко дается описание информационных систем в этой областиг. Описываются- технологии переработки радиоактивных отходов,-применяемые на специализированных комбинатах для их локализации. Делается вывод, что для ГУЛ Мое НПО "Радон" в силу его специфики, связанной с организацией - долгосрочного хранения радиоактивных отходов с длительным, в сотни и даже тысячи лет периодом полураспада, очень остро стоит вопрос долгосрочного хранения данных о технологиях переработки, а также обеспечения руководству предприятия удобного доступа к разноплановой деятельности комбината Эти вопросы могут быть решены в настоящее время только с применением технологий хранилищ данных.

Вторая глава посвящена анализу производственной деятельности предприятия с целью определения предметных областей централизованного хранения информации, рекомендациям по выбору схемы организации данных в централизованном - корпоративном хранилище, проведению информационного менеджмента системы радиационно-химичееского мониторинга и построению вербальной модели информационных потоков, возникающих при проведении мониторинга

ГУЛ МосНПО "Радон" - ведущее предприятие страны, специализирующееся в области переработки и захоронения радиоактивных отходов (РАО). Территориально в сферу действия комбината входят Москва и 11 областей Центральной части России, из которых производится плановый вывоз РАО специализированным транспортом предприятия. Кроме того, в течение многих лет организация проводит радиоэкологический мониторинг г. Москвы и отдельных регионов Московской области. На рисунке 1 приведена схема организационной структуры, перемещений РАО, проб и информационных потоков, обеспечивающих производственную деятельность предприятия.

| Уприжнист« ранними™] ]

Логистичасаая сметана ВХ и транспортировки Р40

I !

|i I ¡1

¡с 11

1 w ;

1 Г

е 1

Служба обаспачаиия

awaoia РАО (6а>а)

Споцтраислорт

Приам, учат РАО (База)

-Ж-

^ ларамацаниа РАО икферм поте■ и W парамащаниа проб — доаиматрия

К f

Радиационный контроль | ларсомала (База) ** <ц

——tt •

—|—I- .

/ рроиэаодетааниый V / | комплекс |V

♦ /

I

Упраиланчаскиа рашания по лроизиодстванноыу комплексу

т«»и»яоп«к параработии »piHWnmm РАО. оО»СП*Н>НИ§ 6ЧОП1СНОСТМ

-f-JL.

СОРТИРОВКА |>*0 |

I

ПЕРЕРАБОТКА

■ | | ij И м И | 1 || ! Ii 1 ]

Долгосрочны» хранилища, могильники радиоактивных отходов

МОНИТОРИНГ

кол>ао пуиггоа, рагяамаит отбора проб, матодиви

Улраяламчаскиа рашания ло мониторингу олоаащаииа о аыяалаиныа прааышанияж КУ, принятие мар ло ликвидации УРЭ,матоды даэактиаации и лр.

г

Служба PAP (ликвидация УРЭ)

|

1 I

I t г

:

i

4истома контроля и обработки информации радиационио-химииаского | мониторинга г

|Лабораторно-и*маритольныА комплоке (Баш)

ЗХ

Срадетаа отбора проб

Т

I иэмаритальиыа | | датчики |

ОКРУЖАЮЩАЯ СРЕДА

1*1

Г"

Рис. 1. Схема организационной структуры, перемещений технологических и информационных потоков регионального комплекса по

обезвреживанию РАО и охране окружающей среды Здесь РАО - радиоактивные отходы, PAP - радиационно-аварийные работы; УРЗ - участки радиоактивного загрязнения.

Организационно предприятие состоит из двух филиалов, расположенных в городах Сергиевом Посаде и Москве. В Сергиевом Посаде находится завод по переработке отходов, которые сильно различаются по своему физико-химическому состоянию и радионуклидному составу, что заставляет для локализации каждого типа отходов искать наилучшее технологическое решение. На предприятии используются термохимические, высокотемпературные, плазменные, сорбционные и др. методы переработки, позволяющие сокращать объем отходов и переводить их в формы, безопасные для длительного хранения путем, например, остекловывания, цементирования или битумирования. Отходы в настоящее время складируются в "извлекаемой" форме в сооружения специальной конструкции для долгосрочного хранения, где обеспечивается постоянный контроль эффективности защиты от проникновения поверхностных вод или в "могильники" с мощным многофункциональным покрытием, рассчитанным на срок службы более 300 лет. Все операции с РАО производятся с соблюдением мер по обеспечению радиационной безопасности персонала и населения.

В Москве находятся административные, информационные структуры всего предприятия, а также центр, обеспечивающий проведение радиоэкологического мониторинга (РЭМ) города и подготовку ежегодного радиационно-гигиенического паспорта Москвы, основывающегося в большей степени на данных РЭМ. Кроме того, службами этого центра осуществляется радиационно-химический мониторинг ВУЗов, школ, детских садов, строительных площадок и общественных учреждений города. На основе полученных в процессе мониторинга данных выполняются "аварийные" работы, связанные с демеркуризацией, дезактивацией или ликвидацией радиоактивного загрязнения. Транспортировка загрязненных радиоактивных объектов в Сергиев Посад к месту переработки и последующего длительного хранения производится с обеспечением мер-радиационной безопасной для населения и обслуживающего персонала.

Проведенная инвентаризация и аудит имеющихся на предприятии источников данных показала, что в настоящее время информационная поддержка деятельности предприятия -осуществляется с помощью самых различных средств, разноплатформенных оперативных баз, файлов формата Excel и даже рукописных журналов (рисунок 2)

Все эти источники информации можно объединить в 5 предметных областей, описывающих производственную деятельности ГУЛ Мос НПО "Радон". Условно это поставщики РАО, отходы (состав, переработка, захоронение); радиационный контроль персонала; гамма-фон, измеряемый автоматизированной системой контроля радиационной обстановка (АСКРО); сеть наблюдения (мониторинг).

Рис. 2. Информационные источники предприятия и их взаимодействие

Названия внутри объектов - условные наименования баз на предприятии; КУ - контрольный уровень; ДОА - допустимая объемная активность; ПД - предельная доза; ПДК — предел допустимой концентрации.

Серое поле - источники, поддерживаемые в Москве. Очевидно, что на предприятии сложилась классическая ситуация: обилие данных, поступающих в самых разных форматах, и невозможность быстро и эффективно проанализировать их все, выявить возможные закономерности, особенно между разноплановыми, на первый взгляд, задачами. В настоящее

время руководство ГУЛ Мос НПО "Радон" не имеет оперативного доступа к обобщающей информации о работе всего предприятия, и в своей деятельности ориентируется на отдельные запросы-отчеты по каждому из направлений деятельности, что затрудняет принятие стратегических управленческих решений.

Создание централизованного хранилища данных, в котором должна найти отражение приведенная к единому формату данных каждая из укрупненных предметных областей корпоративной информации, снимет большую часть существующих в настоящее время на предприятии проблем. Однако выбор модели его создания зависит не только от требования интеграции всех имеющихся данных, но и от характера запросов со стороны руководства и оперативности их выполнения Анализ деятельности показал, что наибольшая требуемая оперативность выполнения запросов руководства около 30 минут, чаще - несколько часов. Кроме того, чаще всего будут требоваться регламентированные запросы-отчеты, охватывающие несколько предметных областей. Отсюда вытекает выбор физической модели централизованного хранилища данных в виде реляционной модели, которая более удобна для его дальнейшего развития.

На рисунке 3 приведена функциональная схема организации физического хранения данных в централизованном хранилище предприятия. На схеме выделены рамкой таблицы, относящиеся к каждой из описанных выше предметных областей.

Реализация такого проекта, охватывающего деятельность всей организации, потребует принятия стратегических организационных решений, длительного времени, и больших финансовых затрат. Поэтому, определив с системных позиций общую стратегию построения централизованного хранилища, заключающуюся в выборе модели хранения корпоративных данных по всем предметным областям, в качестве первого этапа работы выбрано одно из направлений деятельности предприятия и для него разработана интегрированная система хранения данных.

Из анализа информационной обеспеченности предметных областей, характеризующих работу предприятия, следует, что наиболее подготовленным направлением для осуществления более глубокой проработки идеи создания хранилища, является радиационно-химический мониторинг, так как именно эта система дает первичную информацию для принятия решений по сбору, транспортировке, переработке и длительному хранению РАО. Кроме того, информационная поддержка этого направления обеспечивается, в основном, базами данных, территориально расположенными в одном месте. Все остальные направления требуют более глубокого информационного взаимодействия между филиалами, расположенными в г. Москве и на территории Сергиево-Посадского района

Обл_|Сод Название Плошадь Населете

мэд

Год

Месяц оо

КодМесто /

Рис 3 Функциональная схема данных централизованного хранилища

М

Проведенный системный анализ оперативных баз данных позволил разработать вербальную модель информационных потоков, возникающих при проведении мониторинга в ГУЛ Мос НПО "Радон". В качестве примера фрагмент этой модели, предназначенный для контроля атмосферного воздуха, приведена в таблице 1.

Таблица 1

Фрагмент вербальной модели информационных потоков при проведении мониторинга для контроля атмосферного воздуха

Источник информации Характер ннформаци Частота поступления Хранение данных Назначение информации Принимаемые управленческие

Сред« Тип и решения

Проба Радионуклид-ный состав, активность неделя+ месяц+ квартал+ псшгода+ год ИАСРЭМ (БД ОТБОР, рем, гид, табл. Измерения, Спектры_Г Составление радиационно-гигиенического паспорта Москвы, еженедельная справка состояния атмосферного воздуха Москвы (Мосэкомониторинг), ежегодный отчет в Правительство Москвы о радиационном состоянии города При превышении КУ проверка на возможность ошибок. В случае отсутствия ошибок -информирование правительства, СЭС, мэрии, органов ГО и ЧС Москвы. При выделении техногенных нуклидов (ш1идр Ь информирование тех же органов об аварийном выбросе

Атмосферный воздух Измерение Мощность эквивалентной дозы гамма-фона 30-40 мин. При превышении КУ-до возврата к прежним показателям -15 мин. БД АСКРО, ГИС Составление радиациоино-дтиенического паспорта Москвы, еженедельная справка состояния атмосферного воздуха Москвы (Мосэкомониторинг), ежегодный отчет в Правительство Москвы о радиационном состоянии города При превышении КУ-проверка на сбои аппаратуры. При отсутствии сбоев аппаратуры -информирование правительства, СЭС, мэрии, органов ГО и ЧС Москвы

Выброс Радионуклидн ьш состав, активность не регламентируе тся БД ВЫБРОС Сравнение с выделенными техногенными нуклидами. Модельные расчеты

Норматив Контрольные уровни, предельные величины константы БД ПРЕДЕЛЫ Сравнение с измеренными показателями

Проведенный аудит баз, существующих программ статистической обработки и математических моделей, адаптированных к оперативным базам мониторинга, позволил также наметить этапы работы по созданию интегрированной распределенной системы радиационно-химического мониторинга и определить степень их проработанности (рисунок 4). Пунктиром отмечены задачи, решаемые в работе.

РЭМ -

Рис 4. Схема поэтапной работы при создании интегрированной системы обработки информации радиационно-химического мониторинга

В третьей главе рассматриваются вопросы, связанные с разработкой алгоритма получения агрегированных оценок для выборок данных радиационного мониторинга, ограниченных слева техническими возможностями измерительной аппаратуры - операцией, необходимой при преобразовании данных, и создания промежуточного склада оперативной экологической информации от всех экологических баз

Программный комплекс, рассчитывающей среднее по цензурированным выборкам, является, безусловно, необходимым моментом при агрегировании данных, имеющих большой процент измерений ниже минимально детектируемой активности (<МДА) Существующий алгоритм таких оценок, прошедший проверку на модельных и экспериментальных данных, программно не доведен до автоматически выполняемых вычислений Кроме того, сам алгоритм разработан только для данных, подчиняющихся строго нормальному закону, поэтому он требует осторожного применения при работе с первичными данными экологического мониторинга.

Экспериментальные данные, подчиняющиеся по всем критериям нормальному распределению, при математическом моделировании нормального распределения с такими

же параметрами, могут принимать отрицательные значения, что физически невозможно. Замена п недетектируемых членов выборки конкретными значениями (например, 0,5(МДА)~ или нулем), или простое отбрасывание части выборки приводит к существенному сдвигу агрегированных оценок. Необходимо найти эмпирическую формулу, которая бы "сдвигала" среднее, полученное по достоверно известной части выборки к его истинному положению. Первоначально моделировались нормированные нормальные распределения с широким спектром среднеквадратических отклонений (о) от 0,1 до 1,5, и количеством членов N в выборках от 30 до 200. Выбор диапазона значений а и N определялся диапазоном реальных полученных из анализа различных выборок экспериментальных данных мониторинга и немного перекрывающих в обе стороны размеры' N реально существующих сетей мониторинга (около 50 для проб воды и около 150 для проб грунтов). Чтобы исключить появление в моделируемых выборках отрицательных значений, левая часть выборки заменялась положительными значениями, подчиняющимися логнормальному закону, параметры которого подбирались в каждом случае индивидуально, а остальная часть выборки по-прежнему подчинялась нормальному распределению. Далее стандартным способом. определялось среднее исходного моделируемого распределения и среднего, определенного по N-n правым частям. При этом процент п "отсутствующих" членов варьировался от 0 до 70 - 80% Задача заключалась в нахождении коэффициента, позволяющего "сдвинуть" среднее, полученное по усеченной выборке к его "истинному значению. Для этого для каждой модельной выборки строились зависимости изменения средних, среднеквадратических отклонений и коэффициентов вариаций (отношение среднеквадратического отклонения к среднему) от числа отсутствующих слева членов ряда. Затем все эти зависимости сводились на один график, и методом наименьших квадратов подбиралась аппроксимирующая их кривая. Моделирование и все расчеты проводились с помощью средств, предоставляемых пакетом Microsoft Excel.

В результате были получены формулы, позволяющие "восстановить" истинное значение среднего для ряда из N измерений, если п членов ряда, маркированы "< МДА".

где тОп, Tin - средние и коэффициенты вариации, вычисляемые по достоверным N-n правым значениям выборки;

- восстановленные значения среднего и коэффициента вариации; X ~ n*I00/N-доля "недетектируемых" точек, %;

п - число точек "<МДА"; N - общее число точек в выборке.

Поскольку при получении формул проводились усреднения, оценивались то - то

погрешности о^ =--- восстановленного среднего для каждого моделируемого ряда,

возникающие из-за применения осредненных формул.. Здесь то - истинное значение среднего для моделируемого ряда, и максимальные погрешности не превышали 15 - 20 %, что вполне приемлемо при проведении радиоэкологического мониторинга (рисунок 5).

Тем не менее, поскольку перед загрузкой агрегированных данных в хранилище вопрос о достоверности информации стоит на первом месте, производилась дополнительная проверка полученных формул на реальных данных, взятых из базы радиоэкологического мониторинга (99 проб), после того, как часть данных, первоначально определенная как "<МДА", перемерялась, до получения конкретного значения. Это были измерения содержания l37Cs в пробах растительности. Итак, N = 99; п для примера было взято равным 30, 40 и 50. Истинные значения математического ожидания то, среднеквадратичного отклонения sig и коэффициента вариации ц составили: то - 3,11 Бк/кг; sig = 2,19 Б к/кг; г] = 0,7.

В таблице 2 приведены результаты применения полученных формул для реальных данных в сравнении с "неисправленными" значениями.

Таблица 2

Сравнение исходных и "исправленных" средних-с-их-погрешностямидтносительно

истинного среднего

Параметры неполной выборки Восстановленные параметры

Л Х.% то. «г« 1« Sm<m то. Smc

30 33,3 3,94 2,096 0,53 27,5 0,7 3,19 2,3

40 40,4 4,26 2,095 0,49 38 0,71 ЗД7 4,9

50 50,5 4,7 2,08 0,44 50,9 0,71 3,43 10,2

Исправление среднего цензурированием выборки по предлагаемым формулам приводит к существенному улучшению результатов, а именно, погрешность восстановленных mov уменьшается в 5 - 10 раз по сравнению с не исправленными, исходными топ

Для автоматизации вычислений агрегированных параметров цензурированных слева выборок перед занесением их в хранилище, была разработана программа, позволяющая автоматизировать процедуру восстановления средних значений с использованием приведенных выше формул Программа выполнена в виде модуля на языке Visual Basic, который без дополнительной модернизации включается в программу автоматической загрузки данных в хранилище

Существующие основные оперативные базы данных имеют сложную структуру, связанную с автоматизацией технологической цепочки прохождения проб от ее отбора до занесения результатов спектрометрических, радиометрических и других измерений в базу, и не застрахованы от ошибок, возникающих от действий операторов или сбоев аппаратуры Поскольку перед помещением данных в любое хранилище предполагается их "очистка", приведение к единому формату и пр, в работе разработана структура промежуточной базы (рисунок 6)

ropuUGui Наэважж

OupyrJCo* Название

06JCM Наэеа*«

t оа г .1""

МестоJQu KoAf^eimt? Адрес КодГород КодСЬфуг КсдОбгег»

и -

СредаJCoa Название

РЮЦКод

Ha***HOM№ie

НаименйемчеСИ

РазяерностъСИ

НашеновбнбСн

Ражерность8неСИ

СИ-внеСИ

Изберете » Логрецмкть ' ]КодРазмерпость ' [КолОтбор КодСуиПаранетра КлдНукжда Дата

IfUMnpJtn* Назватв

НупидКм

СМОЛ

Рис. 6 Структура данных промежуточной базы.

Эта новая база данных, имеющая достаточно простую структуру, облегчит анализ информации перед занесением ее в хранилище данных. Промежуточный склад экологических данных разрабатывался как единая реляционная база, содержащая набор таблиц, обеспечивающих временное хранение результирующей информации из любой существующей оперативной базы, поддерживающих мониторинг. После очистки и преобразования полученных на временное хранение данных, база очищается.

Четвертая глава посвящена разработке схемы интегрированной системы обработки распределенной информации радиационно-химического мониторинга и репозитария метаданных.

Проектирование многомерного представления данных начинается с определения основных сущностей предметной области, классифицируемых как факты, и формирования карты измерений. В результате проведенного анализа оперативных баз мониторинга произведена систематизация фактов и измерений для проектируемой интегральной системы экологической информации с указанием баз, из которых берутся данные. Выделены четыре основные сущности, которые являются фактами, и три сущности, отвечающие для фактов на вопросы когда (время), где (место, среда), классифицированные, как измерения (таблица 3). Для каждого факта возможна агрегация данных по времени и по месту.

, . , . Таблица 3

Перечень фактических данных и измерений

Факты Измерения Иерархия • Факты Измерения Иерархия

Активность (РЭМ, Выброс, АвтоГамма) Время ~ Год Время Год

Месяц Месяц

Место Город ЭРОА*' (Радон) Место Город

Округ Округ

Адрес Адрес

Параметр Объект

Среда Среда

Концентрация (РТУТЬ, РЭМ) Время Год МЭД") (АСКРО, УРЗ) Время Год

Месяц Месяц

Место Город Место Город

Округ Округ

Адрес Адрес

Объект Среда

Среда

ЭРОА - эквивалентная равновесная объемная активность (радона) МЭД - мощность эквивалентной дозы (гамма-фона)

В работе показано, что для проектируемой системы наиболее подходит схема хранения данных типа "снежинка". На рисунке 7 приведен фрагмент ER-модели для одного факта разрабатываемой интегрированной системы, а на рисунке 8 - схема данных интегрированной системы, касающаяся собственно данных.

Рис.7. Фрагмент ЕЯ-модели данных радиационно-химического мониторинга

информации радиационно-химического мониторинга

Далее в работе рассмотрены вопросы, связанные с построением метаданных -описание содержания и структуры данных, информация о базах данных, являющихся источниками информации, о проведенных преобразованиях данных перед загрузкой в хранилище и пр. Описываются владельцы (структурное подразделение) той или иной информации, находящейся в хранилище, и на основании чего (какими приборами, методиками пользовались) она получена Это необходимо, чтобы оценить степень достоверности данных. Основным выигрышем от наличия метаданных для конечных пользователей является то, что они гарантированно имеют нужную информацию и могут однозначно трактовать используемые в ходе анализа данные. На рисунке 9 приведена схема репозитария с метаданными интегрированной системы обработки распределенной информации радиационно-химического мониторинга, разработанной на основе технологии хранилищ данных. Таблицы, относящихся к метаданным, начинаются с заглавной буквы "М". Это реляционная, полностью нормализованная база, предоставляющая удобный и привычный доступ к информации.

Для проверки работоспособности предложенной схемы произведено частичное заполнение таблиц интегрированной системы и репозитария реальными данными, разработано и выполнено несколько запросов, включающих как таблицы данных, так и метаданных.

ЗАКЛЮЧЕНИЕ,

В диссертационной работе получены следующие основные результаты': На основе методов системного анализа проанализирована производственная деятельность предприятия по обезвреживанию РАО и охране окружающей среды, и проведен аудит информационных систем с целью объединения предметных областей по основным направлениям деятельности регионального комплекса

Разработана функциональная схема централизованного хранилища данных предприятия на основе новых структурных характеристик информации.

Сформирована вербальная модель информационных потоков при осуществлении радиационно-химического мониторинга Проанализированы этапы разработки интегрированной системы мониторинга, выделены задачи, требующие доработки или полной разработки.

Предложен алгоритм вычисления агрегированных оценок для выборок данных радиационно-химического мониторинга, ограниченных слева техническими возможностями измерительной аппаратуры. Разработан программный модуль, позволяющий реализовать данный алгоритм в интегрированной системе (хранилище) для преобразования данных.

Разработана база данных для промежуточного хранения оперативной экологической информации, обеспечивающая загрузку верифицированной информации в интегрированную систему обработки распределенной информации.

Проведена инвентаризация форматов данных оперативных систем, согласованы способы классификации информации. Разработана ER-модель интегрированной системы по схеме типа "снежинка".

Разработана схема данных и репозитария метаданных интегрированной системы обработки распределенной информации экологической информации на основе технологий хранилищ данных.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Гершанов. И.В., Ужастов ИГА., Тиан Пинг Особенности детерминированной регистрации процессов обработки данных в системах экологического мониторинга //Журнал "Проблемы управления безопасностью сложных систем", №7, 1997, с. 17-19.

2. Гершанов И.В., Пелихов В.П. Методы оценки полноты информационного описания предметной области. //Журнал "Проблемы управления безопасностью сложных систем", №7,1997, с. 28-30.

3. Гершанов И.В. Обеспечение полноты описания предметной области в распределенных системах обработки информации. // Журнал "Проблемы управления безопасностью сложных систем", №8,1998, с. 15-17.

4. Гершанов И.В., Тиан Пинг Особенности регистрации процессов обработки данных в разноплатформенных распределенных системах управления. //Журнал "Проблемы управления безопасностью сложных систем", №8,1998, с. 29-30.

5. Гершанов И.В. Обеспечение полноты и достоверности описания предметной отрасли ПСУ в региональном управлении. // Сборник докладов и сообщений Ш Международной научно-практической конференции "Проблемы регионального и муниципального управления", Москва, 2001, с. 121-122.

6. Соболев А.И., Гершанов И.В., Вербова Л.Ф. Специальное программное обеспечение для обработки информации при принятии управленческих решений в задачах контроля радиационного фона // Сборник "Компьютерные и информационные технологии обработки и анализа данных", Муром, 2001, с.135-138.

7. Соболев А.И., Вербова Л.Ф., Гершанов ИВ. Построение однородной информационной, среды на основе технологии хранилища данных в системах радиационного и химического мониторинга. // Доклады IV Международной научно-практической конференции "Участие молодых ученых, инженеров и педагогов в разработке и реализации инновационных технологий", Москва, 2003, с.215-217.

8. Соболев А.И., Тихомиров В.А., Вербова Л.Ф., Зубов В.Ю., Гершанов И.В., Алешин Д В. Интегральный комплекс радиационных измерений как склад-хранилище данных радиоэкологического мониторинга // Журнал "Ядерные измерительно-информационные технологии", № 1,2004, с. 21-24.

»-6 134

Подписано в печать 18.03.2004 Формат 60x84/16. Бумага писчая. Отпечатано на ризографе. Уч.изд.пистов 1,2 Тираж 100 экз. Заказ № 40 Лицензия на издательскую деятельность ИД №03507 (per. № 003792) код 221 Издательско-полиграфический центр МИТХТ им.М.В.Ломоносова 119571, Москва, просп. Вернадского, 86