автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интеграция данных по свойствам неорганических веществ из гетерогенных источников для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений

кандидата технических наук
Масютин, Виталий Викторович
город
Москва
год
2012
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Интеграция данных по свойствам неорганических веществ из гетерогенных источников для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений»

Автореферат диссертации по теме "Интеграция данных по свойствам неорганических веществ из гетерогенных источников для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений"

На правах рукописи

Масютин Виталий Викторович

Интеграция данных по свойствам неорганических веществ из гетерогенных источников для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений

05.13.01 - системный анализ, управление и обработка информации (химическая промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

2 2 НОЯ 2012

Москва 2012

005055388

005055388

Работа выполнена на кафедре Информационных технологий федерального государственного образовательного учреждения высшего профессионального образования «Московский государственный университет тонких химических технологий имени М.В. Ломоносова» (МИТХТ им. М.В. Ломоносова).

Научный руководитель кандидат технических наук, доцент

Дударев Виктор Анатольевич

Официальные оппоненты доктор технических наук, профессор

Костров Алексей Владимирович, Заслуженный деятель науки Российской Федерации, профессор кафедры Информационных систем и информационного менеджмента Владимирского государственного университета

кандидат технических наук

Зубов Владимир Юрьевич,

директор центра комплексной технологической

интеграции ФГУП МосНПО «Радон»

Ведущая организация Российский химико-технологический университет

им. Д.И. Менделеева

Защита состоится «А» « декабря » 2012 года в 14.00 часов на заседании диссертационного совета Д 212.120.08 при Московском государственном университете тонких химических технологий имени М.В. Ломоносова по адресу. 119571, г. Москва, просп. Вернадского, 86.

С диссертацией можно ознакомиться в библиотеке МИТХТ им. М.В. Ломоносова (119571, г. Москва, просп. Вернадского, 86).

Автореферат диссертации размещен на сайте ВАК http://vak.ed.gov.ru.

Автореферат разослан «2» «ноября» 2012 г.

Ученый секретарь диссертационного совета, доктор технических наук

Колыбанов К.Ю.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Обеспечение химиков-технологов достоверной информацией о свойствах и технологиях получения современных веществ является необходимым условием развития современной промышленности. В настоящее время качественная информационная поддержка специалистов невозможна без использования специализированных баз данных (БД). Как правило, БД по свойствам веществ разрабатываются в разных организациях и даже в разных странах.

Как правило, современные информационные системы (ИС) для обеспечения оперативности доступа к наиболее актуальной информации предоставляют различные интерфейсы доступа к данным из глобальной сети Интернет. Полная интеграция таких систем невозможна из-за различных форматов данных, разного уровня качества данных, хранящихся в разных БД, и режимов доступа к данным в ИС источников данных.

В последние годы наблюдается тенденция к кооперации в разработке ИС и к интеграции уже созданных ИС, как на национальном, так и на международном уровне. Актуальность решения этой задачи вызвана стремлением устранить необоснованное дублирование работ и уменьшить затраты на разработку и поддержку ИС. Кроме того, интеграция информации, содержащейся в ИС по свойствам веществ и технологиям их получения, позволяет применять методы компьютерного анализа для поиска взаимосвязей в данных. Использование найденных взаимосвязей позволяет проводить компьютерное конструирование новых перспективных соединений, обладающих заданными свойствами. Получаемая с помощью интегрированной ИС обобщенная информация может быть использована специалистами для поддержки принятия решений при выборе того или иного вещества и технологии его получения для использования в изделиях современной промышленности.

Цель работы

Целью диссертации является обеспечение информационной поддержки принятия решений при компьютерном конструировании неорганических соединений на основе интеграции гетерогенных баз данных.

Для достижения поставленной цели в диссертации поставлены и решены следующие задачи:

• Проведен системный анализ технологий интеграции гетерогенных информационных систем;

• Разработан комплекс информационных моделей технологий интеграции гетерогенных баз данных;

• Выполнено прогнозирование кристаллической структуры неорганических соединений по данным, полученным из гетерогенных баз данных;

• Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции гетерогенных баз данных.

Объект исследования

Объектом исследования являются базы данных по свойствам неорганических соединений и технологии их интеграции. Предмет исследования

Предметом исследования является применение технологий интеграции данных для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений. Научная новизна

1.Ha основе проведенного системного анализа технологий интеграции данных разработана обобщенная схема интеграции данных;

2. Разработан комплекс информационных моделей для технологий интеграции данных;

3. Выполнено прогнозирование кристаллической структуры ряда соединений по данным, полученным из двух гетерогенных баз данных. Практическая значимость работы

1.Ha основе разработанного комплекса информационных моделей предложена структура информационной системы для интеграции корпоративной информации;

2. Разработан предметный посредник для интеграции данных двух баз данных по свойствам неорганических соединений;

3. Разработана схема защиты данных при интеграции корпоративной информации;

4. Показана возможность интеграции разнородных данных для прогнозирования кристаллической структуры ряда неорганических соединений.

Методы исследования

В основу решения поставленных задач положены методы системного анализа (декомпозиция, классификация, иерархическое упорядочение, абстрагирование, формализация, композиция, моделирование), методология функционального моделирования систем IDEF0, методология моделирования потоков данных DFD, методология проектирования баз данных IDEF1X, теория реляционных баз данных, структурированный язык запросов SQL, иерархическая модель данных XML, методология быстрой разработки приложений RAD.

Апробация работы

Результаты работы были представлены на научно-технических конференциях «Наукоемкие химические технологии 2011», МИТХТ им.М.В.Ломоносова, Москва, 2011; «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010; «Приоритетные направления развития науки, технологий и техники», Российская академия естествознания, Москва, 2012.

Публикации

По материалам диссертации опубликовано 6 печатных работ, в том числе 2 статьи в журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 4 публикации в сборниках трудов и тезисов докладов научно-технических конференций.

Структура диссертации

Диссертационная работа состоит из введения, 4 глав, заключения и приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении рассмотрены актуальность и практическая значимость работы. Сформулирована цель работы и поставлены задачи, решение которых необходимо для достижения поставленной цели. Рассмотрены методы исследований, научная новизна, апробация работы. Приведена структура диссертации и краткое содержание основных разделов.

В первой главе «Системный анализ технологий интеграции гетерогенных информационных систем» рассмотрены базовые информационные процессы обработки информации в локальных и распределенных ИС, проведен системный анализ технологий интеграции гетерогенных ИС, выявлены особенности информационного обмена при различных технологиях интеграции ИС, разработана обобщенная схема интеграции гетерогенных ИС и приведены рекомендации по выбору технологий интеграции.

Типовая структура ИС включает в себя ряд подсистем, реализующих базовые информационные процессы сбора, хранения, передачи, обработки и представления информации. На рис. I представлены информационные процессы, протекающие в локальной ИС. В ней реализуются все основные процессы (кроме информационного обмена с внешними ИС).

Рис. 1. Информационные процессы в локальной ИС.

Запрос от пользователя, сформированный при помощи интерфейса (1) поступает в модель управления, который на основе метаданных (2) обращается к подсистеме хранения данных. Далее выполняется непосредственное извлечение (3) и обработка данных (4). Результаты представляются пользователю при помощи интерфейса (5).

Переход от локальной БД к распределенной, но однородной БД требует минимальных изменений в схеме обработки информации. Метабаза должна быть дополнена сведениями о распределении данных по множественным источникам. Наличие гетерогенных ИС, обладающих различными форматами хранения данных и различными процессами их обработки, обуславливает необходимость модификации процессов обмена информацией и требует применения той или иной технологии интеграции ИС.

К наиболее распространенным технологиям интеграции гетерогенных ИС относятся технологии интеграции корпоративной информации (Ell - Enterprise Information Integration), интеграции корпоративных приложений (EAI -Enterprise Application Integration) и интеграции корпоративных данных (ETL -Extract, Transform, Load). В табл. I приведены критерии сравнения технологий интеграции гетерогенных ИС.

В ряде случаев возможно использование единственного варианта интеграции данных. Например, отсутствие доступа к исходным данным предопределяет использование технологии интеграции приложений EAI, а требование доступности данных независимо от работоспособности ИС источника данных — применение технологий хранилищ данных ETL.

Таблица 1. Критерии сравнения технологий интеграции _гетерогенных информационных систем

Критерий Объект интеграции ЕП Исходные данные Ell Исходные данные ЕА1 Приложения, обрабатывающие исходные данные

Объем извлекаемых данных Все данные Только запрашиваемые пользователем данные Только запрашиваемые пользователем данные

Доступ к данным источника Требуется, в полном объеме в момент извлечения данных Требуется, частичный в момент запроса к данным Не имеется

Актуальность извлекаемых данных Актуальны на момент последней загрузки Данные всегда актуальны Данные всегда актуальны

Хранение извлеченных данных Долговременное, в собственном хранилище данных Кратковременное, в оперативной памяти Кратковременное, в оперативной памяти

Формат извлекаемых данных Определяется ИС источника данных Определяется ИС интеграции данных Определяется ИС источника данных

Извлечение данных Выполняет ИС интеграции данных Выполняет ИС источника данных Выполняет ИС источника данных

Преобразование формата данных Выполняет ИС интеграции данных Выполняет ИС источника данных Выполняет ИС источника данных

Обработка данных Выполняет ИС интеграции данных Выполняет ИС интеграции данных Выполняет ИС источника данных

При объединении ИС информационные процессы 1—5 (рис. 1) будут реализованы в различных ИС (множественных ИС источников данных либо в центральной ИС интеграции) при помощи специализированных программных компонентов (модулей). На основе системного анализа информационных потоков составлена обобщенная схема интеграции гетерогенных ИС (рис. 2). Пунктиром на схеме показаны условные границы интегрируемых ИС.

Хранение данных

Извлечение Г?мзо6разован1№

ГВредстявление данных

Рис. 2. Обобщенная схема интеграции гетерогенных ИС ИС источников данных могут работать автономно в локальном режиме (верхняя часть схемы). Интеграция приложений ЕА1 требует применения в посредника интерфейсов, управляющего передачей сообщений между интегрируемыми приложениями на основе метабазы внешних приложений. При этом извлечение и обработка данных выполняются в ИС источников данных, а результаты могут быть представлены как в интерфейсе ИС интеграции, так и в интерфейсах исходных ИС.

Интеграция на основе технологий хранилищ данных ЕТЬ включает модули извлечения исходных данных в форматах ИС источников (на основе метабазы внешних данных), преобразование их к формату хранилища данных и загрузки

в локальное хранилище (на основе метабазы хранилища данных). Локальное расположение всех модулей обработки данных требует доступности ИС источников только на момент первичного извлечения данных.

При использовании технологии интеграция данных Ell исключается трудоемкая стадия разработки и заполнения промежуточного хранилища данных, но требует постоянного доступа к ИС источников данных и размещения в исходных ИС адаптеров извлечения данных и преобразования к единому формату ИС интеграции.

При интеграции гетерогенных ИС (в отличие от локальной ИС) необходима реализация процессов внешнего информационного обмена. На обобщенной схеме интеграции (рис. 2) эти процессы представлены стрелками информационных потоков, пересекающими условные границы ИС. Также процессы передачи информации имеют место при реализации удаленного доступа пользователей к интерфейсу ИС интеграции.

Во второй главе «Информационное моделирование технологий интеграции данных» разработан комплекс информационных моделей, используемых для проектирования и разработки ИС интеграции данных. На основе проведенного в первой главе системного анализа технологий интеграции данных построены диаграммы потоков данных DFD в ИС интеграции данных, функциональные модели IDEF0 процессов обработки информации при интеграции данных, разработаны реляционная модель IDEF1X данных предметного посредника и иерархическая модель данных XML для обмена информацией с ИС источников данных.

Контекстная диаграмма потоков данных технологий интеграции данных приведена на рис. 3.

Источники данных

Метаданные

Рис. 3. Контекстная диаграмма потоков данных технологий интеграции данных Контекстная диаграмма представляет собой наиболее обобщенное представление процессов интеграции данных. Три различных абстрактных накопителя данных подчеркивают различие в форматах и назначении данных.

Диаграмма потоков данных первого уровня декомпозиции технологий интеграции данных, представленная на рис. 4, содержит более детальное представление процессов интеграции данных. Тем не менее, на ней не отражены некоторые существенные отличия технологий интеграции данных Ell и ETL, такие как расположение накопителей данных и модулей обработки данных (локальное или удаленное по отношению к ИС интеграции данных), а также связанные с ними различия в метаданных. Различия в технологиях интеграции данных отражены на более детальных представлениях второго уровня декомпозиции диаграмм потоков данных.

ботка 1ЫХ

Данные для пользователя

Рис. 4. Диаграмма потоков данных первого уровня декомпозиции технологий интеграции данных

Процесс извлечения данных при использовании технологии ETL выполняется в пакетном режиме программными модулями ИС интеграции, при этом необходим полный доступ к данным ИС источника. Извлечение данных по технологии Ell выполняется адаптерами данных в ИС источников данных в режиме реального времени с предоставлением доступа к небольшому объему извлекаемых данных.

Преобразование форматов данных осуществляется на основе метабазы внешних данных, однако по технологии Ell это выполняется адаптерами ИС источников данных, а по технологии ETL - модулями ИС интеграции. Хранение преобразованных данных в реальном накопителе данных (хранилище данных) предусмотрено только в случае использования технологии ETL.

Смена формата данных в ИС интеграции требует корректировки метаданных, а также внесения изменений во все модули (адаптеры) преобразования форматов. Смена формата данных в ИС источника данных может быть реализована более прозрачно для ИС интеграции, поскольку требует корректировки только адаптеров ИС источников данных и не затрагивает метаданные ИС интеграции.

TRIPLE_GRAF OOU8LE_EXP ooueiHi.fxireoM

jfäjxutn............■ - Поред»оа)яй MCftwp «еобрзжеияч - Парял^кмывкомер.згтк» j j ^NjCOÜNT - ПорядхооыЛ гописи

¿аг.:: Uli $_ru -3лвме ысисте«*

s_m - Зявчйитмгиоинм S.A2 sleL2

S_EI3 S_FAZA

sjms - П«9»о к гдофкку (ОШШ Ь_1.:НП

IJMÜ НЛ .......|-,i;i,r.i.;|," | N. NiiWE

iS_COMPÖUNDJIAM£ •• Htiü.w»? <И£ЧМ* А«- Üa-In. «с) N_P0G»1: sjCisB

NJlMPtliAfURA S PROVOD

DOU8LE_GRAF N.fÖGKJ WJCCNC

MJ'MSS NJ45GR1

________ - ««ж) «¡гЛра^'гин.ч N.fOÜKJ M_TtMPif(ATURA

SjÜ . " Ы.НШ -СОвммиалиприумАЖМ? liJiZMV N_?OGIU...................

...... > S_COMBOUNl>JiAMi - Нмегниг o* {Ag-Ga, etc} VPAR

Sjrnti - Падчжь к графику

L ¡MG - Ияобдонимие <№ому daia> ...

S_COMPCUND_HAWf H_S)CM -Ссыли» ид мтртн ДОВОДА. .ЧЕЛ»!

- Нл>глж* i-i«гемм «ts.)

Зкспари «дентальные д-зняые {точки фазовой ДЯЙГрЗММы) {•!<!Ч«(Л фЗНИЦ (>f)/«nrt>1 i-(>M)?f4!HOOa« п а пу проводив здз аых Ф«з>

Рис. 5. Фрагмент структуры реляционных данных БД «Фазы»

Для интеграции данных с использованием технологии ЕГГ был разработан предметный посредник с использованием иерархической модели данных XML. Это позволяет обойтись без разработки трудоемких процедур согласования реляционных данных, что было бы необходимо в случае использования хранилища данных.

В главе 3 «Применение технологий интеграции данных для компьютерного конструирования неорганических соединений» рассмотрена структура информационной системы для компьютерного конструирования неорганических веществ, методика проведения вычислительного эксперимента, выполнено прогнозирование типа кристаллической структуры соединений различного состава и получена оценка достоверности прогнозов.

Халькогенидные шпинели состава АВ2Х4 (X = S, Se, Те) представляют интерес для поиска новых магнитных полупроводников, подобных известным фазам состава CdCr2S4, CdCr2Se4, HgCr2Se4, ZnCr2Se4, CuCr2Se4, FeCr2S4 и т.д. Халькогенидные магнитные полупроводники со структурой шпинели нашли применение в полупроводниковых приборах с управлением магнитным полем, например, в управляемых МДП-структурах, в приборах, использующих гигантское (до 5*106 град/см) фарадеевское вращение плоскости поляризации в магнитном поле, в квантовых приемниках и элементах памяти, работающих на принципе сильного фотомагнетизма в магнитном поле. Халькогенидные шпинели могут использоваться также в узкополостных источниках света, управляемых магнитным полем. Перспективно применение халькошпинелей в интегральных схемах, в которых один участок используется как активное полупроводниковое устройство, а другой - как магнитный микроволновой прибор, а также в устройствах, где существенна взаимосвязь электрических, магнитных и оптических свойств. Интерес с халькошпинелям вызывает и обнаружение слабой сверхпроводимости у некоторых из этих фаз. Халькошпинели рассматриваются как перспективные термоэлектрические материалы.

В БД «Фазы» хранится информация о более тысячи соединений состава АВ2Х4. Для —2/3 этих соединений существуют данные о кристаллической структуре (рис. 6).

ЮОп

®Th3P4 Ш шпинель

□ CaFe204

□ NiCr2S4

■ PbGa2Se4 BMnEr2S4

оливин ÜCaHo2Se4

CdAI2S4 übeta-K2S04 E3 PbCr2S4 PbBi2S4

гг^г-r оеи_

Рис. 6. Гистограмма распространенности типов кристаллической структуры тройных халькогенидов состава АВ2Х4

В последние годы были синтезированы и изучены сотни новых халькогенидных соединений подобного состава, что позволило уточнить прогнозы возможности образования новых соединений этого состава и типа их кристаллической структуры при обычных условиях за счет использования новых данных.

Поиск закономерностей образования различных кристаллических фаз проводился в многомерных пространствах свойств компонентов, перечень которых даны в таблице 2. Химические системы представлялись в виде набора значений свойств химических элементов А, В и X. Информация о свойствах химических элементов была взята из БД «Элементы».

Таблица 2. Свойства элементов, использованные для описания соединений состава АВ2Х4

м Свойство М Свойство

I Псевдопотенциальный радиус (по Цангеру) 13 Первый потенциал ионизации

Температура плавления 14 Второй потенциал ионизации

Ковллентный радиус АЧ Третий потенциал ионизации

4 Квантовый номер 16 Химический потенциал Мидеыы (только для элементов А и В)

} Расстояние до внутренних электронов (по Шуберту) 17 Номер группы Столько для элементов А н В)

6 Расстояние до валентных электронов (по Шуберту) 18 Регулярный номер (по Менделееву-Петтифору)

Ионный радиус (по Бокию и Белову) 19 Температура Дебая (только для элементов А и В)

3 Температура кипения 20 Молярная теплоемкость

9 Зитальпия испарения 21 Энтропня твердого тела

10 Энтальпия плавления 22 Теплопроводность

II Электроотрицателыюсть (по Мартынову-Бацанову) 23 Количество валентных электронов (только для элементов А и В)

12 Энтальпия атомичацин

Для обучения были использованы 835 примеров образования соединений (класс 1) и 154 отсутствия соединений состава АВ2Х( (X = 8, 5е или Те) (класс 2) в системах АХ-В2Х3, АХ2-ВХ и А2Х-ВХ3 при обычных условиях.

Для прогноза возможности образования еще неполученных соединений состава АВ2Х4 использовались лучшие по результатам экзаменационного распознавания методы принятии коллективных решений: метод Байеса, метод логической коррекции и методы, основанные на нахождении шаблонов принятия решений и областей компетенции. Результаты прогноза по этим четырем методам сравнивались. Далее для прогнозируемых соединений прогнозировался тип кристаллической структуры при нормальных условиях. Фрагмент результатов прогнозирования кристаллической структуры приведен в таблице 3.

Таблица 3. Прогноз типа кристаллической структуры соединений состава

А1УВП28е4 при нормальных условиях

А В ■п Сг Мп № Се Ъг N1» Мо НИ Бп XV Ие РЬ и

Ве -> 16 16 9 5

мй #2 2 о Л 6 6

Са ■■у -> 2 -> -> 6 ->

Т1 9 #9 #9 9 9 9 9

V 9 #9 #9 9 9 9 9 9 14

Сг ¿17 Щ) 9 »9 #17 9 1 14 14

Мп #2 9 9 9 -> п

Ее «9 9 9 9 9 9 1

Со 9 2 1 17

№ 17

Си 17 П 17

Ъп 15 15 #15 15 15 15 #17 15 17 I 7

ва 17 *4 «17 = 17 #5

ве 17 Л #17 17 17

Яг 12 6 12 12 12 12 б б 6 12 6 б

ри 17 1 17 17

АЙ 17 П 17 17 17 #17 #17 #17 17

С'<1 »17 #17 17 1 7

«и #17

Ва б б б 6 б #12 б б 6 6 6

Ьа 12 #8 12 12 12 16 16 О 16 16 #8 12

Се 12 #8 12 12 12 12 12 12 12 12 12 #8 12

Использованы следующие обозначения:

1 — прогноз структуры типа шпинели;

2 — прогноз структуры типа оливина;

3 — прогноз структуры типа МпЕг284;

4 - прогноз структуры типа СёА1284;

5 — прогноз структуры типа РЬСа28е4;

6 - прогноз структуры типа Р-К2804;

7 — прогноз структуры типа СаРе204;

8 — прогноз структуры типа ТЬзР4;

9 — прогноз структуры типа №Сг284;

10 - прогноз структуры типа СаНо28е4;

11 - прогноз структуры типа РЬВЬ84;

12 — прогноз структуры типа Ое8г284;

13 — прогноз структуры типа Т18е;

14 — прогноз структуры типа РЬСг284;

15 - прогноз структуры типа сфалерита;

16 —прогноз кристаллической структуры, отличной от приведенных выше;

17 - прогноз отсутствия соединения АВ2Х4 при нормальных условиях; значком # отмечены объекты, использованные для обучения ЭВМ; Пустые клетки - несовпадения прогнозов с применением разных

коллективных методов или неопределенный прогноз.

В четвертой главе «Защита информации в технологиях интеграции данных» рассмотрены базовые принципы защиты информации в компьютерных сетях, выполнен анализ потенциальных угроз информационной безопасности, сформулированы критерии выбора технологических решений по защите информации. На основе проведенного анализа угроз и разработаны схемы защиты информационного обмена ИС интеграции данных с ИС источников данных и получателями данных.

К основным видам потенциальных угроз информационной безопасности относятся угрозы несанкционированного доступа к данным; угрозы потери, уничтожения, искажения и фальсификации данных; угрозы нарушения работоспособности информационной системы. Следует отметить, что данные типы угроз актуальны не только для информационной системы, но и для систем, в которых расположены источники данных - злоумышленник может использовать сервера системы в качестве плацдарма для атаки на источники данных.

Основу защиты данных при передаче по открытым каналам связи сети Интернет составляет применение технологии виртуальных частных сетей (VPN — Virtual Private Network), при помощи которой в открытых каналах связи эмулируется защищенный туннель, недоступный для внешних (неавторизованных) пользователей.

Организация VPN-туннеля между двумя сетевыми устройствами требует наличия специализированного программного либо аппаратного обеспечения с возможностью поддержки и использования одинаковых алгоритмов шифрования и аутентификации.

При выборе технологических решений по защите информационного обмена были рассмотрены и учтены следующие критерии:

• Объем передаваемых данных между участниками (влияет на величину сетевого трафика и на загрузку серверной подсистемы);

• Частота установления соединений между участниками (влияет на загрузку серверной подсистемы);

• Возможность или необходимость использования аппаратных решений (снижает нагрузку на программное обеспечение, но требует установки и настройки аппаратных средств);

• Системные требования к аппаратному и программному обеспечению (влияет на стоимость установки и сопровождения);

• Требования к квалификации участников информационного обмена;

• Степень защищенности информационной сети, в которой расположены взаимодействующие устройства;

• Вероятность компрометации учетной записи пользователя и заражения взаимодействующих устройств (внедрения вредоносного программного обеспечения, нарушающего информационную безопасность);

Схема защиты информационного обмена между источниками данных и ИС интеграции (рис. 7) разработана с учетом следующих требований:

• Источников данных относительно немного;

• Источники данных заранее определены;

• Количество соединений относительно небольшое;

• Частота установки соединений относительно высока;

• Объем передаваемых данных относительно большой;

• Допустимо применение специфических аппаратных решений;

• Допустимо применение специализированного программного обеспечения;

• Квалификация персонала достаточна для использования специализированных средств установки УРЫ-соединений;

межсетевой gs? Маршрутизатор акрам

с подаержмоб ç ™ддержксй

¡fSecVPN

Межсетееой tepaef)

^ интегрирование^

лршюжекии wf е подачкой

Ы ВаЗНОЩЫИ ИГ'/:: XMifiQL

ИС источника данн*»

Рис. 7. Схема защиты информационного обмена между источниками данных и ИС интеграции Использование технологии IPsec VPN позволяет предотвратить ряд угроз информационной безопасности и обеспечивает:

• подтверждение достоверности источника данных (аутентификацию источника данных);

• защиту передаваемых по открытым каналам сети Интернет данных от перехвата (алгоритмы шифрования данных);

• защиту передаваемых по открытым каналам сети Интернет данных от искажения (алгоритмы проверки целостности передаваемых данных).

• Конфиденциальность методов и технологии обмена данным;

Схема защиты информационного обмена между ИС интеграции и конечными пользователями (рис. 8) разработана с учетом следующих требований:

• Количества пользователей на порядки выше количества источников данных;

Количество соединений, устанавливаемых одним пользователем, невелико;

Объем передаваемых данных между ИС интеграции и пользователем относительно небольшой;

Квалификация пользователя неизвестна (может быть любой); Степень лояльности и мотивы пользователя неизвестны; Тип оборудования, операционная система и установленное пользователем программное обеспечение неизвестны;

Нежелательна установка специализированного программного обеспечения; Недопустимо применение специфических аппаратных решений.

Soiitvi ценный SSI VPN гуииегсь

Поль jos3ref ь 1

Сервер интегрированной

Межсетевой

экран приложений с поддержкой технологии анализа и езлидации синтаксиса

HTMt, XML. sat

экран с поддержкой технологии состояния сессии и SSLVPN

Пользователь М

Рис. 8. Схема защиты информационного обмена между ИС интеграции и пользователями Использование технологии SSL VPN позволяет предотвратить ряд угроз информационной безопасности и обеспечивает:

• Проверку подлинности участников информационного обмена (посредством использования цифровых сертификатов);

• Защиту передаваемых по открытым каналам сети Интернет данных от перехвата (посредством использования алгоритмов шифрования данных);

• Защиту передаваемых по открытым каналам сети Интернет данных от искажения (посредством использования алгоритмов проверки целостности передаваемых данных);

Использование аппаратных межсетевых экранов с функцией терминации HTTPS/SSL-соединений снижает нагрузку на сервер интегрированной ИС.

Использование предложенных технологий защиты информационного обмена обеспечивает защиту от потенциальных угроз информационной безопасности, не снижает производительность ИС интеграции и обеспечивает возможность применения различных программных средств программной реализации информационных процессов.

Заключение

В диссертационной работе получены следующие результаты:

На основе проведенного системного анализа технологий интеграции

данных разработана обобщенная схема интеграции данных;

Разработан комплекс информационных моделей для технологий

интеграции данных, включающий диаграммы потоков данных DFD,

функциональную модель процессов обработки информации IDEF0,

иерархическую модель данных XML;

На основе разработанного комплекса информационных моделей предложена структура информационной системы для интеграции корпоративной информации;

Разработан предметный посредник для интеграции данных двух баз данных по свойствам неорганических соединений;

Показана возможность интеграции разнородных данных для прогнозирования кристаллической структуры ряда неорганических соединений;

Выполнено прогнозирование кристаллической структуры ряда соединений по данным, полученным из двух гетерогенных баз данных;

Разработана схема защиты данных при интеграции корпоративной информации по открытым каналам связи сети Интернет.

Публикации по теме диссертации

Статьи в журналах, рекомендованных ВАК для опубликования результатов диссертационных работ:

1. Дударев В.А., Масютин В.В. На пути к единой информационной системе по свойствам неорганических веществ // Интеграл, №6(50), 2010

2. Дударев В.А., Масютин В.В., Поляков A.A. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика, №4(40), 2012

Статьи и тезисы докладов:

3. Масютин В.В. Информационное моделирование технологий интеграции данных. // Материалы II научно-практической конференции «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010

4. Масютин В.В., Дударев В.А. Системный анализ технологий интеграции гетерогенных баз данных. // Материалы VII международной научно-практической конференции «Новейшие достижения европейской науки -2011», том 34, Математика, София, 2011

5. Масютин В.В., Дударев В.А. Компьютерное конструирование новых неорганических соединений состава АВ2Х4. // Материалы научно-технической конференции «Наукоемкие химические технологии 2011», МИТХТ им.М.В.Ломоносова, Москва, 2011

6. Масютин В.В. Защита информации в технологиях интеграции данных // Материалы научно-практической конференции «Приоритетные направления развития науки, технологий и техники», Российская академия естествознания, Москва, 2012

Подписано в печать 30.10.2012. Формат 60x84/16, бумага писчая. Отпечатано на ризографе. Уч.-изд. Л.0,9. Тираж 100экз. Заказ №143

Московский государственный университет тонких химических технологий им. М.В. Ломоносова Издательско-полиграфический центр МИТХТ, 119571, Москва, пр. Вернадского, 86

Текст работы Масютин, Виталий Викторович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «московский государственный университет тонких химических технологий им.м.в.ломоносова»

На правах рукописи

УДК 004.8:669.017:004.78 (043.3]

04201354970 Масютин Виталий Викторович

ИНТЕГРАЦИЯ ДАННЫХ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ ИЗ ГЕТЕРОГЕННЫХ ИСТОЧНИКОВ ДЛЯ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ПРИ КОМПЬЮТЕРНОМ КОНСТРУИРОВАНИИ НЕОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

05.13.01 - Системный анализ, управление и обработка информации

(химическая промышленность)

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель-к.т.н., доц. Дударев В.А.

Москва, 2012

СОДЕРЖАНИЕ

ВВЕДЕНИЕ...................................................................................................................4

ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ТЕХНОЛОГИЙ ИНТЕГРАЦИИ

ГЕТЕРОГЕННЫХ ИН ФОРМ А ЦИОННЫХ СИСТЕМ......................8

1.1. Основные принципы и методы системного анализа......................................8

1.2. Базовые информационные процессы обработки информации в локальных информационных системах.............................................................13

1.3. Технология интеграции корпоративной информации Ell.........................16

1.4. Технология интеграции на основе хранилищ данных ETL........................18

1.5. Технология интеграции корпоративных приложений EAI........................20

1.6. Обобщенная схема технологий интеграции гетерогенных информационных систем.........................................................................................22

ГЛАВА 2. ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ ТЕХНОЛОГИЙ

ИНТЕГРАЦИИ ДАННЫХ.....................................................................29

2.1. Моделирование потоков данных в информационных системах интеграции данных.....................................................................................................29

2.2. Функциональное моделирование технологий интеграции данных.....34

2.3. Информационные системы по свойствам неорганических веществ

ИМЕТРАН......................................................................................................................38

2 3 1 Информационная система по свойствам неорганических

соединений "Фазы" 39

2 3 2 Информационная система по фазовым диаграммам систем с

полупроводниковыми фазами "Диаграмма" 40

2 3 3 Информационная система по веществам с особыми

акустооптическими, электрооптическими и

нелинейнооптическими свойствами "Кристалл" 41

2 3 4 Информационная система по ширине запрещенной зоны

неорганических соединений "BandGap" 43

2 3 5 Информационная система по свойствам кремния "Кремний" 44

2.4. Разработка моделей данных предметного посредника..............................44

ГЛАВА 3. ПРИМЕНЕНИЕ ТЕХНОЛОГИЙ ИНТЕГРАЦИИ ДАННЫХ ДЛЯ

КОМПЬЮТЕРНОГО КОНСТРУ ИРОВАШ1Я

НЕОРГАНИЧЕСКИХ СОЕДИНЕНИЙ...............................................48

3.1. Выбор исходных данных для компьютерного конструирования

неорганических соединений..................................................................................48

3.2. Методика проведения вычислительного эксперимента............................50

3.3. Прогнозирование типа кристаллической структуры соединений различного состава....................................................................................................53

ГЛАВА 4. ЗАЩИТА ИНФОРМАЦИИ В ТЕХНОЛОГИЯХ ИНТЕГРАЦИИ

ДАННЫХ.................................................................................................63

4.1. Базовые принципы защиты информации в компьютерных сетях..........63

4.2. Потенциальные угрозы информационной безопасности при интеграции гетерогенных информационных систем...................................65

4.3. Критерии выбора технологических решений по защите информации . 68

4.4. Схема защиты обмена данными между информационной системой интеграции данных и источниками данных....................................................70

4.5. Схема защиты обмена данными между информационной системой интеграции данных и получателями данных..................................................73

ЗАКЛЮЧЕНИЕ..........................................................................................................76

СПИСОК ЛИТЕРАТУРЫ........................................................................................77

СПИСОК ИЛЛЮСТРАЦИЙ...................................................................................84

СПИСОК ТАБЛИЦ...................................................................................................85

ПРИЛОЖЕНИЕ.........................................................................................................86

Введение

Актуальность работы

Обеспечение химиков-технологов достоверной информацией о свойствах и технологиях получения современных веществ является необходимым условием развития современной промышленности. В настоящее время качественная информационная поддержка специалистов невозможна без использования специализированных баз данных (БД). Как правило, БД по свойствам веществ разрабатываются в разных организациях и даже в разных странах.

Наибольшего прогресса в этом добились США и Япония, которые на базе NIST (National Institute of Standards and Technology - Национальный институт стандартов и технологий, США) и NIMS (National Institute for Materials Science Technology - Национальный институт материаловедения, Япония) предлагают обширные комплексы материаловедческих баз данных.

В нашей стране существует ряд специализированных БД, разработанных различными организациями, и никак не связанных друг с другом. Одним из крупнейших разработчиков ИС по свойствам неорганических материалов в России является Институт металлургии и материаловедения РАН, в котором насчитывается шесть специализированных БД с доступом через Интернет: http://www.imet-db.ru.

Как правило, современные информационные системы (ИС) для обеспечения оперативности доступа к наиболее актуальной информации предоставляют различные интерфейсы доступа к данным из глобальной сети Интернет. Полная интеграция таких систем невозможна из-за различных форматов данных, разного уровня качества данных, хранящихся в разных БД, и режимов доступа к данным в ИС источников данных.

В последние годы наблюдается тенденция к кооперации в разработке ИС и к интеграции уже созданных ИС, как на национальном, так и на международном уровне. Актуальность решения этой задачи вызвана

стремлением устранить необоснованное дублирование работ и уменьшить затраты на разработку и поддержку ИС.

Кроме того, интеграция информации, содержащейся в ИС по свойствам веществ и технологиям их получения, позволяет применять методы компьютерного анализа для поиска взаимосвязей в данных. Использование найденных взаимосвязей позволяет проводить компьютерное конструирование новых перспективных соединений, обладающих заданными свойствами. Получаемая с помощью интегрированной ИС обобщенная информация может быть использована специалистами для поддержки принятия решений при выборе того или иного вещества и технологии его получения для использования в изделиях современной промышленности.

Объектом исследования являются базы данных по свойствам неорганических соединений и технологии их интеграции.

Предметом исследования является применение технологий интеграции данных для информационной поддержки принятия решений при компьютерном конструировании неорганических соединений.

Цель и задачи работы

Целью диссертации является обеспечение информационной поддержки принятия решений при компьютерном конструировании неорганических соединений на основе интеграции гетерогенных баз данных. Для достижения указанной цели в работе поставлены и решены следующие задачи:

• Проведен системный анализ технологий интеграции гетерогенных информационных систем;

• Разработан комплекс информационных моделей технологий интеграции гетерогенных баз данных;

• Выполнено прогнозирование кристаллической структуры неорганических соединений по данным, полученным из гетерогенных баз данных;

• Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции гетерогенных баз данных.

Научная новизна

1. На основе проведенного системного анализа технологий интеграции данных разработана обобщенная схема интеграции данных;

2. Разработан комплекс информационных моделей для технологий интеграции данных;

3. Выполнено прогнозирование кристаллической структуры ряда соединений по данным, полученным из двух гетерогенных баз данных.

Практическое значение

1. На основе разработанного комплекса информационных моделей предложена структура информационной системы для интеграции корпоративной информации;

2. Разработаны модели данных для предметного посредника интеграции данных двух баз данных по свойствам неорганических соединений;

3. Разработана схема защиты данных при интеграции корпоративной информации;

4. Показана возможность интеграции разнородных данных для прогнозирования кристаллической структуры ряда неорганических соединений.

Методы исследования

В основу решения поставленных задач положены методы системного анализа (декомпозиция, классификация, иерархическое упорядочение, абстрагирование, формализация, композиция, моделирование), методология моделирования потоков данных DFD, методология функционального моделирования систем IDEF0, методология проектирования баз данных IDEF1X, теория реляционных баз данных, иерархическая модель данных XML, методология быстрой разработки приложений RAD.

Апробация работы

Результаты работы были представлены на научно-технических конференциях «Наукоемкие химические технологии 2011», МИТХТ им.М.В.Ломоносова, Москва, 2011; «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010; «Приоритетные направления развития науки, технологий и техники», Российская академия естествознания, Москва, 2012.

Публикации.

По материалам диссертации опубликовано б печатных работ, в том числе 2 статьи в журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 4 публикации в сборниках трудов и тезисов докладов научно-технических конференций.

Глава 1. Системный анализ технологий интеграции гетерогенных информационных систем.

1.1. Основные принципы и методы системного анализа

Основными принципами системного анализа при решении любой системной задачи являются:

• четкая формулировка цели исследования;

• постановка задачи по реализации этой цели и определение критерия эффективности решения задачи;

• разработка развернутого плана исследования с указанием основных этапов и направлений в решении задачи;

• пропорционально-последовательное продвижение по всему комплексу взаимосвязанных этапов и возможных направлений;

• организация последовательных приближений и повторных циклов исследований на отдельных этапах;

• принцип нисходящей иерархии анализа и восходящей иерархии синтеза в решении составных частных задач и т. п.

Центральным понятием системного анализа является понятие системы, т.е. объекта, взаимодействующего с внешней средой и обладающего сложным внутренним строением, большим числом составных частей. Определяющей предпосылкой выделения из внешней среды некоторой совокупности объектов как системы является возникновение у нее свойств, которых не имеют составляющие ее элементы. Важнейшими характеристиками системы являются ее структура и функции. Под структурой системы понимают устойчивую во времени совокупность взаимосвязей между ее компонентами. Структура системы может отражать различные взаимосвязи, в том числе и вложенность компонентов одной системы в другую (в этом случае принято называть более крупную систему метасистемой, а вложенную - подсистемой).

Декомпозиция системы на подсистемы позволяет раскрыть иерархию структуры и рассматривать систему на разных уровнях ее детализации. Нижним уровнем детализации являются элементы системы, т.е. компоненты системы, обладающие рядом важных свойств, реализующие определенные функции системы, но не имеющие внутренней структуры (либо структура которых в рамках исследования не рассматривается). Сложность системы определяется сложностью ее структуры, количеством элементов и связей, числом уровней иерархии, объемом информации, циркулирующей в системе.

Процесс функционирования системы отражает изменение ее свойств с течением времени. Процесс функционирования системы всегда направлен на достижение определенной цели. Цель - это субъективный образ (абстрактная модель) несуществующего, но желаемого состояния. Цель может задаваться требованиями к показателям результативности, ресурсоемкости, оперативности функционирования системы либо к траектории достижения заданного результата.

Важной характеристикой системы является ее состояние. Под состоянием понимают совокупность свойств или признаков, которые в каждый момент времени отражают наиболее существенные особенности поведения системы. Таким образом, процесс функционирования системы может быть представлен как последовательное изменение ее состояний.

Методология системного анализа служит концептуальной основой системно-ориентированной декомпозиции предметной области. Исходными компонентами концептуализации являются объекты предметной области и взаимосвязи между ними. Результатом является построение формального описания предметной области.

Основными методами системного анализа, применяемыми в настоящее время при разработке информационных систем, являются:

• Декомпозиция - разделение проблемы на множество меньших

независимых задач, легких для понимания и решения;

• Иерархическое упорядочение - организация подзадач в иерархические структуры с добавлением новых деталей на каждом уровне иерархии;

• Абстрагирование - выделение существенных аспектов задачи и отвлечение от несущественных;

• Формализация - использование строгого математического подхода и стандартизованных формализованных обозначений для решения проблемы;

• Непротиворечивость - обоснованность и согласованность задач.

Абстрагирование на разных стадиях проектирования информационной системы при построении информационных моделей для различных целей. Общепринятой является трехуровневая архитектура баз данных, в которой разделены физический и логический уровни базы данных (и, соответственно, логические и физические модели данных). Это позволяет сохранить неизменной логическую модель данных, в частности, имена таблиц и полей данных, при реорганизации физической модели данных, например, при смене аппаратного обеспечения. Также обеспечивается независимость внешних моделей данных, используемых пользовательскими приложениями, от внутреннего представления данных.

Абстрагирование лежит в основе выбора точки зрения при выборе той или иной информационной модели и построении ее контекстной модели. Так в основу функциональных моделей положены функции, выполняемые информационной системой, при этом структуры хранения данных детально не рассматриваются, а представляются в виде информационных потоков. Реляционная модель данных очень подробно описывает структуру данных, но не содержит никаких средств для описания процессов их обработки.

Одним из инструментов поддержки абстрагирования является использование различных высокоуровневых стандартов. Стандартом структурированного языка запросов SQL задаются требования к тому, что должно быть получено в результате выполнения запроса, а не то, как это

должно быть получено. Таким образом, конкретная реализация запроса абстрагирована от пользовательских приложений и возложена на систему управления базой данных.

Кросс-платформенные системы разработки позволяют реализовать переносимый программный код, который может быть выполнен на различных аппаратных и программных платформах. Поддержка кросс-платформенности может быть осуществлена при помощи трансляции высокоуровневого кода в машинные команды целевой платформы на стадии компиляции (классические компиляторы языков программирования), либо при помощи генерации промежуточного машинно-независимого кода, интерпретируемого виртуальной машиной на стадии выполнения.

Абстрагирование становится возможным при условии строгой формализации. В частности, формализованное описание требуется для обеспечение взаимодействия абстрагированных компонентов, например, интерфейсов управления оборудованием или интерфейсов прикладного программирования. Классическим примером формализованного представления проблемной ситуации является математическое моделирование.

При построении информационных моделей формализация предполагает использование стандартизованных нотаций для построения соответствующих моделей. К ним относятся методологии функционального моделирования систем ЮЕРО и методология проектирования баз данных ЮЕР1Х. Для моделирования потоков данных в рамках методологии ОРО могут быть использованы разные нотации, наиболее часто используются нотации Йодана (Уоигс1оп) и Гейна-Сарсона (бапе-БагБОп).

Унифицированный язык моделирования 11М1- фактически представляет собой совокупность отдельных нотаций, используемых для построения различных диаграмм и может рассматриваться как альтернативное (по отношению к методологиям семейства ЮЕР) средство описания информационных