автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интеграция автономных источников данных для прогнозирования свойств неорганических веществ

кандидата технических наук
Масютин, Виталий Викторович
город
Москва
год
2014
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Интеграция автономных источников данных для прогнозирования свойств неорганических веществ»

Автореферат диссертации по теме "Интеграция автономных источников данных для прогнозирования свойств неорганических веществ"

На правах рукописи И&М —

Масютин Виталий Викторович

ИНТЕГРАЦИЯ АВТОНОМНЫХ ИСТОЧНИКОВ ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ СВОЙСТВ НЕОРГАНИЧЕСКИХ

ВЕЩЕСТВ

05.13.01 -системный анализ, управление и обработка информации (химическая технология)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва 2014

Работа выполнена на кафедре Информационных технологий федерального государственного образовательного учреждения высшего профессионального образования «Московский государственный университет тонких химических технологий имени М.В. Ломоносова» (МИТХТ им. М.В. Ломоносова).

Научный руководитель кандидат технических наук, доцент

Дударев Виктор Анатольевич

Официальные оппоненты доктор технических наук, профессор

Заслуженный деятель науки Российской Федерации

Костров Алексей Владимирович,

профессор кафедры «Информационные системы

и программная инженерия»

ФГБОУ ВПО «Владимирский государственный

университет им. А.Г и Н.Г. Столетовых»

кандидат технических наук, профессор Седякин Владимир Павлович, профессор кафедры «Прикладная информатика» ФГБОУ ВПО «Московский государственный университет геодезии и картографии» (МИИГАиК)

Ведущая организация ОАО «Ведущий научно-исследовательский

институт химической технологии» (ОАО «ВНИИХТ»)

Защита состоится «16» «декабря» 2014 года в 17 часов на заседании диссертационного совета Д 212.120.08 при Московском государственном университете тонких химических технологий имени М.В. Ломоносова по адресу: 119571, г. Москва, просп. Вернадского, 86.

С диссертацией можно ознакомиться в библиотеке МИТХТ им. М.В. Ломоносова (119571, г. Москва, просп. Вернадского, 86) и на сайте МИТХТ им. М.В. Ломоносова www.mitht.ru.

Автореферат диссертации размещен на сайте ВАК http://vak.ed.gov.ru.

Автореферат разослан «14» «ноября» 2014 г.

Ученый секретарь ^^ /

диссертационного совета, —

доктор технических наук с/ Колыбанов К.Ю.

-псии«' ! :aîï

г ■ ; -м ш'.А'Л

ЬП; " : : ;

20 1 1 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Необходимым условием развития современной электронной промышленности является разработка новых неорганических веществ, обладающих заданными электрическими и магнитными свойствами. Одним из методов, обеспечивающих сокращение времени и затрат на получение новых материалов, является компьютерное конструирование, позволяющее предсказать свойства нового вещества на основе информации об уже известных веществах и их свойствах. В настоящее время качественная информационная поддержка синтеза неорганических веществ с заданными свойствами основана на применении специализированных баз данных (БД), содержащих данные о структуре и свойствах синтезированных ранее соединений. Такие БД разрабатываются во всех промышленно развитых странах. Наибольшего прогресса в этом добились США и Япония, которые на базе NIST (National Institute of Standards and Technology - Национальный институт стандартов и технологий, США) и NIMS (National Institute for Materials Science Technology -Национальный институт материаловедения, Япония) разрабатывают специапизированные информационные ресурсы. В России лидером в области создания баз данных по электрическим и магнитным свойствам неорганических веществ является Институт металлургии и материаловедения им. А.А. Байкова РАН (ИМЕТ РАН).

Ни одна из существующих информационных систем по свойствам неорганических соединений не способна предоставить исчерпывающую информацию обо всей совокупности свойств конкретного вещества. Фрагментарность данных является одной из проблем, существенно усложняющей создание новых веществ с требуемыми свойствами. Отметим, что информация в различных информационных системах может храниться не только в форматах распространенных баз данных, но и в других видах, например, в форматах электронных таблиц, текстовых форматах, формате XML, бинарных проприетарных форматах и т.п. Помимо этого, использование различных информационных ресурсов для специалиста-химика-технолога осложняется различными режимами доступа к данным, полученным из этих ресурсов.

Одним из путей решения проблемы является интеграция информационных ресурсов. Актуальность интеграции в последние годы была осознана не только на национальном, но и на международном уровне, что вызвало появление специальной международной комиссии (Materials Task Group), целью которой является выработка стандартов для интеграции материаловедческих информационных ресурсов. Однако, несмотря на предпринимаемые усилия, говорить об успехах в этой области преждевременно.

Таким образом, интеграция разнородных информационных ресурсов, позволяющая обеспечить химиков-технологов достоверной информацией о свойствах и технологиях получения неорганических веществ, является актуальной научной задачей.

Цель работы

Целью диссертации является обеспечение информационной поддержки синтеза халькогенидных шпинелей состава АВ2>ч, где X = 8, 8е, Те, с заданными электрическими и магнитными свойствами на основе интеграции специализированных баз данных.

Для достижения поставленной цели в диссертации поставлены и решены следующие задачи:

• Проведен системный анализ проблемы прогнозирования свойств новых неорганических веществ с заданными электрическими и магнитными свойствами;

• На основе системного анализа технологий интеграции информационных ресурсов разработан комплекс информационных моделей технологий интеграции баз данных, баз данных, содержащих информацию о составе и свойствах неорганических веществ;

• Обоснован выбор среды реализации интегрированной информационной системы;

• Разработана структура метабазы, описывающей свойства автономных источников данных, в которых содержится информация о составе и свойствах неорганических веществ, с учетом разрешения семантических конфликтов гетерогенности;

• Разработаны адаптеры извлечения и преобразования данных и программа-посредник, обеспечивающая интеграцию баз данных, содержащих информацию о составе и свойствах халькогенидных шпинелей состава АВ2Х|, где X = Б, Бе, Те;

• Выполнено прогнозирование кристаллической структуры халькогенидных шпинелей состава АВ2Х4, где X = Б, Бе, Те, по данным, полученным из автономных источников;

• Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ.

Объект исследования

Объектом исследования являются базы данных по свойствам неорганических веществ с заданными электрическими и магнитными свойствами и технологии их интеграции.

Предмет исследования

Предметом исследования является применение технологий интеграции данных для информационной поддержки синтеза халькогенидных шпинелей состава АВ2Х4, где X = в, Бе, Те с заданными свойствами.

Научная новизна

1. Проведен системный анализ проблемы прогнозирования свойств новых соединений на основе данных об их составе с учетом особенностей неорганического материаловедения;

2. Разработана схема интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ, без передачи данных в общее хранилище;

3. На основе проведенного системного анализа технологий интеграции данных разработан комплекс информационных моделей интеграции автономных источников данных, содержащих информацию о составе и свойствах неорганических веществ, включающий в себя функциональные модели и модели потоков данных;

4. Разработана структура метабазы, описывающая свойства автономных источников данных, содержащих информацию о составе и свойствах неорганических веществ, с учетом разрешения семантических конфликтов гетерогенности;

5. Обоснован выбор среды реализации интегрированной информационной системы.

Практическая значимость работы

1. Для разрешения синтаксических и системных конфликтов гетерогенности разработаны адаптеры извлечения и преобразования данных, полученных из различных баз данных по свойствам халькогенидных шпинелей состава АВгХ^, где X = Б, Бе, Те;

2. Разработана программа-посредник, обеспечивающая интеграцию автономных источников данных, содержащих информацию о составе и свойствах халькогенидных шпинелей состава АВ2Х4, где X = Б, ве, Те;

3. Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ;

4. Выполнено прогнозирование возможности образования и типа кристаллической структуры для халькогенидных шпинелей состава АВ2Х4, где X = S, Se, Те.

Методы исследования

В основу решения поставленных задач положены методы системного анализа (декомпозиция, классификация, иерархическое упорядочение, абстрагирование, формализация, композиция, моделирование), методология моделирования потоков данных DFD, методология функционального моделирования систем IDEF0, методология проектирования баз данных IDEF1X, теория реляционных баз данных, иерархическая модель данных XML, методология быстрой разработки приложений RAD.

Апробация работы

Результаты работы были представлены на научно-технических конференциях «Наукоемкие химические технологии 2011», МИТХТ им.М.В.Ломоносова, Москва, 2011; «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010; «Приоритетные направления развития науки, технологий и техники», Российская академия естествознания, Москва, 2012.

Публикации

По материалам диссертации опубликовано 7 печатных работ, в том числе 3 статьи в журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 4 публикации в сборниках трудов и тезисов докладов научно-технических конференций.

Структура диссертации

Диссертационная работа состоит из введения, 4 глав, заключения и приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении рассмотрены актуальность и практическая значимость работы. Сформулирована цель работы и поставлены задачи, решение которых необходимо для достижения поставленной цели. Рассмотрены методы исследований, научная новизна, апробация работы. Приведена структура диссертации и краткое содержание основных разделов.

Первая глава диссертации посвящена системного анализу проблемы компьютерного прогнозирования свойств неорганических веществ. Под

компьютерным конструированием соединений (computer-assisted design) понимаются гипотезы о свойствах еще не синтезированных химических соединений, основанные на анализе взаимосвязей между их качественным и количественным составом и проявляемыми свойствами. Такой подход позволяет существенно сократить финансовые и временные затраты на поиск химических соединений с требуемыми свойствами. Показано, что применительно к неорганическим соединениям компьютерное конструирование имеет ряд особенностей и позволяет строить следующие виды гипотез:

• образование (или отсутствие образования) соединений и их количественный состав;

• тип кристаллической структуры;

• значения электрических и магнитных свойств.

Системный анализ проблемы компьютерного прогнозирования свойств полупроводниковых соединений основан на следующих принципах:

• принцип эмерджентности выражается в несовпадении свойств соединения со свойствами отдельных элементов, входящих в его состав;

• принцип системности состоит в исследовании соединения как единого целого, являющегося частью более крупной системы - неорганического материала;

• принцип иерархии заключается в рассмотрении упорядоченной структуры неорганического материала;

• принцип интеграции состоит в изучении закономерностей влияния состава соединения на проявляемые этим соединением свойства;

• принцип формализации заключается в изучении количественных значений исследуемых свойств.

С формальной точки зрения, задача выявления и анализа взаимосвязей между составом и свойствами соединения является задачей распознавания образов. Целью решения этой задачи является формирование классифицирующих правил, которые позволяют разбить множество уже известных соединений, каждое из которых описано с помощью набора признаков, на классы, соответствующие свойствам этих соединений. Полученные правила могут бьггь применены и к еще не синтезированным соединениям, в результате чего может быть получен прогноз свойств новых соединений.

Анализ литературных источников позволил выявить особенности неорганического материаловедения, как предметной области, при использовании математических методов распознавания:

• Малая информативность признаков - свойств химических элементов.

• Сильная закоррелированность признаков, как следствие периодического закона (все свойства элементов находятся в периодической зависимости от общего параметра - атомного номера химического элемента).

• Отсутствующие значения признаков. Существенно, что эта неопределенность может иметь различную природу - некоторые свойства соединений могут быть просто не изучены, а некоторые не могут быть получены.

• Частая асимметрия в размерах классов.

• Возможность экспериментальных ошибок в данных.

Показано, что для повышения достоверности прогнозов необходимо применять несколько различных подходов к распознаванию образов, в частности, методы прикладной статистики, нейронные сети, методы, основанные на математической логике. Интеграция прогнозов, полученных с помощью различных методов, представляет собой отдельную задачу.

Формально задача формирования классифицирующих правил ставится следующим образом:

Описанием объекта является вектор признаков хеХ. Классом называется некоторое подмножество объектов

Ку={хеХ|уЧх)=у}

множества X.

Пусть уеУ - множество наименований классов. Тогда функция Х—^У

задает отображение, определённое для всех хеХ, которое задает разбиение X на подмножества Ку.

Обучающая выборка представляет собой множество пар 8={(х1>Уй)}, для которых у+(Х|)=у„ то есть множество известных значений функции у*.

Основной гипотезой для применения алгоритмов классификации в распознавании образов является предположение, что множество ХхУ является вероятностным пространством с вероятностной мерой Р. Элементы обучающей выборки (х1,у|) появляются случайно и независимо в соответствии с распределением Р.

Таким образом, задача классификации заключается в построении функции-классификатора F(x), приближающей отображение у*, основываясь на обучающей выборке S.

Далее рассмотрены методы распознавания образов, которые используются специалистами для компьютерного конструирования неорганических веществ:

• Метод ближайших соседей основан на использовании метрики р(х, х') в пространстве объектов X для формализации понятия сходства. Метрика является функцией расстояния между прецедентами. В качестве такой функции расстояний, в частности, может выступать евклидова метрика. Для произвольного объекта и из X элементы обучающей выборки Х( = fxi,..., xt} располагаются в порядке возрастания расстояний до и:

р(и, x,J < р(и, х1и) < ... < р(и, XiJ, где - /-Й сосед объекта и. Каждый из соседей i = 1, .... к голосует за отнесение объекта и к классу у,и. В результате объект и относится к тому классу, которому принадлежит большинство ближайших к нему объектов обучающей выборки:

к

<*(и'>Xj,к) = argmax £ yeYi=1

• Методы обнаружения логических закономерностей в данных основаны на вычислении частоты комбинаций отдельных логических событий в подгруппах данных. Критерием является функционал f(Lj) = <количество объектов обучающей выборки х, из Kj : L/xJ = 1> /\ Kj\, где Lj(x) - предикат

• Методы, основанные на принципе разделения, предполагают построение гиперповерхности в n-мерном пространстве признаков, которая наилучшим образом будет разделять наборы классов в этом признаковом пространстве. Задача при построении такой поверхности состоит в вычислении некоторой линейной относительно признаков функции f(x) = адi + ил + ... + а„х„ + an+i. Основной задачей является поиск такой функции f(x), для которой число невыполненных неравенств в системе: Af(ui)>0, i=l..m,

Af(Ui)<0, i=mi. m является минимальным (m - количество объектов).

• Искусственные нейронные сети (ИНС) представляют собой совокупность искусственных нейронов, определенным образом соединенных друг с другом и с внешней средой с помощью связей, определяемых весовыми коэффициентами. В основе применения ИНС лежит использование алгоритмов, получаемых при помощи обучения на примерах. Эти алгоритмы кодируются в ИНС в виде значений весов нейронов. Для

обучения многослойных нейронных сетей с последовательными связями используется алгоритм «обратного распространения ошибки». Алгоритм основан на последовательной настройке вначале выходных нейронов сети, а затем проходит сеть в обратном направлении до первого слоя. Веса настраиваются в соответствии с формулой:

M>IJ(t + l) = WiJ(i) + rgJXl

где wtj - вес от нейрона / или от элемента входного сигнала / к нейрону j в момент времени /, xt - выход нейрона i или i'-ый элемент входного сигнала, г -шаг обучения, g ¡- значение ошибки для нейрона j.

Критерием оценки прогностических возможностей функции-классификатора является отношение количества неверных прогнозов, полученных с помощью функции F(x), к количеству пар, входящих в обучающую выборку:

„.NH И

Чем меньше эта величина, тем лучше подобрана функция-классификатор. Однако известно, что прямая минимизация этой величины может привести к тому, что функция-классификатор будет очень хорошо описывать обучающую выборку, но выдавать неправильные прогнозы для новых, не входящих в обучающую выборку, пар. Поэтому используется итерационная процедура скользящего контроля, при которой обучающая выборка многократно разбивается на 2 части, по первой строится функция-классификатор, а по второй проверяются ее прогностические возможности.

Для интеграции прогнозов, полученных с помощью различных методов, в диссертации предложено и обосновано применение комитетных методов, основанных на теории алгоритмических композиций академика Ю.И.Журавлева. Под алгоритмической композицией, составленной из операторов Ь,: X—+R, 1=1, ... , Т, корректирующей операции F : RT —* R решающего правила С : R -* Y понимается алгоритм а: X —* Y вида а(х) = C(F(b,(x).....bj{x))),x еХ.

Системный анализ проблемы прогнозирования свойств новых неорганических веществ представлен на рис. 1.

Далее рассмотрены крупнейшие зарубежные и российские информационные системы по свойствам неорганических веществ и материалов. Показано, что ни одна из существующих информационных систем (ИС) по свойствам неорганических веществ и материалов не способна предоставить исчерпывающую информацию обо всей совокупности свойств конкретного вещества. Выполнен анализ принципов построения существующих ИС,

показавший, что большинство рассмотренных И С реализуют трехзвенную клиент-серверную архитектуру, которая отличается от классической клиент-серверной архитектуры физическим разделением программ, отвечающих за хранение данных (СУБД), от программ, обрабатывающих эти данные (сервер приложений). Такой подход позволяет оптимизировать нагрузку на вычислительное оборудование серверной части комплекса.

Более подробно рассмотрены используемые в дальнейших исследованиях ИС, разработанные в Институте металлургии и материаловедения им. A.A. Байкова РАН (ИМЕТ РАН): ИС "Фазы" по свойствам неорганических соединений, ИС "Диаграмма" по фазовым диаграммам систем с полупроводниковыми фазами, ИС "Кремний" по свойствам полупроводникового кремния и процессам его получения и обработки, обучающая

выборка

цель исследования-прогноэирование свойств

скользящий контроль

i

тестовая выборка

свойства

новые соединения

свойства

формирование

классифицирующих

а * правил

1

формирование

прогнозов

/

интеграция

прогнозов

Л ^^ критерий \

N /

методы классификации:

• статистические

• логические

• нейронные сети

модели -классифицирующие правила

г

комитетные методы интеграции

[прогнозы удовлетворительны

результат-прогнозы свойств новых веществ

Рис.1. Системный анализ проблемы прогнозирования свойств новых неорганических веществ.

В результате поставлена и обоснована задача интеграции различных источников данных для обеспечения информационной поддержки компьютерного прогнозирования электрических и магнитных свойств неорганических веществ, сформулированы основные этапы ее решения: выбор

метода интеграции данных на основе системного анализа различных методов, формализованное описание информационных процессов интеграции данных, реализация интегрированной информационной системы и ее применение для решения задач компьютерного прогнозирования.

Во второй главе «Информационное моделирование методов интеграции данных» рассмотрены особенности двух базовых подходов к интеграции данных: консолидации и федерализации.

При использовании метода консолидации данные собираются из нескольких первичных информационных систем (ИС) и интегрируются в одно постоянное хранилище. Такое хранилище может бьггь использовано как источник данных для приложений, выполняющих формирование поисковых запросов.

В тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных ИС, используется федеративный подход, который обеспечивает единое виртуальное представление разнородных источников данных. При этом данные фактически хранятся в разных по составу и структуре источниках, информация в которых может частично дублироваться. Источники остаются полностью автономными. Интеграция данных сводится к интеграции схем хранения и созданию программного компонента (посредника), обеспечивающего прозрачный доступ к физически распределенным данным. С точки зрения конечного приложения взаимодействие осуществляется с единой базой данных в едином стандартизированном формате. Интеграция корпоративной информации (Enterprise information integration, EII) - это пример технологии, которая поддерживает федеративный подход к интеграции данных.

Основным преимуществом федеративного подхода является то, что доступ происходит к текущим данным, без задержек в обновлении, в отличие от подхода, основанного на создании единого хранилища данных. Среди недостатков подхода можно выделить нелинейно возрастающую сложность реализации при увеличении числа источников (наличие существенных различий в модели данных может значительно усугубить ситуацию), высокие требования к качеству связи. При выполнении запросов могут возникать задержки, связанные с необходимостью обмена данными между источниками и программой-посредником.

Результаты сравнения различных подходов к интеграции данных обобщены в табл. 1.

В работе выполнен системный анализ информационных процессов, осуществляемых в процессе обработки внешнего запроса как в интегрированной ИС, так и в ИС источников данных.

На первом этапе применен метод иерархической декомпозиции, позволяющий последовательно разбивать исследуемые системы на подсистемы и устанавливать взаимосвязи отдельных подсистем. Его результатом является детализированное, иерархическое, но неформальное описание интеграции автономных источников данных, которое приведено на рис. 2. На рис.2 границы ИС обозначены штрихпунктирными линиями, стрелками изображены основные информационные процессы: формирование запросов к данным, извлечение и обработку данных.

Таблица 1. Сравнение подходов к интеграции данных

Характеристика данных Консолидация данных Федерализация данных

Объем данных, извлекаемых из первичной ИС все данные только данные, запрашиваемые внешним приложением

Доступ к данным первичной ИС периодический, в момент обновления в момент запроса

Актуальность интегрированных данных на момент последней загрузки постоянно

Хранение извлекаемых данных долговременное, в хранилище данных интегрированной ИС кратковременное, для формирования ответа на запрос

Формат извлекаемых данных определяется ИС источника данных определяется ИС интеграции данных

Как видно из рис. 2, выполнение внешнего запроса при использовании автономных источников данных осуществляется следующим образом. Программа-посредник анализирует поступающие от приложений запросы, формирует производные запросы к различным источникам, агрегирует полученные данные и возвращает ответ приложению. Для взаимодействия между посредником и приложениями используется единый, стандартизированный в рамках данной системы интеграции данных, интерфейс.

Важным элементом интегрированной ИС являются метаданные, которые представляют собой описания источников данных. Метаданные используются посредником для выбора источников данных и формирования запросов к ним. Для каждого из источников дополнительно реализуется адаптер извлечения и преобразования данных, который обеспечивает учет особенностей первичной ИС. На этапе агрегации возможно преобразование и изменение данных, устранение конфликтов данных.

Далее в процессе системного анализа неформальное описание, приведенное на рис.2, детализируется и формализуется. Для формализованного описания потоков данных в ИС интеграции данных используются диаграммы потоков данных (Data Flow Diagram, DFD). Моделирование потоков данных начинается с построения обобщенной диаграммы. Эта диаграмма представлена на рис. 3.

приложение пользователя

адаптер извлечения и преобразования данных

извлечение данных

ИС источника данны!

адаптер извлечения и преобразования данных

извлечение данных

ИС источника данных

Рис.2. Схема интеграции автономных источников данных.

Единственный информационный процесс на этой диаграмме реализует основное назначение ИС - интеграция и обработка данных. Абстрактный накопитель «источники данных» представляет собой информационные системы, в которых хранится первичная информация и которые подлежат интеграции при помощи одной из технологий интеграции данных. Абстрактный накопитель «данные для пользователя» - результат работы ИС интеграции данных. Возможное дальнейшее применение полученных данных

лежит за рамками ИС интеграции данных и на контекстной диаграмме не отражено. Абстрактный накопитель «метаданные» содержит описания источников данных.

Рис. 3. Обобщенная диаграмма потоков данных в ИС интеграции

данных

Далее эта диаграмма детализируется. Выделяют 3 последовательных информационных процесса: извлечение, преобразование и представление данных. Для взаимодействия этих процессов используются промежуточные накопители данных. Диаграмма, полученная на 1-м уровне декомпозиции, представлена на рис. 4.

Источники данных

извлечение данных

Полученные данные в

исходном формате -

преобразование формата данных

Промежуточные данные в преобразованном формате

представление данных

Метаданные

Т

Данные для пользователя

Рис. 4. Диаграмма потоков данных первого уровня декомпозиции Для детализации описания информационных процессов используется методология функционального моделирования ГОЕРО. Обобщенная функциональная модель очень близка к обобщенной модели потоков данных, но при дальнейшей детализации используются выразительные возможности функционального моделирования, в частности, возможность указания роли при описании взаимосвязей процессов. На функциональной диаграмме процессы изображаются в виде функциональных блоков, а взаимосвязи между ними - с

помощью стрелок, причем положение стрелки относительно функционального блока определяет его роль.

Функциональная диаграмма 1-го уровня декомпозиции представлена на рис. 5. Она состоит из 4-х функциональных блоков, связанных отношениями «вход-выход»: результат одного процесса является исходными данными для другого. Последовательность блоков задает последовательность выполнения информационных процессов: формирование запросов к первичным ИС, извлечение данных, агрегация данных, предоставление данных пользователю.

данные«

формирование запросов!

_запросы к

Н первичным

(В ИС ■»

ИС*"

1

агрегация данных

Адаптеры

]

предоставление

профамыа-'

—I запроса

J '

ИС интеграции данньа

Рис. 5. Функциональная диаграмма первого уровня декомпозиции

Стрелки «запрос данных» и «данные из первичных источников» описывают исходные данные для всего процесса интеграции. Стрелка «метаданные» является туннельной - она не представлена на родительской диаграмме, так как состав метаданных становится понятен в процессе детализации. Стрелки с ролью «механизм» (ведущие к блокам от нижнего края диаграммы) характеризуют исполнителей процессов. Так, первичные ИС используются на этапе извлечения данных. Для описания составных частей ИС интеграции данных используется ветвление стрелки. Так, стрелки, задающие программу - посредник и адаптеры, являются частью стрелки «ИС интеграции данных».

В третьей главе рассмотрена реализация интегрированной ИС. Описание начинается с обоснования выбора среды реализации. Помимо экономических критериев, существенной задачей является обеспечение возможности расширения и масштабирования ИС. В качестве базовых критериев выбора среды реализации в работе предложены: • производительность;

• безопасность;

• надежность;

• способность взаимодействовать с разнородными программными средами, применяемыми на других программно-аппаратных платформах;

• совокупная стоимость владения.

В работе представлены результаты тестирования, проведенные независимыми компаниями по выбранным критериям. В результате анализа этих результатов в качестве среды реализации выбрана платформа Microsoft (Windows Server 2008 + SQL Server 2008).

Показано, что основной задачей интегрированной ИС является построение ответа на запрос внешнего приложения. Выполнение этой задачи требует разрешения различных конфликтов гетерогенности. В работе рассмотрены следующие виды конфликтов:

• системные - интегрируемые ИС используют несовместимые аппаратные платформы и программное обеспечение;

• синтаксические - интегрируемые ИС используют разные модели данных;

• семантические - разные источники данных для обозначения одной и той же сущности могут использовать различные значения. Так, в разных источниках данных значения температуры могут быть указаны с использованием различных шкал.

Далее в диссертации строится и описывается схема метабазы - базы данных, содержащей описания источников данных. Это реляционная база данных, однако она должна обеспечивать хранение и обработку XML-документов, поэтому для реализации метабазы выбрана СУБД Microsoft SQL Server 2008. В табл.2 представлено описание основных таблиц, входящих в метабазу, и приведены примеры хранящихся в них XML-документов.

В метабазу входят таблицы, описывающие источники информации, пользователей интегрированной ИС и таблицы, предназначенные для разрешения семантических конфликтов.

Для разрешения синтаксических и системных конфликтов для каждого автономного источника данных разработан адаптер извлечения и преобразования данных. Эти программы обеспечивают согласование форматов данных программы-посредника и интегрируемого источника данных. Для осуществления кроссплатформенного взаимодействия было принято решение использовать технологию Web-сервисов с использованием протокола SOAP (Simple Object Access Protocol). Этот протокол используется для обмена произвольными сообщениями в формате XML и является расширением протокола XML-RPC. Существенно, что все Web-сервисы должны иметь одинаковое, стандартизированное в рамках общей схемы описание, что

позволяет обеспечить унифицированное взаимодействие с программами-адаптерами со стороны программы-посредника.

Таблица 2. Описание таблиц, входящих в метабазу_

Таблица Содержание Поля Пример XML документа

Meta DBInfo Интегрируемые ИС Идентификатор и название ИС, адрес, учетные данные для входа

Meta_ Propertylnfo Свойства, данные о которых хранятся в ИС Идентификатор ИС, идентификатор свойства, название свойства и его синонимы

Meta_ Substancelnfo Составы химических веществ Идентификатор вещества, названия и количества элементов <?xml version "1.0" encoding "windows-1251" ?> -<ChemSubstComp> <ItemEl="Th" value="3" t> <ItemEl="P" value="4" /> </ChemSubstComp>

Meta_ Modification Registry Обозначения кристаллических модификаций Идентификатор модификации, названия кристаллических модификаций и их синонимы <?xml version "1.0" encoding "windows-1251" ?> -<SynList> <8уп>Ромбоэдрическая</8уп> <Syn>P3</Syn> <Syn>Rhombohedral</Syn> </SynList>

Meta_ Userlnfo Пользователи Идентификатор пользователя, учетные данные, права доступа

Учитывая общую схему предметной области, было разработано общее описание Web-сервисов программных адаптеров на языке WSDL (Web Services Description Language). WSDL - это XML-ориентированный язык, предназначенный для определения web-сервисов и доступа к ним. Программы-адаптеры используются для безопасного извлечения данных из интегрируемого информационного источника согласно переданным параметрам запроса. Адаптер осуществляет передачу запрашиваемых данных только в том случае, если учетная запись, предъявленная при его вызове, является учетной записью пользователя соответствующего информационного ресурса. Программа

включает в себя три команды: Get_AllList, Get_PropertiesList и GetPropertiesValues. Команда Get AllList предназначена для поиска данных о химической сущности из автономного источника данных. Критериями поиска являются химический элемент, вещество и его кристаллические модификации. Команда Get_PropertiesList предназначена для поиска набора свойств, данные о которых хранятся в интегрируемом источнике. Команда Get PropertiesValues предназначена для запроса значений этих свойств.

Далее в диссертации описана разработка программы-посредника. Эта программа является точкой входа в интегрированную ИС и реализует ответы на запросы с использованием информации, размещенной в интегрированных источниках, доступ к которым он осуществляет через программные адаптеры. Посредник реализован в виде Web-сервиса с использованием протокола SOAP. При получении запроса посредник опрашивает все информационные источники интегрируемых ИС, анализирует их ответы и создает XML-документ, содержащий результирующий ответ предметного посредника на запрос пользователя. Для успешного вызова метода необходимо передать учетные данные пользователя интегрированной ИС и XML-документ с описанием параметров запроса.

Для защиты данных при передаче по открытым каналам связи предложено применение технологии виртуальных частных сетей (VPN - Virtual Private Network), при помощи которой в открытых каналах связи эмулируется защищенный туннель, недоступный для внешних (неавторизованных) пользователей. Организация VPN-туннеля между двумя сетевыми устройствами требует наличия специализированного программного либо аппаратного обеспечения с возможностью поддержки и использования одинаковых алгоритмов шифрования и аутентификации.

Схема защиты информационного обмена между источниками данных и ИС интеграции (рис. 6) разработана с учетом следующих требований:

• Источников данных относительно немного;

• Источники данных заранее определены;

• Количество соединений относительно небольшое;

• Частота установки соединений относительно высока;

• Объем передаваемых данных относительно большой;

• Допустимо применение специфических аппаратных решений;

• Допустимо применение специализированного программного обеспечения;

• Квалификация персонала достаточна для использования специализированных средств установки VPN-соединений.

Рис. 6. Схема защиты информационного обмена между источниками данных и ИС интеграции

Использование технологии IPsec VPN позволяет предотвратить ряд угроз информационной безопасности и обеспечивает:

• подтверждение достоверности источника данных (аутентификацию источника данных);

• защиту передаваемых по открытым каналам сети Интернет данных от перехвата (алгоритмы шифрования данных);

• защиту передаваемых по открытым каналам сети Интернет данных от искажения (алгоритмы проверки целостности передаваемых данных).

• конфиденциальность методов и технологии обмена данным;

Схема защиты информационного обмена между ИС интеграции и конечными пользователями разработана с учетом следующих требований:

• Количества пользователей на порядки выше количества источников данных;

• Количество соединений, устанавливаемых одним пользователем, невелико;

• Объем передаваемых данных между ИС интеграции и пользователем относительно небольшой;

• Квалификация пользователя неизвестна (может быть любой);

• Степень лояльности и мотивы пользователя неизвестны;

• Тип оборудования, операционная система и установленное пользователем программное обеспечение неизвестны;

• Нежелательна установка специализированного программного обеспечения;

• Недопустимо применение специфических аппаратных решений.

Использование предложенных технологий защиты информационного обмена обеспечивает защиту от потенциальных угроз информационной безопасности, не снижает производительность ИС интеграции и обеспечивает возможность применения различных программных средств программной реализации информационных процессов.

В главе 4 «Применение интегрированной информационной системы для прогнозирования свойств неорганических веществ» представлены результаты прогнозирования типа кристаллической структуры для халькогенидных шпинелей и получена оценка достоверности прогнозов.

Халькогенидные шпинели относятся к магнитным полупроводникам -материалам, наиболее перспективным для создания магнитооптических элементов памяти, сенсоров и других магнитоуправляемых устройств. Перспективно применение хапькошпинелей в интегральных схемах, в которых один участок используется как активное полупроводниковое устройство, а другой - как магнитный микроволновой прибор. Халькогенидные шпинели отличает не только уникальное сочетание магнитных, электрических и оптических свойств, но и сильная их взаимосвязь, обусловленная участием носителей тока в обменных взаимодействиях. Кроме того, у некоторых соединений этого класса обнаружена слабая сверхпроводимость. Халькогенидные шпинели рассматриваются как перспективные термоэлектрические материалы.

В настоящее время имеется информация примерно о тысяче соединений состава АВ2Х| (X = 8, Бе, Те), примерно для восьмисот из них имеются данные о кристаллической структуре. Наиболее распространены структуры типа ТЬ3Р4, шпинели и СаРегО.,. Свойства халькогенидных шпинелей во многом определяются типом их кристаллической структуры, поэтому задача определения типа кристаллической структуры в зависимости от свойств элементов, входящих в состав соединения, является весьма актуальной. В качестве исходных данных рассматривались такие свойства элементов, как псевдопотенциальный радиус, ковалентный радиус, ионный радиус, температуры плавления и кипения, энтальпии плавления и испарения, электроотрицательность, потенциалы ионизации, теплопроводность. Для элементов А и В, кроме того, учитывались номер группы, количество валентных электронов, температура Дюбая. Для получения всех этих данных использовалась БД «Элементы».

Для обучения использовались данные из БД «Фазы» о 835 соединениях, для которых известен тип кристаллической структуры, и 154 составах, для которых соединение АВ2Х4 отсутствует. Проверка прогностических возможностей проводилась методом скользящего контроля на данных

обучающей выборки. Ошибка прогнозирования (отношение количества неправильных прогнозов к общему объему обучающей выборки) составило 2%.

Далее полученные гипотезы использовались для прогноза кристаллической структуры новых соединений, для которых тип кристаллической структуры еще не определен экспериментально.

Часть полученных результатов приведена в таблице 3. В этой таблице данные, включенные в обучающую выборку, расположены на белом фоне, а прогнозы выделены серым фоном.

Таблица 3. Некоторые типы кристаллической структуры соединений состава Ап В"£е4 при нормальных условиях.____

Т1 Сг ве Ъг N5 вп

Mg ОЛИВИН ОЛИВИН оливин оливин

Са ОЛИВИН ОЛИВИН ОЛИВИН оливин оливин

Т| №СГ254 №СГ284

V №СГ284 N¡0*284 №СГ284 МСГ284

Мп ОЛИВИН МСг284 №Сг284 оливин оливин

Ре №СГ284 N¡0284 оливин №СГ284

Со №СГ284 оливин

N1 не образуется оливин

Си не образуется не образуется не образуется

Хп сфалерит сфалерит сфалерит сфалерит не образуется

Са не образуется не образуется не образуется

Заключение

В диссертационной работе получены следующие результаты: Проведен системный анализ проблемы прогнозирования свойств новых соединений на основе данных об их составе с учетом особенностей неорганического материаловедения;

На основе системного анализа технологий интеграции информационных ресурсов разработан комплекс информационных моделей технологий интеграции баз данных, баз данных, содержащих информацию о составе и свойствах неорганических веществ;

Обоснован выбор среды реализации интегрированной информационной системы;

Разработана структура метабазы, описывающей свойства автономных источников данных, в которых содержится информация о составе и свойствах неорганических веществ, с учетом разрешения семантических конфликтов гетерогенности;

Разработаны адаптеры извлечения и преобразования данных и программа-посредник, обеспечивающая интеграцию баз данных, содержащих информацию о составе и свойствах халькогенидных шпинелей состава АВ2>ч, где X = Б, 8е, Те;

Выполнено прогнозирование кристаллической структуры халькогенидных шпинелей состава АВЛ, где X = Б, 8е, Те по данным, полученным из автономных источников;

Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ.

14-1496 Г

Публикации по теме диссертации

Статьи в журналах, рекомендованных ВАК для опубликования результатов диссертационных работ:

1. Дударев В.А., Масютин В.В. На пути к единой информационной системе

по свойствам неорганических веществ К Интеграл, №6(50), 2010, с. 30 -31.

2. Дударев В.А., Масютин В.В., Поляков A.A. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика, №4(40), 2012, с. 38-43.

3. Дударев В.А., Масютин В.В»»Интеграция автономных источников данных для исследования свойств полупроводниковых материалов И Прикладная информатика, № 4(52), 2014, с. 34-38.

Статьи и тезисы докладов:

4. Масютин В.В. Информационное моделирование технологий интеграции данных. // Материалы II научно-практической конференции «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУ ТУ, Волоколамск, 2010

5. Масютин В.В., Дударев В.А. Системный анализ технологий интеграции гетерогенных баз данных. // Материалы VII международной научно-практической конференции «Новейшие достижения европейской науки -2011», том 34, Математика, София, 2011

6. Масютин В.В., Дударев В.А. Компьютерное конструирование новых неорганических соединений состава АВ2Х4. // Материалы научно-технической конференции «Наукоемкие химические технологии 2011», МИТХТ им.М.В.Ломоносова, Москва, 2011

7. Масютин В.В. Защита информации в технологиях интеграции данных // Материалы научно-практической конференции «Приоритетные направления развития науки, технологий и техники», Российская академия естествознания, Москва, 2012

2014341466

24

2014341466