автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ

доктора технических наук
Дударев, Виктор Анатольевич
город
Москва
год
2014
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ»

Автореферат диссертации по теме "Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ"

На правах рукописи

Дударев Виктор Анатольевич

МЕТОДОЛОГИЯ ИНТЕГРАЦИИ ГЕТЕРОГЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ

05.13.01 - Системный анализ, управление и обработка информации (химическая промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук

Москва-2014 1 8 23М

005549»"1

005549901

Работа выполнена на кафедре Информационных технологий государственного образовательного учреждения высшего профессионального образования "Московский государственный университет тонких химических технологий им. М.В. Ломоносова".

Научный консультант доктор технических наук, профессор,

заслуженный деятель науки и техники РФ Корнюшко Валерий Федорович

Официальные оппоненты доктор технических наук, профессор,

заслуженный деятель науки РФ, профессор кафедры Информационных систем и информационного менеджмента Владимирского государственного университета Костров Алексей Владимирович

доктор физико-математических наук, профессор, заведующий кафедрой Информационных технологий Московского государственного университета технологий и управления им. К.Г. Разумовского Краснов Андрей Евгеньевич

доктор технических наук, профессор, заведующий кафедрой Технической кибернетики и автоматики Ивановского государственного химико-технологического университета Лабутин Александр Николаевич

Ведущая организация Научно-исследовательский институт химиче-

ских реактивов и особо чистых химических веществ.

Защита состоится "01 " " июля " 2014 года в 12:00 на заседании диссертационного совета Д 212.120.08 при Московском государственном университете тонких химических технологий им. М.В. Ломоносова по адресу: 119571, г. Москва, просп. Вернадского, 86. С диссертацией можно ознакомиться в библиотеке МИТХТ им. М.В. Ломоносова (119571, г.Москва, просп. Вернадского, 86). Автореферат диссертации размещен на сайте http://vak.ed.gov.ru.

Реферат разослан " 23 " " N0-3 2014 г.

Ученый секретарь диссертационного совета, доктор технических наук

Колыбанов К.Ю.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Для обеспечения инновационного развития экономики страны необходима разработка новых материалов, обладающих заданными свойствами. Одним из наиболее перспективных методов решения этой проблемы является применение информационно-прогнозирующих систем, предназначенных для поиска информации об уже известных соединениях и прогнозирования еще не полученных веществ.

Для качественного информационного обеспечения специалистов-химиков были созданы сотни специализированных информационных систем (ИС) по свойствам неорганических веществ и материалов и процессам их получения. Разработка и использование таких ИС ведется во всех промышленно развитых странах мира. Наиболее мощные информационные системы, основанные на современных программно-аппаратных платформах, предлагают NIST (National Institute of Standards and Technology - Национальный институт стандартов и технологий, США) и NIMS (National Institute of Materials Science - Национальный институт материаловедения, Япония). Ни одна из разработанных ИС по свойствам неорганических веществ и материалов (ИС СНВМ) не способна предоставить исчерпывающую информацию обо всей совокупности свойств конкретного вещества. Для промышленного применения материалов специалисты вынуждены просматривать десятки ИС СНВМ, чтобы найти все необходимые им значения параметров заданного вещества. Одним из путей решения проблемы является интеграция информационных ресурсов с целью предоставления полной совокупности данных о материалах, как пользователям, так и прикладным программам. Применение последних позволяет использовать методы компьютерного анализа для поиска взаимосвязей в данных. Использование найденных взаимосвязей позволяет проводить компьютерное конструирование новых соединений, обладающих заданными свойствами. Получаемая с помощью интегрированной ИС консолидированная информация может быть использована специалистами для поддержки принятия решений при выборе того или иного вещества для применения в изделиях современной техники.

Актуальность интеграции в последние годы была осознана не только на национальном, но и на международном уровне, что вызвало появление специальной комиссии (Materials Task Group) в рамках международной организации CODATA (http://vvww.codata.oni), одной из целей которой является выработка

стандартов для интеграции материаловедческих ИС. Однако, несмотря на предпринимаемые усилия, говорить об успехах в этой области преждевременно.

Степень разработанности проблемы. Существенный вклад в решение задач интеграции ИС внесли: Л.А. Калпниченко, С.А. Ступников, В.А. Серебряков, А.Н. Бездушный, A. Halevy (Levy), W. Inmon, D. Calvanese, M. Lenzerini, G. Gottlob, T. Gruber и др. Работы по созданию и использованию ИС СНВМ выполняли: Е.М. Савицкий, В.Б. Грибуля, H.H. Киселева, B.C. Иориш, Ф.А. Кузнецов, Р. Villars, S. Le Clair, N. Chen, L. Bartolo, M. Yamazaki, Y. Xu и др. Задачи прогнозирования решали: Л.А. Растригин, В.П. Гладун, Н.Г. Загоруйко, Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько, R. Duda, Р. Hart, L. Kuncheva и др. Однако следует отметить, что работы по вопросам интеграции ИС и разработки ИС СНВМ не пересекаются, теоретические и методологические основы интеграции ИС СНВМ для компьютерного конструирования неорганических соединений рассмотрены недостаточно.

Исследования, проведенные в работе, вносят вклад в развитие информационных технологий, входящих в перечень критических технологий Российской Федерации, за счет создания интегрированной информационно-телекоммуникационной системы по свойствам неорганических веществ, относящейся к приоритетным направлениям развития науки, технологий и техники в Российской Федерации.

В диссертации на основе обобщения выполненных исследований решается научная проблема информационно-методологического обеспечения интегрированных информационных систем по свойствам неорганических веществ. Применение таких систем не только сокращает время доступа к разрозненным материаловедческим данным, но и позволяет применять средства поиска еще не полученных неорганических соединений с возможностью прогнозирования их свойств без реального синтеза.

Объектом исследования является интегрированная система для компьютерного конструирования неорганических соединений.

Предметом исследования является применение методов интеграции распределенных информационных систем для консолидации информационных ресурсов по свойствам неорганических веществ и материалов при компьютерном конструировании неорганических соединений.

Цель работы

Целью работы является повышение эффективности исследований при создании новых материалов для электроники на основе разработки методологии

интеграции гетерогенных информационных систем по свойствам неорганических веществ.

Для достижения цели работы были поставлены следующие задачи:

• анализ методов прогнозирования свойств неорганических веществ;

• формализация процедуры прогнозирования состава, структуры и свойств неорганических веществ на основе многомерного анализа данных;

• анализ мировых информационных ресурсов по свойствам неорганических веществ и материалов;

• разработка методики использования интегрированных ИС для компьютерного конструирования неорганических соединений;

• системный анализ методов интеграции гетерогенных ИС;

• обоснование выбора метода интеграции в зависимости от требований, предъявляемых к результирующей интегрированной ИС;

• разработка архитектуры интегрированной ИС СНВМ;

• формализация понятия релевантной информации при интеграции ИС СНВМ;

• разработка методики интеграции пользовательских интерфейсов ИС СНВМ;

• разработка моделей данных для использования в интегрированной ИС СНВМ;

• разработка алгоритмов для извлечения, преобразования форматов и загрузки данных в хранилище данных СНВМ;

• разработка и реализация интегрированной ИС СНВМ, объединяющей российские и зарубежные информационные ресурсы, с учетом требований по масштабируемости, простоте реализации и гибкости;

• применение интегрированной ИС СНВМ для решения задач компьютерного конструирования неорганических соединений, перспективных для использования в качестве материалов современной электронной техники.

Научная новизна

• впервые формализована иерархия понятий, используемая в неорганической химии и материаловедении;

• впервые дано определение релевантной информации в контексте интегрированной ИС СНВМ на уровне неорганических веществ и кристаллических модификаций;

• разработана методология интеграции ИС СНВМ, объединяющая преимущества известных методов интеграции;

• на основе системного анализа современных методов интеграции российских и зарубежных ИС предложена архитектура ИС СНВМ, обеспечивающей информационную поддержку компьютерного конструирования неорганических соединений;

• разработана методика применения интегрированной ИС СНВМ в программном комплексе компьютерного конструирования неорганических соединений;

• разработан и реализован алгоритм для обработки неопределенных значений в признаковых описаниях на основе метода "ближайших соседей";

• разработана методика консолидации данных по свойствам неорганических веществ, особенностями которой являются применение хранилищ данных и методов виртуальной интеграции;

• разработаны реляционные модели данных по свойствам акустооптических, электрооптических и нелинейнооптических веществ, по ширине запрещенной зоны неорганических веществ, по информационным ресурсам в области неорганического материаловедения.

Практическая значимость

• разработан и внедрен в Институте металлургии и материаловедения им. A.A. Байкова РАН (ИМЕТ РАН) программный комплекс, реализующий интегрированную ИС СНВМ, объединяющий российские и зарубежные информационные ресурсы по свойствам неорганических веществ и материалов;

• разработана методика обеспечения информационной безопасности при переходе пользователя между узлами интегрированных ИС СНВМ;

• создана единая точка доступа пользователей к информации, консолидированной в рамках интегрированной ИС СНВМ (http://meta.imet-db.ru);

• разработаны и реализованы ИС по свойствам материалов для электроники: ИС "Кристалл" по свойствам акустооптических, электрооптических и нелинейнооптических веществ (русско- и англоязычные версии) и ИС "Bandgap" по ширине запрещенной зоны неорганических веществ;

• разработана и реализована ИС "IRIC" по информационным ресурсам в области неорганического материаловедения;

• определены перспективы практического применения ИС СНВМ для прогнозирования свойств неорганических веществ;

• интегрированная ИС используется в учебном процессе МИТХТ при изучении курсов "Технология полупроводниковых материалов" и "Моделирование процессов полупроводниковой технологии". Методы исследования

Структуризация и формализация предметной области выполнена на основе методов структурного системного анализа, используются методологии семейства ICAM (IDEFO, IDEF1X) и DFD. Для определения релевантной информации в контексте интегрированной ИС СНВМ и построения модели понятий предметной области использован математический аппарат теории множеств. При разработке интегрированной ИС использованы: RAD-методология, теория построения баз данных (БД), Web-технологии, иерархические модели данных XML. Для иллюстрации применения ИС СНВМ в интеллектуальных системах использованы методы компьютерного конструирования неорганических соединений, основанные на распознавании образов по прецедентам.

Апробация работы

Основные результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах: Российских ежегодных конференциях молодых научных сотрудников и аспирантов "Физико-химия и технология неорганических материалов", Москва, 2007-2013; 5-th International Conference "Information Research, Applications - i.Tech", Bulgaria, Varna, 2007; XII Российской конференции по теплофизическим свойствам веществ, Москва, 2008; Symposium on Materials Database (MITS-2009), Tsukuba, Japan, 2009; 2-nd Asian Materials Database Symposium (AMDS-2010), Sanya, China, 2010; XIII Российской конференции по теплофизическим свойствам веществ, Новосибирск, 2011; 3-rd Asian Materials Database Symposium (AMDS-2012), Naha, Japan, 2012; 23-rd International CODATA Conference "Open Data and Information for a Changing Planet" (CODATA-23), Taipei, Taiwan, 2012.

Публикации

Результаты диссертационной работы опубликованы в 33 печатных трудах, втом числе в 1 монографии, 13 статьях в журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ и 2 авторских свидетельствах.

Структура диссертации

Диссертационная работа состоит из введения, семи глав, заключения и приложения, изложенных на 294 страницах, включая библиографию из 314 источников. Рисунков 90, таблиц 31.

Положения, выносимые на защиту

На защиту диссертационной работы выносятся следующие положения:

• методология интеграции информационных систем по свойствам неорганических веществ и материалов с использованием комбинации трех методов интеграции (ETL, Ell, EAI);

• архитектура интегрированной ИС СНВМ, включающей в себя разнородные программные и информационные компоненты;

• методическое, алгоритмическое и программное обеспечение задач интеграции гетерогенных ИС СНВМ;

• информационная система, разработанная на основе консолидации российских и зарубежных информационных ресурсов по свойствам неорганических веществ и материалов;

• ИС "Кристалл" по свойствам акустооптических, электрооптических и не-линейнооптических веществ (русско- и англоязычные версии);

• ИС "Bandgap" по ширине запрещенной зоны неорганических веществ;

• ИС "IRIC" по информационным ресурсам в области неорганического материаловедения;

• применение разработанной интегрированной ИС СНВМ в качестве источника данных для ИС компьютерного конструирования неорганических соединений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении кратко рассмотрены актуальность и практическая ценность работы. Сформулирована цель работы и поставлены задачи. Кратко рассмотрены методы исследований, научная новизна, практическая значимость, результаты апробации и внедрения диссертационной работы. Приведена структура диссертации и краткое содержание основных разделов.

В первой главе рассматриваются особенности прогнозирования свойств неорганических веществ. Отмечается, что принципиально возможны следующие методы прогнозирования свойств неорганических веществ:

• квантовомеханический метод, основанный на решении уравнения Шредин-гера или его обобщений (уравнение Клейна-Гордона, уравнение Паули, уравнение Дирака и т.п.);

• простейшие эмпирические двух- и трехмерные критерии образования соединений с заданными свойствами, (например, фактор толерантности Гольдшмидта для определения области существования перовскитов (кри-

сталлическая структура типа СаТЮз), правило Лавеса для предсказания новых интерметаллических фаз);

• многомерные эмпирические классифицирующие закономерности, получаемые с помощью методов компьютерного распознавания образов в мерном пространстве признаковых описаний веществ.

Отмечается, что решение уравнения Шредингера связано со значительными трудностями даже для простейших систем, что делает невозможным применение этого метода для расчета параметров сложных соединений. Поэтому химики разрабатывали простейшие эмпирические критерии для классификации химических объектов. Зачастую, подобные классификации являлись приближенными, грубыми оценками, точность которых уменьшалась при переходе к более сложным химическим системам. Описывается появление многомерных критериев, являющихся естественным развитием простейших эмпирических критериев. Переход к большому числу критериев оказался возможен в 90-е годы прошлого века только при использовании компьютеров и специальных систем поиска взаимосвязей в больших объемах данных, что и сформировало область, называемую "компьютерным конструированием соединений".

Описывается задача компьютерного конструирования неорганических соединений, заключающаяся в нахождении совокупности химических элементов и их соотношения для создания определенной молекулярной или кристаллической пространственной структуры соединения, позволяющей реализовать необходимые функциональные свойства. Основная гипотеза, лежащая в основе этого подхода: фундаментальные свойства многокомпонентных неорганических веществ при различных условиях (температуре, давлении, соотношении компонентов и т.д.) связаны периодическими зависимостями с фундаментальными свойствами химических элементов, входящих в их состав. Существование таких зависимостей является следствием Периодического закона Менделеева. Перечисляются типы задач, успешно решаемые с помощью методов компьютерного конструирования неорганических соединений:

• образование (отсутствие образования) соединений заданного количественного состава, например образование соединений состава А2ВС14, где А и В - разные металлы;

• прогнозирование типа кристаллической структуры;

• интервальное прогнозирование значений свойств неорганических веществ.

Приводится формальная постановка задачи компьютерного конструирования неорганических соединений. Пусть каждое неорганическое соединение

описано вектором х = ,х\1\х^\...,х^ , где Ь - коли-

чество химических элементов в соединении, а М - количество параметров химических элементов. Каждое вещество также характеризуется принадлежностью к определенному классу: а(х) е {1,2,...,К}, где К — количество классов. Обучающая выборка состоит из N объектов: = {л:^, / = 1,..., /V}. Обозначим подмножество объектов обучающей выборки из класса = как = {х:а(х) = а^.

Цель обучения заключается в нахождении таких классифицирующих правил, которые позволяют отличить объекты разных классов в обучающей выборке и предсказать образование новых комбинаций химических элементов, которые не использовались для обучения, и относить их к одному из К классов. Таким образом, осуществляется переход к классической задаче распознавания образов по прецедентам. Особенностью предметной области является только формирование признакового описания, имеющего составную структуру: набор свойств элементов (компонентов неорганического вещества) повторяется Ь раз.

При компьютерном конструировании неорганических соединений важнейшим является наличие больших объемов достоверной информации о свойствах неорганических веществ и материалов. Поэтому для обеспечения исходных данных необходима разработка и использование специализированных ИС по свойствам неорганических веществ, основанных на базах данных. По этой причине в настоящем исследовании приводятся результаты разработки ИС СНВМ, а также интегрированной ИС на их основе.

В соответствии с методикой В.В. Кафарова рассматривается применение системного подхода для разработки структурной схемы СППР при прогнозировании средствами компьютерного конструирования неорганических соединений (рис. 1). Отмечается, что инструментальной основой для конструирования новых неорганических соединений является разработанная в настоящем исследовании интегрированная ИС СНВМ в сочетании с программами анализа данных, основанных на распознавании образов.

Приводится краткий обзор методов распознавания образов и отмечается, что в настоящее время не существует универсального метода распознавания, дающего всегда лучшие результаты. Каждый из методов использует некоторую часть из множества общеизвестных метрик, функций близости, критериев оптимальности, методов оптимизации, способов выбора начальных приближений, способов работы с разнотипными признаками и т.д.

I. Формулировка цели создания системы

Прогнозирование свойств соединений

II. Декомпозиция - Выделение подсистем

Интегрированная ИС

Поиск соединений-аналогов и прототипов

СППР

Формирование набора параметров для описания соединений

Расчет значений параметров

Прогнозирование

Формулировка гипотез

III. Выявление информационных связей и установление управляющих

Рис. 1. Системный подход к разработке структурной схемы СППР.

Практическое применение методов распознавания для прогнозирования свойств неорганических веществ показало, что в ситуации, когда находится множество существенно отличающихся решений, перспективным направлением исследований является разработка методов синтеза коллективных решений. Коллективные подходы для решения задач распознавания позволяют объединить разнотипные алгоритмы распознавания и находить оптимальные коллективные решения, в которых компенсируются неточности каждого из используемых базовых методов. Среди методов построения коллективных решений выделяется две категории: построение комитетных решений и методы выбора классификатора.

Простейшим комитетным методом является усреднение оценок за клас-

РМ\х) = —УРлЬ\х)

сы: а\ I / л,, \ I / ; ГДе А - полученный алгоритм в виде компо-

Р /=1

зиции р алгоритмов А1,...,Ар. Используются также комитетный метод взятия максимума оценки принадлежности к данному классу по всем исходным алго-

РА (/1 х) ~ шах Рл (>|х).

' -i<p

1 <i<p "i" ' ''' произведения оценок принадлежности к классу:

ритмам: а v \л) i<;<p А> 1 '! взятия минимума оценки:

PA(t\x) ~mmPA (t\x).

р

Р (t\x~)~\~\Р (t\x)

4 1 ' Л 1 <Ь У.В трех последних случаях апостериорные вероятно-/=1

сти требуют масштабирования, чтобы их сумма по всем классам / давала единицу: ^а I х) = 1.

Другая концепция построения комитетных решений, использованная в работе, заключается в использовании решающих правил исходных алгоритмов,

вместо оценок принадлежности за классы: а \ i j ¿—¡¡=\ / ) где

1'л. О) - бинарная величина, индикатор классификации объекта х к классу t алгоритмом Aj.

Во второй главе проводится анализ ИС СНВМ в области неорганического материаловедения. Приводятся результаты разработки информационной системы "IRIC" (http://iric.imet-db.ru. Information Resources on Inorganic Chemistry -Информационные ресурсы неорганической химии), созданной с участием автора в рамках работы по систематизации наиболее значимых информационных ресурсов по свойствам неорганических веществ и материалов. Отмечается, что при разработке ИС "IRIC" был использован разработанный с участием автора модуль SimpleCMS, облегчающий создание навигационных элементов ИС "IRIC".

В настоящее время "IRIC" содержит сведения о 122 информационных ресурсах, созданных в мире. Отличительными особенностями "IRIC" являются: 1) первый в мире каталог по информационным ресурсам в области неорганической химии и материаловедения, содержащий библиографические источники;

2) интерфейс на русском и английском языках; 3) возможность полнотекстового поиска, включая библиографию, и поиска по метаданным.

Рассмотрены наиболее значимые ИС СНВМ, созданные в России и за рубежом и проанализированы их архитектурные особенности. Под архитектурой ИС понимается концепция, которая определяет модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы. Большинство рассмотренных ИС реализуют трехзвенную клиент-серверную архитектуру, которая отличается от классической клиент-серверной архитектуры физическим разделением программ, отвечающих за хранение данных (СУБД), от программ, обрабатывающих эти данные (сервер приложений). Такой подход позволяет оптимизировать нагрузку на вычислительное оборудование серверной части комплекса.

Далее проводится исследование текущего состояния и принципов построения ИС СНВМ с точки зрения информационных структур, содержащихся в БД, и их семантики, т.к. это является необходимым условием разработки интегрированной ИС. Проанализированы крупнейшие международные материа-ловедческие комплексы: AtomWork (NIMS, Япония), SpringerMaterials (the Landolt-Bornstein Database). Выявлены следующие недостатки в построении ИС, затрудняющие поиск информации и дальнейшее использование ИС СНВМ в качестве источников данных для программ компьютерного конструирования неорганических соединений:

• отсутствие функций поиска информации по количественному составу соединения,

• отсутствие функций поиска по значениям физико-химических свойств.

Выявленные архитектурные недостатки устранены при разработке некоторых ИС ИМЕТ РАН с использованием предложенной автором трехзвенной архитектуры ИС СНВМ на основе систем хранения данных со строго типизированным учетом информации по: 1) качественному и количественному составу веществ; 2) кристаллическим модификациям; 3) значениям свойств. Следование этой архитектуре позволяет не только создавать ИС СНВМ с возможностью сложносоставных запросов, но и эффективно использовать их в качестве подсистем разработанной интегрированной ИС СНВМ.

В частности, приводятся результаты разработки ИС по веществам с особыми акустооптическими, электрооптическими и нелинейнооптическими свойствами "Кристалл" и ИС по ширине запрещенной зоны неорганических соединений "Bandgap", проведенной в рамках диссертационной работы. В реляцион-

ных моделях данных этих ИС СНВМ учитывается зависимость свойств, как от количественного состава вещества, так и от кристаллической модификации (сингонии) (рис. 2).

Вещество (иЫЬОз, ваАз, ...)

HeadTab!

1 f HeadClue

System

U«. Expert

— Help Class

Растворимость

Температура плавления

SuspTabl

- HeadClue Temper -

— SuspNaroe Suspense

ErrSusp

Methods

PlavTabI

| | HeadClue

_J PlavType

i | PlavTemp

!_J EriWav

;_j Bknumber

Сингония (гексагональная, кубическая, SlngTabl

Jj J

ш

SingType SfngClue

Тепловое

HeatExpn

I HeadClue JL

I SingCode

I DataType —

Temper _1

Temper_2

Znakl zi

Показатели

Refrclnd

HeadClue

SingCode

Temper

WaveLeng

Mazblndx

Znachind

Рис. 2. Часть реляционной модели данных ИС "Кристалл".

Отличительной особенностью разработанных ИС СНВМ является возможность поиска данных по сложным запросам: запросы с учетом количественного состава и кристаллических модификаций неорганических соединений, а так же сложносоставные запросы, связанные с поиском материалов с совокупностью значений нескольких свойств, например, твердости и температуры плавления. Эти типы запросов, как правило, не реализованы в ИС СНВМ, разработанных в других организациях, что затрудняет использование подобных ИС при компьютерном конструировании неорганических соединений.

Кратко рассмотрены другие ИС ИМЕТ РАН, построенные на различных программно-аппаратных платформах с использованием разных подходов к хранению и обработке информации: ИС "Фазы" по свойствам неорганических соединений, ИС "Диаграмма" по фазовым диаграммам систем с полупроводниковыми фазами, ИС "Кремний" по свойствам полупроводникового кремния и процессам его получения и обработки.

При исследовании ИС СНВМ отмечено присутствие во многих ИС расчетных подсистем, с помощью которых динамически рассчитываются значения тех или иных свойств веществ. При этом исследователи активно используют такие расчетные подсистемы для получения информации, которая не может быть представлена в табличной форме (рисунки, динамические графики зави-

симостей и т.п.). Такие расчетные подсистемы используют данные из конкретных информационных источников, и, следовательно, их невозможно применять вне контекста оригинальных пользовательских интерфейсов ИС. Учитывая важность расчетных подсистем, отмечена необходимость их включения в интегрированную ИС СНВМ за счет консолидации \¥еЬ-интерфейсов ИС.

Описание сущностей и их свойств в ИС СНВМ происходит с разной степенью детализации. Отмечено, что значения свойств, хранимые в разных информационных источниках, определяются, в первую очередь, составом неорганических веществ (набором образующих их химических элементов и их соотношением). В свою очередь, физические свойства веществ во многом зависят от кристаллической структуры. Анализ информации, содержащейся в ИС СНВМ, присутствующих в ИС "1ЮС", позволил составить иерархию понятий, представленных на рис. 3, которая описывает химические объекты, свойства которых рассматриваются в той или иной ИС СНВМ, и их взаимосвязи. Приведенная иерархия понятий имеет особую важность для построения информационных моделей данных при интеграции ИС СНВМ.

Ыа-С1

Система

ЫаС!

Вещество

№С1, СэС1 (30 ГПа)

Модификация

Рис. 3. Иерархия понятий, используемых в ИС СНВМ.

Обозначив сущности второго уровня общим термином "вещество" получаем трехуровневую иерархию объектов: система, вещество и кристаллическая модификация. Вся информация о свойствах объектов, описываемых в интегрируемых ИС СНВМ, может быть представлена на одном из этих трех уровней.

Для строгой формализации предложенной иерархии используется теория множеств. Множество химических систем, образуемых элементами, обозначается множество химических веществ - С, а множество кристаллических модификаций - М. Химическая система обозначается .у (где химическое вещество - с (где с е С), а химическую модификацию - т (где т е М ).

Химическая система л- представляется множеством элементов е,: л = {е1,е2,..,еп}, т.е. определяется качественный состав вещества. Неорганическое вещество с определяется не только множеством атомов, но и количественным

вхождением последних в состав вещества, раствора или смеси. Поэтому вещество с представлено кортежем О,/), где ssS, a / является отображением множества элементов, которые образуют вещество, на множество пар R' x R\ задающих соответственно минимальное и максимальное вхождение заданного химического элемента в вещество, раствор или смесь с. То есть / \ej->(/?™„,R*m), где R* - множество неотрицательных действительных чисел. R*mia и соответственно, минимальная и максимальная концентрация химического элемента е} в веществе с. В случае, когда концентрация конкретного химического элемента е, в веществе с фиксирована, то R*.m = R*m. Кристаллическая модификация m представляется кортежем (s,/,mod), где seS, f -KÄmm.Ämax) > a mod ~~ строковое обозначение кристаллической модификации вещества, принятое в интегрированной ИС СНВМ. Для разрешения конфликтов наименований модификаций используются тезаурусы.

Далее множества С и М, расширяются пустым элементом null, т.е. null е С,null е M. Любой химический объект (система, вещество и модификация) может быть описан тройкой (s,с,m), где sbS,cb С,m е M . Таким образом, получаем шаблоны для записи химических объектов следующего вида: (s, null, null) -для систем, где определен качественный состав вещества; {s,с, null) - для веществ, где определен количественный состав; (л-, с, га) — для кристаллических модификаций.

В результате анализа наиболее известных ИС СНВМ, выделяются следующие тенденции разработки современных ИС в данной области:

• организация доступа к информации из сети Интернет;

• использование мощных систем управления базами данных (СУБД): Oracle, Microsoft SQL Server и т.д.;

• размытие границы между документальными и фактографическими ИС: в традиционные документальные системы часто добавляются таблицы с фактографической информацией; фактографические системы включают обширную текстовую информацию и соответствующие средства контекстного поиска, а также оснащаются контурами полнотекстовых документов в pdf- или html-форматах - это статьи, патенты, технологическая и производственная документация и т.п.;

• особое значение уделяется качеству хранящейся информации. Разработчики коммерческих информационных систем привлекают высококвалифицированных специалистов для сбора и экспертной оценки достоверности

данных, т.е. пользователь получает не просто "сырую" информацию, прошедшую фильтрацию с целью отсеивания опечаток, а рекомендуемые значения;

• оснащение ИС СНВМ средствами анализа информации: от традиционных термодинамических расчетов и статистических процедур до современных средств поиска взаимосвязей в данных, позволяющих прогнозировать поведение объектов и обеспечивающих поддержку принятия решений;

• интеграция ИС по веществам и материалам с целью предоставления пользователю наиболее полной информации о свойствах конкретного вещества, а также для последующего анализа совокупной информации о неорганических веществах и материалах.

Описана разработка универсального программного комплекса DBAdmin, позволяющего выполнять удаленное администрирование реляционных БД всех ИС ИМЕТ РАН с использованием единого пользовательского интерфейса. Особенностями данного комплекса являются: 1) возможность удаленного (по локальной сети или через Интернет) взаимодействия с серверами БД;

2) способность работать с БД произвольной структуры, поскольку структура данных считывается при подключении к информационному источнику;

3) возможность эффективного взаимодействия с БД под управлением разных СУБД (Microsoft SQL Server, Oracle и т.д.) за счет использования OLE DB и ODBC. Отмечается, что использование DBAdmin позволило стандартизировать процедуры администрирования всех БД ИС СНВМ в рамках ИМЕТ РАН и дало возможность использовать этот комплекс для единого управления всеми БД в рамках интегрированной ИС СНВМ.

В третьей главе рассматривается применение системного подхода для интеграции ИС СНВМ. Предлагается методология интеграции ИС СНВМ, рассматриваемая, как система трех методов интеграции: (1) интеграция корпоративных приложений (Enterprise Application Integration, EAI), (2) интеграция корпоративной информации (Enterprise Information Integration, Ell) и (3) программное обеспечение для извлечения, преобразования и загрузки данных (Extract, Transform, Load - ETL), основанное на использовании хранилищ данных (рис. 4).

Методы интеграции используются для решения широкого круга задач: от интеграции в режиме реального времени (EAI, Ell) до пакетной интеграции (ETL), и от интеграции данных (ETL, Ell) до интеграции приложений (EAI). Для интеграции данных в режиме реального времени лучше всего подходит Ell. Для пакетной интеграции данных - ETL. А для интеграции приложений, в ре-

жиме реального времени или пакетном, наиболее подходящим является метод ЕА1. На рис. 5 схематично показано применение трех методов для интеграции ИС СНВМ.

Методология интеграции гетерогенных ИС

(система, совокупность методов исследования)

Методы интеграции гетерогенных ИС

(отдельные направления исследований)

МЕТОДИКИ (совокупность приемов практической реализации)

создание метабазы ] [ создание ХД | создание метабазы |

| релевантный поиск \ извлечение и преобразование данных | извлечение данных |

| интеграция интерфейсов | | загрузка данных в ХД [^преобразование данных ]

Алгоритмы

(программная реализация)

Алгоритмы

(программная реализация)

Алгоритмы

(программная реализация)

Рис. 4. Методология интеграции ИС СНВМ.

Отмечается, что ни один из существующих на сегодняшний день методов интеграции не способен решить все проблемы, возникающие при консолидации ИС СНВМ для информационной поддержки компьютерного конструирования неорганических соединений. Необходимость как можно более тесной интеграции ИС СНВМ ставит задачу анализа архитектуры и выявления структуры информационных потоков в интегрируемых ИС СНВМ.

Рис. 5. Использование трех методов для интеграции ИС СНВМ.

Отмечено, что серверная часть современных ИС СНВМ разделена на два звена: (1) база данных информационной системы (БД ИС); (2) \УеЬ-приложение

информационной системы ^еЬ-приложение ИС). Основываясь на архитектурном разделении ИС, выделены два класса подходов к интеграции ИС.

дангьк преобразована данньк и приложениями данн=к данг-ьк

Рис. 6. Системный анализ методов интеграции гетерогенных ИС.

Первый класс подходов заключается в интеграции информационных ресурсов на уровне консолидации их гетерогенных источников данных (ETL, Ell).Второй класс подходов позволяет объединить пользовательские интерфейсы, с помощью которых осуществляется доступ к информационно-расчетным подсистемам, т.е. Web-приложения интегрируемых ИС СНВМ (EAI).

Выполнен системный анализ методов интеграции гетерогенных ИС (рис. 6). Пунктиром на схеме показаны условные границы интегрируемых ИС. На верхней части схемы показана структура типичной интегрируемой ИС. Интеграция приложений (EAI) требует применения средств согласованной работы консолидируемых Web-интерфейсов. Эту роль на схеме выполняет посредник интерфейсов, который осуществляет передачу сообщений между интегрируемыми ИС, что обеспечивает консолидацию на уровне пользовательских интерфейсов ИС. Дополнительно при EAI может существовать собственный пользовательский интерфейс - единая точка входа пользователей, которая реализована в рамках диссертационного исследования.

Интеграция на основе метода хранилищ данных (ETL) включает модули для извлечения исходных данных в форматах ИС источников, модули преобразования их к формату хранилища данных и модуль загрузки в хранилище. Поскольку все консолидированные данные располагаются локально в рамках PIC ETL, то доступность ИС источников требуется только на момент первичного извлечения данных и наполнения хранилища.

При использовании метода виртуальной интеграции данных (Eli, Local-As-View) исключается стадия разработки и заполнения промежуточного хранилища данных, но при этом требуется постоянный доступ к ИС источников данных и размещение в исходных ИС адаптеров (выполненных, например, в качестве Web-сервисов) извлечения данных и преобразования к единому формату интегрированной ИС. Таким образом, ответ на запросы в Ell занимает больше времени по сравнению с ETL.

При интеграции гетерогенных ИС любым методом необходима реализация процессов внешнего информационного обмена. На схеме интеграции эти процессы представлены стрелками, пересекающими условные границы ИС.

В исследовании приводится сравнение методов интеграции по следующим критериям: объект интеграции, доступ к данным источника, объем извлекаемых данных, актуальность информации, хранение извлеченных данных.

На основе системного анализа методов интеграции гетерогенных ИС формулируются рекомендации по использованию конкретного метода в зависимости от требований, предъявляемых к интегрированной ИС (табл. 1 ).

Учитывая предложенные рекомендации по выбору методов интеграции, требования к интеграции ИС СНВМ и регламенты доступа к ИС СНВМ, разработанным в разных странах и организациях, предложена методология интегра-

ции, сочетающая в себе интеграцию на уровне данных (совместное использование ETL и Ell) и пользовательских интерфейсов (EAI).

Таблица 1. Общие рекомендации по выбору метода интеграции.

Критерий принятия решения по выбору метода интеграции Условия интеграции гетерогенных информационных систем Рекомендуемый метод интеграции

Возможность доступа к данным источника Доступ к данным отсутствует EAI

Доступ к данным возможен ETL или Ell

Надежность доступа к данным источника Необходим постоянный доступ ETL

Постоянный доступ не требуется Ell

Хранение извлеченных данных Необходимо локальное хранение ETL

Не требуется Ell или ЕА1

Интеграция расчетных подсистем ИС Требуется ЕА1

Не требуется ETL или Ell

Ограниченность доступа к данным источника Доступ на ограниченной (платной)основе Ell или EAI

Возможен полный доступ ETL

Актуальность извлекаемых данных требуется Ell или EAI

не требуется ETL

Использование метода хранилищ данных (ETL) предлагается для создания интегрированного источника данных в рамках одной организации, ?тпри-мер, ИМЕТ РАН. Это позволит получить максимальную надежность и скорость работы с интегрированными данными со стороны систем компьютерного конструирования неорганических соединений или других высокоуровневых средств интеграции. Использование метода интеграции данных (Ell) предлагается для виртуальной интеграции материаловедческой информации между ИС, как правило, относящимися к разным организациям, запрещающим физическое копирование данных или предоставляющими ограниченный доступ к данным на платной основе. Таким образом, на нижнем уровне (в рамках организации) данные интегрируется с помощью хранилищ данных (ETL), а затем на более высоком уровне интеграция осуществляется с использованием метода Ell (рис. 7). Отмечается, что возможна реализация многоуровневой схемы использования хранилищ данных и виртуальной интеграции для обеспечения требуемой скорости обработки данных и масштабируемости системы.

проверка экспериментом

Рис. 7. Методика консолидации данных ИС СНВМ.

На основе предложенных рекомендаций по выбору методов интеграции и анализа современных ИС СНВМ разработана архитектура интегрированной ИС СНВМ. Проведен системный анализ информационных потоков в интегрированной ИС СНВМ, а также выявлены связи интегрированной ИС с системами компьютерного конструирования неорганических соединений (или другими СППР) при исследовании свойств неорганических веществ для современной промышленности (рис. 8). Для обеспечения качественной информационной поддержки пользователей в рамках работы предложено создать общий интерфейс доступа, являющийся единой точкой входа в ИС СНВМ.

Рассмотрены три типа конфликтов гетерогенности: 1) платформенные и системные, 2) синтаксические и структурные, 3) семантические. Предложены пути их разрешения на основе архитектуры SOA (Service Oriented Architecture -сервисно-ориентированная архитектура, основанная на технологии Web-сервисов), языка XML и введения тезаурусов соответственно.

анализ данных и прогнозирование

/ ________________________J

1

интеграция данных

НЕ

X

извлечение

IL

| преобразование| [преобразование|

Ell

iL

извлечение

ETL

Хранилище Данных

IlTHL

загрузка загрузка

1Г 1?

преобразование| JL преобразование ft

извлечение извлечение

-0—^

БД 1 ] БД 2

Организация,

БД п

Организация m

Пользователь - эксперт

EII

Отчеты / Инструментальные панели

Ц Приложения \у \ Приложения у^Ц Приложения

' ¡IeAIST

Модуль обмена сообщениями

Общий интерфейс доступа

ETL

Отчеты / Инструментальные панели

ту

Хранилище Данных

X

Модуль извлечения, трансформации и загрузки данных

СППР

Модуль анализа данных

построения гипотез

Прогнозирование

Проверка экспериментом

Рис. 8. Архитектура интегрированной ИС СНВМ и системный анализ информационных потоков.

Проведен обзор современных программных платформ для разработки интегрированной ИС. Предложены критерии выбора платформы: производительность, безопасность, надежность, интероперабельность и совокупная стоимость владения (ССВ). Используя предложенные критерии и результаты тестирования, проведенного независимыми компаниями, сделан вывод, что Microsoft предлагает наиболее надежные и высокопроизводительные решения с меньшей ССВ, чем у основных конкурентов. Это обусловило выбор платформы Microsoft (Windows Server 2008 + SQL Server 2008) для реализации интегрированной ИС СНВМ.

В четвертой главе рассматривается системный подход к разработке нормализованного хранилища данных (ХД) по свойствам неорганических веществ для использования в системах компьютерного конструирования неорганических соединений (СППР). Данный метод интеграции, в рамках предложенной методологии интеграции ИС СНВМ, применяется при создании интегрированного источника данных в рамках одной организации. Представить задачу создания интегрированной ИС СНВМ с помощью контекстной диаграммы потоков данных можно следующим образом (рис. 9).

Рис. 9. ОРЭ-диаграмма хранилища данных совместно с СППР.

При использовании в рамках системного подхода декомпозиции блока "Инструменты ЕТЪ" получим диаграмму, содержащую модули для извлечения, преобразования и загрузки данных в ХД (рис. 10).

Рис. 10. DFD-диаграмма декомпозиции блока "Инструменты ETL".

В дальнейшем декомпозиции подвергается каждый из блоков, отображенных на диаграмме. На заключительном этапе особое внимание уделяется описанию логической структуры ХД и представлению информации о свойствах химических объектов на трех уровнях: химической системы, вещества и кристаллической модификации. На рис. 11 приведена логическая модель разработанного ХД по свойствам неорганических веществ. В исследовании также получена физическая модель хранилища данных, реализованного под управлением СУБД Microsoft SQL Server 2008. Рассмотрим кратко назначения реляционных таблиц и используемые в них иерархические форматы данных XML.

Химические объекты

Модификации

а-ВаВ,04 р-ВаВ^О,

OW. Properties

i V PïO£H!ltï!0 ____ fia**

с&птйМ

VM Hodfk К,ч,..

I I SysteralD i j CwnpöundID

jHgj MwffcatiertB

:_I MOCSfcät&nTyp«

H®ific«ioriTyïse ft-cdftc etwnTypeMame S/ivonyawXHï. McdfkdtkmTy

Основная таблица.

Содержит значения свойств в формате XML

Свойства

Рис. 11. Логическая модель хранилища данных по свойствам веществ.

В таблице DW_Systems хранится информация о химических системах (качественном составе веществ), данные о которых помещены в ХД. При этом информация об образующих систему химических элементах содержится в таблице DWSystemEIements, ссылающейся на справочник химических элементов DW_Elements. В поле DWSystems.SystemXML хранятся XML-документы, описывающие химические системы. Например, система As-Ga представлена следующим документом:

<SystemXML>

<ChemicalSystem>

<Eleraent>As</Element> <Element>Ga</Element> </ChemicalSystem> </SystemXML>

Аналогично описывается информация о содержащейся в ХД информации по неорганическим веществам с помощью таблицы DW_Compounds, связанной с таблицей элементов через промежуточную таблицу DW_CompoundElements, позволяющую хранить сведения о соотношении химических элементов в соединении (возможно, переменного состава) с помощью полей Minindex и MaxIndex. Информация о кристаллических модификациях хранится в таблице

DW_JVIodifications, которая добавляет к данным о количественном составе соединения информацию о типе одной из кристаллических модификаций, описанных в справочной таблице DW_ModificationTypes.

Основное внимание уделялось способу представления значений свойств. Важно обеспечить представление свойств разных типов: скалярные значения, табличные наборы данных, графические и полнотекстовые описания. Для обеспечения кроссплатформенной возможности работы со значениями из столь широкого диапазона типов данных было принято решение использовать XML-документы. Например, для ниобата лития (LiNb03) растворимость в воде, заданная таблицей в БД ИС "Кристалл", являющаяся функцией от температуры, представляется в виде XML-документа: <root>

<val dbid="l" mime="text/xml">

<row p_TempK="273" p_SuspName="H&lt;sub&gt;2&lt;/sub&gt;0" value="0.34" />

<row p_TempK="298" p_SuspName="H&lt;sub&gt; 2 & lt;/sub&gt; 0" value="0.41" />

<row p_TempK="323" p_SuspName="H&lt;sub&gt;2&lt;/sub&gt;0" value="0.64" />

<row p_TempK="348" p_SuspName="H&lt;sub&gt;2&lt;/sub&gt;O" value="0.89" />

<row p_TempK="373" p__SuspName="H&lt;sub&gt;2&lt;/sub&gt;0" value="1.09" /> </val> </root>

При работе с двоичными данными, например, с графическими рисунками или аналитическими обзорами используется представление бинарных данных в виде строки Base64 с обязательным указанием MIME-типа ресурса (например, "image/gif' или "application/pdf'). Преобразования разнородных типов данных к XML-формату реализуются на базе программного модуля Data Entity Framework, реализованного с участием автора. Полученные значения хранятся (в виде XML-документов) в таблице DW_PropertyValues, а составной ключ Ргорег-tylD, SystemlD, CompoundID, ModificationID указывает на описываемое свойство из таблицы DW_Propeties и химический объект, определяемый тройкой (SystemlD, CompoundID, ModificationID). Это позволяет сохранять в ХД значения свойств для химических объектов на уровне систем, веществ и модификаций. Так, при описании значения свойства для неорганического вещества CompoundID содержит идентификатор соответствующего неорганического соединения (SystemlD - указывает на соответствующую химическую систему), a Modifica-tionID=0, т.е. указывает на отсутствие информации по модификации химиче-

ской сущности (использование NULL недопустимо, в силу вхождения поля ModificationID в состав первичного ключа). Подробно реализация алгоритмов извлечения данных из ИС СНВМ, их преобразования и загрузки в ХД рассматривается в диссертации.

Отмечается, что при использовании ХД в качестве источника информации для систем прогнозирования значение свойства необходимого химического объекта может быть получено двумя способами: 1) путем наложения на XML-документ специального XSLT-преобразования (XML + XSLT => требуемый формат данных); 2) путем программной обработки XML документа с использованием средств организации запросов к XML-документу на языках XPath и/или XQuery. Важной особенностью является возможность выполнения данных преобразований как на стороне ХД с использованием хранимых процедур на SQL CLR (SQL Common Language Runtime - реализация размещения и запуска управляемого кода в рамках СУБД Microsoft SQL Server), так и на стороне сервера приложений (например, Microsoft IIS), что улучшает масштабируемость ИС.

В заключении обосновывается целесообразность использования метода ХД (ETL) для интеграции материаловедческих данных в рамках организации или для объединения информационных ресурсов с общей политикой доступа (административной подчиненностью). Этот шаг позволяет сократить временные затраты на извлечение данных из ХД по сравнению с разрозненными информационными источниками.

В пятой главе посвященной виртуальной интеграции материаловедческих данных отмечается, что построение ХД для интеграции материаловедче-ской информации не всегда представляется возможным по организационным причинам, что вынуждает использовать метод интеграции Ell (Enterprise Information Integration). Отмечается, что, в отличие от метода ХД, Ell обеспечивает получение актуальных данных из информационных источников и не требует промежуточного хранилища. К недостаткам Ell можно отнести низкую скорость доступа к данным, вследствие обращения к множеству распределенных гетерогенных информационных источников.

Модуль извлечения (часто называемый предметным посредником) является центральным звеном системы интеграции данных, и его основная функция — построение ответа на запросы внешней ИС. Выполнение этой задачи требует преодоления множества различных конфликтов гетерогенности. Конфликты можно условно разделить на следующие классы:

• платформенные и системные - интегрируемые ИС используют несовместимые аппаратные платформы, операционные системы, СУБД и другое программное обеспечение для их функционирования;

• синтаксические и структурные - интегрируемые ИС используют разные по синтаксическому описанию (XML, RDF, реляционные таблицы) и по структуре (реляционные данные, объекты) данные, т.е. отличия в моделях данных и их схемах;

• семантические - разные источники данных для обозначения одной и той же сущности могут использовать различные значения. Например, для обозначения типа кристаллической структуры перовскита в различных источниках могут использоваться: "перовскит", "CaTi03", "perovskite" и т.д. В дополнении к конфликтам обозначений, могут встречаться и конфликты шкал и точности. Так, например, значения температуры могут быть указаны в градусах по Цельсию и Фаренгейту в разных источниках данных с разной точностью.

Для того чтобы согласовать гетерогенные представления интегрируемых данных, используются специальные адаптеры, которые осуществляют преобразования схем и типов данных с помощью соответствующих правил отображения. Таким образом, адаптер отвечает на запросы модуля извлечения данных следующим образом: выполняется трансляция запроса во внутреннюю схему информационного источника, запрашиваются данные из источника (БД, XML-файл, CSV и т.д.), преобразуются форматы данных к форматам общей схемы и выдаются в качестве ответа. Если происходят изменения в форматах внутренних данных источника, то требуется только изменить адаптер.

Для разрешения платформенных и системных конфликтов должны использоваться стандарты и протоколы, доступные на множестве программно-аппаратных платформ. Поэтому в качестве механизма межсистемного взаимодействия в данной работе используются Web-сервисы, взаимодействие с которыми осуществляется по протоколу SOAP (Simple Object Access Protocol — простой протокол для доступа к объектам), работающему поверх прикладного протокола HTTP. Таким образом, информационный обмен в ИС построен на удаленном вызове процедур (RPC) на базе архитектуры SOA. Программные адаптеры реализованы в виде Web-сервисов, доступных по протоколу HTTP (или HTTPS для обеспечения информационной безопасности). Например, для ИС "Кристалл" адаптер извлечения данных доступен по URL-адресу http://crystal.imet-db.ru/EH crystal/Ell crystal.asmx и позволяет запрашивать информацию о следующих свойствах веществ (табл. 2).

Таблица 2. Некоторые свойства веществ в ИС "Кристалл".

№ Свойство № Свойство Ка Свойство

5 Удельная теплоемкость 11 Хар-ка кристаллической структуры 21 Показатели преломления

6 Плотность 13 Тепловое расширение 22 Коэф-ты Селмейера

7 Твердость 14 Теплопроводность 24 Нелинейно оптические свойства

8 Растворимость 15 Диэлектрическая проницаемость 25 Пьезооптические и уп-ругооптические коэф-ты

9 Температура плавления 19 Упругие постоянные 26 Распространение и затухание упругих волн

10 Температура Кюри 20 Полоса пропускания 27 Акустооптические свойства

Добавление нового источника информации в интегрированную ИС СНВМ может быть выполнено путем ввода данных о соответствующем программном адаптере в каталог источников данных. При этом добавленный адаптер должен быть совместим со стандартизированным WSDL (Web Services Description Language - язык описания Web-сервисов) описанием адаптеров ИС СНВМ, т.е. поддерживать тот же интерфейс взаимодействия с модулем извлечения, что и остальные адаптеры. Результатом работы адаптеров являются стандартизированные XML-документы, что обеспечивает унифицированную работу модуля извлечения данных со всеми интегрируемыми источниками данных.

В диссертационном исследовании описывается также схема разработанной метабазы. Метабаза - это БД, содержащая справочные данные (метаданные), необходимые для функционирования подсистем виртуальной интеграции данных (EII) и интеграции приложений (EAI, рассматривается в 6 главе). Метабаза реализована под управлением СУБД Microsoft SQL Server 2008.

В данной главе рассматривается структура части метабазы, предназначенной для предметного посредника виртуальной интеграции данных (EII). Помимо упоминавшегося выше каталога источников данных, содержащегося в таблице Meta_DBInfo, метабаза содержит следующие табличные объекты: Meta_ExpertInfo - данные экспертов, оценивающих информацию в интегрируемых источниках, Meta_Userlnfo - профили пользователей, работающих с предметным посредником, Meta UserExpert - таблица, связывающая пользователей

и экспертов, дает возможность опытному пользователю ранжировать экспертные оценки; Meta_SystemInfo, Meta_SubstanceInfo, MetaModificationlnfo, Ме-ta ModificationRegistry, Meta Propertylnfo - таблицы, предназначенные для разрешения семантических конфликтов на уровне химических систем, веществ, модификаций и свойств; MetaDBExpert, MetaPropertyExpert, Ме-taSystemExpert, Meta_SubstanceExpert, MetaModiflcationExpert - таблицы, содержащие экспертные оценки качества информации в интегрируемых информационных источниках.

В связи с тем, что интегрируемые источники данных могут пересекаться по набору свойств веществ, а качество информации (достоверность и полнота) в каждой ИС СНВМ отличается для разных свойств, разработан механизм, поддерживающий экспертные оценки интегрируемых данных. Экспертиза проводится высококвалифицированными специалистами в области неорганической химии и материаловедения, которые выставляют оценки, характеризующие качество данных в интегрируемых источниках. Таким образом, при наличии информации о каком-либо физико-химическом свойстве в нескольких ресурсах, интегрированная ИС может выдавать не только сами данные, но и степень их достоверности, рассчитанную на основе экспертных оценок. Отмечается, что ИС может функционировать и без пользовательских рейтингов и экспертных оценок, предоставляя все данные, полученные из информационных источников, без ранжирования по качеству.

В работе описывается разработка предметного посредника (модуля извлечения), являющегося точкой доступа в интегрированную ИС СНВМ для получения информации, консолидированной из гетерогенных источников по свойствам неорганических веществ. Предметный посредник доступен по адресу http://meta.imet-db.ru/EH/service.asrnx и взаимодействует с набором адаптеров разных ИС, адреса и учетные данные которых содержатся в каталоге источников данных. Он отвечает на запросы пользователей интегрированной ИС СНВМ, осуществляя поиск данных в гетерогенных информационных источниках. Фрагмент ответа предметного посредника, предоставляющего сведения по акустооптическим свойствам арсенида галлия (GaAs) приведен ниже: <root>

<row PropertyID="27" Ыаше="Дкустооптические свойства" DBPropID="crystal. АсОрТаЫ" Rating="l. 0">

<PropertyXML>

<row SystemlD="1" SubstanceID="86" ModificationlD="0" WaveLeng="l.15" Nzv="[100]" Uzv="[010]" Е="ггроизв." Ml="155" M2="4 6.3" M3="49.2" Reference="Sit;B&gt;Яр:т А.,Юх П.Sit;/B&gt;

Sit;ISgt;0nTH4ecKne волны в кристаллах, М.: Мир, 1987, 616 c.&lt;/I&gt; // " Rating="l.0">

<SystemXMLXChemicalSystemXElement>As</ElementXElement>Ga</ Element></ChemicalSystemx/SystemXML>

<SubstanceXMLXChemicalSubstanceComposition><Item Element="As" value="l" /Xltem Element="Ga" value="l" /></ChemicalSubstanceComposition></SubstanceXML> <ModificationNameX/ModificationName>

</row> </PropertyXML> </row> </root>

В настоящее время к модулю извлечения данных выполнено подключение источников данных для ИС "Bandgap" и "Кристалл". Согласно предложенной в третьей главе методологии интеграции ИС СНВМ, виртуальная интеграция используется для консолидации информационных источников и ХД, созданных в разных организациях. Отмечается, что созданный модуль извлечения данных может быть использован в качестве информационного источника не только для программ компьютерного конструирования неорганических соединений, но и для других ИС, например, СППР.

В шестой главе рассматривается использование метода интеграции корпоративной информации (EAI - Enterprise Application Integration) для консолидации пользовательских интерфейсов ИС СНВМ. Очевидно, что все многообразие информации, доступ к которой осуществляется из специализированных ИС, невозможно представить посредством использования только табличной формы представления данных, а значит интеграции на уровне источников данных (ETL+EII) недостаточно. Поэтому исследователи (специалисты в области неорганического материаловедения), изучающие физико-химические свойства, активно используют графические материалы (рисунки, графики зависимостей и т.п.). Нередки также случаи написания расчетных подпрограмм, с помощью которых моделируются и динамически рассчитываются значения тех или иных свойств заданного класса веществ по введенным пользователем параметрам или осуществляется визуализация информации, рассчитанной по некоторым моделям. Отличительная особенность всех расчетных подсистем такого рода - способность работать исключительно в контексте исходных ИС СНВМ. Т.е. расчетные системы не смогут работать напрямую с ХД или модулем извлечения данных EII в силу отличий в используемых структурах данных. Поэтому интеграция пользовательских интерфейсов ИС СНВМ актуальна для обеспечения полноты информационной поддержки специалистов.

Поскольку современные ИС СНВМ являются Web-приложениями с доступом через Интернет, то задача заключалась в интеграции Web-приложений с учетом специфики предметной области - неорганического материаловедения, при рассмотрении которой была выделена иерархия понятий (система, вещество, кристаллическая модификация). При разработке методики интеграции Web-приложений ИС СНВМ ставилась задача поиска релевантной информации по свойствам химических объектов в интегрируемых ИС и обеспечения прозрачного перехода пользователей между Web-приложениями ИС СНВМ с соблюдением информационной безопасности.

Для реализации механизмов поиска релевантной информации и обеспечения единой точки входа предложено использование метабазы. В настоящей главе описывается часть матабазы (ранее описана логическая модель данных для Ell), предназначенная для интеграции интерфейсов ИС СНВМ. В метабазе содержится информация по интегрируемым ИС СНВМ (множество £>), химическим системам (множество S) и их свойствам (множество Р). Для описания взаимосвязи между элементами множеств D, S и Р определено тернарное отношение W на множестве U , являющимся декартовым произведением: U=DxSxP. Принадлежность элемента (d,s,p) отношению W, где d е D,s е S,p g Р, интерпретируется следующим образом: "в интегрируемой информационной системе d содержится информация по свойству р химической системы s".

Поиск релевантной информации по конкретной химической системе 5 сводится к определению отношения R, являющегося подмножеством декартова произведения SxS (иными словами, R<zS2). Таким образом, о любой паре (s,,s2)eR можно сказать, что система s, является релевантной системе s,. Т.е., чтобы решить задачу поиска релевантной информации в интегрируемых информационных системах, необходимо определить отношение R. Предлагаются следующие правила для построения R :

1) Для любых множеств eS,s2 eS, в которые входят обозначения химических элементов eiJt s, ={e„,el2,..,e,„},s2 ={<?,,,е22,..,е2т} верно, что если es, (то есть, все химические элементы из системы содержатся в системе .у,), то (st,s2)eR.

2) Отношение R симметрично. Иными словами, для любых л-, е S,s2 е S верно, что если (s^s^eR, то и (s2,s,)eR.

В работе приведены альтернативные правила построения отношения /?. Отмечено, что ни одно из определений не является подходящим для решения всех задач по определению релевантной информации в распределенных ИС СНВМ, и на практике предложены несколько разных отношений релевантности й, которые названы классами релевантности. Отмечается возможность более четкого определения релевантной информации при использовании отношений Л вида: К с (с1,^,,р1)х(с12,52,р2), где с/,,с/2 е А;.<е5\р,,р2 е Р. Улучшение релевантности поиска можно добиться также за счет использования обозначений веществ с, или кристаллических модификаций т, вместо обозначений химических систем в случаях, когда пользователь запрашивает релевантную информацию, находясь на уровне неорганических веществ или их модификаций в предложенной иерархии понятий.

При поиске на уровне веществ учитывается количественный состав соединения. Обозначим парой (а,п,;л,о|тах) количественное вхождение химического элемента e¡ ел- в состав, а/тт,а,тах еЯ*, а,т-т <«,,„.„. Если а1т,„ =а/тах, то вещество имеет постоянный состав по элементу е, е .V. Для каждого элемента химической системы е, £1 пользователь при поиске может задать пару (г,т|п,'-/тах), гДе обозначающую допустимый интервал вхождения г-го элемен-

та в состав вещества ( Я* - множество неотрицательных действительных чисел). Тогда релевантными будут все вещества, относящиеся к той же химической системе, у которых для каждой пары (/',„„„,'■,„,„) выполняется а,т|п е[г1тт,г1тах] или а,тах е!'',,:,/,-,,,,]- Другими словами, если логическая дизъюнкция [г„„ <а,„,„, &«,„,„, ¿о,™] + к,тт = ¡гие для всех е, ел-, то данные

о веществе являются релевантными.

При поиске релевантной информации с учетом кристаллических модификаций т, учитываются сингонии, т.к. часто информация о кристаллических структурах может указываться по-разному. Например, для ниобата лития (□МЬОз) в разных информационных источниках ИС СНВМ указывается гексагональная или тригональная кристаллографическая система, что, по сути, соответствует одной кристаллической структуре.

Далее описывается программная разработка подсистемы интегрированной ИС СНВМ, сочетающей в себе интеграцию на уровне пользовательских интерфейсов ИС и создание единой точки входа. Для объединения \Veb-приложений ИС СНВМ использована следующая структура метабазы (рис. 12).

оо=е»

Meta_Systems

eterrtcnii

EfeftMuffiber

Islf№rar£tiy

Mg|a_SystemsHlerarchy

j_j| »menfs

ParentEiernents

Химические .системы для. единой точки входа

DBInfo

Й •-TO

Enabled

LastUpdate Name

login Password

- DBURL OBGaieRedirett да;««уи,

DBCx. It .UeConipnt ibiI ity

jjjj »10 1 TsigetOSID

Propertieslnfo

IJ DSi.0 1

! i PropIO

(_ Name

;— vw/wTen^jbte^-sge

M UodsteSUius ZJ , .....1.......if.......

Systemlnfo

Ш DSID Л

J: SystemlD Elements

jr~ Systemlnfo jai

i.......

OBContent

B8ID

PfODiO UpdateSfcetus

Описание интегрируемых ИС

уровень химических систем

t

UsersXnfo

9

D®D User© ftceessMode login

Comments Update-Status

Ooc,

UsersAccess

| f D8ID

UserlD

¡3 TargetDBID

H AccessMode

Пользователи и права доступа

Compatibility

»esi

CSID

SysteralD

Rebt«»eSO

KdatedSysfcsmlD

CsmpetibiftyClass

Compaii Ы i i tyC I asses

Coropseibatydass

| Warns

'_| Comments

_' AutoFiifTabfe_Systeiras2...

Systems2ConsiderInCompattbi Itty

j_2j0810 3

Г Systei&ID —' ComtagbStyCto_____ _ jJ

Описание классов релевантности

Рис. 12. Структура части метабазы для интеграции ИС (EAI) на уровне химических систем.

Назначение таблиц: DBInfo - корневая таблица, содержащая информацию об интегрируемых Web-интерфейсах ИС СНВМ; Userslnfo, UsersAccess - таблицы, содержащие информацию о пользователях интегрированных ИС и их правах доступа к другим интегрированным ресурсам; Systemlnfo, Propertieslnfo, DBContent - таблицы, в которых описывается содержимое интегрируемых ресурсов (какая информация о химических системах и их свойствах содержится в интегрируемых ИС); CompatibilityClasses, Compatibility,

Systems2ConsiderlnCompatibility - таблицы, содержащие информацию о доступных в метабазе классах релевантности и определяющие релевантные химические системы; MetaDBSystems, MetaSystems, MetaJSystemsHierarchy -нормализованные представления химических систем для быстрого поиска из ИС единой точки входа, доступной по адресу http://meta.imet-db.ru.

Согласно БОА-архитектуре, загрузка информации в метабазу реализована с помощью разработанного \¥еЬ-сервиса, доступного по адресу http://meta.imet-db.ru/MUService/MUService.asmx. Разработана служба (и'еЬ-сервис) поиска релевантной информации (http://meta.imet-db.ru/Service/Service.asmx), которая на основе содержимого метабазы предоставляет пользователям интегрируемых ИС СНВМ ответы на поисковые запросы.

ИС 1 ИС интеграции

1. Запрос релевантной информации ^

Служба поиска релевантной информации

^ 2. Список релевантной информации

3. Запрос маркера безопасности ^

Шлюз перехода Служба маркеров безопасности

^ 4. Маркер безопасности (ИС1 —ИС2)

5. Запрос перехода в ИС2 ^ 6. Подтверждение маркера

ИС 2 7. Перенаправление в ИС2 Шлюз безопасности

[ Шлюз входа |

I'

Рис. 13. Интеграция ХУеЬ-приложений ИС с поиском релевантной информации.

Для обеспечения прозрачного и безопасного перехода пользователя из контекста одного \УеЬ-приложения в контекст другого разработана методика обеспечения информационной безопасности при переходе между узлами интегрированных ИС СНВМ (рис. 13). Переход всегда осуществляется через шлюз безопасности ИС интеграции, выполняющий роль диспетчера безопасности, который перенапрявляет пользователя (в случае успешной проверки параметров перехода и маркера безопасности) в шлюз входа интегрируемой ИС (ИС 2 на рис. 13). Задача последнего заключается в сопряжении систем безопасности, выполнении прозрачной авторизации и предоставлении запрашиваемой релевантной информации.

Особо стоит отметить, что переход пользователя через шлюз безопасности ИС интеграции происходит внешне прозрачно, т.е. пользователь, щелкнув по ссылке, размещенной в ИС 1, попадает в \УеЬ-приложение ИС 2 без задержки на шлюзе безопасности в случае успешных проверок безопасности. В действительности, ссылка, по которой пользователь переходит из ИС 1 в шлюз безопасности, содержит не только параметры перехода, полученные при запросе релевантной информации, но и цифровую подпись, построенную по хеш-алгоритму МЭ5. Проверка подписи сформированной на основе полученного маркера безопасности и содержащей все параметры перехода с отпечатком текущего времени гарантирует, что параметры строки запроса для перехода не

были несанкционированно изменены. В будущем планируется переход с алгоритма MD5 (128-bit) на более защищенную версию SHA-3. Подпись формируется по формуле:

LOWER(F(LOWER(MD5_p+"&idd="+idd+"&idu="+idu+"&dt="+dt+token)))

Обозначения: F - хеш-функция (MD5), idd - идентификатор ИС 1, idu -идентификатор пользователя, dt - дата и время запроса (UTC) в формате уууу-MM-ddTHH:mm:ss, token - маркер безопасности, "+" — операция конкатенации строк, LOWER - функция перевода строки в нижний регистр.

В настоящее время интегрированная ИС СНВМ объединяет все разработанные в ИМЕТ РАН ИС: "Фазы", "Элементы", "Диаграмма", "Кристалл", "Bandgap", "Кремний". Благодаря проделанной работе по интеграции зарубежных ИС СНВМ, удалось включить в состав интегрированной системы ИС "AtomWork" (разработанную в NIMS, Япония), содержащую информацию о более чем 23 тыс. неорганических веществ.

В исследовании обосновывается необходимость создания единой точки входа пользователей в ИС СНВМ, как следующего шага в области интеграции материаловедческой информации. Единая точка входа является ИС, предоставляющей пользователю Web-интерфейс для поиска информации по всем химическим сущностям, содержащимся в интегрируемых ИС СНВМ.

Рассматривается создание Web-приложения единой точки входа, доступного по адресу http://meta.imet-db.ru. Web-прштожение написано на языке С# (.Net Framework 3.5) с использованием клиентской библиотеки ¡Query, облегчающей взаимодействие с HTML DOM (Document Object Model - объектная модель документа) и предоставляющей удобный интерфейс (API) для работы с AJAX (Asynchronous Javascript and XML - асинхронный JavaScript и XML).

Кратко описывается принцип работы. Пользователю предоставляется возможность выбрать химические элементы из таблицы Менделеева, образующие химическую систему. При нажатии на каждый элемент (выбор или отмена выбора) отправляется асинхронный AJAX-запрос к HTTP-обработчику http://meta.imet-db.ru/JSON Elements.ashx, который по множеству выбранных химических элементов возвращает в формате JSON (JavaScript Object Notation -нотация объектов JavaScript) перечень ИС СНВМ, содержащих сведения о заданной химический системе. Например, на запрос по системе As-Ga возвращается документ, отображаемый пользователю в виде таблицы с гиперссылками (рис. 14), перенаправляющими в ИС СНВМ через шлюз безопасности единой точки входа http://meta.imet-db.ru/gate/gateSAP.aspx.

Выбранные элементы: As-Ga

Кристалл . GaAs Диаграмма • As-Ga Ширина запрещ . GaAs

Crystal . GaAs AtomWork (NIMS . As-Ga

Рис. 14. Реализации интеграции ИС СНВМ (EAI).

Таким образом, в диссертационной работе на основе метода интеграции информационных систем (EAI) реализована не только горизонтальная интеграция гетерогенных ИС СНВМ с безопасным переходом к просмотру релевантной ииформации, но и создана единая точка входа во все ИС СНВМ, описанные в каталоге информационных ресурсов метабазы.

Достоверность приведенных в диссертационном исследовании выводов подтверждается практической реализацией интегрированной ИС СНВМ, которая может использоваться как конечными пользователями для поиска и сбора информации (метод EAI), так и программными средами в качестве источника информации по свойствам неорганических веществ (методы ETL и ЕП).

В седьмой главе рассматривается практическое применение интегрированной ИС СНВМ в качестве источника данных для систем компьютерного конструирования новых неорганических соединений.

Основная задача интегрированной ИС СНВМ заключается в поиске затребованных пользователем сведений об определенных веществах и их свойствах из интегрируемых информационных ресурсов. Дальнейшая интеллектуализация разработанной интегрированной ИС СНВМ связана с ее оснащением программными комплексами анализа огромных массивов химических данных и с поиском взаимосвязей в этой информации. Найденные взаимосвязи позволяют прогнозировать образование еще экспериментально не полученных соединений, оценивать их параметры и принимать решение о путях поиска новых веществ с заданными свойствами, что ускоряет создание новых материалов.

Таким образом, анализ данных расширяет возможности интегрированной ИС СНВМ, превращая ее из интегрированного хранилища в интеллектуальную ИС. С использованием предложенной автором методики интеграции ИС в ИМЕТ РАН была разработана информационно-аналитическая система (ИАС), включающая интегрированные программы анализа данных и предназначенная для прогнозирования параметров неорганических соединений.

На основе системного анализа компьютерного конструирования неорганических соединений разработана методика использования интегрированной ИС СНВМ в качестве источника данных ИАС, используемой для поддержки принятия решений при исследовании новых неорганических соединений (рис. 15).

Рис. 15. Методика использования интегрированной ИС СНВМ в ИАС.

Первый этап компьютерного конструирования - это экспертный анализ информации из специализированных ИС (например, "Кристалл" или "Диаграмма") с целью выбора соединений-прототипов, свойства которых близки к требуемым. Затем ведется отбор информации об известных аналогах по составу и/или типу кристаллической структуры в других БД (например, "Фазы" или "АЮтХУогк"). Каждая система описывается в памяти ЭВМ в виде отобранного экспертом набора значений свойств компонентов и/или простейших алгебраических функций от этих свойств. Сведения о свойствах элементов извлекаются из БД по свойствам химических элементов и простых веществ "Элементы".

Рис. 16. Алгоритм обработки неизвестных значений в признаковых описаниях.

Часто при формировании обучающей выборки возникает задача заполнения отсутствующих данных. В исследовании предложен алгоритм обработки неизвестных значений в признаковых описаниях объектов, основанный на методе "ближайших соседей", применяемом с учетом специфики предметной области (рис. 16). При неизвестном значении свойства элементах проводится поиск элементов, из той же подгруппы Периодической системы Менделеева, у которых искомое свойство известно, затем с использованием линейной регрессии

У, = а + Ьх, + е1 вычисляется искомая величина. При невозможности использования регрессионного анализа (неадекватность модели или низкая значимость коэффициентов) используется интерполированное значение соответствующего признака для двух «ближайших» элементов (х,_;, у¡.¡) и (х;+/, _у/+/) той же группы: у. — у.

У = У,-1 + —-—' (х - х,-_,) . При невозможности их обнаружения используется

ХМ ~Х/-1

среднее значение свойства у объектов с равным классообразующим признаком 1

, где t - класс объектов, к которому относится объект с пропус-

/=1

ком в признаковом описании, п, - количество объектов класса Г в обучающей выборке, у/ - значение искомого свойства у /'-го объекта того же класса; или же этот признак исключается из обучающей выборки (выбор эксперта).

После заполнения неизвестных значений производится поиск взаимосвязей в данных с использованием систем распознавания образов "Распознавание" (ВЦ РАН) и "СопРэг" (Институт кибернетики Национальной АН Украины), интегрированных в состав ИАС. При хорошем качестве прогнозирования с использованием скользящего контроля на обучающей выборке считается, что найдены приемлемые для дальнейшего прогнозирования гипотезы о связях в наборах свойств обучающей выборки, относящие объекты к определенному классу.

Подставляя в гипотезу наборы значений свойств элементов - компонентов еще не исследованных систем, пользователь-эксперт получает прогноз, например, образования соединения заданного состава. Аналогично можно получить прогноз соединений с определенным типом кристаллической структуры или со свойствами, значения которых находятся в определенном интервале.

После экспериментальной проверки результатов прогнозирования информация помещается в специализированную ИС (например, "Вапс1§ар", "Кристалл"), откуда попадает в разработанную интегрированную ИС СНВМ. При этом если экспериментальные данные не совпадают с результатом прогноза, то пользователь может инициировать переобучение системы с учетом новых экспериментальных сведений. За счет использования большей выборки, очень часто, обучающей системе удается найти больше взаимосвязей, построить лучшие гипотезы и тем самым повысить качество будущих прогнозов.

На основе предложенной методики использования ИС СНВМ в ИАС совместно со специалистами в области неорганической химии и материаловеде-

ния в рамках диссертационной работы были проведены исследования по компьютерному конструированию неорганических соединений, перспективных для использования в электронике. Качество получаемых прогнозов оценивалось по методике скользящего контроля. Обучающая выборка разбивалась N раз различными способами на две непересекающиеся подвыборки: обучающую под-выборку длины т, и контрольную подвыборку длины к. Для каждого /'-го разбиения (г— 1,...,Л0 строился алгоритм распознавания и вычислялся процент оши-

Q

______,_________г.............-хии/о^ где Qerr 1 — количество

неверных прогнозов на г'-м разбиении, 0,Общ_/ - общее количество прогнозов на /м разбиении. Соответственно, среднее арифметическое значений по всем разбиениям являлось оценкой ошибок прогнозирования с использованием

При использовании ИС СНВМ в ИАС были получены следующие результаты:

1) Осуществлен прогноз образования еще не полученных перспективных полупроводниковых соединений состава АВХ2 (X = Б, 8е, Те). Сравнение результатов расчетов с новыми экспериментальными данными показало, что ошибка прогнозирования составила менее 5 %.

2) Для халькопиритов состава АВХ2 (X = Б, 5е, Те, 1М, Р, Аб или 5Ь) решена задача прогноза ширины запрещенной зоны, при этом ошибка прогнозирования оказалась равной ~ 20 %, а при применении метода "голосования" результатов прогнозов с использованием коллектива алгоритмов удалось добиться правильных прогнозов.

3) Проведено прогнозирование образования более сложных по составу соединений А2В2(Х04)3 с кристаллической структурой лангбейнита, перспективных для поиска новых пьезоэлектрических, сегнетоэлектрических, нелиней-нооптических, электрооптических и люминесцентных веществ. Ошибка прогнозирования составила менее 30 %.

4) Осуществлен прогноз образования и типов кристаллической структуры перспективных термоэлектриков АВ2Х4 (X = Б, Бе, Те). Для формирования признакового описания соединений использовались следующие свойства:

псевдопотенциальныи радиус (по Цангеру); температура плавления; ковалентный радиус; квантовый номер; расстояние до внутренних электронов (по Шуберту); расстояние до валентных электронов (по Шуберту); ионный радиус (по Бокию и Белову);

температура кипения; энтальпия испарения; энтальпия плавления; электроотрицательность(по Мартынову-Бацанову); энтальпия атомизации;

первый потенциал ионизации; второй потенциал ионизации; третий потенциал ионизации; химический потенциал Мидемы (только для элементов А и В); номер группы (только для элементов А и В);

регулярный номер по (Менделее-ву-Петтифору);

Температура Дебая (только для элементов А и В); молярная теплоемкость; стандартная энтропия; теплопроводность; количество валентных электронов (только для элементов А и В).

Благодаря большому объему обучающей выборки, насчитывающей 835 примеров образования соединений и 154 примера отсутствия соединений состава АВ2Х4, ошибка прогнозирования при коллективном решении была на уровне 1 %. На рис. 17 показана гистограмма распространенности типов кристаллической структуры соединений АВ2Х4, использованных для обучения ИАС при многоклассовом прогнозировании.

о О) 7

с; о

100 шш 90 80 70 60 50 40 30 20Н 10 о

шж

Эе

Те

Я ТИЗР4

■ шпинель

□ СаРе204

□ №Сг234

■ Рш3а23е4 а МпЕг2Э4

■ оливин

□ СаНо25е4 И Сс1А1234

■ Ье1а-К2304

□ РЙСГ234 а РЬВ:234

ПРГГТЗЛ

Рис. 17. Гистограмма распространенности типов кристаллической структуры

АВ2Х4 (X = Б, Бе, Те).

Таблица 3. Прогноз возможности образования соединений состава АгВСЦ. (фрагмент таблицы).

4 ЧА В и N3 К ЙЬ Сэ Т1

Мд 1 #1 #1 #1 #1 #2

Са #2 #2 #2 #2 #1 2

Т1 #1 #1 #1 #1 #1 1

V 1 1 #1 #1 #2 1

Сг #1 #1 #1 #1 #1 1

Мп 1 #1 #1 #1 #1 #2

Ре #1 1 #1 #1 #1 1

N1 1 #2 1 1 1 1

Си #2 #2 #1 #1 #1 1

2п 1 #1 #1 #1 #1 #1

Бг 2 #2 #1 #1 #2 #2

Сс1 1 #1 #1 #1 #1 #1

УЬ 1 #2 #2 1 #1 2

На #1 #1 #1 #1 #1 1

5) При прогнозировании образования перспективных сегнетоэлектриков А2ВС14 с использованием коллективных методов ошибка

прогнозирования была на уровне 15 % (табл. 3). Приняты следующие обозначения: 1 - прогноз возможности образования соединения состава А2ВС14 при обычных условиях; 2 -прогноз отсутствия соединения А2ВС14 в системе А-В-С1. Значком # обозначены ранее изученные системы, информация о которых использована для обучения ЭВМ.

Полученные результаты прогнозирования, средняя ошибка которых составила порядка 20%, свидетельствуют о перспективности использования разработанной интегрированной ИС СНВМ в качестве информационной основы для программных комплексов компьютерного конструирования неорганических соединений.

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие результаты:

формализована иерархия понятий, используемая в неорганической химии и материаловедении;

дано определение релевантной информации в контексте интегрированной ИС СНВМ на уровне неорганических веществ и кристаллических модификаций;

разработана методология интеграции ИС СНВМ, объединяющая преимущества известных методов интеграции;

на основе системного анализа современных методов интеграции российских и зарубежных ИС предложена архитектура ИС СНВМ, обеспечивающей информационную поддержку компьютерного конструирования неорганических соединений;

разработана методика применения интегрированной ИС СНВМ в программном комплексе компьютерного конструирования неорганических соединений;

• разработан и реализован алгоритм для обработки неопределенных значений в признаковых описаниях на основе метода "ближайших соседей";

• разработана методика консолидации данных по свойствам неорганических веществ, особенностями которой являются применение хранилищ данных и методов виртуальной интеграции;

• разработан и внедрен в Институте металлургии и материаловедения им. A.A. Байкова РАН (ИМЕТ РАН) программный комплекс, реализующий интегрированную ИС СНВМ, объединяющий российские и зарубежные информационные ресурсы по свойствам неорганических веществ и материалов;

• создана единая точка доступа пользователей к информации, консолидированной в рамках интегрированной ИС СНВМ;

• разработана и реализована ИС "Кристалл" по свойствам акустооптических, электрооптических и нелинейнооптических веществ (русско- и англоязычные версии);

• разработана и реализована ИС "Bandgap" по ширине запрещенной зоны неорганических веществ, используемых в электронике;

• разработана и реализована ИС "IRIC" по информационным ресурсам в области неорганического материаловедения;

• использование интегрированной ИС СНВМ для компьютерного конструирования неорганических соединений, применимых в электронике, показало, что средняя ошибка прогнозирования - около 20 %.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в журналах, рекомендованных ВАК для опубликования результатов диссертационных работ:

1. Дударев В.А. Подходы к интеграции гетерогенных баз данных по свойствам неорганических веществ. // Перспективные материалы, спец. выпуск М.: Интерконтакт наука, ноябрь 2007, с. 246-251.

2. Дударев В.А. Разработка общих стандартов и типового программного обеспечения для интеграции российских и зарубежных баз данных по свойствам неорганических веществ и материалов. // Перспективные материалы, спец. выпуск, М.: Интеркоитакт наука, ноябрь 2008, с. 174-179.

3. Киселева H.H., Дударев В.А., Земсков B.C. Компьютерные информационные ресурсы неорганической химии и материаловедения // Успехи химии, 2010, т. 79, №2, с. 163-188.

4. Киселева Н.Н., Дударев В.А. База данных "Информационные ресурсы неорганической химии и материаловедения" // Информационные технологии, 2010, №12, с. 63-66.

5. Масютин В.В., Дударев В.А. На пути к единой информационной системе по свойствам неорганических веществ // Интеграл, 2010, № 6, с. 30-31.

6. Kiselyova N.N., Dudarev V.A., Zemskov V.S. Computer information resources in inorganic chemistry and materials science // Russian Chemical Reviews, 2010, v. 79, №2, p. 145-166. (Springer)

7. Поляков A.E., Дударев В.А. Хранилище данных для интеграции информационных систем по свойствам неорганических веществ // Интеграл, 2011, № 6, с. 18-19.

8. Поляков Е.А., Масютин В.В., Дударев В.А. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика, 2012, № 4(40), с. 38-43.

9. Дударев В.А., Филоретова О.А. Подход к интеграции баз данных по свойствам неорганических веществ на основе метабазы // Прикладная информатика, 2013, №4(46), с. 38-42.

Ю.Шмакова Е.Г., Поляков А.Е., Дударев В.А. Методика компьютерного эксперимента с целью поиска перспективных неорганических веществ // Технологии XXI века в легкой промышленности, 2013, № 7, часть 1, раздел 4.

11.Дударев В.А., Шмакова Е.Г. \УеЬ-интерфейс для доступа к гетерогенным информационным системам по свойствам неорганических веществ // Интеграл, 2013, №4, с. 55.

12.Дударев В.А., Филоретова О.А., Брыкииа Г.В. Методы распознавания образов в компьютерном конструировании неорганических соединений // Прикладная информатика, 2014, № 2(50), 6 е., в печати.

13.Дударев В.А. Подход к заполнению пропусков в обучающих выборках для компьютерного конструирования неорганических соединений // Вестник МИТХТ, 2014, т. 9. № 1,с. 73-75.

Статьи в прочих научных издаииях и материалы конференций:

14.Kiselyova N., Iwata S., Dudarev V., Prokoshev I., Khorbenko V., Zemskov V. Principles of integration of Russian and Japanese databases on inorganic materials // Proceedings of the Fifth International Conference "Information Research, Applications" i.Tech 2007" Sofia: FOl ITHEA, 2007, v. 2, p. 326-333.

15.Kiselyova N., Iwata S., Dudarev V., Prokoshev 1., Khorbenko V., Zemskov V. Integration Principles of Russian and Japanese Databases on Inorganic Materials // Int.J."Information Technologies and Know ledge", 2008, v. 2, № 4, p. 366-372.

16.Киселева Н.Н., Дударев В.А., Земсков B.C. Интегрированная система баз данных по свойствам материалов для электроники // Теплофизические свойства веществ и материалов. Тезисы докладов XII российской конференции по теплофизическим свойствам веществ. М.: Интерконтакт наука, 2008, с. 185-186.

17.Дударев В.А. Принципы интеграции БД по свойствам неорганических веществ и материалов // Теплофизические свойства веществ и материалов. Тезисы докладов XII российской конференции по теплофизическим свойствам веществ. М.: Интерконтакт наука, 2008, с. 186.

18.Киселева Н.Н., Дударев В.А., Земсков B.C. Интегрированная система баз данных по свойствам неорганических веществ и материалов // Теплофизические свойства веществ и материалов. Труды XII Российской конференции по теплофизическим свойствам веществ. М.: Интерконтакт наука, 2009, с. 139142.

19.Дударев В.А. База данных по информационным ресурсам в области неорганического материаловедения // VI Российская ежегодная конференция молодых научных сотрудников и аспирантов. Сборник статей. М.: Интерконтакт наука, 2009. с. 127-129.

20.Dudarev V.A., Kiselyova N.N., Xu Y„ Yamazaki M. Virtual integration of the Russian and Japanese databases on properties of inorganic substances and materials // MITS 2009. Symposium on Materials Database. National Institute for Materials Science (NIMS). Materials Database Station (MDBS), 2009, p. 37-48.

21.Дударев В.А. Принципы интеграции БД по свойствам неорганических веществ и материалов // Теплофизические свойства веществ и материалов. Труды XII Российской конференции по теплофизическим свойствам веществ. М.: Интерконтакт наука, 2009, с. 128-132.

22.Kiselyova N.N., Dudarev V.A. Integrated System of Databases on Properties of Inorganic Materials and Substances // Proceedings of The 2nd Asian Materials Database Symposium, 2010, p. 3-4.

23.Дударев В.А. Справочная система по информационным ресурсам неорганической химии с доступом из интернет // VII Российская ежегодная конференция молодых научных сотрудников и аспирантов "Физико-химия и технология неорганических материалов". Сборник материалов. М.: Интерконтакт наука, 2010, с. 13 1-132.

24.Дударев В.А., Киселева Н.Н. Интеграция интерфейсов российских и японских баз данных по свойствам неорганических веществ // XIII Российская конференция по теплофизическим свойствам веществ (с международным

участием): Тезисы докладов. Новосибирск: Изд-во Института теплофизики СО РАН, 2011, с. 105-106.

25.Дударев В.А. Международная интеграция баз данных по свойствам неорганических веществ // VIII Российская ежегодная конференция молодых научных сотрудников и аспирантов "Физико-химия и технология неорганических материалов". Сборник материалов. М.: ИМЕТ РАН, 2011, с. 158-159.

26.Масютин В.В., Дударев В.А. Системный анализ технологий интеграции гетерогенных баз данных. // Материалы VII международной научно- практической конференции «Новейшие достижения европейской науки - 2011», т. 34, София: Математика, 2011, с. 35-36.

27.Масютин В.В., Дударев В.А. Компьютерное конструирование новых неорганических соединений состава АВ2Х4. // Материалы научно-технической конференции «Наукоемкие химические технологии 2011», МИТХТ им. М.В. Ломоносова, Москва, 2011, с. 24-25.

28.Dudarev V.A. Databases on properties of inorganic substances and materials integration infrastructure // Proceedings of The 3rd Asian Materials Database Symposium (AMDS 2012), 2012, p. 71-76.

29.Дударев В.А. Применение интегрированной системы баз данных для поиска новых полупроводниковых соединений // IX Российская ежегодная конференция молодых научных сотрудников и аспирантов "Физико-химия и технология неорганических материалов". Сборник материалов. М.: ИМЕТ РАН, 2012, с. 133-134.

30.Дударев В.А. Единая точка входа в информационные системы по свойствам неорганических веществ // X Российская ежегодная конференция молодых научных сотрудников и аспирантов "Физико-химия и технология неорганических материалов". Сборник материалов. М.: ИМЕТ РАН, 2013, с. 84-86.

Монографии:

31.Дударев В.А. Интеграция информационных систем по свойствам неорганических веществ для информационной поддержки принятия решений при прогнозировании свойств веществ // ISBN 978-3-659-12400-6. Саарбрюккен: LAP LAMBERT Academic Publishing, 2012, 176 с.

Авторские свидетельства:

32.Дударев В.А., Воякин A.C. Data Entity Framework. Свидетельство о государственной регистрации программы ЭВМ № 2010615354 от 20.08.2010 г.

33.Дударев В.А., Воякин A.C. SimpleCMS. Свидетельство о государственной регистрации программы ЭВМ № 2010615355 от 20.08.2010 г.

Дударев Виктор Анатольевич Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ Подписано в печать 31.03.2014. Заказ № 158.

Формат бумаги 60x90 1/16. Тираж 100 экз. Типография ООО "Генезис", 8 (495) 434-83-55 119571, г. Москва, пр-т Вернадского, 86

Текст работы Дударев, Виктор Анатольевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Государственное образовательное учреждение высшего профессионального образования "Московский государственный университет тонких химических технологий им. М.В. Ломоносова"

На правах рукописи

05201451143

Дударев Виктор Анатольевич

МЕТОДОЛОГИЯ ИНТЕГРАЦИИ ГЕТЕРОГЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ

05.13.01 — Системный анализ, управление и обработка информации

(химическая промышленность)

Диссертация на соискание ученой степени доктора технических наук

Научный консультант

д.т.н., профессор Корнюшко В.Ф.

Москва-2014

Содержание

ВВЕДЕНИЕ............................................................................................................................................................4

ГЛАВА 1. ОСОБЕННОСТИ ПРИНЯТИЯ РЕШЕНИЙ ПРИ ПРОГНОЗИРОВАНИИ СВОЙСТВ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ.......................................................................................................................9

1.1. Способы конструирования неорганических соединений......................................................................11

1.1.1. Методы квантовой механики............................................................................................................12

1.1.2. Простейшие эмпирические зависимости.........................................................................................11.1.3. Многомерные классифицирующие правила...................................................................................14

1.2. Математические методы распознавания................................................................................................17

1.2.1. Формальная постановка задачи прогнозирования..........................................................................18

1.2.2. Методы обучения ЭВМ распознаванию образов............................................................................21

1.2.3. Способы повышения достоверности прогнозов.............................................................................31

Краткие выводы...............................................................................................................................................39

ГЛАВА 2. АНАЛИЗ АРХИТЕКТУРНЫХ ОСОБЕННОСТЕЙ ИНФОРМАЦИОННЫХ СИСТЕМ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ...........................................................................................40

2.1. Обзор ИС СНВМ для электроники.........................................................................................................40

2.2. Создание ИС по информационным ресурсам неорганической химии "1ШС"....................................65

2.2.1. Схема данных.....................................................................................................................................66

2.2.2. \\^еЬ-приложение...............................................................................................................................68

2.3. Архитектура современных информационных систем по свойствам веществ.....................................7!

2.3.1. Использование трехзвенной архитектуры.......................................................................................71

2.3.2. Недостатки ИС СНВМ......................................................................................................................74

2.3.3. Обобщенная структура данных для ИС СНВМ..............................................................................75

2.4. Информационные системы по свойствам неорганических веществ ИМЕТ РАН...............................77

2.4.1. Разработка ИС по веществам с особыми акустооптическими, электрооптическими и нелинейнооптическими свойствами "Кристалл"......................................................................................78

2.4.2. Разработка ИС по ширине запрещенной зоны неорганических соединений "Вапс1§ар"............85

2.4.3. ИС по свойствам неорганических соединений "Фазы".................................................................87

2.4.4. ИС по фазовым диаграммам систем с полупроводниковыми фазами "Диаграмма"...................88

2.4.5. ИС по свойствам кремния "Кремний".............................................................................................89

2.4.6. Разработка программного комплекса для удаленного администрирования гетерогенных БД ИМЕТ РАН...................................................................................................................................................90

2.4.7. Особенности ИС ИМЕТ РАН...........................................................................................................94

2.5. Расчетные подсистемы информационных систем по свойствам неорганических веществ...............94

Краткие выводы...............................................................................................................................................98

ГЛАВА 3. СИСТЕМНЫЙ ПОДХОД К ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ СИСТЕМ......................99

3.1. Методы интеграции гетерогенных информационных систем..............................................................99

3.1.1. Актуальность интеграции.................................................................................................................99

3.1.2. Проблемы при интеграции информационных систем..................................................................100

3.1.3. Методы интеграции ИС..................................................................................................................101

3.1.4. Проблемы при интеграции гетерогенных источников информации..........................................114

3.2. Системный анализ методов интеграции...............................................................................................115

3.2.1. Базовые информационные процессы в локальных ИС................................................................115

3.2.2. Метод интеграции корпоративной информации ЕИ....................................................................11"'

3.2.3. Метод интеграции на основе хранилищ данных ЕТЬ..................................................................118

3.2.4. Интеграция корпоративных приложений ЕА1..............................................................................120

3.2.5. Обобщенная схема методов интеграции гетерогенных информационных систем...................122

3.3. Методология интеграции информационных систем...........................................................................127

3.4. Интеграция гетерогенных источников данных информационных систем........................................134

3.4.1. Разрешение платформенных и системных конфликтов...............................................................134

3.4.2. Разрешение синтаксических и структурных конфликтов............................................................138

3.4.3. Разрешение семантических конфликтов.......................................................................................141

3.5. Платформа для разработки интегрированной ИС СНВМ...................................................................148

Краткие выводы.............................................................................................................................................159

ГЛАВА 4. СИСТЕМНЫЙ ПОДХОД К РАЗРАБОТКЕ ХРАНИЛИЩА ДАННЫХ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ....................160

4.1. Диаграммы потоков данных БРО.........................................................................................................160

4.2. Методология функционального моделирования ГОЕГ0.....................................................................161

4.3. ЕЯ-модель хранилища данных..............................................................................................................162

4.4. Реляционная структура ХД....................................................................................................................163

4.5. Извлечение, преобразование и загрузка данных в ХД........................................................................165

4.5.1. Процедура извлечения....................................................................................................................166

4.5.2. Процедура преобразования данных...............................................................................................168

4.5.3. Процедура загрузки.........................................................................................................................173

Краткие выводы.............................................................................................................................................174

ГЛАВА 5. ИСПОЛЬЗОВАНИЕ ВИРТУАЛЬНОЙ ИНТЕГРАЦИИ ДАННЫХ ПРИ ПРОГНОЗИРОВАНИИ СВОЙСТВ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ................................................................................................175

5.1. Подходы к интеграции информации средствами Ell..........................................................................175

5.2. Реализация интеграции гетерогенных источников данных информационных систем....................179

5.2.1. Описание структуры метабазы.......................................................................................................180

5.2.2. Расчет достоверности информации, основанный на экспертных оценках.................................187

5.2.3. Разработка программных адаптеров интегрируемых информационных систем.......................188

5.2.4. Разработка предметного посредника.............................................................................................192

Краткие выводы.............................................................................................................................................198

ГЛАВА 6. ИСПОЛЬЗОВАНИЕ ИНТЕГРАЦИИ ПРИЛОЖЕНИЙ ДЛЯ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ СПЕЦИАЛИСТОВ ПО НЕОРГАНИЧЕСКИМ ВЕЩЕСТВАМ..........................................199

6.1. Интеграция распределенных гетерогенных Web-приложений информационных систем..............199

6.2. Реализация интеграции гетерогенных Web-приложений информационных систем.......................208

6.2.1. Описание структуры метабазы.......................................................................................................208

6.2.2. Загрузка информации в метабазу...................................................................................................215

6.2.3. Поиск релевантной информации по содержимому метабазы......................................................217

6.2.4. Осуществление безопасного перехода пользователя между Web-приложениями интегрируемых информационных систем...............................................................................................219

6.3. Единая точка входа в ИС CHBM...........................................................................................................223

6.3.1. Поиск релевантной информации....................................................................................................223

6.3.2. Разработка Web-приложения ИС..................................................................................................224

6.4. Создание системы единой авторизации...............................................................................................229

Краткие выводы.............................................................................................................................................235

ГЛАВА 7. ПРИМЕНЕНИЕ ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ ПОИСКА ЗАКОНОМЕРНОСТЕЙ И КОМПЬЮТЕРНОГО КОНСТРУИРОВАНИЯ НОВЫХ СОЕДИНЕНИЙ......236

7.1. Интерполяция неизвестных значений в обучающих выборках..........................................................237

7.1.1. Краткий обзор методов заполнения пропусков в данных............................................................237

7.1.2. Методика заполнения неизвестных значений с учетом специфики предметной области........231/

7.2. Этапы компьютерного конструирования новых соединений.............................................................245

7.3. Перспективные полупроводники АВХ2................................................................................................248

7.4. Перспективные диэлектрики А2В2(Х04)3.............................................................................................252

7.5. Прогноз образования сегнетоэлектрических хлоридов A2BCI4..........................................................253

7.6. Прогноз образования соединений состава АВ2Х4...............................................................................258

Краткие выводы.............................................................................................................................................272

ЗАКЛЮЧЕНИЕ..................................................................................................................................................274

ЛИТЕРАТУРА...................................................................................................................................................275

ПРИЛОЖЕНИЕ.................................................................................................................................................291

ВВЕДЕНИЕ

Необходимым условием инновационного развития промышленности является разработка и использование новых веществ и материалов. На текущем этапе развития материаловедение все чаще использует богатые информационно-прогнозирующие возможности, предоставляемые современными информационными технологиями. Для обеспечения химиков-технологов последними данными о свойствах и технологиях получения современных веществ создаются многочисленные специализированные информационные системы по свойствам неорганических веществ и материалов (ИС СНВМ). Разработка таких информационных систем ведется во всех промышленно развитых странах мира [1]. Одной из последних тенденций в данной области является организация круглосуточного удаленного доступа к ИС СНВМ с использованием телекоммуникационных сетей [2, 3]. Наиболее мощные ИС СНВМ, основанные на современных СУБД, предлагают NIST (National Institute of Standards and Technology -Национальный институт стандартов и технологий, США), STN (The Scientific and Technical Information Network - Международная сеть научно-технической информации) и NIMS (National Institute of Materials Science - Национальный институт материаловедения, Япония) [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]. Разработка ИС СНВМ в разных странах организациях, как правило, происходит для решения узкого круга задач и без выработки единых стандартов представления информации, что значительно затрудняет попытки консолидации этих информационных систем. Дополнительным препятствием являются организационные трудности, т.к. большинство ИС СНВМ используются в коммерческих целях или являются открытыми для доступа пользователей только определенных стран или организаций.

Несмотря на существующие организационные трудности, в последние годы наблюдается тенденция к кооперации в разработке ИС СНВМ и к интеграции уже созданных ИС, как на национальном, так и на международном уровне. Так в рамках известной организации CODATA (http://www.codata.org). была создана специальная рабочая группа (Materials Task Group), занимающаяся развитием ИС СНВМ, которая объединяет крупных разработчиков информационных ресурсов в области материаловедения со всего мира. Одной из приоритетных задач данной рабочей группы является выработка стандартов для консолидации ИС СНВМ. Однако, несмотря на предпринимаемые усилия, говорить об успехах в этой области преждевременно.

Актуальность решения задачи интеграции ИС вызвана стремлением устранить необоснованное дублирование работ по разработке и исследованию новых неорганических веществ и материалов. Кроме того, интеграция информации.

содержащейся в ИС по свойствам неорганических веществ и технологиям их получения, позволяет применять методы анализа для поиска взаимосвязей в данных. Использование найденных взаимосвязей позволяет проводить компьютерное конструирование новых перспективных соединений, обладающих заданными свойствами. Получаемая с помощью интегрированной ИС обобщенная информация может быть использована специалистами для поддержки принятия решений при выборе того или иного вещества и технологии его получения для использования в изделиях современной промышленности.

Цслыо работы является повышение эффективности исследований при создании новых материалов для электроники на основе разработки методологии интеграции гетерогенных информационных систем по свойствам неорганических веществ.

Для достижения цели работы были поставлены следующие задачи:

• анализ методов прогнозирования свойств неорганических веществ;

• формализация процедуры прогнозирования состава, структуры и свойств неорганических веществ на основе многомерного анализа данных;

• анализ мировых информационных ресурсов по свойствам неорганических веществ и материалов;

• разработка методики использования интегрированных ИС для компьютерного конструирования неорганических соединений;

• системный анализ методов интеграции гетерогенных ИС;

• обоснование выбора метода интеграции в зависимости от требований, предъявляемых к результирующей интегрированной ИС;

• разработка архитектуры интегрированной ИС СНВМ;

• формализация понятия релевантной информации при интеграции ИС СНВМ;

• разработка методики интеграции пользовательских интерфейсов ИС СНВМ;

• разработка моделей данных для использования в интегрированной ИС СНВМ;

• разработка алгоритмов для извлечения, преобразования формаюв и 1лр\жи данных в хранилище данных СНВМ;

• разработка и реализация интегрированной ИС СНВМ, объединяющей российские и зарубежные информационные ресурсы, с учетом требований по масштабируемости, простоте реализации и гибкости;

• применение интегрированной ИС СНВМ для решения задач компьютерного конструирования неорганических соединений, перспективных для использования в качестве материалов современной электронной техники.

Научная новизна

впервые формализована иерархия понятий, используемая в неорганической химии и материаловедении;

впервые дано определение релевантной информации в контексте интегрированной ИС СНВМ на уровне неорганических веществ и кристаллических модификаций; разработана методология интеграции ИС СНВМ, объединяющая преимущества известных методов интеграции;

на основе системного анализа современных методов интеграции российских и зарубежных ИС предложена архитектура ИС СНВМ, обеспечивающей информационную поддержку компьютерного конструирования неорганических соединений;

разработана методика применения интегрированной ИС СНВМ в программном комплексе компьютерного конструирования неорганических соединений; разработан и реализован алгоритм для обработки неопределенных значений в признаковых описаниях на основе метода "ближайших соседей"; разработана методика консолидации данных по свойствам неорганических веществ, особенностями которой являются применение хранилищ данных и методов виртуальной интеграции;

разработаны реляционные модели данных по свойствам акустооптических, электрооптических и нелинейнооптических веществ, по ширине запрещенной зоны неорганических веществ, по информационным ресурсам в области неорганического материаловедения.

Практическая значимость

разработан и внедрен в Институте металлургии и материаловедения им. A.A. Байкова РАН (ИМНТ РАН) программный комплекс, реализующий интегрированную ИС СНВМ, объединяющий российские и зарубежные информационные ресурсы по свойствам неорганических веществ и материалов; разработана методика обеспечения информационной безопасности при переходе пользователя между узлами интегрированных ИС СНВМ;

создана единая точка доступа пользователей к информации, консолидированной в рамках интегрированной ИС СНВМ (http://meta.imet-db,ru);

разработаны и реализованы ИС по свойствам материалов для электроники: ИС "Кристалл" по свойствам акустооптических, электрооптических и

нелинейнооптических веществ (русско- и англоязычные версии) и ИС "Bandgap" по ширине зап