автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интеграция баз данных для информационной поддержки принятия решений в области неорганического материаловедения на основе технологии хранилищ данных

кандидата технических наук
Поляков, Александр Евгеньевич
город
Москва
год
2013
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Интеграция баз данных для информационной поддержки принятия решений в области неорганического материаловедения на основе технологии хранилищ данных»

Автореферат диссертации по теме "Интеграция баз данных для информационной поддержки принятия решений в области неорганического материаловедения на основе технологии хранилищ данных"

На правах рукописи

Поляков Александр Евгеньевич

ИНТЕГРАЦИЯ БАЗ ДАННЫХ ДЛЯ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ОБЛАСТИ НЕОРГАНИЧЕСКОГО МАТЕРИАЛОВЕДЕНИЯ НА ОСНОВЕ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ

05.13.01 - Системный анализ, управление и обработка информации (химическая промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 О ОКТ 2013

Москва-2013

005534588

Работа выполнена на кафедре Информационных технологий федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный университет тонких химических технологий им. М.В. Ломоносова».

Научный руководитель кандидат технических наук, доцент

Дударев Виктор Анатольевич

Официальные оппоненты доктор технических наук, профессор

Гартман Томаш Николаевич зав. кафедрой информатики и компьютерного конструирования

ФГБОУ ВПО «РХТУ им. Д. И. Менделеева»

кандидат физико-математических наук, доцент Сыров Юрий Вячеславович доцент кафедры физики и химии твердого тела ФГБОУ ВПО МИТХТ им. М.В. Ломоносова

Ведущая организация Владимирский Государственный Университет

имени Александра Григорьевича и Николая Григорьевича Столетовых ФГБОУ ВПО «ВлГУ»

Защита состоится "29" " октября " 2013 года в 12.00 часов на заседании диссертационного совета Д212.120.08 при ФГБОУ ВПО «Московском государственном университете тонких химических технологий им. М.В. Ломоносова» по адресу: 119571, г. Москва, просп. Вернадского, 86.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «МИТХТ им. М.В. Ломоносова» (119571, г. Москва, просп. Вернадского, 86).

Автореферат диссертации размещен на сайте ВАК http://vak.ed.gov.ru. Реферат разослан " 27" " сентября " 2013 г.

Ученый секретарь диссертационного совета, доктор технических наук

Колыбанов К.Ю.

Актуальность работы

В настоящее время существует огромное количество информационных систем (ИС) в различных предметных областях, что ставит задачу по рациональному использованию необходимой специалистам информации, содержащейся в них, как для информационной поддержки принятия решения, так и для выявления закономерностей с целью формирования новых знаний и прогнозирования неизвестных значений параметров объекта, а так же задачу по обеспечению специалистов в области неорганических соединений высококачественной информацией о свойствах и методиках получения перспективных неорганических веществ. Современные тенденции таковы, что на сегодняшний день, невозможно представить работу химиков-технологов без использования специализированных информационных систем, осуществляющих удаленный доступ через интернет. Разработка информационных систем в области неорганических соединений и материаловедения ведется во всех развитых странах.

На сегодняшний день, существует тренд в разработке и интеграции уже существующих ИС. В России, одним из первых разработчиков такого рода систем является Институт металлургии и материаловедения им. А.А. Байкова РАН (ИМЕТ РАН), если рассматривать зарубежных разработчиков, то наиболее полноценные ИС, разработанные на современных платформах, предлагает NIST (National Institute of Standards and Technology - Национальный институт стандартов и технологий, США) и STN (The Scientific and Technical Information Network - Международная сеть научно - технической информации). Как правило, редко встречается, когда данные, хранящиеся в специализированных ИС и характеризующие целую предметную область, располагаются в одном месте, чаще они разделены и собраны в различных странах и организациях, так же большинство таких ИС имеют платный доступ, что существенно осложняет процесс качественной и полной интеграции ИС.

Интеграция уже существующих систем в области неорганического материаловедения является одним из важнейших и актуальнейших направлений в современной химической промышленности, которая позволит структурировать данные в единое целое, что позволит уменьшить затраты на разработку и поддержку ИС, а так же значительно сократит количество дублированных работ. Новая интегрированная ИС совместно с системой поддержки принятия решений позволит без реального синтеза проводить прогнозирование образования неорганических соединений и оценивать их различные свойства, что существенно облегчит и ускорит поиск специалистами в области неорганического материаловедения перспективных неорганических веществ, необходимых для решения конкретной задачи.

Степень разработанности проблемы

Вклад в изучение методик интеграции: A. Halevy (Levy), W. Inmon, D. Calvanese, M. Lenzerini, G. Gottlob, T. Gruber, A.H. Бездушный, Д А. Калиниченко, В. A. Серебряков, C.A. Ступников и др. Задачи прогнозирования решали: R. Duda, P. Hart, К. Fu, L. Kuncheva, Л.А. Растригин, В.П. Гладун, Н.Г. Загоруйко, Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько и др.

Цель работы

Цель работы заключается в информационной поддержке принятия решений при прогнозировании свойств неорганических веществ на основе технологии хранилищ данных.

Для достижения цели работы были поставлены следующие задачи: провести системный анализ потоков данных при использовании различных технологий

интеграции гетерогенных информационных систем; на основе системного подхода разработать архитектуру ИС, в частности разработать схему хранилища данных, а так же разработать методику извлечения, трансформации и загрузки данных в ХД;

разработать методику построения хранилища данных по свойствам веществ для

использования конечными пользователями в процессе поддержки принятия решений; разработать методику применения хранилища данных для прогнозирования свойств веществ; получение прогнозов образования перспективных неорганических веществ.

Объект исследования

Объектом исследования являются информационные системы в области неорганического материаловедения.

Предмет исследования

Предметом исследования является использование технологий интеграции И С с целью консолидирования информации в области неорганического материаловедения для компьютерного конструирования перспективных неорганических веществ.

Научная новизна

разработана архитектура ИС на основе ХД для поддержки принятия решений при

прогнозировании свойств веществ; разработана реляционная структура ХД по свойствам неорганических соединений на основе

формализации предметной области; разработана методика интеграции химической информации на основе технологии хранилищ данных;

разработана методика применения созданного ХД в программном комплексе компьютерного конструирования неорганических соединений.

Теоретическая и практическая значимость

В диссертации решается проблема консолидации данных по свойствам неорганических веществ на основе технологии хранилищ данных для информационной поддержки принятия решений при прогнозировании веществ в области неорганического материаловедения.

Разработан программный комплекс, реализующий интегрированную ИС, на базе платформы Microsoft, объединяющий информационные ресурсы по свойствам веществ и технологиям их получения. При помощи этого программного комплекса выполнена интеграция информационных ресурсов, разработанных ИМЕТ РАН совместно с другими организациями России: БД по свойствам неорганических соединений «Фазы», БД по фазовым диаграммам полупроводниковых систем «Диаграмма», БД по свойствам акустооптических, электрооптических и нелинейно-оптических веществ «Кристалл». Интегрированное ХД

позволяет пользователям получать доступ ко всей информации в рамках ХД и использовать его в качестве источника информации для программ компьютерного конструирования неорганических соединений и СППР.

Применение интегрированной ИС позволяет сократить время, затрачиваемое на поиск полной информации по свойствам и технологиям получения неорганических веществ.

Методология и методы исследования

Структуризация и формализация предметной области выполнена на основе методов структурного системного анализа. В основу решения поставленных задач положены: методология моделирования потоков данных ОГО, методология функционального моделирования систем ГОЕРО, методология проектирования баз данных ГОЕР1Х, теория реляционных баз данных. Для иллюстрации использования ИС в интеллектуальных системах использованы методы индуктивного вывода и компьютерного конструирования неорганических соединений, основанные на обучении ЭВМ распознаванию образов.

Апробация работы

Результаты диссертации обсуждались на научно-технических конференциях «Наукоемкие химические технологии 2011», МИТХТ им. М.В. Ломоносова, Москва, 2011, «Физика - химия и технология неорганических материалов», ИМЕТ РАН, Москва, 2011, «IV Всероссийская научно - практическая конференция с международным участием «Научное творчество XXI века», Научно — инновационный центр, Красноярск, 2011.

Публикации

Материалы диссертации опубликованы в 3 журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 2 публикации в сборниках трудов и тезисов докладов конференций и семинаров.

Положения выносимые на защиту методология интеграции данных в области неорганического материаловедения; системный анализ потоков данных при использовании разных подходов к интеграции; системный анализ потоков данных при использовании ЕТЬ подхода; методика применения хранилища данных для прогнозирования свойств веществ.

Структура и объем диссертации

Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения, содержит 120 страниц, 20 рисунков и 7 таблиц.

Содержание работы

Во введении кратко рассмотрены актуальность и практическая ценность работы. Сформулирована цель работы и поставлены задачи. Кратко рассмотрены методы исследований, научная новизна, результаты диссертационной работы. Приведена структура диссертации и краткое содержание основных разделов.

В первой главе («Системный подход к разработке хранилища данных по свойствам веществ для систем поддержки принятия решений») кратко рассмотрены наиболее значимые БД по свойствам веществ и технологиям их получения, созданные в мире. Отмечен рост количества ИС в области материаловедения за последние годы.

Тщательно рассмотрены три основных подхода к интеграции. Интеграция корпоративных приложений (Enterprise Application Integration, EAI), интеграция корпоративной информации (Enterprise Information Integration, Ell) и программное обеспечение для извлечения, преобразования и загрузки данных (Extract, Transform, Load - ETL).Указаны области применения, а также достоинства и недостатки, присущие этим подходам (рис. I).

данные процесс

реальное время

пакетный режим

Рис. 1. Подходы к интеграции.

Разработана архитектура ИС по свойствам веществ и технологиям их получения на основе технологии хранилищ данных. В контексте использования различных подходов к интеграции, проанализированы информационные потоки, а также связь интегрированной ИС с системами поддержки принятия решений (СППР) при исследовании и использовании химических веществ для современной промышленности (рис.2).

Пользователь - эксперт

ЕН

Отчеты / Инструментальные панели

ЗЕ

Модуль извлечения данных

Модули преобразования форматов данных

І Специализир. Г| ! БД

.¿>j ^ Приложения ^ Приложения I ^ Приложения) Модуль обмена сообщениями

ETL

Отчеты / Инструментальные панели

................................................jss^

Хранилище Данных

JL

Модуль извлечения, трансформации и загрузки данных

СППР

Модуль анализа данных

построения гипотез

Прогнозирование

Проверка экспериментом

Рис. 2. Архитектура ИС и системный анализ информационных потоков при использовании разных подходов к интеграции.

Проведено сравнение трех наиболее распространённых подходов к интеграции: ЕАІ, ЕТЦЕІІ (таб.1).

Таб. 1. - Сравнение методов интеграции.

Критерии ETL Ell ЕА1

Поток данных Однонаправленный (от источника к цели) Двунаправленный Двунаправленный

Перемещение данных Периодический процесс управления(по расписанию) Управление с помощью SQL -запросов Управление с помощью транзакций

Время ожидания Периодичное В режиме реального времени Близкое к режиму реального времени

Извлечение/ преобразование /загрузка данных/повторное использование процессов Высокая Средняя Низкая

Соединение FTP,прямое соединение с ХД Прямое соединение с БД Обмен сообщениями

Объем переработки данных Огромный(миллионы, миллиарды записей) Средний(доступ к 100 тысячам или нескольким миллионам удаленным записям) Маленышй(может обрабатывать параллельно несколько частей из разных записей)

Сложность преобразования Любая сложность Преобразование посредством SQL Ограниченные семантические преобразования

Поддержка различного ПО Полная поддержка Ограниченная поддержка(теку щее ПО) Ограниченная поддержка(текущее ПО

Контроль потоков данных Обработка зависимостей, ошибок исключений Отсутствует Обширный, основанный на правилах

Учитывая то, что интегрированную ИС планировалось использовать в качестве

источника информации для СППР, был сделан выбор в пользу подхода НТЬ. Общий вид реализации интеграции представлен на рисунке 3.

преобразование

ХД

загрузка

ЕТ1_ сервер

СП

сз

СП

О

Сервер ХД

Источники данных

Рис. 3. Реализация ЕТЬ интеграции.

Данные при таком подходе интегрируются в единое хорошо структурированное информационное пространство, что обеспечивает полноту и достоверность хранимых данных. Проанализированы информационные потоки при использовании ЕТЬ подхода (рис. 4).

ґ ^ ш

2 і § 1 8

X X л 2 й-о г о- й

5 2

£ о 0 аз 1 Ь

С □ і

Рис. 4. Системный анализ информационных потоков при использовании ЕТЬ подхода.

черные стрелки — поток данных о свойствах химических элементов и неорганических материалов;

• синие стрелки - потоки метаданных;

• красные стрелки - потоки управляющей информации;

• серые блоки - внешние данные;

• синие блоки - процедуры проектирования и разработки интегрированной ИС;

• зеленые блоки - процедуры эксплуатации ИС.

Информационные потоки в интегрированной ИС: исходя из внешних метаданных, ЛПР (лицо принимающие решение) выбирает необходимые внешние базы данных, содержащие релевантную информацию о свойствах неорганических веществ и формирует требования к составу исходных данных. На основе выбранных данных формируются требования к структуре хранилища данных интегрированной ИС. Для разработки модулей накопления данных в хранилище данных необходимы метаданные о внешних базах данных и разработанная структура хранилища данных. Далее исходные данные в соответствии с внешними метаданными извлекаются из внешних источников данных, преобразуются к внутреннему формату хранилища данных. Для обеспечения информационной поддержки принятия решений необходима разработка процедур извлечения данных из хранилища и обработки извлеченных данных. Результаты прогнозирования служат основой для принятия управляющих решений по выбору перспективных неорганических материалов для последующего синтеза и экспериментального подтверждения результатов прогнозирования.

Проведен обзор современных программных платформ для разработки интегрированной ИС. Компания Microsoft предлагает наиболее надежные и высокопроизводительные системы. Это обусловило выбор решений на платформе Microsoft для реализации интегрированной ИС.

Во второй главе («Проектирование построения хранилища данных по свойствам неорганических веществ») приведены результаты проектирования интегрированной ИС. Для этого рассмотрено текущее состояние и принципы построения ИС по свойствам и технологиям получения химических веществ, т.к. учет специфики информационных структур, содержащихся в БД, является необходимым условием разработки интегрированной ИС.

Кратко рассмотрены БД ИМЕТ РАН, построенные на различных программно-аппаратных платформах с использованием разных подходов к хранению и обработке информации: БД по свойствам неорганических соединений «Фазы», БД по фазовым диаграммам систем с полупроводниковыми фазами «Диаграмма», БД по веществам с особыми акустооптическими, электрооптическими и нелинейно-оптическими свойствами «Кристалл».

Отмечается, что отличительной особенностью информационных систем по свойствам неорганических веществ, интегрируемых в настоящей работе, является то, что все они, как правило, являются предметно-ориентированными и поэтому хранят информацию только о тех веществах и их характеристиках, которые относятся к исследуемой предметной области. Например, ИС по фазовым диаграммам систем с полупроводниковыми фазами «Диаграмма» и ИС по веществам с особыми акустооптическими, электрооптическими и нелинейно-оптическими свойствами «Кристалл» — проблемно-ориентированы на специалистов в области химии и электронной техники.

Исходя из рассмотренного в первой главе системного анализа технологий интеграции данных, построены диаграммы потоков данных, функциональные модели процессов обработки информации при интеграции данных.

Описана вербальная модель ХД. Различные ИС включают в себя разнообразные характеристики (обозначим их как «свойства») разных сущностей. Значения «свойств» определяются составом неорганических веществ (набором химических элементов, входящим в их состав), обозначим их как сущности первого уровня «система». Сущности второго уровня -общим термином «вещество», понимая под этим термином совокупность дискретных образований, обладающих массой покоя (т.е. атомы, молекулы и то, что из них построено). Так же, в большинстве случаев физические свойства зависят от кристаллической структуры. Таким образом, при описании химических объектов можно использовать три уровня: система, вещество и кристаллическая модификация.

Исходя из того, что ИС тесно связаны с химией, то сущности в ИС описываются с помощью иерархии понятий в виде дерева. Вся информация о свойствах химических сущностей, описываемых в интегрируемых информационных источниках, может быть представлена на одном из этих трех уровней (рис. 5).

Рис. 5. Иерархия химических понятий. Для формализации иерархии химических понятий в работе применена теория множеств. Множество химических систем обозначается множество химических веществ - ^, а множество кристаллических модификаций - М . Химическая система обозначается 3 (где 5 6 3), химическое вещество - с (где с 6 С), а химическую модификацию - т (где

Химическая система 5 представляется множеством обозначений химических элементов

е'\ S - (е1>е2'-->еп} Химическое вещество с определяется не только множеством обозначений химических элементов, но и количественным вхождением последних в состав вещества,

раствора или смеси. Поэтому вещество с представлено кортежем <я>/>) где а $

является отображением множества химических элементов, которые образуют вещество, на множество пар Л* х К*, задающих соответственно минимальное и максимальное вхождение

заданного химического элемента в вещество, раствор или смесь с. То есть f ei K^rnin > ^inux) > R* _ множество неотрицательных действительных чисел. и

£

соответственно, минимальная и максимальная концентрация химического элемента ' в

Q

веществе с. В случае, когда концентрация конкретного химического элемента ' в веществе с R* — R+

фиксирована, то |п1п »«. Кристаллическая модификация т представляется кортежем

<J,/,mod>^ где seS^ f ■е/ >№n,„A„J а mod _ строковое обозначение модификации вещества, принятое в интегрированной ИС. Для разрешения конфликтов наименований используются тезаурусы.

Далее множества С и М , расширяются пустым элементом т.е. пи^е С,nulla М Любая химическая сущность (система, вещество и модификация) может быть описана тройкой (s'c'm\ где seS,ceC,meM таким образом, получаем шаблоны для записи химических сущностей следующего вида: (s,null,null) _ яля химических систем; (s, с, null) _ аля

веществ;(,г'с'т) - для кристаллических модификаций.

На основе вербальной модели и иерархии химический понятий была разработана ER модель ХД (рис.6). Следует учесть специфические связи - многие ко многим (N:N), их необходимо нормализовать на этапе реализации реляционной модели ХД.

Рис. б. ЕЯ модель ХД.

Разработана реляционная модель ХД. Для решения задачи объединения информации по свойствам неорганических веществ предлагается следующая реляционная структура ХД (рис.

Рис. 7. Схема ХД.

Назначения: «Values» - главная корневая таблица, в которой содержится вся информация о свойствах неорганических веществ виде ключей - идентификаторов, таблица «Properties» - названия и символы свойств неорганических соединений, таблицы «Reference» и «Authors» содержат информацию о литературных источниках, таблицы «Elements» и «Atomic_Number» описывают элементы и их атомное число, таблица «Systems» содержит информацию о системах описывающих химический объект, таблица «Compounds» описывает химический объект на уровне вещества, таблица «Modifications» описывает кристаллическую модификация химического объекта, таблицы «S_E», «С_М», «R_A» носят функциональный характер и служат для связи между таблицами.

Основное внимание уделялось способу представления значений свойств, так как было необходимо обеспечить возможность предоставления различных типов свойств (текстовые описания, графические или табличные представления). Для обеспечения кроссплатформенной возможности работы со значениями из столь широкого диапазона типов данных было принято

решение использовать ХМЬ-документы для представления значений свойств. Например, для соединения ЫЫЬОз растворимость в воде, заданная таблицей в БД «Кристалл», являющаяся функцией от температуры, представляется в виде ХМЬ-документа: <гоо1>

с!Мс1="1" ггите='Чех1:/хт1">

<го\у р_ТетрК="273" р^изрЫате^'Н&^виЬ&^г&к^иЬ&в^О" уа!ие="0.34" /> <голу р_ТетрК="298" p_SuspName="H&It;sub&gt;2&lt;/sub&gt;0" уа1ие="0.41" /> <го\у р_ТетрК="323" р_5и5рКате="Н&И;8иЬ(^1;2&11;/5иЬ1^1;0" уа1ие="0.64" /> <го\у р_ТетрК="348" p_SuspName="H&It;sub&gt;2&lt;/sub&gt;0" уа!ие="0.89" /> <го\у р_ТешрК="373" p_SuspName="H&lt;sub&gt;2&lt;/sub&gt;0" уа1ие="1.09" />

</уа1> </гоо1>

Разработана методика извлечения, преобразования и загрузки данных (рис.8). Данные

поступают из источников данных, преобразуются и загружаются в ХД. Последовательность этих процессов связывается вместе посредством потока данных, а сами данные представляются посредством записей, которые используются в каждом из перечисленных процессов.

В третьей главе («Структура информационной системы для компьютерного конструирования неорганических веществ») отмечается, что интеграция является лишь первым шагом к разработке интеллектуальных информационных систем с целью компьютерного конструирования перспективных неорганических веществ. Интегрированная ИС, в совокупности с разработанными прикладными программами, решает проблему поиска затребованных пользователем сведений об определенных неорганических веществах. Дальнейшая интеллектуализация баз данных непосредственно связана с оснащением информационных систем программными комплексами анализа огромных массивов химической информации и с поиском закономерностей в этой информации. Найденные закономерности,

позволяют сконструировать еще неполученные вещества с заданными свойствами, что расширяет возможности ХД, превращая их из компьютерного справочника в интеллектуальные информационные системы (рис. 9). Такие интеллектуальные информационные системы дают возможность прогнозировать еще экспериментально неизученные вещества, оценивать их параметры и принимать решение о путях поиска новых веществ с заданными свойствами.

Задача конструирования новых неорганических соединений заключается в нахождении совокупности химических элементов и их соотношения (для создания (при заданных внешних условиях) определенной пространственной молекулярной или кристаллической структуры соединения, позволяющей реализовать необходимые функциональные свойства. Исходной информацией для расчетов должны быть только свойства химических элементов и данные о других уже изученных соединениях. Таким образом, речь идет о поиске зависимостей между свойствами систем (например, свойствами соединений) и свойствами химических элементов, образующих эти системы.

В рамках диссертационной работы были проведены исследования по использованию данных из интегрированной ИС для поиска сложных закономерностей в химической информации и их применению для конструирования новых неорганических соединений, перспективных для использования в электронной промышленности. Физико-химической основой разработки такой системы является Периодический закон, из которого следует, что существуют периодические зависимости между свойствами соединений и свойствами

элементов, входящих в их состав. Поскольку все известные соединения, информация о которых хранится в ИС, должны подчиняться Периодическому закону, то, следовательно, возможен поиск закономерностей образования соединений определенных типов с использованием компьютерных методов анализа информации в интегрированном ХД.

На основе системного анализа процесса компьютерного конструирования неорганических соединений разработана методика использования интегрированной ИС в качестве источника данных исследовательских систем, используемых для информационной поддержки принятия решений при исследовании неорганических соединений.

Методика компьютерного эксперимента включает в себя несколько этапов:

1) отбор примеров соединений А2ВО4 для компьютерного анализа;

2) отбор свойств элементов для включения в классифицирующие закономерности;

3) отбор наиболее важных для классификации свойств элементов и простейших алгебраических функций от этих свойств с помощью программы поиска классифицирующих параметров;

4) выбор алгоритмов компьютерного анализа данных, основанных на методах распознавания образов по прецедентам и предназначенных для поиска классифицирующих критериев, и обучение ЭВМ,

5) поиск классифицирующих критериев для отобранных примеров уже известных веществ с применением методов обучения ЭВМ и прогнозирование возможности образования при обычных условиях (298 К и 1 атм) новых соединений состава А2ВСЦ с использованием найденных критериев.

1. Отбор примеров соединений для компьютерного анализа. Исходной информацией для компьютерного анализа является матрица, каждая строка которой соответствует уже исследованному веществу и представляет собой набор значений свойств компонентов -химических элементов А и В или простых хлоридов. Каждой строке соответствует также значение целевого признака - возможности образования соединения. Такая выборка называется обучающей выборкой и ее представительность и достоверность в значительной степени определяет точность последующего прогнозирования. Как правило, отбор примеров неорганических веществ для компьютерного анализа осуществляется высококвалифицированными специалистами—химиками с использованием информации разработанного ХД по свойствам неорганических веществ и материалов.

2. Отбор свойств элементов для включения в классифицирующие закономерности. Наиболее сложной и влияющей на качество прогнозирования задачей является отбор свойств компонентов, важных для классификации неорганических соединений. Как правило, значения свойств химических элементов извлекаются из ХД. В настоящей работе на основе физико-химических представлений о природе изучаемых фаз в исходный набор свойств были включены 67 параметров элементов А и В и простых хлоридов составов АС1 и ВС12. В таблице 2 приведены некоторые из них.

Таб.2 Исходный набор свойств для описания соединений.

Свойство Элемент А Элемент В

Е8 Химический потенциал М(е<1ета 1 32

18 Термическая проводимлсть 2 33

Б6 Удаленный электрон ядра по Шуберту 3 34

Б5 Удаленный валентный электрон по Шуберту 4 35

Е2 Электроотрицательность по Полпнгу 5 36

Е5 Энергия первичной ионпзашш б 37

Еб Энергия вторичной понташш 7 38

Е7 Энергия третичной ионизации 8 39

С5 Энтальппя атомизашш 9 40

111 Энтропия твердого тела 10 41

Номер группы 11 42

110 Молярная теплоемкость 23 54

А5 Квантовое число 24 55

Э11 Ионные радиусы 25 56

Псевдопотенциальные радиусы 26 57

С2 Температура кипения 27 58

С1 Температура плавления 28 59

02 Число валентных электронов 29 60

Тт- температура плавления простого хлорида 63

5°298к - энтропия простого хлорида при 298 К 64

-ДН°с98 - тептота образованияпростого хлорида при 298 К 65

с°р298.15 -изобарная теплоемкость простого хлорида при 298 К 66

3. Отбор наиболее важных для классификации свойств компонентов.

Для нахождения набора свойств элементов и простых галогенидов, наиболее важных для классификации систем А-В-С1 на системы с образованием и без образования соединений АгВСЦ, использовалась программа, включенная в разработанную в ИМЕТ РАН информационно-аналитическую систему (ИАС) для компьютерного конструирования неорганических соединений. Программа основана на минимизации функционалов обобщённой ошибки выпуклых корректирующих процедур над наборами предикторов, построенных по отдельным свойствам компонентов. В качестве оценки информативности набора свойств использовалось отношение точности распознавания контрольной выборки для исходного набора свойств компонентов к точности распознавания, проводимого без учета оцениваемого набора свойств.

4. Выбор алгоритмов компьютерного анализа данных. Для компьютерного анализа данных был использован комплекс алгоритмов распознавания образов по прецедентам, включенный в разработанную в ИМЕТ РАН информационно-аналитическую систему. В настоящее время она включает следующие программы, основанные на: алгоритме вычисления оценок, методе бинарных решающих деревьев, линейном дискриминанте Фишера, ЬоЯе§, поиске логических закономерностей классов, поиске двумерных линейных разделителей, алгоритме линейной машины, различных вариантах обучения нейронных сетей, методе к -ближайших соседей, голосовании по тупиковым тестам, методе опорных векторов, статистически взвешенном голосовании, формировании понятий с использованием растущих пирамидальных сетей и т.д. При решении каждой конкретной задачи с использованием разных

вышеприведенных наборов свойств элементов проводился отбор наиболее точных алгоритмов. Для этого применялось экзаменационное распознавание со скользящим контролем на материале обучающей выборки, которое является традиционным средством оценки качества обучения ЭВМ.

Для повышения точности прогнозирования соединений была использована стратегия коллективов алгоритмов. Как правило, использование стратегии коллективов алгоритмов позволяет улучшить точность прогнозирования за счет взаимной компенсации недостатков одного алгоритма преимуществами других.

Для оценки точности «коллективных» алгоритмов применялось экзаменационное распознавание 50 примеров, случайно выбранных из обучающей выборки и неиспользованных в обучении ЭВМ (на завершающем этапе прогнозирования контрольные примеры возвращались в обучающую выборку).

5. Прогнозирование возможности образования соединений состава АяВС!* Найденная классифицирующая закономерность была использована для прогнозирования еще не полученных соединений. Следует отметить, что для прогнозирования новых соединений использовались не только значения свойств элементов, но и свойства веществ.

На основе анализа информации в ХД была сформирована выборка, содержащая 68 примеров соединений АгВСЦ и 30 примеров систем без образования соединений состава А2ВСЦ.

Было установлено, что наиболее важными для классификации систем по признаку существования или отсутствия соединений являются: изобарный потенциал образования простого галогенида ВСЬ, температура плавления элемента А и псевдопотенциальный радиус элемента В.

На основе анализа результатов экзаменационного распознавания можно сделать вывод, что лучшие результаты прогнозирования могут быть получены с использованием программ на основе алгоритмов «метод бинарных решающих деревьев», «логические закономерности», «метод опорных векторов» и «статистически взвешенные синдромы». Именно эти алгоритмы были использованы при принятии коллективного решения.

С целью дальнейшего увеличения точности прогнозирования были проведены компьютерные эксперименты по поиску эффективных методов принятия коллективного решения с использованием наиболее точных алгоритмов распознавания образов по прецедентам. Лучшие результаты были получены при использовании алгоритма «выпуклый стабилизатор».

В таблице 3 даны прогнозы новых соединений состава АгВСЦ. Приняты следующие обозначения: 1 - прогноз возможности образования соединения состава АгВСЦ при обычных условиях; 2 - прогноз отсутствия соединения АгВСЦ в системе А-В-С1. Значком # обозначены ранее изученные системы, информация о которых использована для обучения ЭВМ.

Таб. 3 Прогнозы возможности образования соединений состава А2ВСІ4

А В и N3 К НЬ Се Т1

Ве #1 #1 #1 #1 #1 #1

Мг 1 #1 #1 #1 #1 #2

С а #2 #2 #2 #2 #1 2

Ті #1 #1 #1 #1 #1 1

V 1 1 #1 #1 #2 1

Сі #1 #1 #1 #1 #1 1

Мп 1 #1 #1 #1 #1 #2

Ге #1 1 #1 #1 #1 1

Со #1 #1 #1 #1 #1 #1

N1 1 #2 1 1 1 1

Си #2 #2 #1 #1 #1 1

Ъ\\ 1 #1 #1 #1 #1 #1

Бг 2 #2 #1 #1 #2 #2

С с! 1 #1 #1 #1 #1 #1

Бп #2 #2 #2 #1 #1 #2

Ва #2 #2 #1 #1 #1 #2

Ей #2 #2 #1 #2 #2 #2

\'Ь 1 #2 #2 1 #1 2

Нг #1 #1 #1 #1 #1 1

РЬ #2 #2 #1 #1 #1 #1

Заключение

В диссертационной работе получены следующие результаты: проведен системный анализ потоков материаловедческих данных при использовании

различных технологий интеграции гетерогенных информационных систем; на основе системного подхода разработана архитектура ИС, в частности разработана схема хранилища данных, а так же разработана методика извлечения, трансформации и загрузки данных в области неорганического материаловедения в ХД; разработана методика построения хранилища данных по свойствам неорганических веществ

для использования конечными пользователями в процессе поддержки принятия решений; разработана методика применения хранилища данных для прогнозирования свойств

неорганических веществ; получены прогнозы образования перспективных неорганических веществ состава АдВСЦ.

Публикации по теме диссертации Статьи в журналах, рекомендованных ВАК для опубликования результатов диссертационных работ:

1. Дударев В.А., Поляков А.Е. Хранилище данных для интеграции информационных систем по свойствам неорганических веществ // «Интеграл», №6, 2011;

2. Дударев В.А., Масютин В.В., Поляков A.A. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // «Прикладная информатика», №4(40), 2012;

3. Поляков А.Е. Интеграция баз данных в области неорганических веществ и материаловедения на основе технологии хранилищ данных // «В мире научных открытий», Выпуск 2 , Красноярск, 2011.

Статьи и тезисы докладов:

1. Дударев В.А., Поляков A.A. Компьютерное конструирование новых неорганических соединений состава АВ2Х4. // Материалы научно - технической конференции «Наукоемкие химические технологии 2011», МИТХТ им. М.В. Ломоносова, Москва, 2011;

2. Поляков А.Е., Принцип интеграции БД в Области неорганической химии// Материалы научно - технической конференции «Физика - химия и технология неорганических материалов», ИМЕТ РАН, Москва, 2011.

Подписано в печать: 26.09.2013 Объем: 1,0 п.л. Тираж: 100 экз. Заказ № 197 Отпечатано в типографии «Реглет» 119526, г. Москва, пр-т Вернадского, д. 39 (495) 363-78-90; www.reglet.ru

Текст работы Поляков, Александр Евгеньевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТОНКИХ ХИМИЧЕСКИХ ТЕХНОЛОГИЙ ИМ. М.В. ЛОМОНОСОВА

На правах рукописи

04201363661

Поляков Александр Евгеньевич

ИНТЕГРАЦИЯ БАЗ ДАННЫХ ДЛЯ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ОБЛАСТИ НЕОРГАНИЧЕСКОГО МАТЕРИАЛОВЕДЕНИЯ НА ОСНОВЕ ТЕХНОЛОГИИ ХРАНИЛИЩ ДАННЫХ

05.13.01 - Системный анализ, управление и обработка информации

(химическая промышленность)

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель к.т.н., доц. Дударев В.А.

Москва - 2013

Оглавление

ВВЕДЕНИЕ................................................................................................................3

1.СИСТЕМНЫЙ ПОДХОД К РАЗРАБОТКЕ ХРАНИЛИЩА ДАННЫХ ПО СВОЙСТВАМ ВЕЩЕСТВ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ........................................................8

1.1 актуальность интеграции................................................................................................................................11

1.2 Обзор технологий интеграции данных..........................................................................................................12

1.2.1 Подходы к интеграции средствами EAI, Ell, ETL...................................................................................14

1.2.2 Интеграции двух информационных систем с использованием подходов Ы1, ETL, EAI....................17

1.3 Технология хранилищ данных........................................................................................................................22

1.3.1 Структура хранилища данных...................................................................................................................22

1.3.2 Этапы построения хранилища данных.....................................................................................................25

1.3.3 Анализ информационных потоков при использвовании ETL-подхода.................................................29

1.3.4 Вывод...............................................................................................................................................................31

1.4 Обзор ИС по свойствам неорганических веществ.....................................................................................31

1.5 Выбор технологической платформы..............................................................................................................50

1.5.1 Производительность и масштабируемость...........................................................................................52

1.5.2 Безопасность.................................................................................................................................................55

1.5.3 Интероперабельность..................................................................................................................................57

1.5.3 Совокупная стоимость владения...............................................................................................................61

1.5.4 Квадрант Gartner для хранилищ данных...................................................................................................63

1.5.5 Хранилища данных........................................................................................................................................63

1.5.6 Windows Server 2008...................................................................................................................................... 63

1.5.5 Вывод...............................................................................................................................................................64

2. ПРОЕКТИРОВАНИЕ ХРАНИЛИЩА ДАННЫХ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ

ВЕЩЕСТВ...............................................................................................................65

2.1 База данных «фазы»...........................................................................................................................................65

2.1.1 Описание данных БД «Фазы»......................................................................................................................65

2.1.2 Структура БД «Фазы»................................................................................................................................66

2.2 База данных «Диаграмма»...............................................................................................................................69

2.2.1 Описание данных БД «Диаграмма»............................................................................................................69

2.2.2 Структура БД «Диаграмма»......................................................................................................................72

2.3 База данных «Кристалл»...................................................................................................................................77

2.3.1 Описание данных БД «Кристалл»..............................................................................................................77

2.3.1 Стуктура БД «Кристалл»...........................................................................................................................80

2.4 Диаграммы потоков данных DFD..................................................................................................................84

2.5 Методология функционального моделирования IDEF0..........................................................................85

2.6 Вербальная модель ХД.......................................................................................................................................86

2.7 ER модель ХД........................................................................................................................................................88

2.8 Реляционная структура ХД..............................................................................................................................88

2.9 Методика извлечения, преобразования и загрузки данных....................................................................90

2.9.1 Процедура извлечения...................................................................................................................................91

2.9.2 Процедура преобразования..........................................................................................................................92

2.9.3 Процедура загрузки.......................................................................................................................................97

3. СТРУКТУРА ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ КОМПЬЮТЕРНОГО

КОНСТРУИРОВАНИЯ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ.................................................100

3.1 Методика использования интегрированной ИС при информационной поддержке принятия решений......................................................................................................................................................................100

3.2 Методика компьютерного эксперимента..................................................................................................105

3.3 Результаты компьютерных экспериментов...............................................................................................109

ЗАКЛЮЧЕНИЕ.......................................................................................................113

СПИСОК ЛИТЕРАТУРЫ..........................................................................................114

ПРИЛОЖЕНИЯ......................................................................................................118

Введение

В настоящее время существует огромное количество информационных систем (ИС) в различных предметных областях, что ставит задачу по рациональному использованию необходимой специалистам информации, содержащейся в них, как для информационной поддержки принятия решения, так и для выявления закономерностей с целью формирования новых знаний и прогнозирования неизвестных значений параметров объекта, а так же задачу по обеспечению специалистов в области неорганических соединений высококачественной информацией о свойствах и методиках получения перспективных неорганических веществ. Современные тенденции таковы, что на сегодняшний день, невозможно представить работу химиков-технологов без использования специализированных информационных систем, осуществляющих удаленный доступ через интернет. Разработка информационных систем в области неорганических соединений и материаловедения ведется во всех развитых странах.

На сегодняшний день, существует тренд в разработке и интеграции уже существующих ИС. В России, одним из первых разработчиков такого рода систем является Институт металлургии и материаловедения им. А.А. Байкова РАН (ИМЕТ РАН), если рассматривать зарубежных разработчиков, то наиболее полноценные ИС, разработанные на современных платформах, предлагает NIST (National Institute of Standards and Technology -Национальный институт стандартов и технологий, США) и STN (The Scientific and Technical Information Network - Международная сеть научно -технической информации). Как правило, редко встречается, когда данные, хранящиеся в специализированных ИС и характеризующие целую предметную область, располагаются в одном месте, чаще они разделены и собраны в различных странах и организациях, так же большинство таких ИС имеют платный доступ, что существенно осложняет процесс качественной и полной интеграции ИС.

Интеграция уже существующих систем в области неорганического материаловедения является одним из важнейших и актуальнейших направлений в современной химической промышленности, которая позволит структурировать данные в единое целое, что позволит уменьшить затраты на разработку и поддержку ИС, а так же значительно сократит количество дублированных работ. Новая интегрированная ИС совместно с системой поддержки принятия решений позволит без реального синтеза проводить прогнозирование образования неорганических соединений и оценивать их различные свойства, что существенно облегчит и ускорит поиск специалистами в области неорганического материаловедения перспективных неорганических веществ, необходимых для решения конкретной задачи.

Степень разработанности проблемы Вклад в изучение методик интеграции: A. Halevy (Levy), W. Inmon, D. Calvanese, M. Lenzerini, G. Gottlob, Т. Gruber, A.H. Бездушный, JI.A. Калиниченко, В. А. Серебряков, С. А. Ступников и др. Задачи прогнозирования решали: R. Duda, Р. Hart, К. Fu, L. Kuncheva, JI.A. Растригин, В.П. Гладун, Н.Г. Загоруйко, Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько и др.

Цель работы

Цель работы заключается в информационной поддержке принятия решений при прогнозировании свойств неорганических веществ на основе технологии хранилищ данных.

Для достижения цели работы были поставлены следующие задачи:

• провести системный анализ потоков данных при использовании различных технологий интеграции гетерогенных информационных систем;

• на основе системного подхода разработать архитектуру ИС, в частности разработать схему хранилища данных, а так же разработать методику извлечения, трансформации и загрузки данных в ХД;

разработать методику построения хранилища данных по свойствам веществ для использования конечными пользователями в процессе поддержки принятия решений;

разработать методику применения хранилища данных для прогнозирования свойств веществ;

получение прогнозов образования перспективных неорганических веществ.

Объект исследования

Объектом исследования являются информационные системы в области неорганического материаловедения.

Предмет исследования Предметом исследования является использование технологий интеграции ИС с целью консолидирования информации в области неорганического материаловедения для компьютерного конструирования перспективных неорганических веществ.

Научная новизна разработана архитектура ИС на основе ХД для поддержки принятия решений при прогнозировании свойств веществ;

разработана реляционная структура ХД по свойствам неорганических соединений на основе формализации предметной области;

разработана методика интеграции химической информации на основе технологии хранилищ данных;

разработана методика применения созданного ХД в программном комплексе компьютерного конструирования неорганических соединений.

Теоретическая и практическая значимость В диссертации решается проблема консолидации данных по свойствам неорганических веществ на основе технологии хранилищ данных для информационной поддержки принятия решений при прогнозировании веществ в области неорганического материаловедения.

Разработан программный комплекс, реализующий интегрированную ИС, на базе платформы Microsoft, объединяющий информационные ресурсы по свойствам веществ и технологиям их получения. При помощи этого программного комплекса выполнена интеграция информационных ресурсов, разработанных ИМЕТ РАН совместно с другими организациями России: БД по свойствам неорганических соединений «Фазы», БД по фазовым диаграммам полупроводниковых систем «Диаграмма», БД по свойствам акустооптических, электрооптических и нелинейнооптических веществ «Кристалл». Интегрированное ХД позволяет пользователям получать доступ ко всей информации в рамках ХД и использовать его в качестве источника информации для программ компьютерного конструирования неорганических соединений и СППР.

Применение интегрированной ИС позволяет сократить время, затрачиваемое на поиск полной информации по свойствам и технологиям получения неорганических веществ.

Методология и методы исследования

Структуризация и формализация предметной области выполнена на основе методов структурного системного анализа. В основу решения поставленных задач положены: методология моделирования потоков данных DFD, методология функционального моделирования систем IDEF0, методология проектирования баз данных DDEF1X, теория реляционных баз данных. Для иллюстрации использования ИС в интеллектуальных системах использованы методы индуктивного вывода и компьютерного конструирования неорганических соединений, основанные на обучении ЭВМ распознаванию образов.

Апробация работы

Результаты диссертации обсуждались на научно-технических конференциях «Наукоемкие химические технологии 2011», МИТХТ им. М.В. Ломоносова, Москва, 2011, «Физика - химия и технология неорганических материалов», ИМЕТ РАН, Москва, 2011, «IV Всероссийская научно -

практическая конференция с международным участием «Научное творчество XXI века», Научно - инновационный центр, Красноярск, 2011.

Публикации

Материалы диссертации опубликованы в 3 журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 2 публикации в сборниках трудов и тезисов докладов конференций и семинаров.

Положения выносимые на защиту

• методология интеграции данных в области неорганического материаловедения;

• системный анализ потоков данных при использовании разных подходов к интеграции;

• системный анализ потоков данных при использовании ЕТЬ подхода;

• методика применения хранилища данных для прогнозирования свойств веществ.

Структура и объем диссертации

Диссертация состоит из введения, трех глав, заключения и приложения, 120 страниц, 18 рисунков и 7 таблиц.

1.Системный подход к разработке хранилища данных по свойствам веществ для систем поддержки принятия решений

В современном информационном пространстве увеличение объёмов информации, которую необходимо обрабатывать специалисту в предметной области, возрастание сложности решаемых задач в условиях необходимости учёта большого числа взаимосвязанных факторов и высокой динамики внешней среды, привели к появления нового рода информационных систем -систем поддержки принятия решений или СППР (Decision Support Systems, DSS), отличающихся от традиционных систем аналогичного назначения тем, что ориентированы на конкретного пользователя с целью обеспечения пользователя нахождения оптимального решения.

Необходимость использования СППР обусловлена тем, что лицам принимающие решения, в дальнейшем JüiP, необходимо принять оптимальное решение, под оптимальным решением понимается решение, принятое пользователем в трудном ситуации, когда он учел все необходимые факторы, возможные последствия, получил оценки лучших экспертов -словом использовал всю имеющуюся информацию в предметной области.

СППР призвана решить 2 основных проблемы в процессе принятия решения:

• предоставление пользователю оптимального решения из множества возможных (оптимизация);

• упорядочивание возможных решений по предпочтительности (ранжирование).

Для создания информационной системы с поддержкой СППР, в первую очередь, необходимо разработать структурную схему СППР, построение осуществлялось в соответствии с методикой проф. В.В. Кафарова [1] (рис. 1.1.) Процесс создания разбивается на несколько шагов:

• формирование главной цели СППР;

• декомпозиция с целью выявления подсистем СППР;

• выявление информационных связей;

• определении роли ЛПР в управляющем воздействии.

На первом шаге формируется главная цель для чего создана СППР, в конкретном случае для компьютерного конструирования веществ, с целью определения свойств веществ, второй шаг заключается в декомпозиции системы, с целью выявления подсистем СППР, которая позволит постепенно и структурированно представить сложный комплекс СППР в виде иерархической структуры отдельных блок - схем, что делает ее менее перегруженной и более наглядной. Третий шаг заключается в выявлении информационных связей, что облегчит понимание взаимодействия между подсистемами СППР. Последний шаг заключается в определение роли ЛПР в управляющем воздействии на систему поддержки принятия решений. В конечном итоге пользователю предоставляется возможность, с учетом предоставляемых прогнозов из СППР, осуществить конструирование неорганических веществ.

Прогнозирование свойств соединений

II. Декомпозиция - Выделение подсистем

III. Выявление информационных связей и установление управляющих

Рис. 1.1. Системный подход к разработке структурной схемы СППР.

В дальнейшем будут рассмотрены методы и технологии необходимы для достижения главной цели диссертационной работы. Для этого необходимо выполнить системный анализ [2] технологий интеграций информационных систем, представить обзор уже существующих баз данных по свойствам неорганических веществ и методиках их получения, а также выбрать оптимальную платформу разработки интегрированной ИС,

основываясь на анализе современных платформ, предоставляемых разработчиками.

1.1 Актуальность интеграции

В связи с увеличением роста химической промышленности, появляются все новые и новые вещества и химические соединения, которые эффективно применяются специалистами. Объемы информации, содержащиеся в ИС, настолько велики, что стандартная система представления результатов работы в виде научных публикация не соответствует требованиям и темпам развития современной химической промышленности в области неорганического материаловедения, что су