автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интегрированная информационно-аналитическая система для прогнозирования свойств неорганических соединений

кандидата технических наук
Столяренко, Андрей Владиславович
город
Москва
год
2008
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Интегрированная информационно-аналитическая система для прогнозирования свойств неорганических соединений»

Автореферат диссертации по теме "Интегрированная информационно-аналитическая система для прогнозирования свойств неорганических соединений"

На правах рукописи

Столяренко Андрей Владиславович

ИНТЕГРИРОВАННАЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА ДЛЯ ПРОГНОЗИРОВАНИЯ СВОЙСТВ НЕОРГАНИЧЕСКИХ

СОЕДИНЕНИЙ

05 13 01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва-2008

□03168201

003168201

Работа выполнена в Московском государственном институте электроники и математики (техническом университете)

Научный руководитель

доктор технических наук, профессор Подбельский Вадим Валериевич

Официальные оппоненты

доктор технических наук, профессор Горелов Владимир Иванович

кандидат физико-математических наук, доцент

Чернышов Лев Николаевич

Ведущая организация

Вычислительный центр имени А А Дородницына Российской академии наук

Защита состоится 27 мая 2008 года в 14 00 на заседании диссертационного совета Д 212 133 01 Московского государственного института электроники и математики (технического университета) по адресу 109028 Москва, Б Трехсвятительский пер , д 1-3/12, стр 8

С диссертацией можно ознакомиться в библиотеке

Московского государственного института электроники и математики

(технического университета)

Автореферат разослан. « » апреля 2008 г.

Ученый секретарь диссертационного совета1

кандидат технических наук, доцент

С Е Бузников

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Появление многочисленных баз данных (БД) в различных предметных областях поставило перед специалистами вопрос их рационального использования не только для информационного обслуживания, но и для анализа хранящихся в них данных с целью выявления зависимостей и прогнозирования неизвестных значений Одно из наиболее перспективных и актуальных направлений связано с разработкой информационно-аналитических систем (ИАС), объединяющих базы данных с программами анализа данных С помощью таких систем, в частности, удается найти взаимосвязи между различными объектами и выявить закономерности, присущие предметной области информационно-аналитической системы ИАС автоматизирует хранение и изменение информации, подготовку данных для анализа, проведение прогнозирования, визуализацию и отображение результатов Для повышения достоверности прогнозов целесообразно использовать в ИАС набор программ анализа данных, включающих алгоритмы с различными принципами работы В связи с этим перспективной задачей является интеграция множества программ анализа данных Перспективным является проведение интеллектуального анализа данных с применением программных решений не только в локальной среде, но и в сети Интернет

Поиск новых неорганических материалов с заданными свойствами - одна из важнейших проблем химии Эта многоуровневая (в системном смысле) проблема включает в себя множество частных вопросов научных, технологических, технико-экономических и т д На уровне химии и химической технологии можно выделить следующие взаимосвязанные задачи поиск составов, оценка свойств, выбор технологии получения материалов и поиск оптимальных технологических режимов синтеза и обработки материалов Актуальность создания ИАС в области неорганического материаловедения вызвана стремлением облегчить и ускорить поиск новых неорганических веществ, перспективных для практических применений Использование ИАС дает возможность найти взаимосвязи между фундаментальными свойствами неорганических соединений и фундаментальными свойствами химических элементов Применение найденных взаимосвязей позволяет проводить прогнозирование образования неорганических соединений и оценивать их различные свойства без реального синтеза этих соединений, то есть решает первую из трех задач по поиску новых материалов

Цель работы

Целью исследования была разработка интегрированной информационно-аналитической системы для поддержки принятия решений при прогнозировании свойств неорганических соединений на основе разнородных информационных источников и различных методов алгоритмов и программ анализа игтнк^

Применение информационно-аналитической системы сокращает время и затраты на поиск еще неполученных неорганических соединений и прогноз их свойств без реального синтеза

Для достижения цели работы были решены следующие задачи

• рассмотрены принципы построения современных ИАС,

• на основе системного подхода разработана архитектура ИАС и приведены детализированные диаграммы этапов ее работы при прогнозировании параметров неорганических соединений,

• разработана концептуальная модель данных для прогнозирования параметров неорганических соединений,

• проведен обзор методов распознавания образов, применяемых в ИАС, и способов повышения достоверности прогнозов,

• проанализированы и систематизированы современные подходы к интеграции программ,

• осуществлен выбор программной платформы для построения информационно-аналитической системы,

• предложена и применена методика интеграции разнородных программ анализа данных в ИАС,

• разработана ИАС в виде программного комплекса и осуществлена ее апробация на реальных данных

Научная новизна работы состоит в следующем

• выполнен системный анализ информационных процессов в области прогнозирования свойств неорганических соединений и разработана архитектура информационно-аналитической системы,

• для повышения качества прогнозирования параметров неорганических соединений обосновано принятие коллективных решений по различным признаковым наборам,

• предложен и реализован подход к обработке пропусков в выборках для обучения и прогноза с учетом специфики предметной области,

• предложены методика и технологии включения в ИАС программ анализа данных с различными принципами работы,

• впервые в данной предметной области проведена интеграция в единую систему разнородных информационных компонентов - системы баз данных и программ анализа данных

Практическая ценность

Теоретические исследования завершены созданием на их основе алгоритмического и программного обеспечения ИАС Практическая ценность подтверждена в ходе использования результатов работы специалистами Института металлургии и материаловедения им А А Байкова Российской Академии наук (ИМЕТ РАН)

На разработанную информационно-аналитическую систему было получено свидетельство об отраслевой регистрации разработки в Общероссийском Фонде Алгоритмов и Программ (ОФАП)

Результаты работы, имеющие практическую ценность

• разработанные методы и алгоритмы применены при создании информационно-аналитической системы для прогнозирования свойств неорганических соединений, перспективных для практических применений,

• разработано программное обеспечение баз данных «Фазы» и «Элементы» и проведена их интеграция с другими базами данных, созданными в ИМЕТ РАН.

• разработанная в диссертации информационно-аналитическая система внедрена в практику работы ИМЕТ РАН,

• применение ИАС позволяет сократить время и затраты на поиск новых неорганических соединений,

• полученные в диссертации результаты могут быть использованы для создания информационно-аналитических систем и в других предметных областях

Методы исследования

Структуризация и формализация предметной области, и разработка архитектуры ИАС выполнены на основе методов системного анализа При разработке интегрированной ИАС использованы теория построения баз данных, принципы «сервисно-ориентированного подхода» и Web-технологии Для анализа данных использованы программы и алгоритмы распознавания образов

Положения, выносимые на защиту

На защиту данной диссертационной работы выносятся

• информационно-аналитическая система для прогнозирования свойств неорганических соединений, основанная на интеграции баз данных и программных средств распознавания образов,

• архитектура информационно-аналитической системы, включающей в себя разнородные программные и информационные компоненты,

• алгоритмическое и программное решение задач прогнозирования параметров неорганических соединений,

• подход к заполнению пропусков в выборках для обучения и прогноза с учетом специфики предметной области,

• применение коллективов алгоритмов и признаковых наборов для повышения достоверности прогнозов параметров неорганических соединений и уменьшения риска принятия решений при проведении виртуального химического эксперимента

Апробация работы

Основные результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах- International Conference, «Information Research, Applications and Education - 1 Tech» ВиЬ^ла, Varm

2005, XIIIth International Conference «Knowledge-Dialogue-Solutions» - KDS 2007 - Varna, 2007, Международных студенческих школах-семинарах «Новые информационные технологии», Украина, Судак, 2006, 2007, IX Российско-китайском Симпозиуме «Новые материалы и технологии», г Астрахань, 2007, «The Sixth International Conference on Computer-Aided Design of Discrete Devices (CAD DD'07)», Минск, 2007, Научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ, 2004-2008, Всероссийском семинаре по кинетике физико-химических процессов в газовой динамике (Институт механики МГУ им M В. Ломоносова), 2006

Исследования поддержаны РФФИ (гранты №04-07-90086, №06-07-89120 и № 05-03-39009) Публикации

Результаты диссертационной работы опубликованы в 19 печатных трудах, в том числе в 2 статьях в журналах, рекомендованных ВАК РФ для опубликования результатов диссертационных работ, 5 статьях, 10 публикациях в сборниках трудов и тезисов докладов конференций и семинаров Структура и объем диссертации

Диссертация состоит из введения, четырех глав и заключения, изложенных на 164 страницах, включая библиографию из 99 источников, 63 рисунка и 24 таблицы

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность и практическая ценность работы Сформулирована цель работы и поставлены задачи Кратко рассмотрены методы исследования, научная новизна, результаты апробации и внедрения диссертационной работы Описана структура диссертации и содержание разделов

В первой главе рассмотрены принципы построения современных ИАС Основными компонентами современной ИАС являются средства хранения и анализа данных

В диссертационной работе предложен вариант ИАС без хранилища данных, который предоставляет пользователям возможности анализа данных, получаемых непосредственно из различных информационных систем

В первой главе также кратко проанализированы исследования по созданию ИАС в химии и основные проблемы, возникающие при применении методов распознавания образов для решения задач неорганического материаловедения

Рассмотрены алгоритмы распознавания образов, включенные в ИАС, и указаны их особенности В процессе тестирования различных алгоритмов обучения ЭВМ на химических задачах было установлено, что заранее невозможно указать, какой алгоритм является наиболее эффективным при решении конкретной задачи В связи с этим перспективным является использование методов распознавания коллективами алгоритмов При синтезе коллективного решения

во многих случаях удается компенсировать возможные ошибки распознавания отдельных алгоритмов правильными ответами других алгоритмов Исходя из этого, в ИАС включены программы, реализующие алгоритмы различных типов, а также используются разные стратегии принятия коллективных решений

В связи с этим в диссертации было необходимо разработать методику, которая даст возможность включения в НАС программ анализа данных с различными принципами работы

При этом решение задачи интеграции программ должно быть

• расширяемым, т е обеспечивать возможность добавления программ анализа данных в ИАС,

• достаточно простым для реализации, чтобы разработка программных модулей для включения новой программы анализа данных в ИАС на основе предложенной методики не представляла сложной задачи,

• гибким, чтобы учитывать различия в данных и информационных структурах, используемых в интегрируемых программах,

• мощным, чтобы обеспечить сложные механизмы взаимодействия программ анализа данных

Детально рассмотрены подходы к интеграции программ Указаны области применения, а также достоинства и недостатки, присущие различным подходам Проведена классификация способов интеграции систем по типу обмена данными Обосновано предпочтительное использование при разработке ИАС подхода на основе интегрирующей среды Вместо специализированных интерфейсов между отдельными программами применена связующая среда, которая играет роль универсального программного ядра, соединяющего все программы Преимуществом используемой технологии на основе интегрирующей среды является простота поддержки и расширения разработанной на ее основе системы

В связи с разнородностью объединяемых программ, в рассматриваемой системе применена сервисно-ориентированная архитектура (SOA) SOA — это прикладная архитектура, в которой все функции приложений определены как независимые сервисы с вызываемыми интерфейсами Применение идеологии SOA облегчает и унифицирует процесс включения в ИАС новых программ анализа данных Вся вычислительная работа происходит на сервере, а клиент только инициирует процессы и получает результаты для просмотра Необходимо отметить, что предложенное в диссертационной работе решение дает возможность объединения программ анализа данных, развернутых на удаленных серверах

Проведен обзор современных программных платформ для разработки интегрированной ИАС Сделан вывод, что в настоящее время Microsoft предлагает наиболее надежные, удобные для использования и высокопроизводительные системы

Во второй главе рассмотрен применяемый химиками и материаловедами подход к поиску зависимостей в химических данных Разработка ИАС, пред-

7

ставленной в работе, во многом решает выявленные при анализе сложившейся ситуации проблемы

Информационная основа ИАС - интегрированная система баз данных по свойствам неорганических веществ и материалов, созданная с участием автора в ИМЕТ РАН, в которую входят БД по свойствам неорганических соединений «Фазы», БД по фазовым диаграммам систем с полупроводниковыми фазами «Диаграмма», БД по веществам с особыми акустооптическими, электрооптическими и нелинейнооптическими свойствами «Кристалл», БД по ширине запрещенной зоны неорганических соединений «ВапсЮар», БД по свойствам полупроводникового кремния «Кремний» и БД по свойствам химических элементов «Элементы»

Помимо баз данных в состав ИАС входят программы анализа данных, подсистема интерактивной визуализации результатов, база «задач» и прогнозов, управляющая подсистема Управляющая подсистема организует вычислительный процесс и осуществляет взаимодействие между всеми функциональными подсистемами ИАС, а также обеспечивает доступ к ИАС из сети Интернет Помимо этого, управляющая подсистема предоставляет пользователю программные средства подготовки данных для анализа, формирует отчеты в привычной для химиков форме, отображает результаты и реализует другие сервисные функции

Выявленные экспертом в результате работы с ИАС закономерности сохраняются в базе «задач» во внутреннем формате программы анализа данных, с помощью которой они были получены Такая реализация позволяет интегрировать в ИАС новые программы анализа данных и решает проблему, связанную с тем, что форма представления полученных закономерностей в используемых методах обучения ЭВМ существенно различается Под «задачей» понимается процесс обучения выбранными методами на конкретной обучающей выборке При этом в базе «задач» предложено сохранять не сами полученные результаты обучения (например, логические выражения или структура обученной нейронной сети), а так называемые «ярлыки» для этих задач Под термином «ярлык» понимается необходимая информация о «задаче», позволяющая идентифицировать ее среди остальных В связи с тем, что в разных «задачах» для обучения используется информация разного качества (например, с различной достоверностью и полнотой), разработан механизм, поддерживающий экспертные оценки полученных закономерностей и прогнозов

В ИАС сохраняется следующая информация о «задаче»

• уникальный номер «задачи»,

• выборка для обучения в стандартном формате,

• данные о признаках, использованных при формировании обучающей выборки,

• идентификатор программы анализа данных, с помощью которой получены закономерности,

• список методов, использованных при обучении, и их параметры,

• информация о количественном и качественном составе соединений, использованных для обучения,

• идентификатор прогнозируемого параметра соединений,

• экспертная оценка «задачи»

Первый этап прогнозирования свойств неорганических соединений - это экспертный анализ информации баз данных по свойствам материалов для электроники и выбор соединений-прототипов Соединение-прототип - это соединение с уже известными функциональными свойствами, которое используется или перспективно для использования в практической деятельности Следующий этап - это выбор в БД «Фазы» информации об известных аналогах соединений-прототипов по составу и/или типу кристаллической структуры При проведении прогнозирования неизвестных параметров каждое соединение описывается в ИАС в виде набора значений свойств его компонентов

Химическая формула

Уровень 1

Соединение ( N

Параметры

О

Свойства элементов

Уровень 2

Ф

N

Значения свойств элементов

Уровень 3

Значения параметров

Рис 1 Концептуальная модель данных, представленная в виде многоуровневой диаграммы «сущность-связь». Наименования связей на диаграмме О - описывает, Х-характеризует, 3 - имеет значение

Разработана концептуальная модель данных для прогнозирования параметров неорганических соединений, включающая в себя три уровня абстракции (рис 1) На наиболее высоком уровне представлена взаимосвязь «соединение имеет параметры» и «соединение описывается химической формулой» Эти взаимосвязи остаются неизменными в течение всего процесса функционирования системы На втором уровне абстракции задается взаимосвязь «соединение описывается в терминах свойств его элементов» типа «один ко многим» Необходимость рассмотрения этой связи на отдельном уровне абстракции связана с тем, что набор свойств элементов, используемых для описания соединения

может изменяться в процессе исследований Третий уровень абстракции составляют экземпляры сущностей «параметр соединения» и «свойство химического элемента»

Для улучшения качества обучения и прогнозирования к описанию соединений предложено добавлять дополнительные признаки, представляющие собой сложные функции от многих переменных (в качестве переменных выступают свойства компонентов) В таблице 1 приведен пример обучающей выборки для случая с соединениями, состоящими из трех химических элементов (обозначения X] - первый потенциал ионизации соответственно первого, второго и третьего элемента, х„ - ковалентный радиус соответственно первого,

второго и третьего элемента, Г(хпа,хпв,хп с)= пв )

ХпС

Таблица 1 Пример обучающей выборки, формируемой в ИАС

Соеди- Класс Свойства Свойства Свойства Дон

нение элемента А элемента В элемента С признаки

Х1А ХпА Х1В хпВ Х1С ХпС фс1А,х,в,х,с)

СиА1Б2 сИакоруШе 745 4 117 577 6 125 999 6 104 -0 076923

ЬгОаБег! а-МаРе02 520 2 123 592 4 161 940 9 117 -0 324786

С помощью методов системного анализа выполнена структуризация процедуры принятия решения при прогнозировании неизвестных параметров неорганических соединений Разработанную ИАС можно представить как систему поддержки принятия решений (СППР) в процессе научных исследований Разработка СППР осуществлена в соответствии с методикой проф В В Кафарова (рис 2) Первым этапом этой методики является формулировка цели создания СППР Основной целью создания СППР является обеспечение лица, принимающего решения (ЛПР) прогнозами параметров неорганических соединений Следующий этап - выделение подсистем СППР Это - следование системному принципу единства, т е совместное рассмотрение системы как целого и как совокупности частей Принцип ориентирован на «взгляд внутрь» системы, на расчленение ее с сохранением целостных представлений о системе Следующим шагом разработки СППР являлось выделение информационных связей На последнем этапе разработки СППР были определены управляющие воздействия ЛПР Следует отметить, что на основе полученных прогнозов ЛПР принимает решение о проведении экспериментальной проверки параметров соединений, прогнозируемых СППР Результатом системного проектирования является схема работы ИАС Подробно рассмотрены этапы прогнозирования параметров неорганических соединений с применением ИАС (рис 3)

Формирование набора признаков для описания соединений

Прогнозирование

III. Выявление информационных связей и установление

Рис 2 Системный подход к разработке структурной схемы СППР

В третьей главе предложен подход к интеграции в ИАС программ анализа данных и описана реализация интегрированной ИАС в виде программного комплекса В рамках диссертационной работы было разработано программное обеспечение БД по свойствам неорганических соединений «Фазы» и БД по свойствам химических элементов «Элементы» БД «Фазы», которая в настоящее время содержит информацию о свойствах более 44 тыс тройных и о более 15 тыс четверных соединений, является основным источником данных для анализа БД «Элементы» содержит данные о свойствах химических элементов, на основе которых формируются описания химических соединений

Рнс 3 Этапы прогнозирования параметров неорганических соединений с применением НАС 12

При построении ИЛС, объединяющей программы анализа данных, необходимо обеспечить хранение информации об этих программах и методах распознавания образов, реализованных в них Эти данные необходимы для корректного вызова функций программ и настройки методов обучения Для хранения информации о программах было принято решение использовать справочную базу, состоящую из двух частей Первая группа таблиц (рис 4) отвечает за хранение информации непосредственно об интегрируемых программах, предоставляемых ими функциях и способах вызова этих функций Вторая группа таблиц (рис 5) отвечает за хранение информации о настраиваемых параметрах методов обучения

Рис 4 Структура первой группы таблиц справочной базы

Взаимодействие между программами анализа данных, которые реализуют методы обучения и распознавания, и управляющей подсистемой происходит посредством адаптеров, предоставляющих все необходимые функции программы Для интеграции новой программы анализа данных в ИАС нужен только адаптер, выполняющий сопряжение внутренних структур данных интегрируемой программы со стандартизированным представлением данных в интегрированной системе

Для облегчения подключения новых программ анализа данных к интегрированной ИАС были разработаны требования к реализации программных адаптеров для интегрируемых программ и предложен формат обмена сообщениями между этими программами и управляющей подсистемой ИАС

Адаптер интегрируемой программы анализа данных предоставляет следующие средства обучение соответствующего метода анализа данных с заданными параметрами, экзамен на контрольной выборке, распознавание с использованием ранее полученных закономерностей

MethodParamsConstraints

CoretrID

Named

Constf

MethodParametersIteir

Ч ParamlD

1 ParamName

TypeParam

VakeType

ParamGroup

DefaukValue

Constr

П Ord

m

MethodParametersGroigis

acupro Named

MethodParametersTypf

HI

ГуреГО TypeName

Methocfarams

!_

MethodlO Parameters

a^oa

MethodParametersOpUans

Option®

OptlonNaroe

OpüonVaJue

• IsSdectsd

MethodParamID

Ord

Methods

Methodm

_ ProffamlD MethocName

tiCotecbve

MethodPath

j- Active Ord

Рис 5 Структура второй группы таблиц справочной базы

Предложен формат сообщений, передаваемых адаптеру программы <Message>

<ActionType Value="Действие обучение, прогнозирование">

<ProjectID Value= "Номер «задачи» ">

<Methods>

<Method ID-"Идентификатор метода "> <Parameters>

<Parameter Ю= "Номер параметра " Value= "Значение ">

</Parameters> </Method>

</Methods> <Selection>

</Selection> </Message>

В рамках диссертации по предложенной схеме разработаны адаптеры для двух программ анализа данных «Распознавание» и «ConFor» Отметим, что в адаптере для программы «ConFor» реализована процедура дискретизации выборок, так как она работает только с дискретными значениями признаков

При реализации НАС важен выбор единого формата выборок для обучения и прогнозирования Его соблюдение облегчает подключение к ИАС новых программ анализа данных и взаимодействие между ними Выборка для обучения подготавливается средствами ИАС в формате XML следующей структуры

<Selection NumProperties -"Количество признаков">

<Object name="Название объекта"struct="Формула" С1аа="Классообразующий признак">

<Property name="Название признака" ча!ие="3начение признака"/> <Property пате="Название признака "value="Значение признака " />

</Object>

<Object пате="Название объекта"struct-"Формула" Class="Knac сообразующий признак">

</Object> </SclcciiorC>

Соответственно в выборке для прогноза атрибут «классообразующий признак» отсутствует

Результаты прогнозирования представляются в формате XML Они имеют следующий вид

<Prediction>

<Object пате-"Название"struct-"Формула" Class="HpozH03upyeubiü класс" > < Object пате="Название " struct= "Формула " Class= "Прогнозируемый класс " />

</Predicüon>

Запрос информации о выполнении процессов

Клиент

Запуск длительного I процесса

Время жизни клиента

Ось времени

Web-сервис Очередь сообщений

Выполнение длительного процесса

Оповещение о завершении процесса

| Win-сервис

Рис 6 Модель асинхронного сервиса

Разработана архитектура системы, которая позволяет пользователям инициировать длительное по времени выполнение ресурсоемких операций и контролировать степень их выполнения в асинхронном режиме (рис 6) Здесь «Очередь сообщений» выполняет функции промежуточного слоя между \Veb-сервисом, передающим запрос на выполнение операции, и \У1п-сервисом, непосредственно выполняющим назначенную клиентом операцию \Ут-сервис име-

ет возможность записывать в «Очередь сообщений» информацию о ходе выполнения процесса. Для хранения информации о запущенных процессах используется таблица в базе данных. Таким образом, используется три компонента: Web-сервис, «Очередь сообщений» и Win-сервис, непосредственно реализующий сам процесс. Внешним уровнем модели асинхронного сервиса является сам Web-сервис. Web-сервис содержит метод «Запуск процесса», позволяющий инициировать процесс. Метод «Запуск процесса» использует набор аргументов для запуска процесса, который передается с помощью объекта класса «Аргументы службы». Класс «Аргументы службы» содержит всю необходимую информацию для запуска процесса: например, используемые методы обучения, их параметры, выборку для обучения или прогнозирования в формате XML. Также Web-сервис содержит методы «Остановка процесса» и «Информация о состоянии процесса».

Для предварительного анализа данных и удобства восприятия полученных результатов прогнозирования разработана интерактивная подсистема визуализации (рис. 7). Информация о свойствах химических соединений представляется в виде проекций на плоскость точек, соответствующих соединениям определенного типа, в пространстве свойств химических элементов. Система визуализации предназначена для представления информации в координатах «свойство элемента А - свойство элемента В». Возможно использование алгебраических функций от свойств химических элементов.

А/в

®

®

®

®

® ® ®®

©

®

а

© фф

®

® ®

3517,60 3720.10

2А+ЗВ

,00 2731,20 2995,40 3256,60

Рис. 7. Диаграмма распределения соединений

В подсистеме визуализации ИАС также реализована возможность прове-

дения многомерного маспггаоирозаяпл. Многомерное миештаоирование

16

3X0

процесс нахождения расположения точек в двухмерных подпространствах признаков, при котором расстояние между точками соответствует их различиям в и-мерном подпространстве

Одной из сложностей при использовании ИАС в неорганической химии было наличие пропусков в значениях свойств химических элементов, на основе которых формируются выборки для анализа Пропуски в значениях признаков могут исказить правильность обучения и распознавания Для решения этой проблемы предложен следующий подход Во-первых, из обучающей выборки удаляются признаки, имеющие больше Ь% (задается экспертом) пустых значений Заполнение же оставшихся пустых значений реализовано следующим образом Учитывая особенности предметной области и способ подготовки обучающих выборок, проводится поиск химических элементов, «ближайших» к тому, у которого нужно заполнить пропуск Далее рассчитывается среднее значение соответствующего признака для двух «ближайших» элементов При этом нормированное «расстояние» между элементами не должно превышать величины К (задается экспертом), и поиск химических элементов проводится только среди элементов той же группы Периодической системы Если подходящие элементы не найдены, то пустое значение заменяется средним значением признака у объектов с равным классообразующим признаком (в случае обучающей выборки), или этот признак исключается из выборки (в случае выборки для распознавания), и проводится переобучение системы уже без этого признака Применен также следующий вариант заполнения пропусков в случае распознавания в выборке для прогноза последовательно заменяются пропущенные значения средними для разных классов (найденными по обучающей выборке) и проводится голосование прогнозов по большинству Соответственно объект относится к тому классу, за который он получил больше голосов, а пропуск заменяется в этом случае средним для этого класса

Процедура прогнозирования производится в соответствии со схемой, представленной на рис 3 Результаты обучения, экзамена и прогнозирования оформляются в виде удобных для просмотра отчетов Если результаты контрольного распознавания устраивают эксперта, то он может сохранить «задачу» с полученными закономерностями в базе «задач»

Для повышения точности прогнозирования при разработке ИАС учитывается специфика предметной области - в неорганической химии вследствие периодической зависимости свойств химических элементов, входящих в признаковое описание объектов - химических соединений - классифицирующие правила, включающие разные подмножества свойств химических элементов, используемые для описания неорганических соединений, должны, в принципе, давать одинаковые результаты классификации Т е результаты прогноза с использованием различных подмножеств свойств элементов должны, в принципе, совпадать Этот факт дает дополнительную возможность принятия коллективного решения, но уже на основе наборов признаков, полученных в результате

разбиения исходного множества свойств химических элементов на частично пересекающиеся подмножества

В ИАС реализована возможность принятия коллективного решения по различным признаковым наборам Эксперт может сформировать несколько выборок с разными наборами признаков Система в таком случае автоматически проведет обучение и распознавание по всем сгенерированным выборкам, а после завершения процесса прогнозирования эксперт получит таблицу с результатами коллективного решения по заданным признаковым наборам В качестве коллективного решения используются следующие методы

• Голосование по большинству объект относится к тому классу, к которому он был присвоен большинством алгоритмов

• Усреднение результатом работы метода является среднее арифметическое оценок принадлежности за каждый класс исходных алгоритмов

• Использован алгоритм «Шаблоны принятия решений», предложенный JI Кунчевой (Kuncheva LI Combining Pattern Classifiers Methods and Algorithms -Wiley,2004 -350p)

Эти методы улучшают качество как раз в тех ситуациях, когда есть несколько алгоритмов, каждый из которых в большинстве случаев правильно классифицирует объекты Тогда, применяя различные формы сравнения прогнозов, можно добиться улучшения результатов путем сглаживания ошибок отдельных методов

Разработанная ИАС предназначена не только для высококвалифицированных экспертов, но и для пользователей-химиков Именно при работе пользователя с системой используются ранее сохраненные и оцененные экспертом «задачи» и полученные прогнозы ИАС, объединяющая комплекс баз данных и средства компьютерного анализа информации, позволяет пользователю получать не только сведения об уже известных соединениях из БД, но и прогнозировать их свойства, если в базах данных не найдено необходимой информации

В четвертой главе представлены результаты применения ИАС для прогнозирования параметров неорганических соединений Обсуждена эффективность различных методов распознавания Сформулированы предложения по дальнейшему развитию ИАС

ИАС была использована для прогноза новых соединений состава АВХ2 (А и В - разные химические элементы, X - S, Se, Те), перспективных для поиска новых полупроводниковых и нелинейно-оптических веществ Сравнение результатов расчетов с новыми экспериментальными данными показало, что из 21 проверенного прогноза 20 оказались правильными

Проведено прогнозирование (одновременно рассматривались 4 класса) типа кристаллической структуры соединений состава АВХ2 (А и В - разные химические элементы, X - S, Se, Те) Задача решалась двумя путями В первом случае применялось многоклассовое прогнозирование, при котором использовалась совокупная информация о соединит"": "?т:'ргх wr-?ccor; сту-

чае решались четыре задачи дихотомии - разделения на два класса, например, класс 1 - соединения с кристаллической структурой халькопирита и соединения с другой структурой Результаты прогнозов сравнивались, и решение принималось, если прогнозы при многоклассовом прогнозировании и дихотомиях не противоречили друг другу

Для соединений состава АГЮ2 (А и В - разные химические элементы, Б -Б, Бе, Те, N. Р, Аб, БЬ) с кристаллической структурой халькопирита решена задача прогноза температуры плавления с помощью разных алгоритмов За счет применения коллективных методов принятия решения удалось достичь 100%-ной точности контрольного распознавания Осуществлен прогноз температуры плавления новых халькопиритов, для которых эта характеристика еще не измерена

Проведено прогнозирование возможности образования и типа кристаллической структуры соединений состава АВР5 (А и В - разные химические элементы) За счет применения коллективных методов принятия решения удалось достичь точности контрольного распознавания 94 2% При прогнозе новых соединений АВР5 использованы наиболее точные алгоритмы, а также коллективное решение по двум наборам признаков

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие результаты

• на основе исследования принципов построения современных ИАС и системного подхода разработана архитектура ИАС и детализированные диаграммы этапов работы ИАС при прогнозировании параметров неорганических соединений,

• разработана, реализована и внедрена в ИМЕТ РАН информационно-аналитическая система, включающая интегрированные программы анализа данных и предназначенная для прогнозирования параметров неорганических соединений,

• разработана концептуальная модель данных для прогнозирования параметров неорганических соединений,

• проанализированы основные методы распознавания образов, используемые в ИАС, отмечены особенности работы этих методов и способы повышения достоверности результатов прогнозирования,

• разработана технология хранения и дальнейшего использования полученных экспертом в ходе работы с ИАС закономерностей,

• для повышения качества прогнозирования применены коллективные решения по различным алгоритмам и признаковым наборам, за счет этого достоверность осуществляемого прогноза увеличилась в среднем на 10%,

• с учетом специфики предметной области предложен и реализован подход к обработке пропусков в выборках для обучения и прогноза,

• разработана архитектура системы, которая позволяет пользователям инициировать длительное по времени выполнение ресурсоемких операций и контролировать степень их выполнения в асинхронном режиме, применение асинхронных процессов повышает скорость и удобство работы с ИАС при решении целевой задачи прогнозирования параметров неорганических соединений,

• разработаны методика интеграции программ анализа данных в ИАС и требования к адаптерам для включаемых в нее программ,

• на базе Web-интерфейса разработана подсистема визуализации результатов анализа данных, повышающая функциональность интерфейса аналитика-эксперта,

• проведены эксперименты по применению ИАС для прогнозирования параметров неорганических веществ

На основе анализа полученных результатов сделаны следующие выводы

• Эффективность процедуры поддержки принятия прогностических решений требует учета специфики процесса синтеза соединений, его условий и ограничений, специфики анализируемых химических данных (неполнота, некорректность и т п)

• Достоверность результатов прогнозирования существенно зависит от представительности обучающей выборки, удачного сочетания методов анализа данных и их настройки, выбранных признаков для формирования описаний объектов

• На основе анализа полученных результатов сделан вывод о перспективности использования созданной ИАС и разработанных информационных технологий принятия прогностических решений

• Архитектура ИАС, включающей в себя разнородные источники данных и средства анализа информации, и методика интеграции этих программных и информационных компонентов могут быть применены в других предметных областях, например, в области медицины и здравоохранения

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Столяренко А В Разработка подсистемы удаленного доступа к информационно-прогнозирующей системе по свойствам тройных неорганических соединений // Научно-техническая конференция студентов, аспирантов и молодых специалистов Тезисы докладов М • МИЭМ, 2004

2 NKiselyova, VDudarev, IProkoshev, VKhorbenko, A Stolyarenko, DMurat,

V Zemskov The distributed system of databases on properties of Inorganic substances and matenals // Proc The Third International Conference «Information Research, Applications and Education - l TECH 2005», Vama, Bulgana Sofia FOI-COMMERCE, 2005 -P 22-27

3 NKiselyova, VDudarev, IProkoshev, VKhorbenko, AStolyarenko, DMurat,

V Zemskov The distributed system of d?tabases on properes of Tnorgpnic sub-

stances and materials // International Journal «Information Theones and Applications» 2005, vol 12, №3 -P 219-224

4 Столяренко A В Проект разработки информационно-прогнозирующей системы по свойствам тройных неорганических соединений // Научно-техническая конференция студентов, аспирантов и молодых специалистов Тезисы докладов M МИЭМ, 2005

5 Киселева H H , Дударев В А , Столяренко А В , Земсков В С Компьютерное конструирование неорганических соединений, перспективных для поиска новых материалов для электроники // Известия ВУЗов Материалы элек-

_____---------- щлг иг„т г^ со

ipunnun ¿ЬЛППЛЛ, ¿иуи, J1ÏJ — у^ U1-UO

6 Киселева H H , Мурат Д П , Столяренко А В , Дударев В А , Подбельский В В , Земсков В С База данных по свойствам тройных неорганических соединений «Фазы» в сети Интернет // Информационные ресурсы России, 2006, №4 - С 21-23

7 Столяренко А В Проект разработки информационно-аналитической системы компьютерного конструирования неорганических соединений с использованием методов обучения ЭВМ // Проектирование телекоммуникационных и информационных средств и систем / Под ред JIH Кечиева - M МИЭМ, 2006 - С 168-172

8 Столяренко А В Компьютерное конструирование неорганических соединений Использование баз данных и методов искусственного интеллекта // Научно-техническая конференция студентов, аспирантов и молодых специалистов Тезисы докладов M МИЭМ, 2006

9 Столяренко А В Прогнозирование возможности образования химических соединений с применением кибернетических методов и банков данных // Международная студенческая школа-семинар «Новые информационные технологии» Тезисы докладов M МИЭМ, 2006

10 NN Kiselyova, А V Stolyarenko, TGu, WLu, ABlansche, VVRyazanov, О V Senko Computer-aided design of new morganic compounds promismg for search for electronic materials // Proc the Sixth International Conférence on Computer-Aided Design of Discrète Devices (CAD DD'07), vol 1, Minsk, UIPI NAS В 2007 - P 236-242

11 N Kiselyova, A Stolyarenko, VRyazanov, VPodbel'skii, Information-analytical system for design of new morganic compounds // Proc XIII-th International Conférence «Knowledge-Dialogue-Solution - KDS-2007», June 18-24, 2007, Varna (Bulgaria), vol 2, Sofia, ITHEA - P 373-378

12 Kiselyova NN, Stolyarenko A V , Gu T, Lu W Computer-aided design of new wide bandgap semiconductors with chalcopyrite structure // Перспективные материалы, 2007, Спецвыпуск Сбтр IX Российско-Китайского Симпозиума «Новые материалы и технологии» - С 351-355

13 Столяренко А В Информационно-аналитическая система компьютерного конструирования неорганических соединений // Научно-техническая конфе-

ренция студентов, аспирантов и молодых специалистов Тезисы докладов М МИЭМ, 2007

14 Столяренко А В Информационно-аналитическая система, предназначенная для компьютерного конструирования неорганических соединений // Международная студенческая школа-семинар «Новые информационные технологии» Тезисы докладов М МИЭМ, 2007

15 Столяренко А В , Подбельский В В , Киселева Н Н Система компьютерного конструирования неорганических соединений с использованием методов анализа данных // Проектирование телекоммуникационных и информационных средств и систем / Под ред JI НКечиева - М МИЭМ, 2007 - С 181188

16 Столяренко А В , Подбельский В В Информационно-аналитическая система, предназначенная для компьютерного конструирования химических соединений // Новые информационные технологии материалы десятого научно-практического семинара - М МИЭМ,2007 -С 187-193.

17.Столяренко А.В Информационно-аналитическая система, основанная на интеграции программных средств распознавания образов и баз данных // Научно-техническая конференция студентов, аспирантов и молодых специалистов Тезисы докладов М . МИЭМ, 2008

18 Киселева Н Н, Столяренко А В Информационно-аналитическая система для компьютерного конструирования неорганических соединений - М ВНТИЦ, 2008 -№50200800200

19 Киселева Н Н, Столяренко А В Информационно-аналитическая система для компьютерного конструирования неорганических соединений // Инновации в науке и образовании (Телеграф отраслевого фонда алгоритмов и программ), 2008, №1 -С 9-10

Подписано в печать 23 04 2008 г Печать трафаретная

Заказ №316 Тираж 100 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш, 36 (495) 975-78-56, (499) 788-78-56 www autoreferat ru

Оглавление автор диссертации — кандидата технических наук Столяренко, Андрей Владиславович

ВВЕДЕНИЕ.

ГЛАВА 1. СРЕДСТВА И ТЕХНОЛОГИИ, ПРИМЕНЯЕМЫЕ ПРИ РАЗРАБОТКЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ.

1.1. Принципы создания информационно-аналитических систем.

1.1.1. Назначение ИАС.

1.1.2. Обзор исследований по созданию ИАС в области неорганического материаловедения.

1.1.3. Состав архитектуры ИАС, построенной на базе хранилища данных. 13"

1.1.4. Методика интеграции информационных источников в ИАС.

1.1.5. Анализ данных.

1.1.6. Knowledge Discovery in Databases.

1.1.7. Сравнение экспертных и партнерских систем.

1.1.8. Web-портал.

1.2: Технологии интеграции программных систем.

1.2.1. Подходы к интеграции.

1.2.2. Классификация способов взаимодействия интегрируемых программных систем.

1.2.3. Применение сервисно-ориентированной архитектуры при проектировании ИАС.

1.2.4. Web-сервисы. Современный подход к задачам интеграции.

1.2.5. Принципы Web-интеграции.

1.3. Методы анализа данных, применяемые в ИАС.

1.3.1. Постановка задачи распознавания образов.

1.3.2. Выбор методов распознавания образов для использования в ИАС.

1.3.3. Методы обучения ЭВМ распознаванию образов.

1.3.4. Способы повышения достоверности прогнозов.

1.4. Выбор программной платформы для^ разработки ИАС.

Краткие выводы.

ГЛАВА 2. РАЗРАБОТКА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ НА ОСНОВЕ СИСТЕМНОГО ПОДХОДА.

2.1. Предпосылки создания ИАС.

2.2. Компонентный состав ИАС.

2.3. Поддержка принятия решений при прогнозировании параметров химических соединений.

2.3.1. Основные принципы системного анализа.:.:.

2.3 .2. Описание процедуры прогнозирования с помощью методов. структурного системного анализа

2.3.3. Концептуальная модель данных.:.!.

2.4. Этапы процедуры прогнозирования.

Краткие выводы;.

ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ

СИСТЕМЫ5.'.'.:.:. ш

3.1. Разработка базы данных «Фазы».

З Л Л . Разработка структуры БД

3 :1.2. Система удаленного доступак;БД!«Фазы».

3.1.3. Административная часть БД «Фазы.

3.1.4. Интеграция БД;«Фазы» с другими'БД.

3.2. База данных по свойствам химических элементов «Элементы».

3.2.1. Разработка структуры БД.

I 3.212! Разработкаадминистративной'системы.

3 .2.3 . Система удаленного, доступа к БД «Элементы» v.

3.3. Подсистема визуализации данных.102"

I' 3:3.1. Предпосылки созданиям под системы. 102;'

3.3.2. Визуализация данных.

3.3.3. Визуализация многомерных данных. • , ' '

3.4. Интеграция программ анализа данных.

I 3.4.1. Взаимодействие с программами анализа данных.

3 .4.2. Справочная база для-интеграции.

I 3.4.3 . Механизм интеграции.

I 3.5. Механизм обучении и распознавании.

I 3.5Л. Подготовка данных для анализа.

3.5.2. Заполнение пропусков в выборках для обучения и прогнозирования

3.5.3. Повышение достоверности прогнозов за счет использования коллектива f признаковых описаний;.;.„.Л.

3.5:4. Обучение системы.:.

3.5:5. Проведение прогнозирования.

I 3.5.6. Пользовательский уровень работы с ИАС.

I Краткие выводы.

1 ' ■ I

ГЛАВА 4. ПРИМЕНЕНИЕ ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ДЛЯ ПРОГНОЗИРОВАНИЯ НОВЫХ НЕОРГАНИЧЕСКИХ СОЕДИНЕНИЙ.

4.1. Компьютерное конструирование новых неорганических соединений состава АВХ2 (X = S, Se, Те).

4.1.1. Прогноз возможности образования соединений состава АВХ2 при нормальных условиях.

4.1.2. Прогноз типа кристаллической структуры соединений состава АВХ при нормальных условиях.

4.1.4. Прогноз температуры плавления соединений состава ABD2 при атмосферном давлении.

4.2. Прогноз возможности образования и типа кристаллической структуры соединений состава ABF5.

4.3. Предложения по дальнейшему развитию ИАС.

Краткие выводы.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Столяренко, Андрей Владиславович

Появление многочисленных баз данных в различных предметных областях поставило перед специалистами вопрос их рационального использования не только для информационного обслуживания, но и для анализа хранящихся в них данных с целью выявления зависимостей и прогнозирования неизвестных значений. Одно из наиболее перспективных и актуальных направлений связано с разработкой информационно-аналитических систем (ИАС), объединяющих базы данных с программами анализа данных. С помощью таких систем, в частности, удается найти взаимосвязи между различными объектами и выявить закономерности, присущие предметной области информационно-аналитической системы. ИАС автоматизирует хранение и изменение информации, подготовку данных для анализа, проведение прогнозирования, визуализацию и отображение результатов. Для повышения достоверности прогнозов целесообразно использовать в ИАС набор программ анализа данных, включающих алгоритмы с различными принципами работы. В связи с этим перспективной задачей является интеграция множества программ анализа данных. Перспективным является проведение интеллектуального анализа данных с применением программных решений не только в локальной среде, но и в сети Интернет.

Поиск новых неорганических материалов с заданными свойствами - одна из важнейших проблем химии. Эта многоуровневая (в системном смысле) проблема включает в себя множество частных вопросов: научных, технологических, технико-экономических и т.д. На уровне химии и химической технологии можно выделить следующие взаимосвязанные задачи: поиск составов, оценка свойств, выбор технологии получения материалов и поиск оптимальных технологических режимов синтеза и обработки материалов. Актуальность создания ИАС в области неорганического материаловедения вызвана стремлением облегчить и ускорить поиск новых неорганических веществ, перспективных для практических применений. Использование ИАС дает возможность найти взаимосвязи между фундаментальными свойствами неорганических соединений и фундаментальными свойствами химических элементов. Применение найденных взаимосвязей позволяет проводить прогнозирование образования неорганических соединений и оценивать их различные свойства без реального синтеза этих соединений, то есть решает первую из трех задач по поиску новых материалов. Цель работы

Целью исследования была разработка интегрированной информационно-аналитической системы для поддержки принятия решений при прогнозировании свойств неорганических соединений на основе разнородных информационных источников и различных методов, алгоритмов и программ анализа данных. Применение информационно-аналитической системы сокращает время и затраты на поиск новых неорганических соединений и прогноз их свойств.без реального синтеза.

Для достижения цели работы были решены следующие задачи:

• рассмотрены принципы построения современных ИАС;

• на основе системного подхода разработана архитектура ИАС и приведеt ны детализированные диаграммы этапов ее работы при прогнозировании параметров неорганических соединений;

• разработана концептуальная модель данных для прогнозирования параметров неорганических соединений;

• проведен обзор методов распознавания образов, применяемых в ИАС, и способов повышения достоверности прогнозов;

• проанализированы и систематизированы современные подходы к интеграции программ;

• осуществлен выбор программной платформы для построения информационно-аналитической системы;

• предложена и применена методика интеграции разнородных программ анализа данных в ИАС;

• разработана ИАС в виде программного комплекса и осуществлена ее апробация на реальных данных.

Научная новизна работы состоит в следующем:

• выполнен системный анализ информационных процессов в области прогнозирования свойств неорганических соединений и разработана архитектура информационно-аналитической системы;

• для повышения качества прогнозирования обосновано принятие коллективного решения по различным сочетаниям алгоритмов и признаковых наборов;

• предложен и реализован подход к обработке пропусков в выборках для обучения и прогноза с учетом специфики предметной области;

• предложены методика и технологии включения в ИАС программ анализа данных с различными принципами работы;

• впервые в данной предметной области проведена интеграция в единую систему разнородных информационных компонентов - системы, баз данных и программ анализа данных, учитывающую априорно назначаемые и возникающие и фиксируемые в виртуальном эксперименте новые связи и обеспечивающую аналитическую и информационно-технологическую гибкость, вычислительную эффективность.

Практическая ценность

Теоретические исследования завершены созданием на их основе алгоритмического и программного обеспечения ИАС. Практическая ценность подтверждена в ходе использования результатов работы специалистами Института металлургии и материаловедения им. А.А. Байкова Российской Академии наук (ИМЕТ РАН).

На разработанную информационно-аналитическую систему было получено свидетельство об отраслевой регистрации! разработки в Общероссийском Фонде Алгоритмов и Программ (ОФАП) [31].

Результаты работы, имеющие практическую ценность:

• разработанные методы и алгоритмы применены при создании информационно-аналитической системы для компьютерного конструирования неорганических соединений, перспективных для практических применений;

• разработано программное обеспечение баз данных «Фазы» и «Элементы» и проведена их интеграция с другими базами данных, разработанными в ИМЕТ РАН;

• разработанная в диссертации информационно-аналитическая система внедрена в практику работы ИМЕТ РАН;

• применение ИАС позволяет сократить время и затраты на поиск новых неорганических соединений;

• полученные в диссертации результаты могут быть использованы для создания информационно-аналитических систем и в других предметных областях.

Методы исследования

Структуризация и формализация предметной области и разработка архитектуры ИАС выполнены на основе методов системного анализа. При разработке интегрированной. ИАС использованы теория построения БД, принципы «сервисно-ориентированного подхода» и Web-технологии. Для анализа данных использованы программы и алгоритмы распознавания образов. Структура диссертации

Диссертация состоит из введения, 4 глав и заключения.1 В первой главе рассматриваются принципы построения современных ИАС, исследования по созданию ИАС в области неорганического материаловедения, современные технологии интеграции программ, основные методы распознавания образов, применяемые в ИАС, и программные платформы для построения интегрированной ИАС. Во второй главе на основе системного подхода разработана архитектура ИАС и проведена детализация структурных диаграмм, описывающих отдельные этапы процедуры прогнозирования свойств неорганических соединений. В третьей главе предложена методика интеграции в ИАС программ анализа данных, описана реализация интегрированной ИАС в виде программного комплекса, включая разработанные информационные системы и вспомогательные подсистемы, вошедшие в состав ИАС. Также с учетом специфики предметной области предложен и реализован подход к обработке

Заключение диссертация на тему "Интегрированная информационно-аналитическая система для прогнозирования свойств неорганических соединений"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В диссертационной работе получены следующие результаты: на основе исследования принципов построения современных ИАС и системного подхода разработана архитектура ИАС и детализированные диаграммы этапов работы ИАС при прогнозировании параметров неорганических соединений; разработана, реализована и внедрена в ИМЕТ РАН информационно-аналитическая система, включающая интегрированные программы анализа данных и предназначенная для прогнозирования параметров неорганических соединений; разработана концептуальная модель данных для прогнозирования параметров неорганических соединений; проанализированы основные методы распознавания образов, используемые в ИАС, отмечены особенности работы этих методов и способы повышения достоверности результатов прогнозирования; разработана технология хранения и дальнейшего использования полученных экспертом в ходе работы с ИАС закономерностей; для повышения качества прогнозирования обосновано принятие коллективных решений по различным алгоритмам и признаковым наборам; за счет этого достоверность осуществляемого прогноза увеличилась в среднем на 10%; с учетом специфики предметной области предложен и реализован подход к обработке пропусков в выборках для обучения и прогноза; разработана архитектура системы, которая позволяет пользователям инициировать длительное по времени выполнение ресурсоемких операций, контролировать степень их выполнения в асинхронном режиме; применение асинхронных процессов повышает скорость и эргономическую адекватность ИАС при решении целевой задачи прогнозирования параметров неорганических соединений; разработаны методика интеграции программ анализа данных в ИАС и требования к адаптерам для включаемых в нее программна базе Web-интерфейса разработана подсистема визуализации результатов анализа данных^ повышающая функциональность интерфейса аналитика-эксперта;проведены эксперименты по применению ИАС для прогнозирования свойств неорганических веществ.

На основе анализа полученных результатов сделаны следующие выводы: Эффективность процедуры: поддержки принятия прогностических решений требует учета специфики процесса синтеза, соединений, его условий и ограничений;, специфики анализиру емых химических данных .(неполнота, некорректность и т.п.).

Достоверность результатов прогнозирования- существенно зависит от представительности обучающей выборки, • удачного: сочетания^ методов анализа данных и их настройки, выбранных признаков для формирования описаний объектов^

На основе анализа; полученных результатов сделан вывод о перспективности;: использования созданной ИАС и разработанных информационных технологий принятия прогностических решений;

Концепция построения ИАС, включающей в себя разнородные источники данных и средства анализа информации, и методика интеграции этих программных и информационных компонентов могут быть применены в других предметных областях, например, в области медицины и здравоохранения;

Библиография Столяренко, Андрей Владиславович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айвазян, С А. Прикладная статистика и основы эконометрики: Учеб. для вузов / С.А.Айвазян, В.С.Мхитарян. -М.: ЮНИТИб, 1998. - 1022 с.

2. Андерсон Т. Статистический анализ временных рядов / Т.Андерсон. М.: Мир, 1976.-760 с.

3. Асинхронный доступ к веб-службам XML в управляемом коде / Microsoft Доступно на: http://msdn.microsoft.com.

4. Вавилов, К. Web-интеграция корпоративных систем / К.Вавилов, С.Щербин. Доступно на: http://www.profi-club.kiev.ua

5. Валиков, А. Технология XSLT / А.Валиков. СПб.: БХВ-Петербург, 2002. -544 с.

6. Вапник, В.Н. Теория распознавания образов. / В.Н.Вапник, А.Я.Червоненкис. -М.: Наука, 1974.-415 с.

7. Ветров, Д.П. Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости / Д.П.Ветров, Д.А.Кропотов. М.: КомКнига, 2006. - 112 с.

8. Ветров, Д.П. О синтезе корректных алгоритмов распознавания с минимальной величиной неустойчивости / Д.П.Ветров // ЖВМ и МФ, 2003. Том 43, №11.-С. 1754-1760.

9. Гайдышев, И. Анализ и Обработка Данных: специальный справочник / ИГайдышев. СПб: Питер, 2001. - 752 с.

10. Гладун, В.П. Партнерство с компьютером / В.П.Гладун. Киев: Port-Royal, 2000.-119 с.

11. Гладун, В.П. Процессы формирования новых знаний / В.П.Гладун. София: СД «Педагог 6», 1995.- 192 с.

12. Гладун, В.П. Растущие пирамидальные сети / В.П.Гладун // Новости искусственного интеллекта. 2004. - №1.

13. Горский, Д.П. Обобщение и познание / Д.П.Горский. М.: Мысль, 1985. -208 с.

14. Гэйн, К., Сарсон Т. Структурный системный анализ средства и методы. В 2-х частях / К.Гэйн, Т.Сарсон; пер. с англ. под ред. А.В.Козлинского. М.: Эй-текс, 1993.-310 с.

15. Джуре, П. Распознавание образов в химии / П.Джурс, Т.Айзенауэр. — М.: Мир, 1977.-230 с.

16. Дубров, A.M. Обработка статистических данных методом главных компонент / A.M.Дубров. М.: Статистика, 1978. - 135 с.

17. Дуда, Р. Распознавание образов и анализ сцен / Р.Дуда, П.Харт — М.: Мир, 1976.-511 с.

18. Дударев, В.А. Интегрированная система баз данных по свойствам материалов для электроники / В.А.Дударев, Н.Н.Киселева, В.С.Земсков. //, Перспективные материалы. 2006. - №5. - С. 20-25.

19. Журавлев, Ю.И. Алгоритмы распознавания, основанные на вычислении оценок / Ю.И.Журавлев, В.В.Никифоров // Кибернетика. 1971. - №3. - С. 1-11.

20. Журавлев, Ю.И. «Распознавание». Математические методы. Программная система. Практические применения / Ю.И.Журавлев, В.В.Рязанов, О.В.Сенько. -М.: Фазис, 2006. 176 с.

21. Журавлёв, Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации / Ю.И.Журавлёв // Проблемы кибернетики. 1979. -Т. 33.-С. 5-68.

22. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний / Н.Г.Загоруйко. Новосибирск: изд-во Ин-та математики, 1999. - 269 с.

23. Ивахненко, А.Г. Моделирование сложных систем по экспериментальным данным / А.Г.Ивахненко, Ю.П.Юрачковский. М.: Радио и связь, 1987.

24. Искусственный интеллект: применение в химии / Под ред. Т.Пирса и Б.Хони. М.: Мир, 1988. - 428 с.

25. Калянов, Г.Н. CASE. Структурный системный анализ (автоматизация и применение) / Г.Н.Калянов. М.: ЛОРИ, 1996. - 242 с.

26. Кафаров, В.В. Системный анализ процессов химической технологии / В.В.Кафаров, И.Н.Дорохов. М., Наука, 1976. - 500 с.

27. Ким, Дж.-О. Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мьюллер, У.Р.Клекка, М.С.Олдендерфер, Р.К.Блэшфилд. М.: Финансы и статистика, 1989. - 215 с.

28. Киселева, Н.Н. База данных по свойствам тройных неорганических соединений «Фазы» в сети Интернет / Н.Н.Киселева, А.В.Столяренко., Д.П.Мурат, В.А.Дударев, В.В.Подбельский, В.С.Земсков. Информационные ресурсы Россиию. - 2006. - N.4. - С. 21-23.

29. Киселева Н.Н., Столяренко А.В. Информационно-аналитическая система для компьютерного конструирования неорганических соединений. М.: ВНТИЦ, 2008. - №50200800200.

30. Киселева, Н.Н. Компьютерное конструирование неорганических соединений: использование баз данных и методов искусственного интеллекта / Н.Н.Киселева. М.: Наука, 2005. - 289 с.

31. Клир Дж. Системология. Автоматизация решения системных задач: Пер. С англ. М.: Радио и связь, 1990. - 544 с.

32. Корнеев, В.В. Базы данных. Интеллектуальная обработка информации / В.В.Корнеев, А.Ф.Гареев, С.В.Васютин, В.В.Райх. — М.: Издатель Молгачева• С.В., 2001.- 495 с.

33. Лазарев, В.Б. Сложные халькогениды в: системахaibiiicvi 7 в б лазарев5

34. Киш, Е.Ю.Переш, Е.Е.Семрад. М.: Металлургия, 1993.-240 с.

35. Ларичев, О.И. Качественные: методы принятия решений / О.И.Ларичев, Е.М.Мошкович. —М.: Наука. Физматлит, 1996. 208 с.

36. Литтл, Р.Дж.А. Статистический анализ данных с пропусками:'пер; с англ. / Р.Дя<.А.Литтл, Д.Б:Рубин. -М.: Финансы и статистика, 1990. 336 с.

37. Липаев, В;В. Технико-экономическое обоснование проектов; сложных программных средств / В.В.Липаев. М.: Синтег, 2004. - 284 с.

38. Мазуров, В.Д. Комитеты; системы неравенств и задача распознавания / В.Д.Мазуров // Кибернетика. 1971. - № 3. ^

39. Марка, Д.А. Методология структурного анализа и проектирования / Д.А.Марка, К.МакГоуэн; пер. с англ. -М.: МетаТехнология, 1993. 240 с:

40. Ньюкомер, Э. Всб-сервисы: XML, WSDL, SOAP и UDDI / Э.Ныокомер. -Изд.: Питер, 2003. 256 с.

41. Обзор OLAP-продуктов для Web; Доступно на: http://wwwxitforum.ru.

42. Осуга, С. Приобретение знаний / С.Осуга, Ю.Саэки. М.: Мир, 1990. - 304 с.

43. Поспелов, Г.С. Искусственный интеллект основа новой информационной ' технологии / Г.С.Поспелов. - М.: Наука, 1988. - 279 с.

44. Пржиялковский, В.В. Абстракции в проектировании баз данных /

45. B.В.Пржиялковский // Системы управления базами данны. 1998. - №1-2.1. C. 90-97.

46. Растригин, JI. Коллективные правила распознавания / Л.Растригин, Р.Эренштейн. М.: Энергия, 1981. - С. 244.

47. Растригин, Л.А. Принятие решений коллективом решающих правил в задачах распознавания образов / Л.А.Растригин, Р.Х.Эренштейн // АиТ. 1975. -№9.-С. 133-144.

48. Рез, И.С. Диэлектрики. Основные свойства и применения в электронике / И.С.Рез, Ю.М.Поплавко. -М.: Радио и связь, 1989.-288 с.

49. Рязанов, В.В. Оптимальные коллективные решения в задачах распознавания и классификации: дисс. д.ф-м.н. / В.В.Рязанов. М., 1994.

50. Савицкий, Е.М. Прогнозирование в материаловедении с применением ЭВМ / Е.М.Савицкий, В.Б.Грибуля, Н.Н.Киселева и др. М.: Наука, 1990. - 86 с.

51. Смит, Дж. Принципы концептуального проектирования баз данных. / Дж.Смит, Д.Смит; в сб.: Требования и спецификации в разработке программ; пер. с англ. под ред. В.Н. Агафонова. М.: Мир, 1984. - С. 165-198.

52. Трахтенгерц, Э.А. Компьютерная поддержка принятия решения / Э.А.Трахтенгерц М.: Изд-во «Синтег», 1998. - 376 с.

53. Тюхтин, B.C. Теория автоматического опознавания и гносеология. / В.С.Тюхтин. -М.: Наука, 1976. 190 с.

54. Христофоров, Ю.И. База данных по фазовым диаграммам полупроводниковых систем с доступом из Интернет / Ю.И.Христофоров, В.В.Хорбенко,

55. Эляшберг, М.Е. Экспертные системы для установления структуры органических молекул спектральными методами / М.Е.Эляшберг // Успехи химии. -1999. Т.68. №7: - С. 579-6031 :

56. Barker, R. CASE Method. Entity-Relationship Modeling / R. Barker. Copyright Oracle Corporation UK Limited, Addison-Wesley Publishing Co, 1990; • :' . .

57. Breiman, L\ Bagging predictors / L.Breiman // Machine Learning. , 1996. -Vol.24,no. 2.-P. 123-140.

58. Breiman, L. Bias, variance, and arcing classifiers / L.Breiman. Tech. Rep. 460: Statistics Department; University of California, 1996.

59. Chen, P. The Entity-Relationship Model Toward a Unified' View of Data / P.Chen. - ACM Transactions on database Systems. - 1976. - v.l, № 1.

60. Corey, E.J: Computer assisted design of complex organic synthesis / E.J.Corey, W.T.Wipke // Science. 1969. - V.l66. №10 Oct. - P. 178-192.

61. EICTA Interoperability White- Paper June 21, 2004. Available at http://www.eicta.org.

62. Eom, S.B. The decision support systems research: reference disciplines and a cumulative tradition / S.B.Eom // The International'Journal ofManagement Science. -1995.-№23.-P. 511-523.

63. Fisher, R.A. The use of multiple measurements in taxonomic problems / R.A.Fisher // Ann. Eugenics. 1936. - 7, Part II. - P. 179-188.

64. Frawley, W.J. Knowledge Discovery In Databases: An Overview. Knowledge Discovery In Databases, eds. / W.J.Frawley, G.Piatetsky-Shapiro, C.Matheus. -AAAI Press/MIT Press, Cambridge, MA., 1991. P. 1-30.

65. Freund, Y. A decision-theoretic generalization of on-line learning and an application to boosting / Y.Freund, R.E.Schapire // European Conference on Computational Learning Theory. 1995. P. 23-37.

66. Freund, Y. Boosting a weak learning algorithm by majority / Y.Freund // COLT: Proceedings of the Workshop on Computational Learning Theory. Morgan Kaufmann Publishers, 1990.

67. Igelnik, B. The ensemble approach to neural-network learning and generalization /

68. B.Igelnik, U.-H.Pao, S.R.LeClair, C.Y.Shen // IEEE Trans. Neural Networks. -1999. V.10. №1. -P. 19-30.

69. Imhoff, C. Understanding the Three E's of Integration EAI, EII and ETL /

70. C.Imhoff. Intelligent Solutions, Inc. April 2005. Available at http://www.intelsols.com.

71. Inmon, W.H. Building the Data Warehouse / W.H.Inmon. New-York: John Wiley, 1992.

72. Jardine, N. Mathematical Taxonomy / N.Jardine, R.Sibson. London: John Wiley and Sons, 1971.-286 p.

73. Kimball, R. The Data Warehouse Toolkit. Practical Techniques for Building Di-mansional Data Warehouses / R. Kimball. John Wiley & Sons, 1996. - 374 p.

74. Koetzle, L. Is Linux more secure than Windows? / L.Koetzle, Ch.Rutstein, N.Lambert, S.Wenninger. Forrester Research Inc. March 19, 2004. Available at http://www.forrester.com.

75. Konovalov, I. Material requirements for CIS solar cells / I.Konovalov // The solid films. 2004. - V.451-452. - P. 413-419.

76. Kuncheva, L.I. Combining Pattern Classifiers: Methods and Algorithms / L.I. Kuncheva. Wiley, 2004. - 350 p.

77. Larin, S.B. The Search of Precedent-Based Logical Regularities for Recognition and Data Analysis Problems / S.B.Larin, V.V.Ryazanov // Pattern Recognition and Image Analysis. 1997. - Vol.7, no.3. - P. 322-333.

78. Microsoft Windows Server 2003 vs. Red Hat Enterprise Linux AS 3.0: IT Professionals Running a Production Environment Veritest report. April, 2005. Available at http://www.veritest.com.

79. Microsoft Windows Server 2003 with Internet Information Services (IIS) 6.0 vs. Linux Competitive Web Server Performance Comparison Veritest report. April, 2003. Available at http://www.veritest.com.

80. Ryazanov, V.V. Recognition Algorithms Based on Local Optimality Criteria / V.V.Ryazanov // Pattern Recognition and Image Analysis. 1994. - Vol.4, no.2. -P. 98-109.

81. Rymer, J. The Total Economic Impact of Developing and Deploying Applications on Microsoft and J2EE/Linux Platforms / J.Rymer, B.Cormier. Forrester Research, Inc., September 4, 2003. Available at http://www.forrester.com.

82. Sammon, J.W. A nonlinear mapping for data structure analysis / J.W. Sammon // IEEE Trans. Сотр. 1969. - C-18,401-409.

83. Sessions, R. Interoperability Through Service-Oriented Architectures (SOAs) / R.Sessions. ObjectWatch. Available at http://www.objectwatch.com.

84. Siebentritt, S. Wide gap chalcopyrites: material properties and solar cells / S.Siebentritt // The solid films. 2002. - V.403-404. - P. 1-8.

85. Skurichina, M. Bagging and boosting for the nearest mean classifier: Effects of sample size on diversity and accuracy / M.Skurichina, L.Kuncheva, R.Duin //

86. Multiple Classifier Systems (Proc. Third International Workshop MCS, Cagliari, Italy) : Ed. by J.K.F.Roli. Berlin: Springer. 2002. - Vol.2364. - P. 62-71.

87. Villars, P. Interplay of large materials databases, semi-empirical methods, neuro-computing and first principle calculations for ternary compound former/nonformer prediction / P. Villars, K.Brandenburg, M.Berndt, S.LeClair, A Jackson, Y.-H.Pao,

88. B.Igelnik, M.Oxley, B.Bakshi, P.Chen, S.Iwata // Engineering Applications of Artificial Intelligence. 2000. - №13. - P. 497-505.

89. Wilcox, J. Interoperability: How Technology Managers Rate Microsoft and Its Technologies for Development / J.Wilcox, P.Sargent, Z.Bayriamova,

90. C.Matiesanu. Jupiter Research (MIC04-C02). April 7, 2004. Available at http://www.jupiterresearch.com.

91. Yao Lixiu. TICP -An Expert System Applied to Predict the Formation of Ternary Intermetallic Compounds / Yao Lixiu, Qin Pei, Chen Nianyi, P. Villars // Calphad. 2001. - Vol. 25, No. 1. - P. 27-30.

92. Zloba, E. Statistical methods of reproducing of missed data / E.Zloba, I.Yatskiv // Computer Modelling & New Technologies. 2002. - Vol.6, No. 1. - P. 51-61.