автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методика и инструментальные средства построения хранилища данных и знаний для поддержки исследований в энергетике

кандидата технических наук
Осама Ель Сайед Ахмед Мохамед Шета
город
Иркутск
год
2011
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Методика и инструментальные средства построения хранилища данных и знаний для поддержки исследований в энергетике»

Автореферат диссертации по теме "Методика и инструментальные средства построения хранилища данных и знаний для поддержки исследований в энергетике"

На правах рукописи

ОСАМА ЕЛЬ САЙЕД АХМЕД МОХАМЕД ШЕТА

МЕТОДИКА И ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ПОСТРОЕНИЯ ХРАНИЛИЩА ДАННЫХ И ЗНАНИЙ ДЛЯ ПОДДЕРЖКИ ИССЛЕДОВАНИЙ В ЭНЕРГЕТИКЕ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Иркутск-2011

О з

4856563

Работа выполнена в ГОУ ВПО «Иркутский государственный технический университет»

Научный руководитель:

доктор технических наук, профессор Массель Людмила Васильевна

Официальные оппоненты:

доктор технических наук, профессор Дунаев Михаил Павлович

кандидат технических наук Береснева Наталья Михайловна

Ведущая организация: ГОУ ВПО «Иркутский государственный университет»,

г. Иркутск

Защита диссертации состоится « 17 » марта 2011 г. в 10.00 часов на заседании совета по защите докторских и кандидатских диссертаций Д 218.004.01 при ГОУ ВПО «Иркутский государственный университет путей сообщения» по адресу: 664074, г. Иркутск, ул. Чернышевского, 15, ауд. А-803.

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «Иркутский государственный университет путей сообщения»

Автореферат разослан « 16» февраля 2011 г.

Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью учреждения, просим направлять в адрес диссертационного совета Д 218.004.0].

Ученый секретарь совета

по защите докторских и кандидатских

диссертаций, к.т.н., профессор

И.И. Тихий

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность диссертационной работы определяется как важностью и актуальностью исследований энергетики, так и необходимостью разработки и применения новых информационных технологий в этих исследованиях.

Одним из лидеров в области исследований энергетики является Институт систем энергетики им. Л.А. Мелентьева (ИСЭМ) СО РАН. В ИСЭМ СО РАН выполняются исследования систем энергетики (электроэнергетики, тепло-, газо-, угле-, нефте-, нефтепродуктоснабжения), региональных проблем энергетики, взаимосвязей энергетики и экономики и др. Работы выполняются как для России и ее регионов, так и для стран СНГ.

В рамках основных научных направлений выполняются исследования развития и функционирования как отраслевых систем энергетики (СЭ), так и топливно-энергетического комплекса (ТЭК) в целом. Результаты исследований отраслевых систем энергетики зачастую являются исходными данными для исследований ТЭК, а результаты исследований направлений развития ТЭК должны учитываться при исследованиях развития отраслевых систем энергетики. Для исследований направлений развития ТЭК и СЭ используются, как правило, агрегированные данные. Исходные данные для выполнения работ исследователи получают из различных источников, данные могут представляться в различных форматах, представленных в виде статей, отчетов, статистических сборников и др., которые относят к декларативным явным знаниям.

Современный уровень развития информационных технологий позволяет формализовать и унифицировать отдельные процедуры работы с декларативными знаниями. Для этих целей в работе предлагается использовать концепцию Хранилища данных для хранения структурированных данных (Data Warehouse) и Хранилища знаний (Knowledge Repository) для хранения неструктурированной информации (декларативных явных знаний) в исследованиях энергетики.

Вклад в работы, связанные со структуризацией, хранением, обработкой данных внесли К. Дж. Дейт, Е.Ф. Кодд, П.П. Чен, JI.B. Щавелев и др. Разработке и внедрению хранилищ данных посвящены работы зарубежных ученых Б, Инмона, Р. Кимбалла, Э. Спирли и др. Вопросы представления декларативных знаний в виде онтологии и оперирования ими рассмотрены в работах Т. Грубера, Н. Гуарино и др., в нашей стране - Т.А. Гавриловой, Л.А. Калиниченко, М.Р. Когаловского, В.А. Серебрякова, В.Ф. Тузовского, В.З. Ямпольского и др.

В ИСЭМ СО РАН вопросы организации данных и знаний и оперирования ими рассматривались в работах JI.B. Массель, Т.Н. Ворождовой, А.Н. Копайгородского, H.H. Макагоновой, С.К. Скрипкина, Л.Н. Такайшвили и др.

Таким образом, актуальность диссертационной работы определяется следующими объективными факторами:

1. Важностью задачи исследований состояния и направлений развития топливно-энергетического комплекса страны и угольной промышленности, как важной его составляющей.

2. Отсутствием как методических основ построения интегрированного хранилища данных и знаний для исследований в энергетике, так и соответствующего инструментария для работы с хранилищем данных и знаний.

Цель диссертационной работы: разработка методического подхода к построению хранилища данных и знаний и инструментальных средств для информационной и интеллектуальной поддержки исследований в энергетике и их апробация на примере исследований угольной промышленности.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Выполнить анализ современных подходов к моделированию и построению хранилищ данных, подходов к представлению декларативных знаний и оперированию ими, и анализ предметной области - исследований в энергетике и исследований угольной промышленности.

2. Разработать методический подход к построению хранилища данных и знаний (ХДЗ) на основе современных информационных технологий, включающий концепцию ХДЗ, требования к нему, методику его построения, архитектуру и системно-концептуальные соглашения при его разработке.

3. Выполнить проектирование и реализацию ХДЗ для исследований энергетики и инструментальных средств для работы с ХДЗ (создание, администрирование, редактирование, извлечение и др.)

4. Выполнить интеграцию ХДЗ в состав ИТ-инфраструктуры исследований в энергетике.

5. Разработать технологию построения и применения ХДЗ в исследованиях энергетики и отладить ее на примере исследований угольной промышленности.

Методами и средствами исследования являются методы системного анализа, методы проектирования современных программных комплексов, теория систем баз данных, методы построения интеллектуальных систем, методы информационного моделирования и объектно-ориентированного проектирования и программирования.

Новизну составляют и на защиту выносятся следующие положения:

1. Впервые для исследований в энергетике предложено интегрировать хранилище данных и хранилище декларативных знаний и разрабатывать ХДЗ на единой концептуальной основе, используя базовые программные средства.

2. Разработан методический подход к построению хранилища данных и знаний для поддержки исследований в энергетике, включающий:

• концепцию хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике, требования к ХДЗ и системно-концептуальные соглашения при его разработке;

• методику построения и архитектуру хранилища данных и знаний;

• совокупность информационных моделей для построения ХДЗ, в том числе модель представления декларативных знаний, онтологические модели, модели данных для разработки базы ретроспективных данных угольной промышленности, как компонента ХДЗ.

3. Разработана и отлажена технология построения и использования ХДЗ для поддержки исследований в энергетике (на примере исследований направлений развития угольной промышленности).

Научно-практическая значимость работы состоит в реализации ХДЗ и инструментальных средств для работы с ним, реализации базы ретроспективных данных угольной промышленности как компонента ХДЗ, интеграции ХДЗ в состав ИТ-инфраструктуры исследований в энергетике. Результаты диссертационной работы используются для поддержки исследований в энергетике в ИСЭМ СО РАН и применены при выполнении проектов по гранту РФФИ № 10-07-00264 и гранту Программы Президиума РАН №2.29.

Личный вклад. Положения, составляющие новизну и выносимые на защиту, получены лично автором. Совместно с Л.Н. Такайшвили была выполнена первоначальная постановка задачи создания хранилища документов для исследований угольной промышленности, которая была обобщена и расширена,

совместно с Л,В. Массель и А.Н. Копайгородским, до постановки задачи создания хранилища данных и знаний для исследований в энергетике.

Апробация работы. Результаты работы докладывались и обсуждались на III Всероссийской конференции «Винеровские чтения», г. Иркутск, 2009 г.; на XTV и XV Байкальских Всероссийских конференциях «Информационные и математические технологии в науке и управлении», г. Иркутск, 2009-2010 гг.; на XXXVI Международной конференции «Информационные технологии в науке, социологии, экономике и бизнесе», Гурзуф (Крым, Украина) 2009 г.; на Международной конференции CSIT'2009 «Computer Science and Information Technologies», Греция, Крит, 2009 г.; на XL молодых ученых конференции «Системные исследования в энергетике», г. Иркутск: ИСЭМ СО РАН, 2010 г., а также на семинарах кафедры «Автоматизированные системы» факультета Кибернетики Иркутского государственного технического университета, посвященных аттестации аспирантов, и семинарах лаборатории «Информационные технологии в энергетике» в Институте систем энергетики им. JI.A. Мелентьева (ИСЭМ) СО РАН.

Публикации. По теме диссертации опубликованы 10 работ, из них 2 [1-2] в журналах, рекомендуемых ВАК РФ для опубликования научных результатов диссертаций на соискание степени кандидата наук.

Объем и структура работы. Диссертация состоит введения, трех глав, заключения, списка литературы из 94 наименований, основной текст изложен на 137 стр., включает 6 таблиц и 52 рисунка.

Автор выражает глубокую благодарность своему научному руководителю, д.т.н. Л.В. Массель, а также сотрудникам ИСЭМ СО РАН А.Н. Копайгородскому и JI.H. Такайшвили, за оказанную помощь в постановке задачи, выборе средств для ее решения и консультации в ходе выполнения работы.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, формулируются положения новизны, ставятся цель и задачи исследования.

В первой главе выполнен системный анализ проблемы. Дается краткое введение в системный анализ: рассмотрены основные понятия и этапы системного анализа, приведена классификация используемых моделей, характеризуются современные информационные технологии системного анализа. Рассматривается область исследований в энергетике и, как одно из важных направлений,

исследования развития угольной промышленности. Исследования в энергетике разделяются на два основных направления: 1) исследования развития, как ТЭК в целом, так и отдельных систем энергетики; 2) исследования функционирования действующих систем и объектов энергетики.

В современном представлении о структуре исследований в энергетике выделяются три направления: теоретические основы, управление системами энергетики и энергетическая политика. Все три направления существенно дополняются новыми важными проблемами, обусловленными логикой развития исследований в энергетике и кардинальным изменением внешних условий развитая систем энергетики и ТЭК с начала 1990-х годов.

Рассмотрено одно из важных направлений исследований энергетики -исследования проблем угольной промышленности. Уголь является одним из основных источников производства электрической и тепловой энергии, незаменимым энергетическим сырьем для металлургической, химической и других отраслей промышленности. В ИСЭМ СО РАН традиционно проводятся исследования развития угольной промышленности страны и регионов в рамках ТЭК страны. В данной предметной области условно выделяют три основных понятия: ресурсная база угольной промышленности; производственная деятельность (получение продукта, готового к потреблению) и потребление.

Выполнен аналитический обзор технологий хранения данных и знаний. Приводится общая характеристика технологий хранилищ данных. Предполагается, что такое хранилище содержит сведения, поступающие из разных источников данных, функционирующих под управлением различных информационных систем, а также из операционных баз данных. Концепция хранилища данных базируется на усовершенствованной технологии баз данных и предусматривает специальные средства управления процессом подготовки и хранения информации.

Хранилище данных является рабочей средой для систем поддержки принятия решений, которая извлекает данные, хранимые в различных оперативных источниках, организует и агрегирует их и предоставляет лицам, ответственным за принятие решений в данной организации. Можно сказать, что технология хранилищ данных - это технология управления и анализа данных.

Хранилище знаний предназначено для накопления и структурирования декларативных явных знаний, которые включают описания теорий, методов,

техник, технологий, инструментов и оборудований, структур, систем и т.д.1 Эти знания хранятся в существующих физических средствах массовой информации (книгах, документах, рисунках, диаграммах, фильмах, аудио и видеозаписях, магнитных и электронных файлах и базах данных и др.).

Результатом выполненного анализа являются формулирование проблемы создания хранилища данных и знаний для исследований в энергетике и детализированная постановка задачи диссертационной работы.

Во второй главе рассмотрен предлагаемый автором методический подход к построению хранилища данных и знаний для исследований энергетики, включающий описание концепции ХДЗ, требования к хранилищу данных и знаний и системно-концептуальные соглашения, методику построения и архитектуру хранилища данных и знаний. Процесс исследования любой энергетической системы начинается со сбора массива исходных данных, который может быть получен из различных статей, отчетов, статистических сборников, также в качестве исходных данных могут выступать результаты предыдущих исследований. Предлагается для поддержки этой деятельности создать хранилище данных и знаний (ХДЗ), которое интегрируется в разработанную в ИСЭМ СО РАН ИТ-инфраструктуру исследований в энергетике. Рассматриваются основные составляющие ИТ-инфраструктуры, акцент делается на информационной инфраструктуре и репозитарии, который является основным ее компонентом.

Концепция ХДЗ включает следующие основные положения:

• предлагается интегрировать хранилище данных и хранилище декларативных знаний и разрабатывать ХДЗ на единой концептуальной основе, используя базовые программные средства;

• исследователи могут помещать свои документы в ХДЗ и делать их доступными для всех;

• документы помещаются в систему с помощью разработанных автором стандартных процедур;

• доступ к документам обеспечивается благодаря созданию метаданных;

• электронные документы хранятся централизованно;

• поиск может варьироваться в соответствии с потребностями пользователя;

• ХДЗ интегрируется в ИТ-инфраструктуру исследований в энергетике.

1 Тузовский А.Ф., Чириков C.B., Ямпольский В.З. Системы управления знаниями (методы и технологии).-Томск: Изд-во HTJ1,2005.- 260 с.

ХДЗ должно отвечать следующим требованиям:

1. Организация описания и хранения документов в ХДЗ.

2. Предоставление пользователям возможностей поиска и извлечения любого документа, помещенного в ХДЗ.

3. Информационная поддержка исследований в энергетике.

4. Обеспечение сохранности внутренней структуры документов.

5. Организация быстрого поиска документов, изображений, их выбор, а также ориентирование в списке документов для генерации метаданных (сведений о документах).

6. Генерирование временных, виртуальных коллекций (витрин) документов в соответствии с конкретными потребностями исследователей (написание статьи, подготовка отчета и так далее).

7. Выполнение других заданий на уровне оперирования документами, группами документов и метаданными.

При реализации инструментальных средств хранилища данных и знаний предложены и приняты следующие системно-концептуальные соглашения:

• для отдельных систем энергетики (СЭ) создаются словари предметных областей, каждый их которых является общим (одним) для конкретной СЭ и содержит свойственные ей классификаторы;

• метаданные также являются общими для этой СЭ и описывают как структуру данных, так и документы, помещаемые в хранилище;

• внесение информации выполняется с привязкой к словарю предметной области: исследователь должен выполнить сопоставление определенных отчетных или статистических данных с регионом, категорией ресурса, его целевым назначением, должен указать и другие классификационные характеристики;

• построение модели данных предметной области осуществляется в виде онтологии, при этом определяются правила хранения метаданных;

• описание модели данных предметной области выполняется в таблицах метаданных;

• для просмотра, корректировки и извлечения данных используются метаданные, помещенные в хранилище;

• интеграция ХДЗ в ИТ-инфраструктуру исследований энергетики обеспечивается использованием Репозитария ИТ—инфраструктуры и метаданных;

• инструментальные средства проектируются и создаются на базе реляционной СУБД Firebird 1.5 и объектно-ориентированного языка Java.

Методика построения хранилища данных и знаний включает пять этапов, каждый из которых, в свою очередь, может быть детализирован. Детализация этапов и инструментальные средства их поддержки рассмотрены в рамках технологии построения и использования ХДЗ, которая будет описана при изложении содержания третьей главы.

Основные этапы методики построения хранилища данных и знаний:

1. Анализ предметной области, разработка классификатора основных понятий предметной области.

2. Построение онтологии предметной области.

3. Построение моделей данных для хранилища данных.

4. Построение модели представлений знаний для хранилища знаний.

5. Заполнение хранилища данных и знаний.

Архитектура хранилища данных и знаний представлена на рис. 1. Следует отметить, что ограничения накладываются только на структуру метаданных, которые описывают документы, находящиеся в хранилище, модели словаря предметной области и хранилища данных. Репозитарий является одним из основных компонентов ИТ-инфраструктуры исследований энергетики и содержит информацию обо всех других компонентах, их местоположении и о способах доступа к ним. В нем описываются хранилища данных и знаний отдельных систем энергетики, указывается их расположение (адреса серверов) и интерфейсы взаимодействия (описания Web-сервисов), а также оперативные базы данных, используемые в исследованиях, программные комплексы, научные труды сотрудников института и др.

Архитектура хранилища данных (ХД) представлена на рис. 2. В процессе исследований функционирования и развития энергетических систем приходится оперировать достаточно большими объемами данных, получаемых из различных источников. Большой объем данных обусловлен их временным характером и множеством показателей исследуемых объектов энергетики. Информация размещается в хранилище данных в соответствии с созданной моделью для выбранной системы энергетики.

Статистическое ПО

Источники данных, результаты, инструменты анализа

Знании, помещаемые к извлекаемые из Хранилища

Рис. 1. Архитектура хранилища данных и знаний для поддержки исследований в энергетике.

I Среде

Средства администрирования Хранилища данных |

е

Преобразование I результата 1

щ

*

Ж

Выгрузка SDF Преобразование — результата 2

\

Преобразование результата 3

Внутренний уровень выгрузки

Статистическое

Внешний уровень

Рис. 2. Архитектура хранилища данных для поддержки исследований в энергетике.

После внесения данных исследователь имеет возможность выполнить их анализ, выгрузку в различные форматы, использовать полученные данные в качестве исходной информации для специализированных программ моделирования. Таким образом, основная сложность реализации хранилища

данных для поддержки исследований систем энергетики заключается в создании достаточно универсальных механизмов импорта и экспорта данных, а также в описании модели предметной области.

Задачи импорта и экспорта данных в хранилище выполняются в два этапа с применением промежуточного формата хранения подготовленных данных (Structured Data File - SDF). При загрузке данных на первом шаге они преобразуются в SDF-формат, а затем выполняется загрузка SDF-файлов в хранилище. При экспорте - данные извлекаются в промежуточном формате SDF, а затем, с помощью специализированных средств конвертирования, могут быть преобразованы в различные документы: RTF, TXT, DBF, HTML, Microsoft Word, Microsoft Excel и др. При этом не накладывается жестких ограничений ни на форматы исходных данных, загружаемых в хранилище, - они могут быть представлены в различных СУБД или документах; ни на форматы выходных документов. Если необходима поддержка нового формата - потребуется лишь реализовать конвертор, который преобразует данные из SDF-формата в требуемый формат документов.

Архитектура хранилища знаний представлена на рис. 3. Хранилище знаний предназначено доя накопления и структурирования декларативных явных знаний предметной области.

Знаний, помещаемые в Хранилище

Admlii-Tooli Knowledge Warehouse

Средства администрирования Хранилища знаний

Хранилище знаний

Отчеты

V_У

Знания, извлекаемые из Хранилища

Рис. 3. Архитектура хранилища знаний для поддержки исследований в энергетике.

Для обеспечения безопасности знаний в хранилище предусмотрено использование симметричного шифрования. Алгоритмы шифрования могут быть применены только к полным текстам документов, расположенным в хранилище.

Использование симметричного шифрования обусловлено тем, что шифрование и дешифровка данных выполняются на стороне клиента (на одном и том же компьютере), поэтому применение асимметричных алгоритмов не является целесообразным. Основными задачами файлового хранилища являются размещение, передача файлов пользователю и их удаление, поэтому содержание файлов всегда находится в зашифрованном виде.

Для обеспечения многопользовательского доступа к шифрованным данным без размещения ключей на всех компьютерах может использоваться криптошлюз. Ключи шифрования размещаются на этом защищенном узле, с указанием пользователей и документов к которым они могут быть применены. При запросе данных через криптошлюз последний выполняет эквивалентный запрос к хранилищу данных, дешифрование и передает результат пользователю.

Для построения ХДЗ автором разработана совокупность информационных моделей (часть из них описана в третьей главе и будет рассмотрена ниже).

Модель представления декларативных знаний, лежащая в основе хранилища знаний, показана на рис. 4. Модель включает сущности, связанные между собой по определенным правилам, диктуемым предметной областью: «Документы», «Классификация», «Авторы», «Ключевые слова», «Источник», «Витрины», «Содержание», «Достоверность», «Документ_классификация», «Документ_авторы», «Документы_ключевые слова», «Докуменг_источник», «Документ_витрины», «Тип витрины», «Тип источника» и «Тип_Содержание». Каждая сущность объединяет множество подобных индивидуальных объектов (документов), называемых экземплярами. Каждый экземпляр индивидуален и отличается от всех остальных экземпляров. Атрибут выражает определенное свойство объекта. Так, для экземпляра (документа) в метаданных первого уровня (основные параметры) атрибутами будут: имя документа (имя файла), название материала, содержащегося в документе, авторы, источник, тип (статья, статистический сборник, форма отчетности и т.д.), аннотация, ключевые слова и другие атрибуты. Метаданные второго уровня (дополнительные параметры) формируются только для документов, имеющих внутреннюю структуру, т. е. документов, содержащих текстовый, табличный и иллюстративный материал, структурированный по разделам (главам, параграфам).

При реализации инструментальных средств поддержки хранилища данных и знаний используется компонентный подход. Схема взаимодействия программных

компонентов - инструментальных средств для поддержки хранилища данных и знаний, - представлена на рис. 5.

Классификация

1 ИД_Классиф1К8ция

Докумснт_класснфнкяция

Авторы

Ключевые слова

ИД_АвтОры

ИД_Клочевые ело»«

Документ_авторы

ед_Доку манты (РК)

ЦЦ_Класси5иквЦ1ЛЯ (РК)

ИД_Документы (РК)

ИД_Авторы (Г К)

Документыключевые слова 1 ИДЛ&кум*нты ^К)

1 ИД_Ключваыа слова (ГК)

Источник

ИД^Источник

Название

ИД_Тип источника (РК)

1

Документы ИД_Доку манты

Докумснт_ксточник ИД_Докуманты (РК) ИД_Источник (РК)

Название

Год

Формат Версия Аннотация Комма мтарий

Витрины

I ИД_Витрины

] название

| ИД_Т*п витрины (РК)

У

Докумсктвитрнны ИД_Докуманты (ЯК) ИД_Витрины (РК)

Тип источника

ИД_Тип источника

Содержание

Тип витрины

Тип_Содерж»нис

ИД_Тип содержание

иД_Сод*ржание Название Номер страницы ИД_Тип содержание (РК) ИД_Докумеиты (РК)

Достоверность

ИД_ДоСЛТЖ6рНОСТЬ

Процекг Комментарий ИД_Докумаиты (РК

ИД_Тип витрины

Рис. 4. Модель представления декларативных знаний для построения хранилища знаний

Рис. 5. Схема взаимодействия инструментальных средств поддержки хранилища данных и знаний

Инструментальные средства поддержки хранилища данных включают: программы администрирования хранилища данных - предназначены для конфигурирования хранилища, описания модели данных и др.; программы для работы с хранилищем данных - применяются пользователями для просмотра, корректировки и извлечения данных, программы активно используют метаданные, расположенные в хранилище; библиотека функций конвертации - реализует преобразования в формат вБР и из него, реализована в виде отдельного компонента, что позволяет легко дополнять ее и вносить в нее изменения; ядро СУБД, организующее сетевой доступ к базе метаданных и обработку информации с помощью запросов, хранимых процедур, триггеров.

Инструментальные средства для поддержки хранилища знаний включают: программы для работы с хранилищем знаний - позволяют вносить, описывать, находить и извлекать декларативные знания, представленные в виде документов, и ядро СУБД, организующее сетевой доступ к базе метаданных и обработку информации с помощью запросов, хранимых процедур, триггеров.

В третьей главе рассмотрена выполненная автором реализация хранилища данных и знаний и применение ХДЗ на примере исследований угольной промышленности.

Программа администрирования хранилища данных, интерфейс которой представлен на рис. 6, разработана специально для выполнения административных задач.

Файл Правка База данных ?

Ж

Jiibc:tirettlrdsqi:local:DB1 ODB

Осиорные rwpfrngTpKi табвицы

*J

ТавЛИЦ» | COALENTERPRISE

Название .Предприятия Описание

Таблица есдежит основные данные по угле добывающим предприятиям России

Категория /Справочники Столбцы _

TYPEENTERP RISE MANAGCOMPANY COALENTERPRISE COALMARK

SUBJECTFEDERATION GROUPS

COALEXTRACTION COALPROCESSING SUPPLYJJSE _XYPE GROUP._____

1

3

| Закрыть {

Co lumnNama [Column Тура }Col,.. [Kay | Column Label

INTEGER NAME VARCHAR PR£V_NAME VARCHAR PROO_CAPACITY INTEGER START_YR INTEGER SUPPLY__VARCHAR

| Edit Control T... | Group | Or...

Field Text

Название Field 2

Предыдущее название Field 3

производственная мощность inteoer Field Запасы угля 4

Год сдачи в эксплуатацию integer Field Запасы угля 5

Промышленные запасы угля Field__запасы угля б

сохранить |[ отменить j

Рис. 6. Интерфейс программы администрирования хранилища данных

Она позволяет выполнять модификацию структуры ХД, поддерживать специальный набор данных, содержащих метаданные (сведения о структуре и семантике ХД) и осуществлять редактирование данных. Программа не привязана к конкретной предметной области и является инструментом, который существенно упрощает этап перевода знаний эксперта в набор таблиц реляционной базы данных и ее дальнейшее сопровождение. Визуальные средства отображают структуру ХД в терминах объектно-ориентрованного подхода (классы и свойства). Этот подход более естественен для человека при описании сложных предметных областей, а возможности реляционных баз данных позволяют организовать эффективное хранение и обработку накапливаемой информации. Программа взаимодействует с СУБД через драйвер ГОВС, возможно подключать различные СУБД.

Для заполнения словарей предметных областей в ХД создано специальное приложение, которое базируется на метаданных (рис. 7).

Файл Правка Вид Сервис Окно ?

Название

Новое предприят

ОАО «Ооркутзуголы

Сибирский 00

■' _ВМ федприятия

ное общество «Проыыш Предыдущее название енной ответственно стыс енной ответственность* Тип предприятия ное общество Открытая

енной ответственность* Управляющая компания ное общество «Разрез -ное обществе «шахта «Г Субьвкт РФ ное общество «Шахта <(

ное обществе «шахта «/ ное общество «Обогатит ное общество «Междурё ное общество «Разрез * ное общество «угольна: енной ответственность« поз общество «черкига ное общество «Угольна: ное обществе «междуре

|,сгтаг> уРя->Орз£

Запасы угля

Производственная мощность.млн т.; 7,1 Год сдачи в эксплуатацию

Промышленные запасы утя,млн т. 542 Вынимаемая мощность.т/мес. ! 107,5

Максимальная глубина,м. Метод добычи

| Сохранить }'[ отмена

(а®1 Данные ЕЪ Добыча 0) Переработка @ Классификаторы [3 Способ добычи О Тип предприятия (2) Марка угля О) Назначения испс О Поставка/потреб: О Тип угля О Запасы угпя Й Справочники

О месторождение й Страны Мира О Управляющие ко [5 Субьекты федер [Ъ Угольные бассе{ О] Уголь

Рис. 7. Интерфейс программы для работы с хранилищем данных

Основной целью при его разработке было построение такого приложения, которое давало бы возможность автоматически генерировать структуру словаря предметной области, формулировать регламентированные запросы, а также создавать другую дополнительную информацию, используемую для автоматизации работы. С помощью этого приложения пользователь извлекает необходимые данные из ХД. Извлечение данных при использовании СУБД осуществляется через драйвер ГОВС.

Программа администрирования хранилища знаний (рис 8.) разработана специально для исследователей, владельцев информации и пользователей, которые, кроме традиционных способов, будут фиксировать и сохранять свои знания в структурированном электронном виде. В целом выполненная реализация хранилища знаний рассматривается как одна из возможностей интеграции информационных и интеллектуальных ресурсов для исследований в энергетике.

УМ*

' Ö Базовые витрины r"Li Справочники

отчеты

* [дф Статистическая отчегност ▼ © Таблицы

СЬ 11 тар

О 6ТП

4 ТОП С5 Другие т Сборники

*■ & Россижпрвдлрн О) Экспорт угля О Рынокутя Г;| Качество угля Г) Прочие сборники Г1 Другая статистика [2) Материалы из Интернет Г1! прочее базовые витрины * ¿Й Рабочие витрины Г*-'. Иркутская Р} ИрГТУ О] систем I | Ключевые слова О) Классификаторы

разработка и интеграция основных компонентов информационной инфраструктуры научны* и> ХРАНИЛИЩЕ ДАННЫХ ДЛЯ ПОДДЕРЖКИ ИССЛЕДОВАНИЙ СИСТЕМ ЭНЕРГЕТИКИ РЕАЛИЗАЦИЯ ХРАНИЛИЩА ДОКУМЕНТОВ ДЛЯ ИССЛЕДОВАНИЙ ЭНЕРГЕТИКИ

АРХИТЕКТУРА ХРАНИЛИЩА ДЛНЧгЛХ ДЛЯ ПОДДЕРЖКИ и СС П F/iOB АН И Й. С И Г-TF М ЭНЕРГЕТИКИ ;

Автор . Копайгородский АН., Осама Ель Сайед Ахмед Мохаыед Шета Ключевые слова Хранилища данных. Data Warehouse

Аннотация The aiticJe is discussed Dats Warehouse design for supporting science research of power

systems. such as coal power system research. The main Idea is a building Data Warehouses for

separate researches of power systems, wfttch based on universal Oata Warehouses for supporting

research of abstract power system. Authors suggest dMde ETL level Into SDF-Transform, SDF-upioad

and SDF-Oownload tools. Also authors suggest use components of Information Infrastructure as

support tools of developing Data Warehouse

Год: 2009

Объбм:7

Формат: öoc

Версия: 1

Коментзрнй: ______ _ _____ ____ _

Дополнительные параметру

J

Таблицы Рисунки

Рис. Л. Типовая архитектура Хранилища данных а

Рис. 2. Архитектура Хранилища данных для поддержки исследований систем энергетики .......4

Рис 3 Преобразование форматов дачных с использованием ЗОР в

Содержание

Введение.........1

Рис. 8. Интерфейс программы администрирования хранилища знаний

Технология построения и использования хранилища данных включает в себя несколько этапов. Перечень технологических этапов, инструментальных средств их поддержки и результатов этапов представлен в таблице 1.

Таблица 1. Технология построения и использования хранилища данных

Технологический этап Инструментальные средства поддержки Результат

Построение модели данных предметной области СтарТоо^ Модель данных, созданная на основе модели метаданных

ЕЯУПП

Описание модели данных предметной области Программа администрирования хранилища данных Сконфигурированное хранилище данных

Заполнение словаря предметной области Программа для работы с хранилищем данных Созданный словарь предметной области для исследований в энергетике (например, угольная промышленность)

Загрузка данных Библиотека функций конвертации Представление данных в различных форматах, передача в формат вЭР

Корректировка данных Программа для работы с хранилищем данных Внесение данных в формат БИР для корректировки

Выгрузка данных Библиотека функций конвертации Представление данных в формате ЭОР, преобразование в различные форматы

Технология построения и использования хранилища знаний также разбивается на несколько этапов. Перечень технологических этапов, инструментальных средств их поддержки и результатов представлен в таблице 2.

Таблица 2. Технология построения и использования хранилища знаний

Технологический этап Инструментальные средства поддержки Результат

Построение модели представления знаний СтарТооЬ Онтология - модель представления декларативных знаний

Заполнение словарей и конфигурирование хранилища знаний Программа администрирования хранилища знаний Созданные словари предметной области

Загрузка документов Программа администрирования хранилища знаний Документы в хранилище знаний

Формирование метаданных Программа администрирования хранилища знаний Описание документов и размещение их в витринах данных

Поиск и извлечение документов Программа администрирования хранилища знаний Генерация временных данных и извлеченный документ.

Применение хранилища данных на примере исследований развития угольной промышленности. С использованием инструментальной системы СтарТооЬ была построена онтология (рис. 9), которая описывает структуру хранилища данных. Выбор СтарТооЬ обусловлен тем, что она обладает рядом достоинств: позволяет создавать онтологии, добавлять ссылки на другие онтологии; имеет хороший и быстрый в освоении интерфейс; успешно применяется для создания достаточно крупных онтологий; является бесплатной.

Из онтологии видно, что субъект федерации входит в группу субъектов, имеет месторождение и угольный бассейн. Каждый субъект федерации осуществляет добычу, поставку и потребление угля. Предприятие находится в субъекте федерации, управляется управляющей компанией, характеризуется типом предприятия и способом добычи. Также предприятие осуществляет добычу и переработку угля разных марок.

[Т"п ту"*"'08'"1] [ Управляющая конлания ^ [Тип предприятия | [ Способ добычи j

вичочает ^ ^

| управляет характеризуется Гдобича ^-►включает—

[Труппы^-включает ^ 1 ^

-^---[предприятие ]—►осуществляет—►[ Переработ« ]

[Субъект федерации -находится -' ^-'

/

включает

осуществляет ----- -

* осуществляет / 1

добывает I Назначение использования угля 1

месторождение^ ЙМеет —Г^,ьный бассей/Г^г---ч ^^осгавка и потребление]

-> (Уголь]—включает * V-—---*

—— I ---/ \

ает \

включает

I

Запасы угля

инее!

I

[ поступает

_!__V

[ Тип Поставка и потребление | [страна |

-►[ Вид уголя^-включает-►[ Тип вид угля )

Рис. 9. Фрагмент онтологии предметной области (угольной промышленности)

Онтология используется для построения инфологической модели ретроспективных данных угольной промышленности в нотации Чена, в которой вводятся атрибуты выбранных концептов. На основе инфологической модели разработаны, с применением САБЕ-средства Е11\Ут, логическая и физическая модели данных для проектирования Хранилища данных угольной промышленности (рис. 10).

Предприятие

Управляющая компания

«раков шиит

Тип предприятия

ив mna прмлрмпя

Uk

г*

Способ добычи

ма епоевва добмчи

Тип группировки

праднаум* иамани*

гад ем<ш ■ мвплртпцю

пвюсяат* pHONCipjmw cmropM г» rujr н вмеиосгъпв вйзвиооъ по горный рудам

»ЩЩЦОТПМПЩЩГП ГП1Г11

июмайьни глубина раарабога

сбъш дермам тффиомяг «офъшм

«О* Oyi>*** ♦ЗД*Р»1Р"» fK]

сод епкова аобыч» {FK| п*тапаЛрчгрот>{П<) ВДУК(ГХ)

Субъект федерации

Группы

■»фр группы «АТМп(ГК}

Месторождение

■М угиьяЛ басЫи (FX)

гт

Угольный Бассейн

годута^ныД tocowtH

Запасы утя

ю* Запасы уте

ТТ

I L-

Бал1нсошя2 пдБмаюооы* Бакаиоовыам юл tcropMMiwi (FK) ссйушымй fiaoocw {Fiq

Добыча

■о« una» о добыче

Г

■fe-

объвн

«рвяимкячимирпмп

етошоетъ оенбпьа фочои

кол-мравочп «ад предприятия (ПС)

Переработка

со« мпаси « п*9*(мбоп»

гаа

«6ъм

<мемр1т пров-продуи

потер« радов ртж сощрван»» ялы • сырь* мюреим волы • пмкнтрап совершив «олы а првв-продпл» мяфинм 0Щ1Ы ш чир*» самкам»

еотрими сырь • прммремдо оа предприятия (FK) т* наммчанм мвлояиомим fК}

назначение использования

Тип поставка_потр$6лание

-1

Уголь

*9AttnK*«y№b

I i

Поставц_потре6пеине

тетиторнм тввбномк 1 пплогеормая ятообноеть 2

ъ---<*

овубы па

идшмшфугольрК) uaiw{FK)

Шй Сувъм фвд*рш»м {FK) natrpaH*{FKi

Страна

па (тиык 6авс*м (FKJ ««■шоровцнивртд

£---

*---

прямы

I ТипВндУгпя

l_fi|< мм Им мир»

Рис. 10. Модель данных угольной промышленности в нотации ERWin

Особенностью использования базы ретроспективных данных, как компонента ХДЗ, является то, что в ней хранятся агрегированные данные и при ее заполнении и модификации используется массовая загрузка данных.

Далее показано применение технологии построения и использования хранилища данных на примере угольной промышленности: выполнено описание

20

модели данных в виде таблиц данных, т.е. описание информационных ресурсов хранилища данных; заполнен словарь предметной области для просмотра, корректировки и извлечения данных, используются метаданные, помещенные в хранилище; выполнена загрузка данных. Обеспечивается использование хранилища данных как интегрированного источника получения информации для поддержки проведения исследований; корректировка и выгрузка данных поддерживаются процедурами ввода, вызова, изменения и экспорта данных.

Применение хранилища знаний. С использованием инструментальной системы СтарТооЬ построена онтологическая модель представления декларативных знаний, описывающая информационные ресурсы хранилища знаний (рис. 11). Предусмотрено создание базовых и рабочих (временных) витрин данных, представляющих собой выборки из хранилища знаний, создаваемые для разных целей и объединяющие документы по какому-либо признаку.

.хранятся

I

| Дополнительные параметры ^

ТО

формируются

Источники документов в разных форматах

Основные параметры J у --

-Г Базовые витрины I-^ генерируют

[ Классификаторы ] j ^

подразделяются 4-^ Рабочие витрины j

"У Ni

поставляют -

^Документ

-копирует

Рис. 11. Онтологическая модель представления декларативных знаний для построения хранилища знаний

Онтологические модели, представленные здесь в графическом виде, описываются с помощью специальных языков представления онтологий (XML, RDF, OWL), хранятся в репозитарии ИТ-инфраструктуры (рис. 1) и обрабатываются базовыми средствами репозитария2.

Далее в главе показано применение технологии построения и использования хранилища знаний на примере угольной промышленности: выполнены разработка и заполнение словаря предметной области и конфигурирование хранилища

2 Репозитарии ИТ-инфраструктуры и программные средства работы с ним реализованы с.н.с. лаборатории информационных технологий в энергетике ИСЭМ СО РАН А.Н. Копайгородским под руководством Л.В. Массель

знаний; осуществлено формирование метаданных - описаний документов и выполнена загрузка документов - документы и их описания помещены в хранилище знаний. Обеспечиваются поиск и извлечение документов -выполняются генерация временных данных, извлечение найденных документов, размещение их в витринах, создаваемых для временного хранения документов.

Реализация инструментальных средств выполнена на языке Java, используется свободно распространяемая СУБД FireBird. Объем реализации хранилища знаний составляет 54 класса, с объемом программного текста (без комментариев) 9100 строк. Объем реализации хранилища данных составляет 77 классов, с объемом программного текста 8200 строк. Объем реализации программ администрирования ХД составляет 22 класса, с объемом программного текста 1200 строк.

В диссертационной работе получены следующие основные результаты:

1. Выполнены анализ современных подходов к моделированию и построению хранилищ данных, подходов к хранению и оперированию знаниями и анализ предметной области - исследований в энергетике и исследований угольной промышленности, сформулирована проблема создания хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике и детализирована задача диссертационной работы.

2. Впервые для исследований в энергетике предложено интегрировать хранилище данных и хранилище декларативных знаний и разрабатывать ХДЗ на единой концептуальной основе, используя базовые программные средства.

3. Разработан методический подход к построению хранилища данных и знаний для исследований в энергетике, включающий:

• концепцию хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике, требования к ХДЗ и системно-концептуальные соглашения при его разработке;

• методику построения и архитектуру хранилища данных и знаний;

• совокупность информационных моделей для построения ХДЗ, в том числе модель представления декларативных знаний, онтологические модели, модели данных для разработки базы ретроспективных данных угольной промышленности, как компонента ХДЗ.

4. Выполнены проектирование и реализация ХДЗ для поддержки исследований в энергетике, разработаны инструментальные средства (создания, редактирования, извлечения и др.) для работы с ХДЗ, выполнена интеграция ХДЗ в состав ИТ-инфраструктуры исследований энергетики.

5. Разработана и отлажена технология построения и использования ХДЗ для поддержки исследований в энергетике (на примере исследований направлений развития угольной промышленности).

Результаты работы используются для поддержки исследований в энергетике и применены при выполнении проектов:

• по гранту РФФИ № 10-07-00264 «Создание и интеграция интеллектуальных информационных технологий и ресурсов для междисциплинарных исследований в области энергетики, экономики, экологии и прогнозирования изменений климата» (2010 г.);

• По гранту Программы Президиума РАН №2.29 «Интеллектуальные информационные технологии для исследований проблемы энергетической безопасности» (2009-2010 гг.).

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Массель JI.B., Осама Ель Сайед Ахмед Мохамед Шета, Копайгородский А.Н. Разработка хранилища данных и знаний для поддержки исследований энергетики / Вестник ИрГТУ. - № 5(45). - 2010. - С. 11-16.

2. Осама Ель Сайед Ахмед Мохамед Шета. Технология использования хранилища данных и знаний в исследованиях энергетики / Электронный журнал, №10, 2010, http://technomag.edu.ru/.

3. Takayshvili L.N., Osama E.S.A.M. Sheta. Engineering of document repository for coal industry development research / Proceedings of the 11th international workshop on computer science and information technologies (CSIT'2009), Greece, Crete, 2009, № 3, p. 41-45.

4. Osama E.S.A.M. Sheta. Implementation of document repository for energy studies / Pacific Science Review, Vol. 12, № 2,2010.

5. Осама Ель Сайед Ахмед Мохамед Шета. Хранилище данных для поддержки исследований систем энергетики / Труды XXXVI Международной конференции «Информационные технологии в науке, социологии, экономике и бизнесе», Гурзуф (Крым, Украина), 2009. - С. 127-128.

6. Осама Ель Сайед Ахмед Мохамед Шета. Разработка ретроспективной базы данных для исследований развития угольной промышленности / Труды III Всероссийской конференции «Винеровские чтения», [электронный ресурс] -204 ВПО - Иркутск: ИрГТУ, 2009.

7. Такайшвили Л.Н., Осама Ель Сайед Ахмед Мохамед Шета. Проектирование хранилища документов для исследований развития угольной промышленности / Труды XIV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». -Иркутск: ИСЭМ СО РАН, 2009. - С. 208-214.

8. Копайгородский А.Н., Осама Ель Сайед Ахмед Мохамед Шета. Архитектура хранилища данных для поддержки исследований систем энергетики / Труды XIV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». - Иркутск: ИСЭМ СО РАН, 2009. - С. 202-207.

9. Осама Ель Сайед Ахмед Мохамед Шета. Реализация хранилища документов для исследований энергетики / Труды XV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении», том III. - Иркутск: ИСЭМ СО РАН, 2010. - С. 103 -110.

Ю.Осама Ель Сайед Ахмед Мохамед Шета. Использование метаданных при проектировании хранилища данных для поддержки исследований систем энергетики / Труды ХЬ молодых ученых «Системные исследования в энергетике». - Иркутск: ИСЭМ СО РАН, 2010. - С. 362-366.

Отпечатано в ИСЭМ СО РАН 664033, Иркутск, ул. Лермонтова, 130. Заказ 25. Тираж 120 экз.

Оглавление автор диссертации — кандидата технических наук Осама Ель Сайед Ахмед Мохамед Шета

Введение.

1. Системный анализ проблемы.

1.1. Общие понятия системного анализа.

1.2. Анализ предметной области.

1.2.1. Предметная область - исследования развития энергетики.

1.2.2. Системные исследования в энергетике.

1.2.3. Исследования угольной промышленности в составе топливно-энергетического комплекса России.

1.3. Аналитический обзор технологий хранения данных и знаний.

1.3.1. Хранилища данных.

1.3.2. Представление знаний и оперирования ими.

1.4. Постановка задачи диссертационной работы.

1.5. Выводы к главе 1.

2. Предлагаемый методический подход к решению проблемы.

2.1. Требования к хранилищу данных и знаний для исследований энергетики, методика построения и системно-концептуальные соглашения.

2.2. Архитектура хранилища данных и знаний.

2.3. Проектирование хранилища данных и знаний для поддержки исследований в энергетике.

2.3.1. Проектирование хранилища данных.

2.3.2. Проектирование хранилища знаний.

2.4. Проектирование базовых программных компонентов хранилища данных и знаний.

2.5. Интеграция хранилища данных и знаний в ИТ- инфраструктуру системных исследований.

2.6. Выводы к главе 2.

3. Реализация и применение хранилища данных и знаний на примере исследований угольной промышленности.

3.1. Реализация инструментальных средств для работы с хранилищем данных и знаний.

3.1.1. Реализация инструментальных средств для работы с хранилищем знаний.

3.1.2. Реализация инструментальных средств для работы с хранилищем данных.

3.2. Технология интеграции хранилища данных и знаний в ИТ -инфраструктуру.

3.3. Технология построения и использования хранилища данных и знаний.

3.4. Применение хранилища данных и знаний для исследований развития угольной промышленности.

3.4.1. Классификатор предметной области.

3.4.2. Применение хранилища данных для исследований развития угольной промышленности.

3.4.3. Разработка ретроспективной базы данных для исследований развития угольной промышленности.

3.4.4. Применение хранилища знаний.

3.5. Выводы к главе 3.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Осама Ель Сайед Ахмед Мохамед Шета

Актуальность диссертационной работы определяется как важностью и актуальностью исследований энергетики, так и необходимостью разработки и применения новых информационных технологий в этих исследованиях.

Одним из лидеров в области исследований энергетики является Институт систем энергетики им. Л.А. Мелентьева (ИСЭМ) СО РАН. В ИСЭМ СО РАН выполняются исследования систем энергетики (электроэнергетики, тепло-, газо-, угле-, нефте-, нефтепродуктоснабжения), региональных проблем энергетики, взаимосвязей энергетики и экономики и др. Работы выполняются как для России и ее регионов, так и для стран СНГ.

В рамках основных научных направлений выполняются исследования развития и функционирования как отраслевых систем энергетики (СЭ), так и топливно-энергетического комплекса (ТЭК) в целом. Результаты исследований отраслевых систем энергетики зачастую являются исходными данными для исследований ТЭК, а результаты исследований направлений развития ТЭК должны учитываться при исследованиях развития отраслевых систем энергетики. Для исследований направлений развития ТЭК и СЭ используются, как правило, агрегированные данные. Исходные данные для выполнения работ исследователи получают из различных источников, данные могут представляться в различных форматах, представленных в виде статей, отчетов, статистических сборников и др., которые относят к декларативным явным знаниям.

Современный уровень развития информационных технологий позволяет формализовать и унифицировать отдельные процедуры работы с декларативными знаниями. Для этих целей в работе предлагается использовать концепцию Хранилища данных для хранения структурированных данных (Data Warehouse) и Хранилища знаний (Knowledge Repository) для хранения неструктурированной информации (декларативных явных знаний) в исследованиях энергетики.

Вклад в работы, связанные со структуризацией, хранением, обработкой данных внесли К. Дж. Дейт, Е.Ф. Кодд, П.П. Чен, JI.B. Щавелев и др. Разработке и внедрению хранилищ данных посвящены работы зарубежных ученых Б. Инмона, Р. Кимбалла, Э. Спирли и др. Вопросы представления декларативных знаний в виде онтологий и оперирования ими рассмотрены в работах Т. Грубера, Н. Гуарино и др., в нашей стране - Т.А. Гавриловой, JI.A. Калиниченко, М.Р. Когаловского, В.А. Серебрякова, В.Ф. Тузовского, В.З. Ямпольского и др.

В ИСЭМ СО РАН вопросы организации данных и знаний и оперирования ими рассматривались в работах JI.B. Массель, Т.Н. Ворожцовой, А.Н. Копайгородского, H.H. Макагоновой, С.К. Скрипкина, JI.H. Такайшвили и др.

Таким образом, актуальность диссертационной работы определяется следующими объективными факторами:

1. Важностью задачи исследований состояния и направлений развития топливно-энергетического комплекса страны и угольной промышленности, как важной его составляющей.

2. Отсутствием как методических основ построения интегрированного хранилища данных и знаний для исследований в энергетике, так и соответствующего инструментария для работы с хранилищем данных и знаний.

Цель диссертационной работы: разработка методического подхода к построению хранилища данных и знаний и инструментальных средств для информационной и интеллектуальной поддержки исследований в энергетике и их апробация на примере исследований угольной промышленности.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Выполнить анализ современных подходов к моделированию и построению хранилищ данных, подходов к представлению декларативных знаний и оперированию ими, и анализ предметной области -исследований в энергетике и исследований угольной промышленности.

2. Разработать методический подход к построению хранилища данных и знаний (ХДЗ) на основе современных информационных технологий, включающий концепцию ХДЗ, требования к нему, методику его построения, архитектуру и системно-концептуальные соглашения при его разработке.

3. Выполнить проектирование и реализацию ХДЗ для исследований энергетики и инструментальных средств для работы с ХДЗ (создание, администрирование, редактирование, извлечение и др. )

4. Выполнить интеграцию ХДЗ в состав ИТ-инфраструктуры исследований в энергетике.

5. Разработать технологию построения и применения ХДЗ в исследованиях энергетики и отладить ее на примере исследований угольной промышленности.

Методами и средствами исследования являются методы системного анализа, методы проектирования современных программных комплексов, теория систем баз данных, методы построения интеллектуальных систем, методы информационного моделирования и объектно-ориентированного проектирования и программирования.

Новизну составляют и на защиту выносятся следующие положения:

1. Впервые для исследований в энергетике предложено интегрировать хранилище данных и хранилище декларативных знаний и разрабатывать

ХДЗ на единой концептуальной основе, используя базовые программные средства.

2. Разработан методический подход к построению хранилища данных и знаний для поддержки исследований в энергетике, включающий:

• концепцию хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике, требования к ХДЗ и системно-концептуальные соглашения при его разработке;

• методику построения и архитектуру хранилища данных и знаний;

• совокупность информационных моделей для построения ХДЗ, в том числе модель представления декларативных знаний, онтологические модели, модели данных для разработки базы ретроспективных данных угольной промышленности, как компонента ХДЗ.

3. Разработана и отлажена технология построения и использования ХДЗ для поддержки исследований в энергетике (на примере исследований направлений развития угольной промышленности).

Научно-практическая значимость работы состоит в реализации ХДЗ и инструментальных средств для работы с ним, реализации базы ретроспективных данных угольной промышленности как компонента ХДЗ, интеграции ХДЗ в состав ИТ-инфраструктуры исследований в энергетике. Результаты диссертационной работы используются для поддержки исследований в энергетике в ИСЭМ СО РАН и применены при выполнении проектов по гранту РФФИ № 10-07-00264 и гранту Программы Президиума РАН №2.29.

Личный вклад. Положения, составляющие новизну и выносимые на защиту, получены лично автором. Совместно с Л.Н. Такайшвили была выполнена первоначальная постановка задачи создания хранилища документов для исследований угольной промышленности, которая была обобщена и расширена, совместно с JI.B. Массель и А.Н. Копайгородским, до постановки задачи создания хранилища данных и знаний для исследований в энергетике.

Апробация работы. Результаты работы докладывались и обсуждались на III Всероссийской конференции «Винеровские чтения», г. Иркутск, 2009 г.; на XIV и XV Байкальских Всероссийских конференциях «Информационные и математические технологии в науке и управлении», г. Иркутск, 2009-2010 гг.; на XXXVI Международной конференции «Информационные технологии в науке, социологии, экономике и бизнесе», Гурзуф (Крым, Украина) 2009 г.; на Международной конференции CSIT'2009 «Computer Science and Information Technologies», Греция, Крит, 2009 г.; на XL молодых ученых конференции «Системные исследования в энергетике», г. Иркутск: ИСЭМ СО РАН, 2010 г., а также на семинарах кафедры «Автоматизированные системы» факультета Кибернетики Иркутского государственного технического университета, посвященных аттестации аспирантов, и семинарах лаборатории «Информационные технологии в энергетике» в Институте систем энергетики им. Л.А. Мелентьева (ИСЭМ) СО РАН.

Публикации. По теме диссертации опубликованы 10 работ, из них 2 в журналах, рекомендуемых ВАК РФ для опубликования научных результатов диссертаций на соискание степени кандидата наук.

Основное содержание работы

В первой главе выполнен системный анализ проблемы. Дается краткое введение в системный анализ: рассмотрены основные понятия и этапы системного анализа, приведена классификация используемых моделей, характеризуются современные информационные технологии системного анализа.

Рассматривается область исследований в энергетике и, как одно из важных направлений, исследования развития угольной промышленности.

Исследования в энергетике разделяются на два основных направления:

1) исследования развития, как ТЭК в целом, так и отдельных систем энергетики;

2) исследования функционирования действующих систем и объектов энергетики.

Рассмотрено одно из важных направлений исследований энергетики — исследования проблем угольной промышленности. В ИСЭМ СО РАН традиционно проводятся исследования развития угольной промышленности страны и регионов в рамках ТЭК страны. В данной предметной области условно выделяют три основных понятия: ресурсная база угольной промышленности; производственная деятельность (получение продукта, готового к потреблению) и потребление.

Выполнен аналитический обзор технологий хранения данных и знаний. Приводится общая характеристика технологий хранилищ данных. Предполагается, что такое хранилище - содержит сведения, поступающие из разных источников данных, функционирующих под управлением различных информационных систем, а также из операционных баз данных. Концепция хранилища данных базируется на усовершенствованной технологии баз данных и предусматривает специальные средства управления процессом подготовки и хранения информации.

Хранилище данных (ХД) является рабочей средой для систем поддержки принятия решений, которая извлекает данные, хранимые в различных оперативных источниках, организует и агрегирует их и предоставляет лицам, ответственным за принятие решений в данной организации. Можно сказать, что технология хранилищ данных - это технология управления и анализа данных.

Хранилище знаний (ХЗ) предназначено для накопления и структурирования декларативных явных знаний, которые включают описания теорий, методов, техник, технологий, инструментов и оборудований, структур, систем и т.д.1 Эти знания хранятся в существующих физических средствах массовой информации (книгах, документах, рисунках, диаграммах, фильмах, аудио и видеозаписях, магнитных и электронных файлах и базах данных и др.).

Результатом выполненного анализа являются формулирование проблемы создания хранилища данных и знаний для исследований в энергетике и детализированная постановка задачи диссертационной работы.

Во второй главе рассмотрен предлагаемый автором методический подход к построению хранилища данных и знаний для исследований энергетики, включающий требования к хранилищу данных и знаний для исследований угольной промышленности и системно-концептуальные соглашения при его разработке, архитектуру хранилища данных и знаний, проектирование хранилища данных и знаний, проектирование базовых компонентов хранилища данных и знаний, интеграцию хранилища данных и знаний в ИТ-инфраструктуру системных исследований.

Процесс исследования любой энергетической системы начинается со сбора массива исходных данных, который может быть получен из различных статей, отчетов, статистических сборников, также в качестве исходных данных могут выступать результаты предыдущих исследований. Внесение информации выполняется с привязкой к словарю предметной области: исследователь должен выполнить сопоставление определенных отчетных или статистических данных с регионом, категорией ресурса, его целевым назначением, должен указать и другие классификационные характеристики. В хранилище данных и хранилище знаний отдельной отрасли энергетики словарь предметной области является общим (одним) и содержит свойственные ей классификаторы. Метаданные также являются общими и описывают как структуру данных, так и документы, помещаемые в хранилище.

1 Тузовский А.Ф., Чириков C.B., Ямпольский В.З. Системы управления знаниями (методы и технологии).-Томск: Изд-во HTJI, 2005.- 260 с.

10

Предлагается для поддержки этой деятельности создать хранилище данных и знаний (ХДЗ), которое интегрируется в разработанную в ИСЭМ СО РАН ИТ-инфраструктуру исследований в энергетике. Рассматриваются основные составляющие ИТ-инфраструктуры, акцент делается на информационной инфраструктуре и репозитарии, который является основным ее компонентом.

В главе описываются концепция ХДЗ, требования к нему и системно-концептуальные соглашения, принятые при его разработке. Приведены основные этапы методики проектирования ХДЗ, общая архитектура хранилища данных и знаний для поддержки исследований в энергетике, архитектуры ХД и ХЗ, модель представления декларативных знаний в ХЗ и схема взаимодействия инструментальных средств поддержки ХДЗ.

В третьей главе рассмотрена реализация хранилища данных и знаний. Описываются программы администрирования хранилища данных, программы для работы с хранилищем данных и программы администрирования хранилища знаний. Рассмотрены технологии использования хранилища данных и хранилища знаний, показано применение методики и технологий при построении хранилища данных и хранилища знаний и их использование на примере исследований развития угольной промышленности.

В заключении приводятся основные результаты работы и ее практическая значимость.

Автор выражает глубокую благодарность своему научному руководителю, д.т.н. Л.В. Массель, а также сотрудникам ИСЭМ СО РАН А.Н. Копайгородскому и Л.Н. Такайшвили, за оказанную помощь в постановке задачи и выборе средств для ее решения, а также консультации в ходе выполнения работы.

Заключение диссертация на тему "Методика и инструментальные средства построения хранилища данных и знаний для поддержки исследований в энергетике"

Результаты работы используются для поддержки исследований в энергетике и применены при выполнении проектов:

• по гранту РФФИ № 10-07-00264 «Создание и интеграция интеллектуальных информационных технологий и ресурсов для междисциплинарных исследований в области энергетики, экономики, экологии и прогнозирования изменений климата» (2010 г.);

• По гранту Программы Президиума РАН №2.29 «Интеллектуальные информационные технологии для исследований проблемы энергетической безопасности» (2009-2010 гг.).

Заключение

В диссертационной работе получены следующие основные результаты:

1. Выполнены анализ современных подходов к моделированию и построению хранилищ данных, подходов к хранению и оперированию знаниями и анализ предметной области - исследований в энергетике и исследований угольной промышленности, сформулирована проблема создания хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике и детализирована задача диссертационной работы.

2. Впервые для исследований в энергетике предложено интегрировать хранилище данных и хранилище декларативных знаний и разрабатывать ХДЗ на единой концептуальной основе, используя базовые программные средства.

3. Разработан методический подход к построению хранилища данных и знаний для исследований в энергетике, включающий:

• концепцию хранилища данных и знаний для информационной и интеллектуальной поддержки исследований в энергетике, требования к ХДЗ и системно-концептуальные соглашения при его разработке;

• методику построения и архитектуру хранилища данных и знаний;

• совокупность информационных моделей для построения ХДЗ, в том числе модель представления декларативных знаний, онтологические модели, модели данных для разработки базы ретроспективных данных угольной промышленности, как компонента ХДЗ.

4. Выполнены проектирование и реализация ХДЗ для поддержки исследований в энергетике, разработаны инструментальные средства (создания, редактирования, извлечения и др.) для работы с ХДЗ, выполнена интеграция ХДЗ в состав ИТ-инфраструктуры исследований энергетики.

5. Разработана и отлажена технология построения и использования ХДЗ для поддержки исследований в энергетике (на примере исследований направлений развития угольной промышленности).

Библиография Осама Ель Сайед Ахмед Мохамед Шета, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Волкова В.Н., Денисов A.A. Основы теории систем и системного анализа. СПб: Изд-во СПбГТУ, 1997.

2. Перегудов Ф.И., Тарасенко Ф.П. Введение в системный анализ: Учебное пособие. -М.: Высшая школа, 1989.

3. Спицнадель В.Н. Основы системного анализа. Учебное пособие. СПб: Изд-во «Бизнес-пресса», 2000.

4. Лагоша Б.А., Емельянов A.A. Введение в системный анализ. М: фИзд-во МЭСИ, 1998.

5. Калянов Г.Н. CASE. Структурный системный анализ (автоматизация и применение). М., "Лори", 1996. 242с.

6. Анфилатов B.C., Емельянов A.A., Кукушкин A.A. Системный анализ в управлении.- М.: Финансы и статистика, 2003.- 368с.

7. Шумский A.A., Шелупанов A.A. Основы системного анализа: учебное пособие. Томск: ТМЦДО, 2005. 225 с.

8. Тарасенко Ф.П. Прикладной системный анализ (Наука и искусство решения проблем): Учебник. Томск: изд-во Том. ун-та, 2004.-186с.

9. Ойхман Е.Г., Попов Э.В. Реинжиниринг бизнеса- М.: Финансы и статистика, 1997 —336с.

10. Мелентьев Л.А. Системные исследования в энергетике, изд.2-е, доп. и перер. /Л.А. Мелентьев // М.: Наука, 1983. 456с.

11. Системные исследования проблем энергетике /Л.С. Беляев, Б.Г. Санеев, С.П. Филиппов и др. / под ред. Н.И. Воропая // Новосибирск: Наука. Сибирская издательская фирма РАН, 2000. 558с.

12. Мелентьев Л.А. О формировании теории управления большими системами энрегетики . Изв. АН СССР. Энергетика и транспорт, 1969, №4 - с.3-15.

13. Мелентьев JI.А. Очерки истории отечественной энергетики /Л.А. Мелентьев // М.: Наука, 1987. 280с.

14. Садоский В.Н. Системный подход и общая теория систем: статус, основные проблемы и перспективы развития / В.Н. Садоский // Системные исследования. Методологические проблемы. М.: Наука, 1980.-С. 29-54.

15. Берталанфи J1. Общая теория систем критический обзор / Л. Берталанфи // Исследования по общей теории систем. - М.: Прогресс, 1969.-С. 23-83.

16. Новорусский В.В. Основы теории систем и системы логического управления / В.В. Новорусский // Новосибирск: Наука. Сиб. Предприятие РАН, 1997. 336с.

17. Моисеев H.H. Математические задачи системного анализа / H.H. Моисеев // М.: Наука, 1981. 466с.

18. Клир Дж. Системология. Автоматизация решения сложных задач / Дж. Клир // Пер. с англ. М.: Сов. Радио, 1990. - 540с.

19. Массель Л.В., Болдырев Е.А., Горнов А.Ю. и др. Интеграция информационных технологий в системных исследованиях энергетики / Под ред. Воропая Н.И. Новосибирск: Наука, 2003. - 320 с.

20. Байков Н.П. Топливно-энергетический комплекс. // МЭиМО, 1998, № 8.

21. Такайшвили Л.Н. Особенности угольной промышленности, как объекта исследования в рамках ТЭК // Информационные и математические технологии в науке и управлении / Труды XIII Байкальской Всероссийской конференции. Иркутск: ИСЭМ СО РАН, 2008. - С. 313-320.

22. Такайшвили Л.Н. Особенности вычислительного эксперимента исследования развития угольной промышленности в рамках ТЭК //Современные технологии. Системный анализ. Моделирование. -Иркутск: ИрГУПС, 2008. Спецвыпуск. - С. 64-69.

23. Осама Ель Сайед Ахмед Мохамед Шета. Разработка ретроспективной базы данных для исследований развития угольной промышленности / Труды III Всероссийской конференции «Винеровские чтения», электронный ресурс. 204 ВПО - Иркутск: ИрГТУ, 2009.

24. Соколов А.Д., Такайшвили Л.Н. Инструментальные средства для исследования угольной промышленности // Информационные технологии в науке и образовании // Труды Всероссийской конференции -Иркутск: ИСЭМ СО РАН, 2002, с 116-121.

25. В.М.Зыков, А.И. Скрыль Основные результаты 10-летней реструктуризации угольных отраслей стран с переходной экономикой// Уголь. 2004.-№4, с.69-72.

26. Угольная промышленность зарубежных стран (краткий обзор) Уголь, -2000, №9, с.68-69.

27. В.Д. Грунь, В.Е. Зайденварг, В.К. Килимник, Ю.Н. Малышев, В.н. Попов, A.A. Рожков. История угледобычи в России. М.: 2003 г., 480с.

28. Дейт К. Введение в системы баз данных. 6-е изд. / К.: Диалектика, 1998. 784 с.

29. Конолли Т. Базы данных: проектирование, реализация и сопровождение. Теория и практика, 2-е изд. // М.: Изд. дом «Вильяме», 2000. 1120 с.

30. Кузнецов С.Д. Введение в системы управления базами данных // СУБД, №1, 1995.

31. Ульман Дж. Основы систем баз данных // М.: Финансы и статистика, 1983.-333 с.

32. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных // СУБД 1997 - № 3.- С.30-40.

33. Щавелев Л.В. Способы аналитической обработки данных для поддержки принятия решений // СУБД 1998 - № 4-5 - С.51-60.

34. Michalcki R.S. Machine Learning and Data Mining: Methods and Application / R.S. Michalcki, I. Bratko, M. Kubat // England: John Wiley & Sons LTD., 1998.-456 p.

35. W. H. Inmon Building the Data Warehouse, Fourth Edition, 2005 Published by Wiley Published Publishing, Inc., Indianapolis, Indiana.

36. E. Malinowski, E. Zimanyi Advanced Data Warehouse Design. From Conventional to Spatial and Temporal Application, 2008 Published by Springer-Verlag Berlin Heidelberg.

37. Рагулин П. Г. Информационные технологии (электронный учебник) // Владивосток. 2004 г.

38. Тузовский А.Ф., Чириков С.В., Ямпольский В.З. Системы управления знаниями (методы и технологии) / Под общ. ред. В.З. Ямпольского. -Томск: Изд-во НТЛ, 2005. 260 с.

39. Большая Советская Энциклопедия / Под ред. A.M. Прохорова. М.: Советская Энциклопедия, 1972. - Т. 9. - 555 с.

40. Applehans W., Globe A., Laugero G. Managing knowledge: a practical webbased approach. Addison Wesley Professional, 1999. - 115 p.

41. Турчин В.Ф. Феномен науки: Кибернетический подход к эволюции. 2-е изд. М.: ЭТС, 2000. - 368 с. (доступно по адресу http://www.ets.ru/turchin/).

42. Гаврилова Т.А., Хорошевский Ф.В. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384с.

43. Гаврилова Т.А. Онтологический инжиниринг // Труды 8 национальной конф. по искусственному интеллекту. М.: Физматлит, 2002. - С. 846 -853.

44. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем.- М.: Радио и связь, 1992.- 200 с.

45. Криворуцкий Л.Д., Массель JI.B. Информационная технология исследований развития энергетики.- Новосибирск: Наука, 1995.- 160 с.

46. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. — СпБ: Питер, 2001. 384 е.

47. Gruber T.R. A Translational Approach to Portable Ontologies // Knowledge Acquisition. 1993. - V. 5. - No. 2. - P. 199 - 220.

48. Mizoguchi R., Kozaki K, Sano Т., KitamuraY. Construction and Deployment of a Plant Ontology // Proceedings of the 12th European Workshop on Knowledge Acquisition, Modeling and Management. 2000. - P. 113-128.

49. Guarino N. Formal Ontology and Information Systems // Proceedings of International Conference of Formal Ontology and Information Systems (FOIS'98). N. Guarino (ed), Trenton, Italy, June 6 8, 1998. - Amsterdam: IOS Press, 1998.-P. 3-15.

50. Ворожцова Т.Н., Скрипкин С.К. Модель взаимодействия онтологий прикладных областей, задач и приложений // Вестник ИрГТУ. 2005. -№ 4.- с. 30-35.

51. Ворожцова Т.Н., Макагонова Н.Н., Скрипкин С.К., Костюченко А.П. Применение онтологий для моделирования IT-инфраструктуры и описания систем энергетики // Вычислительные технологии. Том 13, Специальный выпуск 1. - 2008.- С. 4-10.

52. Массель JI.B., Осама Ель Сайед Ахмед Мохамед Шета, Копайгородский А.Н., Разработка хранилища данных и знаний для поддержки исследований энергетики // Вестник ИрГТУ, № (), 2010. С.

53. Копайгородский А.Н., Массель Л.В. Разработка и интеграция основных компонентов информационной инфраструктуры научных исследований // Вестник ИрГТУ. 2006. - № 2 (26).- С. 20-24.

54. Осама Ель Сайед Ахмед Мохамед Шета. Хранилище данных для поддержки исследований систем энергетики / Труды XXXVI Международной конференции «Информационные технологии в науке,социологии, экономике и бизнесе», Гурзуф (Крым, Украина), 2009. С. 127-128.

55. Осама Ель Сайед Ахмед Мохамед Шета, использование метаданных при проектировании хранилища данных для поддержки исследований систем энергетики, Труды XL молодых ученых « системные исследования в энергетике». Иркутск: ИСЭМ СО РАН, 2010. - С. 362366.

56. Osama E.S.A.M. Sheta. Implementation of document repository for energy studies / Pacific Science Review, Vol. 12, № 2, 2010.

57. Осама Ель Сайед Ахмед Мохамед Шета, технология использования хранилища данных и знаний в исследованиях энергетики, Электронный журнал, №10 октябрь 2010г. http://technomag.edu.ru/

58. Копайгородский А.Н. Компонентная организация и информационные компоненты ИТ-инфраструктуры системных исследований в энергетике / Сборник трудов молодых ученых ИСЭМ СО РАН. Иркутск: ИСЭМ СО РАН, 2005. - С.243-248

59. Копайгородский А.Н. Репозитарий как ядро информационной инфраструктуры системных исследований в энергетике // Сборник трудов молодых ученых ИСЭМ СО РАН Иркутск: ИСЭМ СО РАН, 2006.-С. 274-281.

60. Копайгородский А.Н., Массель JI.B. Разработка и интеграция основных компонентов информационной инфраструктуры научных исследований /

61. А.Н. Копайгородский, Л.В. Массель // Вестник ИрГТУ, №2 (26), 2006. -С. 20-24.

62. Массель Л.В. Методы и технологии создания ИТ-инфраструктуры научных исследований // Труды X Байкальской Всероссийской конференции "Информационные и математические технологии в науке, технике и образовании".- Иркутск: ИСЭМ СО РАН, 2005. С. 57-65.

63. Массель Л.В., Болдырев Е.А., Копайгородский А.Н., Макагонова H.H., Черноусов A.B. ИТ-инфраструктура научных исследований: методический подход и реализация // Вычислительные технологии, т. 11, специальный выпуск, 2006 С. 59-68.

64. Черноусова Е.С. Массель Л.В. Обеспечение информационной безопасности Интернет ориентированных программных продуктов / Вестник ИрГТУ, № 2 (26), 2006. С. 34-38.

65. IHMC CmapTools — Режим доступа: http://cmap.ihmc.us/, свободный.

66. Чен П. Модель "сущность-связь" шаг к единому представлению о данных//СУБД-1995.-№3. - С.137-158.

67. Маклаков C.B. Создание информационных систем с AIIFusion Modeling Suite. M.: Диалог-МИФИ, 2003. - 432 с.

68. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.- 176 с.

69. Маклаков C.B. BPwin и ERwin. CASE-средства разработки информационных систем М.: ДИАЛОГ-МИФИ, 1999 - 256 с.

70. Брюс Эккель. Философия Java (Thinking in Java).- 3-е изд.- СПб.: Питер, 2003.-976 с.

71. Монахов В.В. Язык программирования Java и среда NetBeans 2-е изд.— СПб.: БХВ-Петербург, 2009.- 720 с.

72. JDBC (JDBC Specification). http://java.sun.com/products/jdbc/download.html.

73. Helen Borrie The Firebird Book: A Reference for Database Developers 2004 -1092 c.