автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Проектирование и реализация научных информационных систем на основе объектной модели данных. Информационная система Math-Net. RU
Автореферат диссертации по теме "Проектирование и реализация научных информационных систем на основе объектной модели данных. Информационная система Math-Net. RU"
На правах рукописи
Аджиев Алим Сапарович
Проектирование и реализация научных информационных систем на основе объектной модели данных. Информационная система Math-Net.RU
I
05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Москва 2005
Работа выполнена в Отделе систем математического обеспечения Вычислительного центра РАН им. А. А. Дородницына и в Лаборатории научных телекоммуникаций и информационных технологий Межведомственного суперкомпьютерного центра РАН
Научный руководитель:
доктор физико-математических наук Серебряков Владимир Алексеевич
Официальные оппоненты:
член-корреспондент РАН, доктор физико-математических наук Жижченко Алексей Борисович, кандидат физико-математических наук Босов Алексей Вячеславович
Ведущая организация:
Институт системного программирования РАН
Защита диссертации состоится 15 декабря 2005 г. в часов на заседании диссертационного совета Д002.017.02 при Вычислительном центре РАН им. А. А. Дородницына по адресу: 119991 Москва, ГСП-1, ул. Вавилова, д. 40
С диссертацией можно ознакомиться в библиотеке Вычислительного центра РАН им. А. А. Дородницына
Автореферат разослан_ноября 2005 года
Ученый секретарь диссертационного совета, д.ф.-м.н. ¿С^ В. В. Рязанов
Общая характеристика работы
Актуальность исследований
В последнее время одним из основных направлений работ по интеграции данных распределенных информационных систем стало создание независимых от конкретных ИС онтологий и форматов обмена данными, описывающих определенную предметную область (TOVE, Ontolingua, KACTUS, ЕНИП, CERIF, Math-Net metadata, CRM и другие). Как правило, цель создания таких онтологий - интеграция информации существующих ИС, работающих в одной предметной области. Логичным следствием такого подхода является создание новых ИС также на основе этих "внешних" онтологий и основанных на них моделей данных. Разработанные WWW-консорциумом (W3C) языки RDF (для описания знаний) и OWL (для описания онтологий) являются хорошей основой для интеграции научных информационных ресурсов и содержащих их систем.
В ВЦ РАН в настоящее время ведется работа по решению этой задачи, а именно, создание ряда интегрированных между собой информационных систем различного назначения и систем автоматизации некоторых областей научной деятельности на основе построенной по стандартам Semantic Web общей масштабируемой и расширяемой онтологии предметной области - "Единого Научного Информационного Пространства" (ЕНИП). В этой работе принимает участие и автор изложенной ниже диссертационной работы. Одним из компонентов проекта является спроектированная автором и построенная под его руководством ИС Math-Net.RU (версия системы от 17.03.2005) - основа создаваемого Общероссийского математического портала (http://www.mathnet.ru).
Цель исследований
Целью диссертационной работы является выработка подходов и методов проектирования и создания информационных порталов для науки на основе технологий Semantic Web, а также разработка и реализация на основе проведенных исследований Общероссийского математического портала, предоставляющего российским математикам все необходимые возможности в поиске информации и коммуникации со своими коллегами в России и других странах.
1. Выработка универсальных подходов и методов проектирования и
реализации информационных систе [енности,
построенных на основе заданной онтологии предметной области, включая:
a. моделирование бизнес-логики поиска ИС на основе заданной онтологии предметной области,
b. разработку универсальных средств администрирования базы знаний ИС,
c. разработку подходов к универсальной реализации поддержки таксономий (включая тезаурусы) в ИС.
2. Выработка подхода для решения в общем виде задачи импорта и интеграции структурированной неотождествленной информации в базу знаний информационной системы.
3. Постановка задачи, спецификация требований, проектирование и реализация общероссийской математической информационной системы Math-Net.RU, как первой очереди портала, включая исследование существующих электронных математических ресурсов в России, обобщение опыта существующих математических ИС и выработку онтологии предметной области российской математики как основы для интеграции данных.
Научная новизна
В диссертационной работе получены следующие новые результаты:
• Разработан подход для описания бизнес-логики поиска информации в ИС, позволяющий осуществлять оценку зависимости, достижимости и первичной ценности хранимых ресурсов в ИС, а также определять политику автоматической сборки мусора в репозитории и разделения работы с ресурсами между ИС разного назначения при работе в едином информационном пространстве.
• Разработана модель бизнес-логики универсального интерфейса администрирования данных для ИС с объектной моделью данных.
• Разработан подход и математическая модель подсистемы интеграции и загрузки структурированной неотождествленной информации в базу знаний ИС. Подход решает задачу интеграции и загрузки в общем виде в рассматриваемом классе задач.
• На основании исследования электронных математических ресурсов России и опыта российских и зарубежных информационных систем выработана онтология предметной области для построения общероссийского математического портала и интеграции российских математических ресурсов.
Практическая ценность
Практическая ценность полученных результатов состоит в том, что разработанные математически обоснованные подходы и их реализация позволяют создавать эффективные информационные системы для науки, точно решающие поставленные задачи. Все предложенные решения были применены при создании ИС Math-Net.RU, успешно запущенной в эксплуатацию в начале 2005 г. Кроме того, некоторые из них (двухуровневая модель данных, подсистема администрирования, подсистема интеграции и загрузки) нашли применение также в платформе ИСИР - универсальной платформе для создания информационных систем, на основе которой реализуется проект ЕНИП (работа в стадии завершения).
Апробация работы
Основные результаты диссертации докладывались на Всероссийской научной конференции "Электронные библиотеки, перспективные методы и технологии, электронные коллекции" (RCDL 2003), Санкт-Петербург, 2003 г. (2 доклада); Информационное обеспечние науки: новые технологии, Таруса, 2005 г.; XLVIII научной конференции МФТИ, 2005 г.; на научных семинарах в Отделе систем математического обеспечения Вычислительного центра РАН.
Содержание работы Введение
Во введении обосновывается актуальность темы диссертационной работы, формулируется цель, научная новизна и практическая значимость полученных результатов, дается краткое содержание глав работы.
Глава 1. Некоторые аспекты проектирования и анализа информационных систем для науки
В главе описаны некоторые аспекты проектирования и анализа информационных систем, а именно, подход к формализации и анализу бизнес-логики поиска ИС, и подход к реализации тезаурусов и классификаторов в ИС. Оба подхода ориентированы на ИС с объектной моделью данных и описаны в терминах стандартов и подходов Semantic Web.
Первый раздел посвящен методам моделирования и исследования бизнес-логики поиска информационных систем на основе онтологий предметных областей. В начале раздела описаны особенности проектирования и реализации ИС, построенных на основе заданной внешней онтологии предметной области. Затем даны необходимые для строгого изложения формальные определения понятиям знания, онтологии предметной области и ИС, информационная система, репозиторий ИС, бизнес-логика поиска, запрос к ИС и ее ответ, база ответа и другие. Следует заметить, что определения некоторых из этих терминов, принятые в этой работе, уже, чем общепринятое их понимание.
Далее для формализации описания бизнес-логики поиска определен специальный язык запросов к объектному репозиторию, ориентированный на описание обычной функциональности пользовательских поисково-навигационных интерфейсов ИС. В этом языке каждый элемент отражает некоторую типовую функциональность таких интерфейсов (задание ограничения на значения атрибутов при поиске объектов, навигация по связям, выбор объектов для более подробного рассмотрения из множества найденных предыдущим запросом, и др.). Такой язык упрощает моделирование бизнес-логики поиска, позволяя легко описать поисково-навигационную функциональность многих ИС в необходимом для исследования информационных потоков и востребованности информации объеме.
Используя язык регулярных запросов, на основе диаграмм прецедентов и устойчивости интерфейсов, а также используемых в ИС поисковых алгоритмов составляется множество допустимых запросов ИС - заданное как КС-язык подмножество множества регулярных запросов, такое, что каждый запрос этого языка соответствует некоторому * элементу страницы, полученной пользователем ИС в результате прохода этим пользователем некоторого пути по интерфейсам поиска и навигации ИС. Используя это множество, далее формально определяются понятия достижимости и зависимости объектов в базе знаний ИС, а также формулируются несколько теорем - достаточных условий достижимости и зависимости между объектами.
На основе описанной теории вводится понятие пограничных объектов - объектов, которые интересны в рамках предметной области ИС как значение некоторого свойства другого объекта, но не интересны как самоценные ресурсы (например, нам интересна персона, и что она работает в некоторой организации, но не интересна сама эта организация
вне контекста этой персоны). На основе этого понятия и сформулированного выше понятия зависимости водится двухуровневая архитектура ИС, необходимая для реализации ИС на основе некоторой вешней, более широкой, чем предметная область этой ИС, базы знаний (такая ситуация возникает, например, в проекте ЕНИП).
Второй раздел посвящен формализации и использованию в ИС тезаурусов и классификаторов. В начале раздела дается обзор существующих стандартов описания тезаурусов и подходов к их описанию в ИС. Рассмотрены стандарты ISO и ANSI для одноязычных и многоязычных тезаурусов, а также существующие модели реализации на основе RDFS и DAML+OIL. Описаны также особенности и требования к реализациям тезаурусов и классификаторов в ИС.
Далее описана предлагаемая автором (в соавторстве) модель тезауруса, позволяющая хранить и эффективно единообразно использовать в ИС любых удовлетворяющих стандартам тезаурусов, а также любых классификаторов. Ниже дан пример описания с использованием предлагаемого подхода математического классификатора MSC. Сформулированы также требования и возможные пути реализации пользовательских интерфейсов ИС для эффективной работы с тезаурусами и классификаторами в предлагаемой модели.
Гпава 2. Общероссийский математический портал Math-Net.RU
В главе дано описание проекта и реализации Общероссийского математического портала Math-Net.RU. Описание дано с целью демонстрации на практике подходов, описанных в первой главе. Кроме того, в этой главе дано краткое описание онтологии предметной области для российской математики, построенной для нужд портала и его взаимодействия с другими математическими ИС.
В первых двух разделах описаны предпосылки, цель проекта и постановка задачи. Раздел включает требования к поддержке информационного содержания и функциональности системы. Необходимо создать систему, удовлетворяющую основные потребности математиков в получении существующей в данный момент традиционной информации научного характера, то есть, информации о математических публикациях, организациях, персонах, проектах, грантах, конференциях, семинарах, программном обеспечении и web-pecypcax. Пользователями системы должны быть российские и иностранные математики, а также аспиранты и
студенты, выбравшие научную работу в области математики в качестве своей будущей профессии, а также административные работники Отделения математических наук РАН.
Система должна обеспечивать поиск ресурсов всех перечисленных выше типов по ключевым словам в значениях их атрибутов, регулярным выражениям и сложным поисковым запросам; навигацию в пространстве связанных ресурсов по имеющимся связям между ресурсами, а также по рубрикам иерархических тематических рубрикаторов; разграничение прав доступа к информации между разными категориями пользователей. Кроме того, должна быть обеспечена возможность пользователям системы самим предоставлять информацию для опубликования в системе или корректировки и возможность эффективной обработки вводимой информации редакторами. Должен быть обеспечен также пакетный ввод информации разного уровня структурированности из электронных источников, таких как базы данных, структурированный текст. Система должна поддерживать также стандарты создаваемой международной распределенной ИС Math-Net.
Третий раздел посвящен описанию платформы ИСИР, как основы для построения ИС Math-Net.RU. В основе ИС, реализованной на платформе ИСИР, лежит так называемое ядро - программное обеспечение, реализующее функции объектного репозитория ИС, а также обеспечивающее поддержку пользовательских сессий и авторизации, включая разграничение доступа разных пользователей к разным объектам базы знаний системы. Ядро предоставляет унифицированные Java интерфейсы для других служб и сервисов платформы. В основе ИС лежит онтология, включающая модель данных ИС и другую служебную информацию ИС. Для ее представления используется язык OWL.
Объекты могут быть запрошены из репозитория OQL-запросом и получены как коллекция Java-объектов, построенных в соответствии с онтологией ИС. Репозиторий реализует в ограниченном объеме концепцию зависимых объектов в базе знаний. Ядро обеспечивают защиту информации на уровне репозитория. Персональные права доступа для каждого субъекта доступа (пользователя или группы) могут быть установлены на любой объект базы знаний ИС. Права доступа могут быть установлены на объект индивидуально или на класс (в этом случае они распространяются на все экземпляры этого класса).
В основе приложения бизнес-логики ИСИР-системы лежит подсистема Apache Cocoon, обеспечивающая конвейерную обработку
XML-информации при публикации. ISP (TSIR Server Pages)-CTpaHHua, лежащая в основе каждой страницы интерфейса, выдает RDF/XML-описание запрошенных данных, которое впоследствии форматируется в конвейере средствами XSLT. В этом же конвейере может быть проведена и другая обработка данных (например, транслитерация). Существует также служба поатрибутной полнотекстовой индексации хранимых ресурсов.
Четвертый раздел посвящен созданию онтологии предметной области "Российская Математика", которая легла в основу ИС Math-Net.RU и должна стать частью онтологии российской науки в проекте ЕНИП. Для построения онтологии автором был выбран синтетический подход, при которым онтология строится как обобщение существующих онтологий, описывающих определенные части этой предметной области. В качестве таких онтологий были использованы структуры существующих математических сайтов и модели данных математических информационных систем, описанных в составленном для этой цели обзоре математических ресурсов и существующих ИС. Обзор российских ресурсов дан с точки зрения их систематизации и классификации. Для существующих западных и российских ИС были описаны, как схемы данных, так и структуры пользовательских интерфейсов.
В пятом разделе кратко описана онтология ИС Math-Net.RU и принципы, использованные при ее построении. В онтологию вошли 7 основных типов хранимых ресурсов: персона, публикация, организация, проект/грант, конференция/семинар, программное обеспечение и web-сайт. Для тематической классификации использованы классификаторы MSC, УДК, ВАК (для персон) и РФФИ (для проектов и грантов).
В шестом разделе описана бизнес-логика ИС Math-Net.RU. Пользователи ИС делятся на 4 группы: публичные пользователи, пользователи, предоставляющие информацию, ответственные работники ОМН РАН и Администраторы данных. Интерфейсы делятся на интерфейсы поиска и навигации, интерфейсы активного взаимодействия с пользователем (форумы, приватная переписка), страницы информации общего характера (новости, "о портале" и т.д.), интерфейсы предоставления информации, интерфейсы редактирования данных в репозитории и интерфейсы пакетной загрузки и интеграции. Интерфейсы поиска и навигации включают формы атрибутного и полнотекстового поиска, страницы результатов поиска, страницы отображения информации о ресурсе, страницы выборки ресурсов по
классификаторам, а также страницы просмотра классификаторов и поиска их рубрик. Интерфейсы предоставления информации представляют собой простые формы-анкеты для описания вводимых ресурсов. Результат ввода записывается в структурированный текстовый файл и грузится затем в репозиторий подсистемой пакетной загрузки и интеграции. Интерфейсы редактирования данных и пакетной загрузки и интеграции описаны в третьей и четвертой главе соответственно.
В шестом разделе также описаны традиционно используемые форматы представления математических текстов, сделан анализ сильных и слабых сторон каждого из них с точки зрения их использования в математической ИС. В ИС Math-Net.RU для хранения полных текстов математических публикаций допустимы любые форматы (в том числе и архивы). Для текстовых атрибутов ресурсов допускается обычный текст с формулами в TeX.
Седьмой раздел посвящен информационному наполнению ИС Math-Net.RU. Предполагаются следующие источники наполнения системы информацией: загрузка и актуализация информации из других баз данных; пакетная загрузка информации из структурированного текста; предоставление информации пользователями системы; ввод данных оператором данных. В первых четырех случаях вводимая информация должна быть обработана подсистемой загрузки и интеграции данных. Эта подсистема осуществляет преобразование информации к схеме данных системы, а также контроль адекватности информации и ошибок преобразования. При этом оператор может осуществлять контроль адекватности, а также принимать участие при необходимости в нормализации и интеграции данных с другими ресурсами.
Глава 3. Универсальная схемонезависимая подсистема редактирования объектного репозитория ИСИР DBEditor
В этой главе описана подсистема DBEditor, реализующая универсальные схемонезависимые интерфейсы редактирования объектного репозитория ИС, построенных на основе платформы ИСИР.
Подсистема DBEditor является пользовательским интерфейсом нижнего уровня, то есть работает с классами онтологии, экземплярами и связями между ними полностью абстрагируясь от их семантики. Это позволяет одинаково использовать DBEditor без перекомпиляции и дополнительной настройки в любых информационных системах, построенных на платформе ИСИР. В то же время есть возможность
настраивать DBEditor на конкретную информационную систему, устанавливая разные режимы работы с экземплярами разных элементов онтологии исходя из их семантики в модели данных и особенностей работы конкретной ИС. Подсистема DBEditor может использоваться как инструмент администратора ИС на стороне заказчика, а также как инструмент разработчика для создания и модификации тестовых данных при создании и тестировании программных средств ИС.
Подсистема DBEditor может выполнять следующие операции модификации данных:
1. Создать новый объект, экземпляр некоторого класса (операция создать).
2. Удалить некоторый объект (операция удалить).
3. Установить связь заданного типа от одного объекта к некоторому другому существующему объекту (операция добавить для многозначных свойств, или заменить для однозначных).
4. Удалить связь между объектами (операция исключить).
5. Создать литеральный объект как значение некоторого свойства.
6. Удалить литеральный объект.
7. Изменить значение литерального объекта.
Подсистема DBEditor имеет следующие страницы интерфейсов:
1. allclasses - список хранимых классов системы. Эта же страница является стартовой для подсистемы.
2. collection - список коллекции хранимых объектов. Например, результат выборки из репозитория OQL-запросом.
3. instance - хранимый объект, список его свойств и их значений. Используется при создании новых и модификации существующих объектов.-
4. choose_cIass - список допустимых классов - значений некоторого свойства. Служит для выборки типа создаваемого или привязываемого объекта.
5. choose instance - список экземпляров некоторого класса, доступных для привязки в качестве значения некоторого свойства.
Помимо навигации выборка ресурсов из репозитория может быть сделана также OQL-запросом.
Подсистема DBEditor может гибко настраиваться под потребности заказчика. В частности, могут быть заданы следующие настройки: • читаемые пользователем имена для классов и свойств, отличные от принятых в системе
• выключение из отображения и доступа экземпляров каких-либо классов или каких-либо свойств заданного класса при редактировании.
• запрет на модификацию экземпляров каких-либо классов или каких-либо свойств заданного класса при редактировании.
• значение по умолчанию для заданных свойств экземпляров заданного класса
Гпава 4. Интеграция и загрузка структурированных данных в ИС на основе платформы ИСИР
В этой главе описан подход к решению в общем виде задачи интеграции и загрузке струтктурированных данных в ИС с объектной моделью данных. Подход описан в терминах стандартов и подходов < Semantic Web.
Подсистема интеграции и загрузки данных предназначена для загрузки в ИС данных из структурированного текста, семантика компонентов структуры которого априори известна, а также для устранения дубликатов и исправления ошибок в данных, уже имеющихся в репозитории. Структура такого текста - однородная последовательность групп связанных ресурсов. Например, последовательность публикаций с указанием авторов, или последовательность организаций с указанием сотрудников. Структуру каждой такой группы будем называть структурой источника данных, а соответствующую ему онтологию -онтологией источника или исходной онтологией. Онтологию целевого репозитория будем называть целевой онтологией. В задачи подсистемы входит также интеграция данных (обнаружение и устранение дубликатов, приведение данных в соответствии с ограничениями целостности онтологии) и исправление ошибок. f
Первый раздел главы посвящен строгой постановке задачи. В начале приведена классификация возможных конфликтов при преобразовании и интеграции данных, созданная как обобщение опыта существующих подходов к интеграции данных, а также определены некоторые термины и приведена классификация правил преобразования, интеграции и исправления ошибок.
Предполагается, что для каждой ИС может существовать несколько источников данных, и данные каждого источника требуют своих специфических правил преобразования данных, выявления и слияния дубликатов, исправления ошибок и решения других задач. Для каждого такого источника на основе подсистемы строится свой загрузчик-
интегратор, решающий соответствующую задачу загрузки и/или интеграции данных. Для каждой такой задачи конструктор загрузчика-интегратора указывает свои правила выявления и слияния дубликатов, обнаружения и исправления ошибок, вычисления недостающих атрибутов и уточнения семантики неоднозначных данных. Правила формируются в виде подключаемых алгоритмических модулей. При невозможности принять решение самостоятельно алгоритмический модуль может приостановить обработку и обратиться к пользователю - эксперту через интерфейс принятия решений.
Второй раздел посвящен описанию архитектуры загрузчика-интегратора. В начале раздела описана архитектура загрузчика-интегратора с универсальным "ядром" и подключаемыми уникальными для каждой задачи алгоритмическими модулями. Далее описывается подход, при котором полный процесс загрузки и интеграции данных декомпозируется на 6 стадий:
1. Нормализация и вычисление строковых атрибутов целевой онтологии, решение семантических ошибок и конфликтов.
2. Преобразование данных к целевой онтологии
3. Загрузка в репозиторий.
4. Идентификация ресурсов (поиск дубликатов).
5. Слияние дубликатов.
6. Приведение данных в соответствие с ограничениями целостности.
Ниже в разделе дано подробное описание каждой стадии, возможные проблемы при решении ее задачи и алгоритмы решения.
Можно утверждать, что описанный выше подход к решению задачи интеграции и загрузки информации из структурированного текста в ИС с объектной Структурой данных применим для решения любых задач в обозначенном в разделе "Постановка задачи" классе при условии, что правила преобразования данных сформулированы описанным выше способом. Описанный подход является лишь одним из возможных. В любом случае, при построении загрузчика-интегратора для конкретного источника необходимо специфицировать правила преобразования данных, и разные подходы, по сути, определяют разные способы такой спецификации. В простейшем виде, например, спецификация выражается в программном коде загрузчика, написанном "с нуля" для конкретной задачи. В описанном выше подходе это Х8ЬТ-таблица преобразования данных и набор алгоритмических модулей, содержащих, по возможности, алгоритмы - ответы на простые вопросы "как решить ту или иную
подзадачу?". Простота вопросов определяет их универсальность, то есть применимость одного решения в разных задачах. В настоящий момент в рамках проекта ИСИР разрабатывается подсистема, реализующая описанный выше подход.
Заключение
В заключении приводятся основные результаты, полученные в рамках этой диссертационной работы.
Приложение
В приложении описана модель бизнес-логики поиска для ИС Math-Net.RU. Описание дано в иллюстративных целях и содержит в силу ограниченности объема описание поиска только для одного типа ресурсов (персон).
Основные результаты работы
Настоящая диссертационная работа посвящена вопросам разработки информационных систем для науки на основе онтологической модели и подходов Semantic Web. Основные результаты работы сводятся к следующему:
• Разработан метод построения математической модели бизнес-логики поиска, применимый к большей части существующих ИС в рассматриваемом классе, и позволяющий решать задач оценки достижимости, взаимозависимости и полезности знаний, хранящихся в репозитории ИС.
• На основе описанного метода моделирования формализованы понятия достижимости и зависимости между объектами в базе знаний ИС, сформулированы и доказаны несколько утверждений, облегчающих вычисление зависимых и недостижимых объектов. Описанные результаты были успешно апробированы при создании ИС Math-Net.RU.
• На основе описанного метода моделирования сформулирована модель двухуровневой поддержки ресурсов в ИС, позволяющая корректно работать с "пограничными" для данной ИС ресурсами и знаниями. Модель была успешно использована при создании ИС Math-Net.RU, а также других ИС в проекте ЕНИП.
• Разработана модель тезауруса на основе стандартов Semantic Web и выполнена реализация поддержки тезаурусов для ИС с объектной
моделью данных. Реализация успешно использована в ИС Math-Net.RU. Работа выполнена в соавторстве с Нгуен Мань Хунг.
• Разработана универсальная подсистема администрирования объектного репозитория ИС, работающая со знаниями в терминах объектной модели и онтологии ИС, и позволяющая администрировать репозиторий ИС на платформе ИСИР с любой онтологией. Подсистема успешно применена в качестве интерфейса администрирования в ИС Math-Net.RU, а также ряде других ИС в проекте ЕНИП.
• Разработан подход к решению задач интеграции и загрузки данных в ИС с объектной моделью данных, позволяющий решать задачи интеграции, загрузки, а также устранения возможных ошибок и конфликтов в общем виде в достаточно широком классе задач. Описанный подход был частично использован при наполнении ИС Math-Net.RU. В настоящий момент в рамках проекта ЕНИП создается полнофункциональный интегратор-загузчик, работающий на основе описанного подхода.
• На основе проведенного анализа российских математических ресурсов разработана онтология предметной области для российской математики, позволяющая интегрировать российские математические ресурсы в рамках единого Общероссийского математического портала. На основе этой онтологии была создана ИС Math-Net.RU.
• Спроектирована и реализована ИС Math-Net.RU как основной компонент Общероссийского математического портала, в которой были успешно внедрены все результаты, достигнутые в этой диссертационной работе.
Публикации
Основные результаты диссертации опубликованы в следующих
работах:
1. А. С. Аджиев, Итеграция и загрузка структурированных данных в ИС на основе платформы ИСИР, Информационное обеспечние науки: новые технологии, Москва, БЕН РАН, 2005 г.
2. А. С. Аджиев, Web-ресурсы для российскх математиков, Информционные ресурсы России, 6 (76) 2003 г.
3. А. С. Аджиев, Методы моделирования и исследования бизнес-логики поиска информационных систем на основе онтологий предметных областей, Тезисы XLVIII научной конференции МФТИ, 2005 г.
4. А. С. Аджиев, А. Н. Бездушный, С. П. Коновалов, В. А. Серебряков, Общероссийский \уеЬ-портал математических ресурсов, Труды 5 Всероссийской научной конференции "Электронные библиотеки, перспективные методы и технологии, электронные коллекции" (ЖЮЬ 2003), Санкт-Петербург, 2003 г.
5. А. С. Аджиев, Нгуен Хунг Мань, Подходы к описанию и использованию тезаурусов в информационных системах, Труды 5 Всероссийской научной конференции "Электронные библиотеки, перспективные методы и технологии, электронные коллекции" (ЯССЬ 2003), Санкт-Петербург, 2003 г.
)
1
t
r
I
I
I I
Í
! I
Напечатано с готового оригинал-макета
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12 99 г. Подписано к печати 09.11.2005 г. Формат 60x90 1/16 Усл.печл. 1,0. Тираж 100 экз Заказ 750. Тел 939-3890. Тел /Факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им М.В Ломоносова, 2-й учебный корпус, 627 к.
Заключение диссертация на тему "Проектирование и реализация научных информационных систем на основе объектной модели данных. Информационная система Math-Net. RU"
4.3 Выводы
Можно утверждать, что описанный выше подход к решению задачи интеграции и загрузки информации из структурированного текста в ИС с объектной структурой данных применим для решения любых задач в обозначенном в разделе "Постановка задачи" классе при условии, что правила преобразования данных сформулированы описанным выше способом. Действительно, при описании работы загрузчика-интегратора на каждом уровне сначала формулировалась задача в общем виде, а затем приводилось ее решение, не ограничивающее ее общности.
Описанный подход является лишь одним из возможных. В любом случае, при построении загрузчика-интегратора для конкретного источника необходимо специфицировать правила преобразования данных, и разные подходы, по сути, определяют разные способы такой спецификации. В простейшем виде, например, спецификация выражается в программном коде загрузчика, написанном "с нуля" для конкретной задачи. В описанном выше подходе это ХБЬТ-таблица преобразования данных и набор алгоритмических модулей, содержащих, по возможности, алгоритмы - ответы на простые вопросы "как решить ту или иную подзадачу?". Простота вопросов определяет их универсальность, то есть применимость одного решения в разных задачах.
В настоящий момент в рамках проекта ИСИР разрабатывается подсистема, реализующая описанный выше подход.
Заключение
Настоящая диссертационная работа посвящена вопросам разработки информационных систем для науки на основе онтологической модели и подходов Semantic Web. Основные результаты работы сводятся к следующему:
• Разработан метод построения математической модели бизнес-логики поиска, применимый к большей части существующих ИС в рассматриваемом классе, и позволяющий решать задач оценки достижимости, взаимозависимости и полезности знаний, хранящихся в репозитории ИС.
• На основе описанного метода моделирования формализованы понятия достижимости и зависимости между объектами в базе знаний ИС, сформулированы и доказаны несколько утверждений, облегчающих вычисление зависимых и недостижимых объектов. Описанные результаты были успешно апробированы при создании ИС Math-Net.RU.
• На основе описанного метода моделирования сформулирована модель двухуровневой поддержки ресурсов в ИС, позволяющая корректно работать с "пограничными" для данной ИС ресурсами и знаниями. Модель была успешно использована при создании ИС Math-Net.RU, а также других ИС в проекте ЕНИП.
• Разработана модель тезауруса на основе стандартов Semantic Web и выполнена реализация поддержки тезаурусов для ИС с объектной моделью данных. Реализация успешно использована в ИС Math-Net.RU. Работа выполнена в соавторстве с Нгуен Мань Хунг.
• Разработана универсальная подсистема администрирования объектного репозитория ИС, работающая со знаниями в терминах объектной модели и онтологии ИС, и позволяющая администрировать репозиторий ИС на платформе ИСИР с любой онтологией. Подсистема успешно применена в качестве интерфейса администрирования в ИС Math-Net.RU, а также ряде других ИС в проекте ЕНИП.
Разработан подход к решению задач интеграции и загрузки данных в ИС с объектной моделью данных, позволяющий решать задачи интеграции, загрузки, а также устранения возможных ошибок и конфликтов в общем виде в достаточно широком классе задач. Описанный подход был частично использован при наполнении ИС Math-Net.RU. В настоящий момент в рамках проекта ЕНИП создается полнофункциональный интегратор-загузчик, работающий на основе описанного подхода. На основе проведенного анализа российских математических ресурсов разработана онтология предметной области для российской математики, позволяющая интегрировать российские математические ресурсы в рамках единого Общероссийского математического портала. На основе этой онтологии была создана ИС Math-Net.RU.
Спроектирована и реализована ИС Math-Net.RU как основной компонент Общероссийского математического портала, в которой были успешно внедрены все результаты, достигнутые в этой диссертационной работе.
Библиография Аджиев, Алим Сапарович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. TOVE Ontology Project, http://www.eil.utoronto.ca/enterprise-modelling/tove/
2. Ontolingua Project, http://www.ksl.stanford.edu/software/ontolingua/
3. KACTUS Project. http://hcs.science.uva.nl/proiects/Kactus/home.html
4. А. А. Бездушный, A. H. Бездушный, В. А. Серебряков, Схемы метаданных в ЕНИП: практика применения OWL в ЕНИП, Информационное обеспечние науки: новые технологии, Москва, БЕН РАН, 2005
5. The World Wide Web Consortium (W3C), http://www.w3 .org/
6. W3C Semantic Web initiative, http://www.w3.org/2001/sw/
7. Resource Description Framework (RDF), http://www.w3.org/RDF/
8. RDF Vocabulary Description Language 1.0: RDF Schema, http://www.w3 .org/TR/rdf-schema/
9. Wikipedia, the free encyclopedia, http://wikipedia.org/13.
-
Похожие работы
- Программно-аппаратный комплекс повышения производительности сетей промышленной автоматизации на основе анализа протокола
- Разработка методики построения унифицированных трехзвенных объектно-ориентированных приложений
- Разработка автоматизированной системы построения информационных моделей процессов управления пневмосистемами на базе объектно-ориентированного подхода
- Создание программной платформы T-FLEX DocsLine для построения информационной системы предприятия
- Анализ семантических свойств некоторых классов программ и сетей Петри
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность