автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и инструменты создания интегрированных цифровых библиотек

кандидата физико-математических наук
Бездушный, Анатолий Николаевич
город
Москва
год
1999
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и инструменты создания интегрированных цифровых библиотек»

Оглавление автор диссертации — кандидата физико-математических наук Бездушный, Анатолий Николаевич

1. ОБЗОР

1.1. Форматы метаданных

1.2. Организация распределенных информационных сред

1.3. Интеграция \\гев-технологий с СУБД

2. КОНЦЕПЦИЯ ИНТЕГРИРОВАННОЙ ЦИФРОВОЙ БИБЛИОТЕКИ

2.1. Основные понятия цифровой библиотеки

2.2. Метаданные

2.3. Типы ресурсов

2.4. Отношения между ресурсами

2.5. Концептуальная модель

2.6. Виды отношений

2.7. Применение отношений

3. АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ СИСТЕМЫ ИНФОРМАЦИОННЫХ РЕСУРСОВ

3.1. Метасхема ресурсов

3.2. Описание схем ресурсов

3.3. Языки запросов

3.4. Организация распределенной версии

4. \УЕВ+8<}Ь - ТЕХНОЛОГИЯ \УЕВ-ДОСТУПА К БАЗАМ ДАННЫХ

4.1. Управляющие конструкции

4.2. Взаимодействие с базой данных

4.3. Виртуальные запросы

4.4. Механизм "подпрограмм"

4.5. Пример реализации

5. РЕАЛИЗАЦИЯ И СИР РАН

6. ВЫВОДЫ

Введение 1999 год, диссертация по информатике, вычислительной технике и управлению, Бездушный, Анатолий Николаевич

АКТУАЛЬНОСТЬ РАБОТЫ в необходимости решения вопросов, связанные с тем, как объединить разрозненные данные в концептуально одну информационную систему, как организовать работу с источниками информации и обработать запросы так, чтобы помочь пользователям находить и использовать информацию, в которой они нуждаются. Работа рассматривает проблемы интеграции существующих и вновь создаваемых информационных и вычислительных ресурсов вне зависимости от числа источников, проблемы обеспечения развития информационной системы как единой структуры.

Все больше и больше пользователей согласны готовить сложные запросы, чтобы быстрее и точнее получить необходимые данные. Из-за объемов информации не возможно обработать запросы простыми способами, например, обращаясь ко всем доступным источникам. Запросы пользователей могут потребовать доступа к источникам информации, поддерживающим существенно различные интерфейсы и схемы запросов. Источники информации отличаются по типу информационных объектов, которые они содержат, по интерфейсам, которые они представляют пользователям. Одни источники содержат только текстовые документы и поддерживают простые модели запроса, например, только список ключевых слов. Другие содержат структурированные данные и поддерживают запросы в стиле реляционных интерфейсов базы данных. Таким образом, необходимо иметь дело с гетерогенными источниками информации, обеспечить унифицированные поисковые интерфейсы к множеству источников информации и поисковых систем, дав пользователям иллюзию одного объединенного источника информации. Способность объединять ресурсы, разработанные независимо друг от друга является существенным свойством выживания технологии в распределенной информационной системе.

В связи с вышесказанным значительный интерес представляет разработка и реализация распределенной информационной системы интегрированных ресурсов (ИСИР), ключевыми направлениями которой являются интеграция разнотипных ресурсов, идентификации ресурсов, использование метаданных, применение открытых стандартов взаимодействия систем, поиска, обмена и представления данных.

Целью диссертационной работы являются дальнейшее развитие понятия цифровых библиотек и разработка принципов их проектирования, позволяющих эффективно реализовать хранилища разнородных ресурсов, обеспечить интеграцию ресурсов в единое информационное пространство. Эта цель достигается посредством решения следующих задач:

1. разработка концепции формирования и интеграции разнородных информационных и вычислительных ресурсов в единое информационное пространство.

2. разработка архитектуры и технологии реализации распределенной информационной системы интегрированных ресурсов, позволяющей создавать и вести независимые, распределенные репозитории информационных ресурсов, интегрировать их ресурсы как на основе логической, так и тематической направленности, осуществлять эффективные поиск и навигацию в объединенном пространстве этих ресурсов.

3. разработка и реализация технологии создания на базе декларативных спецификаций интерактивных \УеЬ-приложений, управляющих данными БД.

4. реализация интегрированной информационной системы РАН, позволяющей объединить информационные ресурсы РАН в единое информационное пространство. Решение этих задач должно позволить осуществить объединение в единое пространство всевозможных цифровых библиотек, информационных и вычислительных систем, использующих как собственные принципы организации, так и предложенную технологию.

Ключевыми моментами в реализации ИСИР являлись:

• Логическая группировка данных - система должна позволять обрабатывать все запросы на логических группах баз данных, полностью скрывая тем самым физическое расположение последних.

• Абстрактная модель данных - информационная система должна строиться на основе абстрактной схемы данных, на которую должны быть отображены конкретные базы данных, что позволяет объединять данные из разнородных систем в одной логической группе.

• Абстрактная система запросов - система должна оперировать не конкретным синтаксисом запросов, а его логической сутью на основе абстрактных ресурсов и их атрибутов.

• Метаинформация - система должна владеть полной информацией о себе и обо всех своих ресурсах.

• Работа с распределенными данными - информационная система должна допускать возможность работы с данными, расположенными на разных физических серверах, различных аппаратно-программных платформах.

• Связь с другими системами - возможность системы интегрировать свои ресурсы с ресурсами одних информационных систем и взаимодействовать с другими при осуществлении поиска информации.

• Открытость - система должна легко расширяться и быть основана на открытых стандартах и протоколах.

• Разграничение доступа - система должна быть способна предоставлять различные уровни доступа к информации для различных пользователей.

• Легкость в общении - для пользователей система должна предоставлять простые, удобные интерфейсы поиска и доступа к информации, важнейшим среди которых является \¥ЕВ-интерфейс.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ. Работа состоит из пяти глав. Первая глава содержит обзор различных способов публикации информации, ее поиска и извлечения, организации систем их поддерживающих. Вторая глава посвящена описанию и обоснованию предлагаемой концепции интегрированной цифровой библиотеки, принципам ее организации. Даются определения основных терминов и понятий цифровых библиотек. В третьей главе описывается инфраструктура и архитектура информационной системы интегрированных ресурсов, в основе которой лежит изложенная во второй главе концептуальная модель, исходящая из того, что ресурс характеризуется набором присущих ему атрибутов и совокупностью взаимоотношений с другими ресурсами. Это позволяет воспользоваться хорошо себя зарекомендовавшими принципами информационного моделирования и обеспечить автоматическое построение и корректной схемы базы данных, и приложения цифровой библиотеки, выполняющего предопределенные операции с ней. В четвертой главе рассматривается высокоуровневый механизм интеграции Web-технологий с СУБД, использовавшийся в реализации системы ИСИР РАН. В пятой главе рассматривается выполненная реализация ИСИР РАН, осуществленная на вышеизложенных принципах и механизмах. Система позволяет через Web-интерфейс создавать новые ресурсы, редактировать их свойства, искать ресурсы по значениям их атрибутов. Можно осуществлять навигацию в пространстве ресурсов, просматривая сведения о них, загружая их содержание. Система реализована на платформах UNIX (Solaris) и MS Windows/NT, использует RDBMS Oracle и Oracle Web-сервер.

1. Обзор

Эта глава содержит обзор различных способов публикации информации, ее поиска и извлечения, организацию систем их поддерживающих. Все эти способы имеют свои сильные и слабые стороны. Несмотря на полезность этих подходов, ни один из них не является настолько универсальным или эффективным, чтобы не существовала потребность в других решениях.

1.1. Форматы метаданных

Как правило, для обеспечения эффективной автоматической обработки информационных ресурсов используются не сами ресурсы, а некоторые их описания, которые представляют собой наборы именованных значений, существенных для обработки этих ресурсов. Такие описания называют метаданными ресурсов. В работах[1,2] к метаданным относят уникальный идентификатор ресурса, отличающий его от любых других ресурсов в соответствующей сетевой среде. С этими ключевыми понятиями цифровых библиотек связаны и основные проблемы.

В основе проблемы уникальной идентификации ресурсов лежат две задачи.

• Обеспечение гарантии бессрочного существования имени. Какая форма именования должна быть создана, чтобы она могла использоваться всегда? Какая форма переживет Интернет и текущие программные и аппаратные средств?

• Обеспечение гарантии уникальности - два различных имени должны относиться к двум различным ресурсам.

С технической точки зрения понятие "всегда" не существует. Поэтому можно говорить о фиксированном сроке службы имени и механизме, который будет обеспечивать переход ресурсов и имен в новую форму прежде, чем этот срок службы истечет. Механизм должен быть в состоянии обеспечивать модификацию идентифицируемых ресурсов по мере перехода к новой форме, что на данный момент не представляется возможным.

Сейчас можно говорить только о поддержке служб, которые возьмут на себя задачи обеспечения выдачи и разрешения уникальных имен, которые займутся разработкой механизмов для облегчения перехода к новым формам вместе с развитием технологий. Принципы универсального имени ресурса (URN - uniform resource ñame), призванного идентифицировать информационные ресурсы вне зависимости от их местоположения в Интернет, сформулированы IETF (Internet Engineering Task Force) [19] в 1994 г в работах [20,21,57,58]. На текущий момень имеется ряд реализаций систем именования и их Интернет поддержки, например, Handle System [22], DOI [23].

В основе проблемы метаданных самым трудным является вопрос о том, что должно быть элементами метаданных. С ответом на этот вопрос связаны жесткие решения о том, какая информация должна собираться, кто в состоянии ее собирать, что полезно для поиска сегодня и будет полезно в будущем и т.п. Это предполагает стандартизацию имен элементов и стандартизацию представления метаданных, преобразования их. Подобные вопросы могут решаться только в соответствии с общепринимаемыми соглашениями, которые требуют большое количество участников и усилий. Естественно, результаты этих соглашений будут постоянно подвергаться изменением. На текущий момент международное сообщество уже внесло ряд предложений о составах элементов метаданных, например, DC (Dublin Core)[3,4], IMS (Instructional Management Sys-tems)[59], GILS (Global Information Locator Service)[58], MDIS (Metadata Interchange Spécification) [56] и другие.

Другие проблемы метаданных связаны с записью, как самих метаданных, так и описаний их элементов, в общепринимаемой форме, которая может быть использована компьютерами для осуществления поиска ресурсов и обмена метаданными. Эти задачи уже имеют вполне приемлемые решения. Так IETF (Internet Engineering Task Force) активно предлагает методику описания ресурсов (Resource Description Framework - RDF) [12,13], сообщество OMG (Object Management Group) - технологию Meta Ôbject Facility [9], группы XMI/SMEF (XML Metadata Interchange)[18] и MDC (Meta Data Coalition) выдвигают MDIS [56].

Ведутся работы по стандартизации ведения реестров метаданных, базирующаяся на таких стандартах как ISO/IEC 11179 (Spécification and Standardization of Data Elemente), ANSI dpANS X3.285 и Metamodel for the Management of Shareable Data (является развитием ISO/IEC 11179). Они должны обеспечить взаимодействие между различными наборами элементов и отображение данных одного набора в другой. Предполагается обеспечить Web-доступ к этим реестрам метаданных через человеческий и машинный интерфейсы, базирующиеся на форматах HTML, XML[10,11], RDF (Resource Description Framework) [12,13], CORBA (Common Object Request Broker Architecture) [8].

Рассмотрим ряд форматов метаданных для описания информационных ресурсов с тем, чтобы сравнить их свойства, характеристики, области применимости, определить текущие тенденции и подходы к кодированию метаданных, технологий их применения и расширения.

Основой всех видов индексации и каталогизации Интернет документов служат слова элементов документов. Это могут быть просто слова документа или отмеченные некоторым образом слова, например, слова из оглавлений, выделенные в документе слова. Если обрабатываемый документ является размеченным документом, то могут использоваться слова, отмеченные определенными тегами, значения атрибутов специальных тегов и т.п. В спецификации HTML с версии 2.0 [57] был введен элемент МЕТА, предназначенный для записи парных элементов "название/значение", описывающих свойства документа, указывающих некоторую информацию о HTML документе в целом. Атрибут NAME этого элемента определяет название некоторого свойства, а CONTENT - соответствующее ему значение. К сожалению, по ряду причин использование тега не получило приемлемого распространения. Одним из препятствий на пути организации индексации/каталогизации HTML страниц на основе элемента МЕТА стало не корректное использование элемент МЕТА, когда МЕТА-описания HTML страниц использовались для привлечения к ним внимания, а не для представления свойств документа. В результате многие из поисковых систем отказались от использования МЕТА-описания. Другой существенной причиной было отсутствие простого общепринятого стандарта для описания метаданных. Разные системы использовали разные имена свойств. Многие из использовавшихся свойств имели иные цели, чем не описание свойств "поисковых" документов.

Для точного описания ресурсов можно использовать развитые форматы такие, как библиотечные MARC (Machine Readable Cataloguing) [52,53] форматы (USMARC [54], UNIMARC[55], UKMARC, RUSMARC), GILS[58] и т.д. [35]. Эти форматы позволяют детально каталогизировать информационные ресурсы, но именно эта детализация затрудняет его использование. Форматы содержат большое количество данных, связанных с технологическими процессами традиционных библиотек, например, хранением, сопровождением. Неспециалисты не смогут им воспользоваться без соответствующего обучения, как самому формату, так и правилам работы с ним. Стоимость создания таких записей метаданных очень высокая. Она может быть оправдана только при каталогизации ресурсов традиционных библиотек.

Было предложено несколько существенно более простых форматов описания информационных ресурсов, работа с которыми не требует серьезного предварительного обучения, ориентированных на то, чтобы соответствующие описания могли формироваться обширной коалицией лиц, организаций, вовлеченных в создание Интернет ресурсов. К таким форматам относятся форматы: RFC 1807[32] - формат для обмена библиографическими записями научных, технических отчетов по электронной почте,

IAFA[36] - формата записей для описания разнообразных ресурсов FTP-архивов, S0IF[33] - формат для сбора информации о подлежащих индексированию ресурсов, DC(RFC2413) [3,4] - международная и междисциплинарная попытка определить набор элементов описания электронных информационных ресурсов, который был бы ориентирован на обнаружение и простую каталогизацию этих ресурсов.

RFC 1807 был предложен IETF в 1995 как ревизия RFC 1357 (1992). Формат использует самообъясняющие метки для обозначения вида поля. Формат не определяет правил обработки записей и не предназначен для использования в соответствии со специфическими правилами каталогизации. Были реализованы программы преобразования RFC 1807 записей в записи USMARC, и обратно. Формат применялся системами Dienst университета Cornell (проект NCSTRL) и SIFT (newsgroups) университета Stanford.

Формат SOIF (Summary Object Interchange Format) [33] был создан в рамках системы Harvest[14] университета Colorado (Boulder) для сбора информации о подлежащих индексированную Интернет ресурсах, для обмена данными между компонентами Gatherer and Broker этой системы. Это внутренний формат системы Harvest и связанных с ней систем. Благодаря широкому употреблению формат является де-факто стандартом. Большинство записей в формате SOIF сгенерировано автоматически роботами Gatherer. Формат допускает введение новых элементов. Компания Netscape Communications намеревалась использовать SOIF для своего сервера каталогов. Формат был положен ею в основу предложений RDM (RDM - Resource Description Messages)[34], описывающих механизм и формат сообщений для обмена метаданными о сетевых ресурсах. Идеи RDM использовались при разработке методики описания Интернет ресурсов RDF [12,13]. Протокол мета-поиска STARTS[15] использует формат SOIF для кодирования запросов и результатов запросов. К недостаткам формата следует отнести то, что он не имеет концепций структуризации и вложения элементов, не имеет средств поддержки связей между ресурсами, кроме URL-ссылок, указывающих на описываемые ресурсы.

IAFA-шаблоны [36] были разработаны рабочей группой IAFA (Internet Anonymous FTP Archive). Целью проектирования было создание формата записей, которые могли бы быть использованы для описания разнообразных ресурсов FTP-архивов. В последнее время сторонники IAFA-шаблонов направляют свои усилия на то, чтобы расширить первоначальное предназначение шаблонов. Шаблоны используются, например, системами WHOIS++[40], ALIWEB[38], ROADS[39], Предлагается использовать несколько типов шаблонов, составляющих наборы пар (атрибут, значение). Типы ресурсов идентифицируются типом шаблона, каждый из которых имеет рекомендуемые имена атрибутов для представления соответствующих свойств ресурсов. Подготовлены шаблоны для разнобразных категорий информации таких, как мультимедийные данные, документы, списки адресов, базы данных, пакеты программ и т.д. IAFA-шаблоны для документо-подобных ресурсов (включающих документы, наборы данных, почтовые архивы, архивы новостей, программные пакеты, мультимедийные данные и т.п.) имеют один и тот же самый набор рекомендуемых атрибутов. Другие типы шаблонов (персоны, организации, сервисы, серверы, архивы) могут иметь свои специфические атрибуты. Записи имеют простую структуру - нет ни подполей, ни квалификаторов, связанных с атрибутами. Допускается введение новых типов шаблонов, расширение существующих наборов атрибутов шаблонов, однако, такие изменения должны согласовываться между системами, использующими их. Чтобы обеспечить эффективную, автоматическую обработку (индексацию и поиск), шаблоны записываются в текстовой форме и имеют простой синтаксис. Определены правила записи ряда типов значений атрибутов. Имеется механизм группировки спецификаций свойств. Для ресурсов, имеющих одновременно несколько различных форматов представлений (PostScript, PDF, HTML), возможно, с различным местоположением можно определять так называемые группы вариантных полей. Этот способ описания метаданных прост в использовании, позволяет описывать разнообразные Интернет ресурсы, обладает рядом возможностей структуризации описаний, но в нем отсутствуют средства глобальной идентификации ресурсов, возможности выражения отношений между ресурсами. Разнообразие в применении этих правил, недостаточная их детализация в сравнении с традиционными руководствами по каталогизации неизбежно приводят к несовместимости на практике.

Dublin Core Metadata Set (DC) является наиболее известным и успешным предложением по составу элементов метаданных. Это международная и междисциплинарная попытка определить набор элементов описания электронных информационных ресурсов, который бы ориентирован на их обнаружение и простую каталогизацию. С самого начала деятельности по созданию DC работа была ориентирована на создание не большого, простого набора полей, необходимых только для обнаружения "похожих на документы" объектов (DLO - document-like objects). Считалось, что интеллектуальное содержание DLO, прежде всего, представлено текстом, что он может иметь сложное строение, включать разнообразные бинарные данные. Полагалось, что DLOs наиболее распространенный вид ресурсов, что решение для них может быть приспособлено и для других видов ресурсов. Разработка формата следовала следующим принципам:

Формат должен быть прост в использовании, как для непрофессиональных пользователей, так и для программных приложений.

Формат должен описывать внутренние свойства ресурса, а не свойства контекста, в котором он используется.

Необходимо иметь механизм расширения описательных возможностей формата, позволяющий сохранить обратную совместимость с исходным форматом.

Все элементы должны иметь ясные достаточно общие определения, которое могут быть модифицированы, изменены с помощью необязательных квалификаторов. Все элементы формата должны быть не обязательными и повторяться неограниченное число раз.

Модель метаданных, принятая в DC, включает понятие одного или нескольких пакетов метаданных, содержащих некоторое количество элементов метаданных. Каждый элемент имеет явные или неявные под-элементы (компоненты), то есть обладает внутренней структурой.

Элемент - это некоторая характеристика или атрибут ресурса. Каждый элемент, определенный в DC, имеет некоторое семантическое значение. Он может определять допустимые значения, типы ресурсов, которые он может описывать, его отношение с другими элементами. Значения элементов необходимо различать по видам описываемого содержимого, то есть в некоторой смысле указывать семантику значений. Такое разделение значений обеспечивается именованием элементов. Дополнительная систематизация значений осуществляется с помощью квалификаторов, указывающих, к какому под-элементу относится значение. Квалификаторы уточняют или характеризуют интерпретацию значений элемента.

Квалификаторы элементов дают возможность определять аспекты рассматриваемого ресурса с большей точностью, с большей спецификой, чем предлагается элементами. Квалификатор элемента рафинирует, уточняет семантику элемента, чтобы точнее указать отношение элемента к ресурсу. Квалификатор элемента не изменяет определение элемента, не модифицирует его значение. Квалификатор значения определяет способ, в соответствии с которым значение закодировано. Обычно это указывается ссылкой на список разрешенных термов, описание формата, правил разбора. В DC модель, по крайней мере, в ее RDF реализации введено понятие компонент значения. Компоненты значения позволяют сгруппировать воедино части описания ресурса, рассматриваемые как аспекты (компоненты) некоторого целого, не зависящие от описываемого ресурса. Компоненты значения внутренне присущи значениям вне зависимости от их связи с конкретным ресурсом. Они являются семантическими характеристиками значения.

Такое определение модели метаданных и приведенных квалификаторов позволяет использовать формат DC в его стандартной простой форме и для сложных локальных описаний, за счет введения собственных значений классификаторов элементов. В настоящее время стандартизирован только набор элементов DC из 15 элементов. Однако, работа над стандартом продолжается. Перечень квалификаторов пока не полностью определен.

Интересной технологией описания Интернет ресурсов является методика RDF[12,13], которая предлагается W3C в качестве стандартного базиса для определения и обработки метаданных Web-pecypcoe. Существенное влияние на разработку этого формата оказали концепции инициатив DC и Warwick Framework[41,42], Основная цель RDF состояла в том, чтобы определить механизм описания ресурсов, который не делал никаких предположений относительно специфики предметной области, но был бы удобным для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о ресурсах, но и о самих утверждениях. Семантика используемых в RDF описаниях слов, задается с помощью ссылок на так называемые RDF схемы, которые можно рассматривать как своего рода словари. Схема определяет термины, которые могут быть использованы в RDF утверждениях, позволяет специфицировать их значения, используя механизм формирования типов (RDF Schema), чтобы обеспечить автоматическую обработку метаданных.

Заключение диссертация на тему "Методы и инструменты создания интегрированных цифровых библиотек"

Основные результаты, полученные в диссертационной работе, состоят в следующем:

1. Разработана концепция формирования и интеграции разнородных информационных и вычислительных ресурсов в единое информационное пространство. Концепция ориентирована на использование специально подготавливаемых описаний ресурсов (метаданных).

2. На основе предложенной концепции разработана открытая архитектура распределенной информационной системы интегрированных ресурсов. Архитектура дает возможность создавать и вести независимые, распределенные репозитории информационных ресурсов, интегрировать репозитории и ре-, сурсы как на основе логической, так и тематической направленности, осуществлять эффективный поиск в этом пространстве.

3. Предложен язык описания ресурсов цифровой библиотеки, их связей, служб цифровой библиотеки, позволяющий настраивать систему на необходимую предметную область. Разработан механизм его реализации.

4. Разработана и реализована технология создания на основе декларативных спецификаций интерактивных \УеЬ-приложений, управляющих данными в базах данных.

5. Осуществлена интеграция технологии \¥еЬ+80Ь с рядом \УеЬ-серверов.

6. На основе предложенных технологий реализована интегрированная информационная система РАН, позволяющая объединить информационные ресурсы РАН в единое информационное пространство.

Степень новизны результатов состоит в том, что разработана концепция формирования и интеграции разнородных информационных и вычислительных ресурсов в единое информационное пространство, на основе которой предложена открытая архитектура 'информационной системы интегрированных ресурсов. Предложены механизмы реализации информационной системы интегрированных ресурсов. Реализованы технология декларативной разработки интерактивных интегрированных с СУБД \УеЬ-приложений и интегрированная информационная система РАН.

Предложенные технологии позволяют существенно увеличить производительность труда при создании и поддержке цифровых библиотек и \Veb-приложений, обеспечивают маштабируемость этих приложений. Результаты диссертации могут быть использованы при разработке и реализации цифровых библиотек и ШеЬ-приложений.

Публикации по теме диссертации насчитывается четыре работы.