автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Модель генерации и публикации информации при создании WEB-ориентированных информационных систем

кандидата технических наук
Гуськов, Андрей Евгеньевич
город
Новосибирск
год
2005
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Модель генерации и публикации информации при создании WEB-ориентированных информационных систем»

Автореферат диссертации по теме "Модель генерации и публикации информации при создании WEB-ориентированных информационных систем"

На правах рукописи

ГУСЬКОВ Андрей Евгеньевич

МОДЕЛЬ ГЕНЕРАЦИИ И ПУБЛИКАЦИИ ИНФОРМАЦИИ ПРИ СОЗДАНИИ \УЕВ-ОРИЕНТИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ

Специальность 05.25.05 — Информационные системы и процессы, правовые аспекты информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени

Новосибирск — 2005

Работа выполнена в Институте вычислительных технологий СО РАН.

Научный руководитель: член-корреспондент РАН

Федотов Анатолий Михайлович

Официальные оппоненты: доктор физико-математических наук

Марчук Александр Гурьевич

кандидат физико-математических наук Жижимов Олег Львович

Ведущая организация: Институт динамики систем и

теории управления СО РАН (г. Иркутск)

Защита состоится 1 июля 2005 года в 9:30 на заседании диссертационного совета Д 003.046.01 при Институте вычислительных технологий СО РАН по адресу: 630090, Новосибирск, пр. академика М А. Лаврентьева, дом 6 Телефон: (3832) 331882, Факс: (3832) 306342 E-mail: dsovet@ict.nsc.ru

С диссертацией можно ознакомиться в читальном зале вычислительной математики и информатики отделения ГПНТБ и ИВТ СО РАН.

Автореферат разослан 27 мая 2005 года.

Ученый секретарь диссертационного совета

доктор физико-математических наук Чубаров Леонид Борисович

Актуальность темы. Являясь одним из самых значительных достижений XX века, Интернет в настоящее время представляет собой главный программно-организованный информационный ресурс человечества. Его огромный потенциал постоянно предлагает эффективные решения задач, так или иначе связанных с обменом информацией. В данной работе рассматривается одна из таких задач: разработка информационных систем (ИС), которые, среди прочего, реализуют функции хранения информации (как правило, в виде наборов данных) и ее предоставления запрашивающим клиентам — программным агентам, осуществляющим доступ к услугам ИС. При этом возникает проблема разных требований клиентов к формату предоставления информации, что осложняет организацию взаимодействия между различными ИС. Также может быть затруднено и осуществление эффективного поиска, поскольку документы, предназначенные для прочтения человеком, и документы, пригодные для семантического анализа поисковыми агентами, должны быть опубликованы в разных форматах, которые соответствуют требованиям клиентов.

Поскольку одну и ту же информацию можно представить и передать различными способами в зависимости от возможностей ее отправителя и потребностей получателя, то при разработке ИС большую роль играют средства, используемые для организации обмена информацией с клиентами. На практике архитектура ИС основывается на схеме отображения данных из внутреннего хранилища, обычно управляемого СУБД, в конечный документ. При этом внимание акцентируется на том, как составить документ, а не на том, что является его содержанием. В следствие этого, ИС оказываются спроектированными в расчете на определенный тип клиентов, удовлетворяющий специфичным требованиям; обслуживание других клиентов производится не эффективно.

Также в данной архитектуре трудно указать уровень, на котором может быть организовано информационное пространство, являющееся основным источником содержательного наполнения информационных ресурсов. Традиционно, вместо него определяется уровень баз данных, на котором посредством функций СУБД выполняются поисковые запросы. Но идеология СУБД предполагает выполнение операций только со структурами данными. Поэтому данный подход не может реализовать полноценный информационный поиск, предоставляющий среду для создания гибких поисковых запросов, включающих не только структурные отношения, но и отношения более высокого семантического порядка, такие как "часть-целое" или "синоним".

Особый интерес представляет интерпретация понятия информация. В классической теории информации это понятие рассматривается с точки зрения количественных характеристик (энтропии, вероятностного распределения), которые малопригодны при изучении моделей ее представления. В конце 60-х годов появились работы о двух качественных моделях представления знаний: фреймовых моделях (М. Минский) и семантических сетях ,(А_Кашщнс,_Р. Квиллиан). В настоящее время, в связи с появлением болыпо источников

информации, наиболее активно проводятся исследования семантических сетей. Особо нужно выделить проект WWW-консорциума Semantic Web, целью которого является создание глобального информационного пространства, где возможны качественно новые решения проблем информационного поиска и обмена. Для этого предлагается использовать концепцию семантических сетей, которая ляжет в основу унифицированной среды представления информации вместе с ее предельной семантической детализацией. Всеобщий интерес, участие ведущих специалистов и компаний, динамичное развитие и большое число связанных с данным проектом задач в области сбора, хранения, передачи и представления информации подчеркивает несомненную актуальность темы.

Существующие технологии, которые решают задачи публикации информаг ции, адаптированной к требованиям клиентов (например, программный продукт Apache Cocoon), практически не затрагивают вопросы, связанные с информационным поиском. С другой стороны, в контексте проекта Semantic Web до сих пор недостаточно внимания уделялось проблемам отображения данных из таблиц реляционных СУБД в семантические сети, а также отображения семантических сетей в документы различных форматов.

Данная работа поддерживает основные идеи проекта Semantic Web и предлагает технологию публикации информации, основанную на адаптации функционирования ИС к потребностям клиентов. Суть этого подхода заключается в выделении в архитектуре ИС информационного уровня, который обеспечивает унифицированный источник информации, и презентационного уровня, который определяет правила создания конечных документов, что дает возможность повысить эффективность обмена информацией. Также данная технология позволяет отказаться от дублирования программ, генерирующих документы, которые имеют одинаковое содержание, но предназначены для разных клиентов, благодаря чему уменьшаются затраты на разработку ИС в целом. Особую актуальность задача приобретает для разработки web-ориентированных ИС, предоставляющих информацию для пользователей и узко специализированных программных агентов, функционирующих в рамках Semantic Web.

Предметом исследования являются способы электронного представления информации и технологии построения ИС.

Цель исследования. Разработать технологию построения ИС, в которых информация публикуется в виде электронных документов различных форматов на основе ее внутреннего представления посредством семантических сетей На базе этой технологии предложить процедуру гибкого поиска документов, основанную на использовании семантических сетей

Для достижения этой цели в диссертации последовательно решены следующие задачи:

1 определены требования, предъявляемые к современным информационным системам;

2. создана модель электронного документа, в которой реализовано представление информации в виде семантической сети и правила ее отображения в целевой формат;

3. создана и исследована модель информационной системы, позволяющая представлять одну и ту же информацию в виде документов различных форматов;

4 разработана технология создания информационных систем, реализующих предложенные модели;

5 предложенная технология апробирована на реально функционирующих информационных системах.

НА ЗАЩИТУ ВЫНОСЯТСЯ:

1. Модель электронного документа, позволяющая публиковать информацию в виде гипертекстовых документов, схем данных и семантических сетей.

2. Модель шаблонной мультистилевой информационной системы, использующая предложенную модель электронного документа.

3. Технологическая платформа SMART1 для создания web-ориентированных информационных систем, в основу которой положено внутреннее представление документов на базе языка описания ресурсов RDF2.

4 Информационная система "Конференции", которая была создана на основе предложенной технологии SMART.

Научная новизна работы состоит в-

1. Классификации способов электронного представления информации в виде электронного документа и определении трехкомпонентной модели документа, применимой для любого из рассмотренных способов.

2. Разработке оригинальной технология создания ИС, основанной на использовании семантических сетей в качестве средства для внутреннего представления информации.

3. Исследовании одного из наиболее востребованных сервисов для ИС — информационного поиска. Предложенная технология разработки ИС включает оригинальную методику создания единого информационного пространства на основе семантических сетей для заданной предметной области, над которым реализован поисковый сервис, предоставляющий качественно новые возможности по сравнению с аналогичными традиционными сервисами.

Практическая значимость. На основе предложенной технологии разработана ИС "Конференции", которая функционирует в Институте вычислительных технологий СО РАН и активно используется рядом институтов Сибирского отделения для повышения эффективности научно-организационной деятельности Разработана и внедрена в Институте химии и кинетики горения СО РАН

'SMART: System for Managing Application based on RDF Technology

2RDF. Resource Description Framework

информационно-вычислительная система (ИВС) Атплас "Атмосферные аэрозоли Сибири", которая позволяет оценить влияние антропогенных и естественных источников на изменение характеристик атмосферных аэрозолей, способствуя решению различных задач экологии и охраны окружающей среды

Разработанный метод семантического поиска информации в рамках отдельной ИС допускает масштабирование и применение в любой распределенной среде. Поэтому в перспективе полученные результаты могут быть использованы при создании глобальных информационно-поисковых сервисов, функционирующих в рамках идеологии проекта Semantic Web.

Методика исследования. В работе используются методы и результаты теории информации и информационных процессов, теории графов, семантических сетей, аппарат порождающих грамматик. При реализации комплекса программного обеспечения применены методологии структурного, объектно-ориентированного и декларативного программирования, технологический инструментарий прикладного программирования.

Достоверность и обоснованность. Достоверность и обоснованность результатов диссертации определяются

• использованием открыто опубликованных материалов исследований и корректным применением представленных в них результатов;

• сопоставлением основных положений работы с результатами решения аналогичных задач другими исследователями;

• внедрением и практическим использованием разработанных информационных систем.

Личный вклад автора. Основные теоретические и практические результаты, изложенные в работе, получены лично автором. В частности, предложена оригинальная модель формирования документов, основанная на внутреннем представлении информации посредством семантических сетей Автор принимал непосредственное участие в постановке задач, принятии концептуальных и технологических решений, разработке и анализе моделей, обсуждении результатов На основе предложенной модели автором разработаны и внедрены информационные системы для научно-организационной и научно-исследовательской деятельности.

Апробация результатов. Основные положения диссертации обсуждались на

VIII Международной конференции по электронным публикациям "EL-Pub2003",

IX рабочем совещании по электронным публикациям "EL-Pub2004" (Новосибирск, 2003, 2004), Восьмой Международной конференции по электронным публикациям (Бразилия, 2004), Двенадцатой Международной конференции по вычислительной математике и современным прикладным программным системам (Владимир, 2003), Международной научно-практической конференции "Развивающее образование XXI века" (Горно-Алтайск, 2003), III и IV Всероссийских конференциях

молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2002, Красноярск, 2003), Международной конференции "Вычислительные и информационные технологии в науке, технике и образовании" (Усть-Каменогороск, 2003), конференциях молодых ученых, посвященных М А.Лаврентьеву (Новосибирск, 2003, 2004), Международной конференции по измерениям, моделированию и информационным системам для изучения окружающей среды (Томск, 2004), XLI Международной научной студенческой конференции "Студент и научно-технический прогресс" (Новосибирск, 2003) и др.

Публикации. Основное содержание диссертации отражено в 10 работах. Опубликованы 4 статьи в журналах [1-4], 5 докладов в сборниках трудов российских и международных конференций [5-9], одно руководство по эксплуатации [10].

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы из 93 наименований и приложений Объем диссертации составляет 125 страниц (150 страниц с учетом приложений).

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.

Во введении обосновывается актуальность темы диссертационной работы, формулируются основные положения и цель, а также задачи исследования Определяется научная новизна, практическая значимость, приводятся основные результаты работы.

В первой главе исследуется текущее состояние проблем в области обработки информации при создании ИС Рассматриваются обобщенные понятия информации и информационного обмена, лежащие в основе любой ИС. Выделены три основные способа представления информации для ее передачи в виде электронного документа — ресурса, который выступает в роли носителя информации и обладает внутренней структурой и описанием:

1. Документы, содержащие тексты на естественном языке, которые обычно требуют наличие специализированного программного обеспечения для отображения в читаемом виде.

2. Документы, хранящие данные согласно определенным схемам, применяются для представления структурированной информации посредством отношений типа "атрибут-значение".

3. Документы, представляющие информацию посредством семантических сетей, применяются для ее полного и формализованного описания, доступного для анализа программным алгоритмам.

Выполнен сравнительный анализ этих подходов, выделены наиболее характерные области их применения. При этом особое внимание уделено семантическим сетям — структурам данных, состоящим из узлов, соответствующих понятиям, и связей, указывающих на отношения между узлами. Отмечено, что семантические сети являются, своего рода, расширением концепции схем данных, в котором определены средства формального описания предметной области. В частности,

рассмотрены расширяемый язык разметки XML3, используемый преимущественно при работе со схемами данных, и язык описания ресурсов RDF, который в настоящее время является наиболее популярной реализацией семантической сети Показано, что применение схем данных целесообразно только в случае, если для участников информационного обмена существует возможность согласовать используемую схему, те. определить и зафиксировать семантическую интерпретацию всех структурных элементов передаваемых документов. В децентрализованной распределенной среде, какой, к примеру, является Web, это не всегда возможно; в таких случаях для достижения большей эффективности взаимодействия программных агентов и, как следствие, обеспечения качества предоставляемых информационных услуг, следует применять технологии, основанные на использовании семантических сетей.

В качестве иллюстрации обоснованности этого утверждения рассматривается наиболее популярный сервис — информационный поиск. В соответствии с указанными способами публикации информации выделены три модели поиска документов' контекстный (К), атрибутный (А) и семантический (С) Рассмотрены их свойства и показано, что качество поиска напрямую зависит от того, насколько структурировано и формализовано была описана публикуемая информация

Рассматривается понятие информационной системы, как системы, публикующей информацию (или данные), содержащуюся в локальном хранилище под управлением СУБД, в виде электронных документов и функционирующей в рамках технологии "клиент-сервер" Приводятся несколько основных парадигм, которые к настоящему времени считаются общепринятыми концепциями, используемыми при разработке ИС. В частности, концепция трехслойной архитектуры приложений предполагает выделение слоя данных, слоя бизнес-логики и слоя презентации. Для реализации функциональности компонент слоя данных и слоя бизнес-логики обычно применяются императивные языки программирования с алгоритмической основой (PHP, Java, С#), для компонент презентационного слоя могут использоваться описания на декларативных языках (языки на основе XML) При этом процесс формирования целевого документа по поступившему запросу включает в себя процедуры извлечения необходимых данных, генерации информационного наполнения документа и его последующего приведения к известному формату.

Формулируется следующий список общий требований, которым должна удовлетворять информационная система:

• Поисковый сервис — ИС должна предоставлять возможность поиска документа по некоторым признакам Рассматриваются три возможные модели поиска, перечисленные выше

• Политика ограничения доступа — ИС должна иметь подсистему аутен-

3XML extensible Markup Language

тификации клиентов и обеспечивать различные уровни доступа к информации.

• Условие локализации — возможность предоставлять информацию согласно указанным региональным настройкам. Локализованные версии могут отличаться между собой языком, на котором описана информация, форматами записи чисел, денежных единиц, даты и времени.

• Экспорт информации — ИС должна предоставлять информацию в формате, наиболее приемлемом для пользователя.

• Импорт информации — ИС должна быть способна запрашивать и использовать информацию из внешних источников.

Выделены три основных класса технологических платформ для разработки ИС: системы управления контентом (CMS), системы публикации документов и технологии создания порталов. Приведены их характеристики и указаны области применения, при этом основное внимание акцентировано на классе систем публикации документов, которые позволяют с минимальными затратами ресурсов создавать ИС, содержащие большие объемы актуальной информации.

Характеристика CMS Скрипты Cocoon Z39.50 SMART

Поисковые сервисы К А К,А А К,А,С

Политики доступа + + - + +

Импорт - + + +

Экспорт - - + + +

Локализация - + - + +

ШВ-ориентированность + + + - +

Гипертекстовые документы + + + + +

Схемы данных - + + + +

Семантические сети - - - - +

Таблица 1: Сравнительные характеристики технологий разработки информационных систем: CMS - Системы управления контентом; Скрипты - Информационные системы на основе скриптов; Cocoon - Технология публикации документов Apache Cocoon; Z39.50 - Сервера на основе протокола Z39.50; SMART - Технология SMART

Для указанного класса рассмотрены несколько наиболее популярных технологических платформ. Определена степень соответствия ИС, создаваемых на их основе, предъявленным требованиям (таб. 1). Введены признаки, которые рассматриваются как дополнительные требования к таким технологиям:

• WIS-opиeнтиpoвaннoй считается технология, которую можно легко применить для создания \теЬ-ориентированных ИС.

• Технология применима для создания ИС, публикующих информацию в виде гипертекстовых документов.

• Технология применима для создания ИС, публикующих информацию, которая представлена схемами данных.

• Технология применима для создания ИС, публикующих информацию в виде семантических сетей.

Исследования показали, что используемые до настоящего времени технологии разработки ИС не предназначены для оперирования информацией в терминах семантических сетей, тогда как этот подход способен предоставить качественно новые решения различных задач в области информационного обеспечения. Поэтому задачу разработки технологии создания ИС, публикующих информацию как в виде гипертекстовых документов и схем данных, так и в виде семантических сетей, следует признать актуальной.

Выводы, представленные в первой главе:

1. Выделены три основных способа электронного представления информации для осуществления обмена, имеющие разные особенности и области применения:

• тексты на естественном языке, используются для обмена информацией между людьми; неэффективны для автоматизированной программной обработки существующим инструментарием;

• схемы данных, - используются для обмена наборами данных между программными агентами; могут быть применены к данным с фиксированной предопределенной структурой;

• семантические сети, - используются для обмена информацией между программными агентами в случаях, когда применение схем данных нецелесообразно, предоставляют модель формального описания информации в терминах понятий и отношений между ними.

2. Для построения эффективных поисковых сервисов в глобальной, распределенной, децентрализованной среде Интернет в ряде случаев оптимально использовать представление информации в виде семантических сетей

3. Существующие традиционные технологии для создания ИС эффективно применимы для публикации документов, содержащих тексты на естественном языке и/или наборы данных; при этом они не могут использоваться для публикации информации в виде семантических сетей

4 В заключении формулируется цель исследования, которая состоит в разработке технологии создания ИС, поддерживающих публикацию информации любым из указанных способов. При этом следует уделить внимание исследованию возможности использования семантических сетей для повышения эффективности информационного поиска

Вторая глава посвящена описанию формальной модели электронного документа и построению модели функционирования ИС, а именно модели генерации информационного наполнения документа и его последующей публикации.

В этой главе вводится определение модели предметной области (МПО), которая является помеченным ориентированным графом, состоящим из двух частей: понятийной и содержательной (рис. 1). Понятийная часть определяет концепты предметной области и отношения между ними Элементы содержательной МПО соответствуют реально существующим объектам предметной области, связанными определенными отношениями с концептами понятийной модели.

Для формального определения электронного документа вводятся термины семантическая информация, как любой подграф МПО, и информационная структура — граф специального вида, который накладывает определенные ограничения на семантическую информацию. Эти ограничения можно разделить на два типа. Одни образуют подграф понятийной МПО и указывают, какие концепты и отношения должна содержать семантическая информация, те задают, своего рода, ее каркас Другие ограничения декларируют, каким образом и с какими отношениями остальные элементы содержательной МПО встраиваются в понятийную МПО Семантическая информация, удовлетворяющая этим ограничением называется наполнением информационной структуры.

Пример информационной структуры и ее наполнения изображен на рис 2, где вершины с метками V обозначают элементы, вместо которых должны быть подставлены данные, специфичные для конкретного документа. Вершина с меткой г>,° допускает подстановку вместо себя равно одного элемента, с меткой у+ — одного и более элементов, с меткой гг — нуля или одного элемента; при подстановке каждого нового элемента все отношения с другими элементами сохраняются согласно исходной структуре.

Рис. 1: Структура модели предметной области

Рис. 2: Примеры: а) информационной структуры; б) наполнение информационной структуры

После этого дается определение электронного документа в формате ф, как ресурса, имеющего информационную структуру, ее наполнение и стиль, где стиль есть функция, определяющая правила преобразования семантической информации в последовательность символов. В данном определении можно выделить две компоненты: содержательную и презентационную. Содержательная компонента является композицией информационной структуры и ее наполнения, и описывает то, что отражает документ — информацию. Презентационной компонентой является стиль документа, который описывает то, как информация должна быть представлена клиенту. Показано, что данное определение документа может быть применено на практике при разработке ИС, публикующих информацию любым из трех рассматриваемых способов.

Одно из фундаментальных предположений, сделанных в работе, состоит в том, что наиболее хорошо зарекомендовавший себя подход к созданию ИС является подход на основе понятия коллекции - множества документов, имеющих одинаковую структуру и одну и ту же тематическую направленность. Определяется базовый класс коллекционных ИС — систем, где множество публикуемых документов состоит из объединения обозримого числа коллекций. Рассматриваются некоторые его подклассы, в которые добавляются элементы трехслойной архитектуры приложений, показываются их преимущества и недостатки.

В число основных результатов работы входит построение модели шаблонной мультистилевой ИС. Ее основные конструктивные отличия состоят в следующей схеме динамической генерации документов (рис. 3):

1 Каждый клиентский запрос представляет собой набор параметров, по которому система однозначно определяет коллекцию, к которой принадлежит требуемый документ, процесс генерации содержания этого документа и процесс его публикации в требуемом формате

2. Для каждой коллекций определен исходный информационный шаблон -описание информационной структуры документов коллекции К информационному шаблону последовательно применяется ряд трансформеров — функций наполнения шаблона содержанием.

3. Результатом применения набора трансформеров к информационному шаблону является внутреннее представление документа (ВПД), которому взаимнооднозначно соответствует семантическая информация документа и из которого может быть получен сам документ.

4. Для каждой коллекций определен набор стилей; полученное ВПД согласно выбранному стилю преобразуется в документ конечного формата, запрошенного пользователем.

Обра?

документа

стаи

Рис 3- Модель публикации информации в мультистилевой шаблонной ИС

По определению, трансформер — суть функция, наполняющая информационный шаблон. Каждый трансформер функционирует независимо, хотя и может при этом изменять любые части шаблона, в том числе те, которые были изменены другими трансформерами. При этом трансформер реализует логически завершенное действие над информационным шаблоном. Каждая информационная система по-своему специфична и невозможно создать универсальный комплект трансформеров, который бы подошел для создания любой из них. Тем не менее, можно создать стандартный набор, на основе которого было бы проще реализовать все особенности новой информационной системы дополнив его специализированными трансформерами.

Ключевым аспектом предложенной модели является язык внутреннего представления документов. В связи с этим рассматриваются возможности языка RDF, приводится его формальное определение. Показано, что для решения задачи описания ВПД язык RDF является вполне адекватным средством.

По материалам второй главы сделаны следующие выводы

1. Разработаны модели предметной области, информации и электронного документа. Показано, что модель электронного документа может быть использована для передачи информации, представленной любым из рассматриваемых способов- в виде гипертекстовых документов на естественном языке, схем данных, семантических сетей.

2 Предложена классификация моделей ИС с точки зрения организации процесса создания и публикации документа Рассмотрены отношения между классами, выделены основные функциональные недостатки моделей

3 Выделена и проанализирована модель шаблонной мультистилевой ИС, в которой реализована трехслойная архитектура приложений и решены следующие задачи:

• отделение информационной и презентационной частей ИС;

• публикация информации различными способами для повышения эффективности информационного обмена;

• повторное использование отдельных компонентов в нескольких ИС.

4. Представлена спецификация языка RDF, предназначенного для описания информации посредством семантических сетей. Показана возможность использования RDF в качестве языка внутреннего представления документов, что является ключевым аспектом в предложенной модели ИС.

Третья глава посвящена технологии SMART для разработки web-ориентированных ИС, в которой была полностью реализована предложенная модель шаблонных мультистилевых ИС. Приводятся описания некоторых ИС для научно-исследовательской и научно-организационной деятельности, которые были созданы с помощью представленной технологии.

Для оценки практической применимости предложенной модели была разработана система управления web-приложениями SMART. Функционально система представляет собой web-сервер, который при поступлении клиентского запроса инициирует процесс генерации документа на основе модели шаблонных мультистилевых информационных систем, по завершении которого полученный документ отсылается запросившему его пользователю.

Разработка ИС в рамках технологии SMART предполагает определение следующих ресурсов:

1 Репозитарий коллекций хранит структурные описания коллекций документов на языке RDF, каждое из которых является реализацией информационного шаблона шаблонной мультистилевой ИС.

2 Репозитарий трансформеров. Трансформеры предназначены для наполнения структурного описания коллекции содержательной информацией, в результате чего будет получено ВПД, описанное на языке RDF Система SMART предоставляет несколько стандартных трансформеров для работы с параметрами клиентского запроса, базами данных, словарями и текстовыми данными, к которым могут быть добавлены трансформеры специфичные для разрабатываемой ИС.

3. Репозитарий стилей. Стили описывают правила отображения ВПД в документ запрошенного формата. Каждой коллекции соответствует' несколько

стилей, по одному для каждого формата. Каждый стиль представляет собой XSLT-преобразование4 XML-сериализации RDF-модели ВПД.

4. Модуль конфигурирования И С описывает параметры, которые необходимы системе SMART для определения последовательности действий, в результате которых будет создан запрошенный документ. В частности, конфигураг ция определяет, какой набор трансформеров соответствует каждой коллекции, и какие стили следует применять для получения документа требуемого формата.

Система SMART берет на себя управление этими ресурсами и обеспечивает функционирование ИС. При этом для генерации ВПД трансформеры могут использовать данные, полученные из различных, внешних по отношению к системе SMART ресурсов, таких как базы данных, файлы, соединения с удаленными объектами и др.

Одной из областей применения технологии SMART является преобразование данных из реляционных хранилищ в семантические сети. Подобная задача продиктована тем, что, как было показано в работе, в определенных случаях в качестве средства обмена информацией оптимально использовать семантические сети, тогда как большинство существующих хранилищ построено на основе реляционных СУБД, поскольку они предоставляют удобные средства для выборки отдельных групп данных, их изменения и редактирования структуры.

На технологической платформе SMART была создана и внедрена ИВС Атлас "Атмосферные аэрозоли Сибири" (далее Атлас) Атлас предназначен для решения ряда задач в области сбора, обработки и публикации сведений об атмосферных аэрозолях, в том числе-

• Добавление, хранение, редактирование сведений об атмосферных аэрозолях, включая процедуры авторизации пользователей и ограничение доступа к информационным структурам.

• Публикацию коллекций документов о химическом составе аэрозолей, включая результаты применения функций математической обработки исходных данных.

Для этого был разработан web-интерфейс, отображающий исходные данные и результаты вычислений в табличном и графическом представлении. Реализована поддержка русского и английского языков, как на уровне web-интерфейса, так и на уровне самих данных.

В процессе создания Атласа была подтверждена гипотеза о том, что язык RDF плохо применим для представления больших массивов однородных числовых данных: получаемые документы имеют размер, многократно превышающий

4XSLT- extensible Stylesheet Language Transformation, язык стилевого преобразования XML-документов

количество содержащейся в них информации, что, в частности, приводит к дополнительным затратам ресурсов при их обработке. Поэтому, несмотря на то, что это не помешало выполнить поставленную задачу и в полном объеме реализовать требуемую функциональность Атласа, следует заключить, что технология SMART не является оптимальной для создания систем, ориентированных на вычислительные процессы.

IX рабочее совещание не электронным публикациям ••»л. 1*иЬ2оо4" (с jggggB

иностранных \■^n-iiitej.o.jCw.^giniwH 1

r " tiiimi -»чюг -"I 0" ■neodtng~"wlNPoWb 1251' *

13-13 Mmffi,

Ш б)

DC Workshop on electronic publication ^El-Pub2004" (with participation

- •-ausLjgll scientist)

Шокин Юрий Ив;

ирдаор аодстм(.К.ф

?*тК>

< (Hirü vmtw'l 0* егкоЛг g»-<v<*arfl Pttvjn utri i v -1»'Mtp /Аihw w3 oi ГЧГ r/)f»'htlp //пн» w3 org/1994/02 /2' 'vCliS ^nxijokhh Юрий имммич^са-Л ' cvCard W» <vCi<fl farmly>Шо«хк/у Card Family > <vCiffl Givtr^JOptdk/vCa'd öv*r>> <vc« d Gther,-Hmho»w</vCard om»i> <vC*id TlTtE^aMAMMK/v^iro titlE> </vCa»d n>

«Card кли>дирктор«/«Саг<) ЖХ£> evCare OBG> < 0 M.f«iyi

P4H</vCard Oigname»

<vc«rd email vu*rd rvPE>-http //mm« r»3 ^ИИТ7«УИ-

rdf/Э иМим'хЙгМмс ruc/Vsrd EM*IL> <vC»fi 41 vCjrd Tvpfc- Mtp //www яЭ.org/2001/vC*rri

rdf/ЭЛ*votca''7(ЭвЗ?)Э411 JO</v С »il tei.» 'vCant ТВ- » If J т ^«t'ltttp //mm из org/3001/ vC*rt-пК/эл«Гм'>7(маз)з41Э42<-у.с»в та» С lC<V<S ОвООГи

: DOCTYP6 f* ROF «Jure» for M CfcClVP» J> <rOf RDF • ( • hflp //prnue* (tMfonf «du/Gcifhce«

г 6 rSf-litte //««w w3 arQ/199W0l/7J rdt <vMa* M«" »и - httii //preteu* iW'rford rdn/lobef om»

err»- Mlji Ц*>*Ь Kt IHC ru/unart/ nfrHdc.- Mtp //»«rl org/dr/Hs«!*«!/1 >/ т r> u- <• \ - smert unlmndel tr«mformer quer*« > <ie eertonrdf »Bou— M* //MSJcLoicrw BOOO/csRf/l*Lr«f mB«IlS»p«tJd»74l#lw-fiilif**i*-rdh**r> <i'j f т-Ьвг-«>ю»мв</5о F чг H»rne> <сг( Т<1(>мцм«</(л' Tr4»>

<0c мм>вм>итма карт*»: UM кии Юрий Имммичс/dt otJe, <trt Рпог.4>7(3«Э2)М1150</а( ehona.»

<«9Мс14>»-На1<т*е»и*яио*ич<;/|^ Mnidis-*.jma».>

<10 6-<n»l>4|r#lcLnU.nt<ftl a-n» l> <ся! Г*х.»7(ЭвЭ2)Э41Э42<:/С"Г Few

«nf äf I v-/'^«

«o tffiliaQ9n> <de a»scnptjt>n />

«ck i»4uaga>r«</ci< 1алои»о*>

<- ^ ü пег Г -в'.-« св» http.//mow tcLascjv >

rtf r+io. r><- Htg //wSJetn« ru вООО/canf/patrdn M' 112lrMtJ<s7kltM'nilcfcrm«t>rdfn(>t«

<t rf t-ogreev* ф я м cn» Dcy <-■> <я U(t^M'4>IUMM</i<> WiWiame»

•.пЛ

rtf aboiiC- Mtp //1*оам№8000/с*вг/ем)(^«7 —■ 113Ч»*П nKBBt > <cn( «*»'np»iO'i>23 25 C*KT»tp», Акодсмгорадвк, HM*exiMpCK</cnt defcricQon>

t«e>IX p »<»■«— еммцм M IMP HII—111 рувлминмт "EL P«b2004* (c p«*CTM«>) имсгрмимя <рштж)</аг( oa*> Овыуч*юг> <AJc ret*Oor> <sc 'опт «otad/rdf«- /de

Д)

du YuH Ivaiiovitcb

ЕнпМЙ

Hi»« 7Г3832)*4 И50 Far 7(3832)341342

ИБГ

r«7m^ II*p«J»>7liw«u

um* ne vieKipoMKun n>6, w г/частом intoi триошл учимиа)

6p«, АкадеигФрбдок Ноосвбврас

■ Ю^Имшммч

тор мидемях.хф-км

В)

ТГТГГ ГГИМК* •

«ВТ СО РАЛ ^giooAvcii. е 1«№Ш4

"ГГГ!

Рис. 4: Возможные конечные представления информации на примере визитной карточки: а) - на русском языке (HTML); б) - на английском языке (HTML); в) - в формате vCard; г) - дня пользователей КПК; д) - исходное RDF-описание документа

В качестве еще одного примера практического использования рассмотренной технологии в этой главе описывается SMART-версия ИС "Конференции", предназначенная для поддержки проведения научных конференций и семинаров, в

рамках которой реализованы многие необходимые организаторам средства, включая подготовку и публикацию материалов на web-сайте и в печатных изданиях Системой поддерживается русскоязычный и англоязычный web-интерфейсы, для каждого из которых могут быть получены документы в HTML-формате, HTML-документы с минимальным числом графических объектов для пользователей карманных персональных компьютеров (КПК) и несколько различных RDF-пред-ставлений, включая графическое (рис. 4).

Проведен анализ характеристик новой и старой версий ИС "Конференции", в результате которого подтверждены следующие тезисы о сравнении технологии SMART с другими традиционными технологиями разработки ИС

• Трудоемкость создания коллекции документов с помощью системы SMART выше для одного формата конечного представления документов, но меньше для двух и более форматов.

• Подтверждена гипотеза об ухудшении производительности информационной системы в целом, однако при этом время генерации документов остается приемлемым. Более того, существуют несколько возможных способов дальнейшего повышения производительности системы SMART, поэтому с технической точки зрения эксплуатация предложенной модели шаблонных мультистилевых информационных систем возможна.

Было показано, что применение технологии разработки ИС на основе библиотеки SMART является целесообразным для ИС, ориентированных на предоставление структурированных данных или информации, описанной посредством семантических сетей. Время на разработку и поддержку подобных ИС в худшем случае сравнимо со временем, затраченным при использовании других технологических платформ.

Показано, что с помощью системы SMART может быть создано информационное пространство ИС, представленное в виде семантической сети на языке RDF Одна из особенностей системы SMART среди подобных систем заключается в возможности осуществления семантического поиска, т.е. поиска информации в семантической сети Поисковым запросом в данном случае является фрагмент семантической сети специального вида, определяющий шаблон, которому должны удовлетворять результаты. В рамках ИС "Конференции" на платформе технологии SMART был разработан сервис, который реализует гибкий поиск информации, содержащейся в документах конференций (рис. 5). Показано, что функциональность данного сервиса превышает возможности контекстного и атрибутного поиска.

Предложенная технология семантического поиска допускает применение для любого числа ИС, связанных между собой только общей предметной областью Поэтому полученные результаты могут быть использованы при построении сетевых сервисов, осуществляющих поиск и анализ информации согласно идеологии проекта Semantic Web.

http //w3 et же о/ 9Х!МсосЦмг<Ы»*д>л* Jgj »j

3

Результаты пояска (15)

1 bBp-ßw3 ictnic rugOOO/coagcwffdffigagtl^upnr IX рабочее совещание по ыеетроиным публикациям "EL-Pub2004" (с участием иностранных ученых)

2 htby%3.ict.ftfc.ni-8000/MflgMfl£r(ff?flgi=l IQlanm «Вычислительные и ннформадвойные технологии в науке технике и образовании» ВИТ 2004

3 ЬОрУ/уЗ ictmc tu 80Q0/conClcoflffcf?nrn=451angTU VII Международная конференция по меетронвым публикациям *EL-Pub2002*

4 btt»J/w3 ictflic tu 8000ycoflCcoa£r<iihaF87tongTO Выездное заседание Координационного научного Совета СО РАН по программе Информационно телекоммуникационные ресурсы

СО РАН

5 ЫьЛш3 «tare ги.8000/соп&сот£г<*?рт=7£1апяжТЦ VIH Международная конференция по электронным публикациям "EL РиЬ2003"

6 titoJfw) ictüte ni.80(W/c<^con£rdfft»n=^73topg°fu Вычислительные в инфориалиояные технологии в иауке, технике и образовании

7 мьгу-g W/^^rffftm-l Яия-^ Конференция, посвященная 90-детто со дня рождения Алексея Андреевича Ляпунова

8 top//w3-ict flic fu-gOOO/cotigcofl£rdf?QttR28laflff=!ru "VI рабочее совещание по электронным публикациям *EL-Pub2001'

9 http-У/уЗ ictmc nt8000/congcoq£f<g7giy20laog=TU VI Международная хонферевцвя "Современные методы математического моделирования природных и антропогенных катастроф*

10 bttp/hr3 >ct.rucrogOOO/coofl'cofl£r«tffain«291apCTu Современные проблемы прикладной математики я механики теория, этхперимент я практика

11 iätoJM vX.zJL.Px200Q/v>i&coi£f<£kBf=8imF*a ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ 2000 .

12 htte>y/w3 ict.же nr8000/coflfl'coq£rdf?cm-p»f|nR ■

V рабочее совещание по электронным публикациям - EL-PTJB-2000 -

13 tap^w3 ictmz nj.8000/congcon£fdf?pta=91aQfl=ni КОНФЕРЕНЦИЯ МОЛОДЫХ УЧЕНЫХ. ПОСВЯЩЕННАЯ 1О-ЖГ0ЮИВТСОРАН

14 ЬйрЛ*3 tttfl»c.ni^000/Mggcotfrdf?iBta=2tongsn> IV рабочее совещание по электронным публикациям - EL-PUB-99

15 ШрУ/у? ictasc.ni 800(Vcpiigb»£rdf?ag>"4hnpi4o :

П международное рабочее совещание по электронными публикациям (EL-PUB-97)

______,_А

iff...... - ________ 1 . . . ГГГППнюю ; "

Рис 5: Результаты поиска конференций, тематика которых относится к информационным технологиям и на которых был заявлен участник по фамилии Шокин

Выводы и результаты, представленные в третьей главе:

1. Создана система управления web-приложениями SMART, в которой была полностью реализована модель шаблонных мультистилевых ИС с использованием RDF в качестве языка внутреннего представления документов.

2. На платформе системы SMART создана новая версия ИС "Конференции", включающая дополнительные возможности, присущие классу шаблонных мультистилевых ИС, что повысило гибкость и информативность системы в целом.

3. Реализован сервис информационного поиска в семантической сети, описанной на языке RDF. Показано, что использование семантических сетей предоставляет более гибкие возможности для реализации поисковых сервисов по сравнению с другими моделями представления информации; полученные результаты могут быть использованы для организации глобальной поисковой системы в сети Интернет

4 На платформе системы SMART создана ИВС Атлас "Атмосферные аэрозоли Сибири", где опубликованы данные о химическом составе атмосферных

аэрозолей и предоставлен ряд функций для их математической обработки Несмотря на фактическое выполнение всех требований к Атласу, сделан вывод о том, что язык RDF и, следовательно, систему SMART нецелесообразно использовать для разработки ИС, ориентированных на реализацию вычислительных процедур и обработку больших массивов числовых данных

5 На реальных примерах показана применимость модели шаблонных мульти-стилевых ИС. Проведены тесты, по результатам которых сделан вывод о достаточной производительности системы SMART и умеренной трудоемкости создания ИС. Показано, что технологию SMART целесообразно использовать для информационных систем с несколькими форматами представлений документов или для явно выраженного представления информации посредством семантических сетей.

В заключении перечислим основные выводы и результаты работы:

1. Обоснована и предложена модель электронного документа, в которой выделены и определены три составляющих - структура, наполнение и стиль Структура и наполнение определяют информационное содержание документа, стиль описывает правила преобразования содержания в целевой формат. Данная модель может эффективно применяться для публикации коллекций гипертекстовых документов, схем данных и семантических сетей.

2 Разработанная формализованная модель шаблонной мультистилевой информационной системы, использующая предложенную модель электронного документа, позволяет улучшить качество обмена информацией.

3 Разработана технологическая платформа SMART для создания web-ориентированных информационных систем, в основу которой положено внутреннее представление документов на базе языка описания ресурсов RDF Отличительными особенностями создаваемых систем являются средства публикации информации в различных форматах на нескольких языках, а также возможность семантического поиска документов Указаны и обоснованы области возможного применения технологии, проведен сравнительный анализ с другими подобными технологиями.

4. Разработана информационная система "Конференции", которая была создана на основе предложенной технологии Система публикует подробную информацию о конференциях, проводимых организациями СО РАН, в виде документов, представленных в одном из реализованных в системе форматов. Для всех форматов поддерживаются полноценные версии документов на русском и английском языках

5. На платформе SMART разработана и внедрена информационно-вычислительная система Атлас "Атмосферные аэрозоли Сибири", предназначенная для решения ряда задач в области сбора, обработки и публикации сведений о химическом составе атмосферных аэрозолей.

Список научных работ, опубликованных по теме диссертации

1 Гуськов А.Е. Модель документа веб-ориентированных информационных систем на основе RDF // Вестник НГУ. Серия: Информационные технологии в образовании. Новосиб. гос. университет: Новосибирск, 2004 Т. 1, вып 2. С. 27-35

2. Федотов А М., Гуськов А.Е. Информация в Интернете: публикация, поиск и анализ // Международный научно-практический журнал "Информационные технологии в высшем образовании". КазНУ им. аль-Фараби, 2004 Т 1, №. 4. С. 17-35.

3. Гуськов А.Е. О модели цифровых информационных систем // Вычислит, технологии. Т. 10. Спец. выпуск: Труды IX рабочего совещания по электронным публикациям "El-Pub2004". Новосибирск, 23-25 сентября 2004. С. 58-70.

4. Гуськов А.Е., Молородов Ю.И., Сударикова И.А. Атлас "Атмосферные аэрозоли Сибири" // Вычислит, технологии. Т. 10 Спец. выпуск: Труды IX par бочего совещания по электронным публикациям "El-Pub2004". Новосибирск, 23-25 сентября 2004. С. 71-77.

5. Guskov А , Shraibman V., Molorodov Y SMART - an approach for information systems development on the basis of RDF-technology // Proceedings of the 8th International Conference on Electronic Publishing, Brasilia, Brazil, June 2004. P. 293-305. ISBN 85-88130-02-5.

6 Молородов Ю.И., Федотов A.M., Гуськов А.Е. Общедоступная система для проведения и публикации трудов конференций, совещаний и симпозиумов // Развивающее образование XXI века Материалы международной научно-практической конференции 21-25 августа 2003 г., Горно-Алтайск: Сборник. /Под ред A.B. Петрова. - г.Горно-Алтайск; Школа развивающего образования A.B. Петрова, 2003 - с.257.

7 Шрайбман В.Б., Гуськов А.Е. Разработка информационных систем на основе RDF-технологии // Труды XLI Международной научной студенческой конференции "Студент и научно-технический прогресс", Новосиб. гос. ун-т. Новосибирск, 2003 г., Ч. 1. - С. 143-150.

8. Гуськов А.Е., Шрайбман В Б, Федотов A.M. Использование технологии явного описания коллекций как аспект разработки информационных систем для Web // Материалы VIII Международной конференции по электронным публикациям "El-Pub 2003", Новосибирск, 8 10 октября 2003 г. 4.1 - с. 11.

9 Шрайбман В.В., Гуськов А.Е. Система поддержки Web-приложений, использующих явное описание коллекций документов // Материалы VIII Международной конференции по электронным публикациям "El-Pub 2003", Новосибирск, 8-10 октября 2003 г. Ч 1 - с. 31.

10. Гуськов А Е, Федотов А.М, Молородов Ю И. Информационная система "Конференции", Препринт №1-03, Институт вычислительных технологий СО РАН, Новосибирск, 2003. 76 с

Отпечатано в ЗАО РИЦ «Прайс-курьер», тел 307-202, зак. № 369 .тираж 100

P118 14

PH Б Русский фонд

2006-4 7357

Оглавление автор диссертации — кандидата технических наук Гуськов, Андрей Евгеньевич

Введение

1 Способы публикации информации и технологии разработки информационных систем

1.1 Информация как продукт электронных информационных систем

1.2 Типовые модели представления информации.

1.2.1 Форматы документов для представления текстов на естественном языке

1.2.2 Схемы данных.

1.2.3 Семантические сети.

1.2.4 Нецелесообразность использования XML в качестве универсального языка для представления информации

1.2.5 Проект Sematic Web.

1.2.6 Модели поиска документов.

1.2.7 Сравнительные характеристики различных моделей представления информации

1.3 Технологии разработки информационных систем.

1.3.1 Устоявшиеся парадигмы разработки информационных систем

1.3.2 Требования к информационным системам.

1.3.3 Три класса технологических платформ разработки информационных систем.

1.3.4 Информационные системы на основе скриптов.

1.3.5 Система публикации XML-документов

Apache Cocoon.

1.3.6 Информационные системы на основе протокола Z39.50 (ISO-23950).

1.4 Выводы

2 Модель электронного документа и ее применение в моделях информационных систем

2.1 Понятие модели предметной области.

2.2 Понятие электронного документа.

2.2.1 Структура семантической информации и ее наполнение

2.2.2 Модель электронного документа.

2.2.3 Применение модели электронного документа.

2.3 Некоторые классы информационных систем

2.3.1 Общий класс информационных систем.

2.3.2 Коллекционные информационные системы.

2.3.3 Мультистилевые информационные системы.

2.3.4 Скриптовые информационные системы.

2.3.5 Отношения между классами информационных систем и их свойства.

2.3.6 Шаблонные мультистилевые информационные системы

2.4 Использование RDF в качестве языка внутреннего представления документов.

2.5 Выводы.

3 Разработка web-ориентированных информационных систем

3.1 SMART: система управления web-приложениями на основе RDF-технологии

3.1.1 Архитектура системы SMART

3.1.2 Технологические решения системы SMART.

3.1.3 Трансформеры, входящие в состав программного обеспечения SMART

3.1.4 Тест трудоемкости разработки информационных систем

3.1.5 Тест производительности.

3.1.6 Семантический поиск информации.

3.2 Информационная система "Конференции".

3.2.1 Постановка задачи.

3.2.2 Архитектура информационной системы "Конференции"

3.2.3 Описание схемы базы данных.

3.2.4 Реализация семантического поиска информации . . .-.

3.3 Примеры информационных систем на основе библиотеки SMART

3.3.1 \УеЬ-интерфейс для доступа к БД на основе структурных метаданных.

3.3.2 Атлас "Атмосферные аэрозоли Сибири".

3.3.3 Информационная система "Студенты".

3.4 Выводы.

Введение 2005 год, диссертация по документальной информации, Гуськов, Андрей Евгеньевич

Актуальность темы. Являясь одним из самых значительных достижений XX века, Интернет в настоящее время представляет собой главный программно-организованный информационный ресурс человечества. Его огромный потенциал постоянно предлагает эффективные решения задач, так или иначе связанных с обменом информацией. В данной работе рассматривается одна из таких задач: разработка информационных систем (ИС), которые, среди прочего, реализуют функции хранения информации (как правило, в виде наборов данных) и ее предоставления запрашивающим клиентам — программным агентам, осуществляющим доступ к услугам ИС. При этом возникает проблема разных требований клиентов к формату предоставления информации, что осложняет организацию взаимодействия между различными ИС. Также может быть затруднено и осуществление эффективного поиска, поскольку документы, предназначенные для прочтения человеком, и документы, пригодные для семантического анализа поисковыми агентами, должны быть опубликованы в разных форматах, которые соответствуют требованиям клиентов.

Поскольку одну и ту же информацию можно представить и передать различными способами.в зависимости от возможностей ее отправителя и потребностей получателя, то при разработке ИС большую роль играют средства, используемые для организации обмена информацией с клиентами. На практике архитектура ИС основывается на схеме отображения данных из внутреннего хранилища, обычно управляемого СУБД, в конечный документ. При этом внимание акцентируется на том, как составить документ, а не на том, что является его содержанием. В следствие этого, ИС оказываются спроектированными в расчете на определенный тип клиентов, удовлетворяющий специфичным требованиям; обслуживание других клиентов производится не эффективно.

Также в данной архитектуре трудно указать уровень, на котором может быть организовано информационное пространство, являющееся основным источником содержательного наполнения информационных ресурсов. Традиционно, вместо него определяется уровень баз данных, на"которой посредством функций СУБД выполняются поисковые запросы. Но идеология СУБД предполагает выполнение операций только со структурами, данными. Поэтому данный подход не может реализовать полноценный информационный поиск, предоставляющий среду для создания гибких поисковых запросов, включающих не только структурные отношения, но и отношения более высокого семантического порядка, такие как "часть-целое" или "синоним".

Особый интерес представляет интерпретация понятия информация. В классической теории информации это понятие рассматривается с точки зрения количественных характеристик (энтропии, вероятностного распределения), которые малопригодны при изучении моделей ее представления. В конце 60-х годов появились работы о двух качественных моделях представления знаний: фреймовых моделях (М. Минский) и семантических сетях (А. Коллинс, Р. Квиллиан). В настоящее время, в связи с появлением большого числа разнородных источников информации, наиболее активно проводятся исследования семантических сетей. Особо нужно выделить проект WWW-консорциума Semantic Web, целью которого является создание глобального информационного пространства, где возможны качественно новые решения проблем информационного поиска и обмена. Для этого предлагается использовать концепцию семантических сетей, которая ляжет в основу унифицированной среды представления информации вместе, с ее предельной семантической детализацией. Всеобщий интерес, участие ведущих специалистов и компаний, динамичное развитие и большое число связанных с данным проектом задач в области сбора, хранения, передачи и представления информации подчеркивает несомненную актуальность темы.

Существующие технологии, которые решают задачи публикации информации, адаптированной к требованиям клиентов (например, программный продукт Apache Cocoon), практически не затрагивают вопросы, связанные с информационным поиском. С другой стороны, в контексте проекта Semantic

Web до сих пор недостаточно внимания уделялось проблемам отображения данных из таблиц реляционных СУБД в семантические сети, а также отображения семантических сетей в документы различных форматов.

Данная работа поддерживает основные идеи проекта Semantic Web и предлагает технологию публикации информации, основанную на адаптации функционирования ИС к потребностям клиентов. Суть этого подхода заключается в выделении в архитектуре ИС информационного уровня, который обеспечивает унифицированный источник информации, и презентационного уровня, который определяет ■ правила создания конечных документов, что дает возможность повысить эффективность обмена информацией. Также данная технология позволяет отказаться от дублирования программ, генерирующих документы, которые имеют одинаковое содержание, но предназначены для разных клиентов, благодаря чему уменьшаются затраты на разработку ИС в целом. Особую актуальность задача приобретает для разработки web-ориентированных ИС, предоставляющих информацию для пользователей и узко специализированных программных агентов, функционирующих в рамках Semantic Web.

Предметом исследования являются способы электронного представления информации и технологии построения ИС.

Цель исследования. Разработать технологию построения ИС, в которых информация публикуется в виде электронных документов различных форматов на основе ее внутреннего представления посредством семантических сетей. На базе этой технологии предложить процедуру гибкого поиска документов, основанную на использовании семантических сетей.

Для достижения этой цели в диссертации последовательно решены следующие задачи:

1. определены требования, предъявляемые к современным информационным системам;

2. создана модель электронного документа, в которой реализовано представление информации в виде семантической сети и правила ее отображения в целевой формат;

3. создана и исследована модель информационной системы, позволяющая представлять одну и ту же информацию в виде документов различных форматов;

4. разработана технология создания информационных систем, реализующих предложенные модели;

5. предложенная технология апробирована на реально функционирующих информационных системах.

НА ЗАЩИТУ ВЫНОСЯТСЯ:

1. Модель электронного документа, позволяющая публиковать информацию в виде гипертекстовых документов, схем данных и семантических сетей.

2. Модель шаблонной мультистилевой информационной системы, использующая предложенную модель электронного документа.

3. Технологическая платформа SMART1 для создания web-ориентированных информационных систем, в основу которой положено внутреннее представление документов на базе языка описания ресурсов RDF2.

4. Информационная система "Конференции", которая была создана на основе предложенной технологии SMART.

Научная новизна работы состоит в:

1. Классификации способов электронного представления информации в виде электронного документа и определении трехкомпонентной модели документа, применимой для любого из рассмотренных способов.

2. Разработке оригинальной технология создания ИС, основанной на использовании семантических сетей в качестве средства для внутреннего представления информации.

1 SMART: System for Managing Application based on RDF Technology

2RDF: Resource Description Framework

3. Исследовании одного из наиболее востребованных сервисов для ИС — информационного поиска. Предложенная технология разработки ИС включает оригинальную методику создания единого информационного пространства на основе семантических сетей для заданной предметной области, над которым реализован поисковый сервис, предоставляющий качественно новые возможности по 'сравнению с аналогичными традиционными сервисами.

Практическая значимость. На основе предложенной технологии разработана И С "Конференции", которая функционирует в Институте вычислительных технологий СО РАН и активно используется рядом институтов Сибирского отделения для повышения эффективности научно-организационной деятельности. Разработана и внедрена в Институте химии и кинетики горения СО РАН информационно-вычислительная система (ИВС) Атлас Атмосферные аэрозоли Сибири", которая позволяет оценить влияние антропогенных и естественных источников на изменение характеристик атмосферных аэрозолей, способствуя решению различных задач экологии и охраны окружающей среды.

Разработанный метод семантического поиска информации в рамках отдельной ИС допускает масштабирование и применение в любой распределенной среде. Поэтому в перспективе полученные результаты могут быть использованы при создании глобальных информационно-поисковых сервисов, функционирующих в рамках идеологии проекта Semantic Web.

Методика исследования. В работе используются методы и результаты теории информации и информационных процессов, теории графов, семантических сетей, аппарат порождающих грамматик. При реализации комплекса программного обеспечения применены методологии структурного, объектно-ориентированного и декларативного программирования, технологический инструментарий прикладного программирования.

Достоверность и обоснованность. Достоверность и обоснованность результатов диссертации определяются:

• использованием открыто опубликованных материалов исследований и корректным применением представленных в них результатов;

• сопоставлением основных положений работы с результатами решения аналогичных задач другими исследователями;

• внедрением и практическим использованием разработанных информационных систем.

Личный вклад автора. Основные теоретические и практические результаты, изложенные в работе, получены лично автором. В частности, предложена оригинальная модель формирования документов, основанная на внутреннем представлении информации посредством семантических сетей. Автор принимал непосредственное участие в постановке задач, принятии концептуальных и технологических решений, разработке и анализе моделей, обсуждении результатов. На основе предложенной модели автором разработаны и внедрены информационные системы для научно-организационной и научно-исследовательской деятельности.

Апробация результатов. Основные положения диссертации обсуждались на VIII Международной конференции по электронным публикациям "EL-Pub2003", IX рабочем совещании по электронным публикациям "EL--Pub2004" (Новосибирск, 2003, 2004), Восьмой Международной конференции по электронным публикациям (Бразилия, 2004), Двенадцатой Международной конференции по вычислительной математике и современным прикладным программным системам (Владимир, 2003), Международной научно-практической конференции "Развивающее образование XXI века" (Горно-Алтайск, 2003), III и IV Всероссийских конференциях молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2002, Красноярск,- 2003), Международной конференции "Вычислительные и информационные технологии в науке, технике и образовании" (Усть-Каменогороск, 2003), конференциях молодых ученых, посвященных М.А.Лаврентьеву (Новосибирск, 2003, 2004), Международной конференции по измерениям, моделированию и информационным системам для изучения окружающей среды

Томск, 2004), ХЫ Международной научной студенческой конференции "Студент и научно-технический прогресс" (Новосибирск, 2003) и др.

Публикации. Основное содержание диссертации отражено в 10 работах. Опубликованы 4 статьи в журналах [1, 2, 3, 4], 5 докладов в сборниках трудов российских и международных конференций [5, 6, 7, 8, 9], одно руководство по эксплуатации [10].

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы из 93 наименований и приложений. Объем диссертации составляет 125 страниц (150 страниц с учетом приложений).

Заключение диссертация на тему "Модель генерации и публикации информации при создании WEB-ориентированных информационных систем"

3.4 Выводы

1. Создана система управления web-приложениями SMART, в которой была полностью реализована модель шаблонных мультистилевых ИС с использованием RDF в качестве языка внутреннего представления документов.

2. На платформе системы SMART создана новая версия ИС "Конференции", включающая дополнительные возможности, присущие классу шаблонных мультистилевых ИС, что повысило гибкость и информативность системы в целом.

3. Реализован сервис информационного поиска в семантической сети, описанной на языке RDF. Показано, что использование семантических сетей предоставляет более гибкие возможности для реализации поисковых сервисов по сравнению с другими моделями представления информации; полученные результаты могут быть использованы для организации глобальной поисковой системы в сети Интернет.

4. На платформе системы SMART создана ИВС Атлас "Атмосферные аэрозоли Сибири", где опубликованы данные о химическом составе атмосферных аэрозолей и предоставлен ряд функций для их математической обработки. Несмотря на фактическое выполнение всех требований к Атласу, сделан вывод о том, что язык RDF и, следовательно, систему SMART нецелесообразно использовать для разработки ИС, ориентированных на реализацию вычислительных процедур и обработку больших массивов числовых данных.

5. На реальных примерах показана применимость модели шаблонных мультистилевых ИС. Проведены тесты, по результатам которых сделан вывод о достаточной производительности системы SMART и умеренной трудоемкости создания ИС. Показано, что технологии SMART целесообразно использовать для информационных систем с несколькими форматами представлений документов или для явно выраженного представления информации посредством семантических сетей.

Заключение

В заключении приведем основные выводы и результаты работы:

1. Обоснована и предложена модель электронного документа, в которой выделены и определены три составляющих — структура, наполнение и стиль. Структура и наполнение определяют информационное содержание документа, стиль описывает правила преобразования содержания в целевой формат. Данная модель может эффективно применяться для публикации коллекций гипертекстовых документов, схем данных и семантических сетей.

2. Разработанная формализованная модель шаблонной мультистилевой информационной системы, использующая предложенную модель электронного документа, позволяет улучшить качество обмена информацией.

3. Разработана технологическая платформа SMART для создания web-ориентированных информационных систем, в основу которой положено внутреннее представление документов на базе языка описания ресурсов RDF. Отличительными особенностями создаваемых систем являются средства публикации информации в различных форматах на нескольких языках, а также возможность семантического поиска документов. Указаны и обоснованы области возможного применения технологии, проведен сравнительный анализ с другими подобными технологиями.

4. Разработана информационная система "Конференции", которая была создана на основе предложенной технологии. Система публикует подробную информацию о конференциях, проводимых организациями СО РАН, в виде документов, представленных в одном из реализованных в системе форматов. Для всех форматов поддерживаются полноценные версии документов на русском и английском языках.

5. На платформе SMARТ.разработана и внедрена информационно-вычислительная система Атлас ".Атмосферные аэрозоли Сибири", предназначенная для решения ряда задач в области сбора, обработки и публикации сведений о химическом составе атмосферных аэрозолей.

Библиография Гуськов, Андрей Евгеньевич, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Гуськов А.Е. Модель документа веб-ориентированных информационных систем на основе RDF // Вестник НГУ. Серия: Информационные технологии в образовании. Новосиб. гос. университет: Новосибирск, 2004. Т. 1, вып. 2. С. 27-35.

2. Федотов A.M., Гуськов А.Е. Информация в Интернете: публикация, поиск и анализ // Международный научно-практический журнал "Информационные технологии в высшем образовании". КазНУ им. аль-Фараби, 2004. Т. 1, Ш. 4. С. 17-35.

3. Гуськов А.Е. О модели цифровых информационных систем // Вычислит, технологии. Т. 10. Спец. выпуск: Труды IX рабочего совещания по электронным публикациям "El-Pub2004". Новосибирск, 23-25 сентября 2004. С. 58-70.

4. Гуськов А.Е., Молородов Ю.И., Сударикова И.А. Атлас "Атмосферные аэрозоли Сибири" // Вычислит, технологии. Т. 10. Спец. выпуск: Труды IX рабочего совещания по электронным публикациям "El-Pub2004". Новосибирск, 23-25 сентября 2004. С. 71-77.

5. Шрайбман В.Б., Гуськов А.Е. Разработка информационных систем на основе RDF-технологии // Труды XLI Международной научной студенческой конференции "Студент и научно-технический прогресс", Новосиб. гос. ун-т. Новосибирск, 2003 г., Ч. 1. — С. 143-150.

6. Гуськов А.Е., Федотов A.M., Молородов Ю.И. Информационная система "Конференции", Препринт №1-03, Институт вычислительных технологий СО РАН, Новосибирск, 2003. 76 с.

7. ANSI/NISO Z39.50-1995. Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. Z39.50 Maintenance Agency Official Text for Z39.50-1995, July 1995

8. RFC1487, X.500 Lightweight Directory Access Protocol.http://rfc.net/rfcl487.html.

9. Semantic Web Activity, http://www.w3.org/200l/sw/]

10. Колмогоров A.H. Теория информации и теория алгоритмов. — М.: Наука, 1987. 304 с.

11. Шрейдер Ю.А. Об одной модели семантической теории информации. В кн.: Проблемы кибернетики. Вып. 13. М: Наука 1965.

12. Большая советская энциклопедия. (В 30 томах). Гл. ред. A.M. Прохоров. Изд. 3-е. М., "Советская энциклопедия", 1970.

13. PostScript language reference manual / Adobe Systems Incorporated. — 3rd ed. ISBN 0-201-37922-8.http://partners.adobe.com/public/developer/én/ps/PLRM.pdf .

14. Ghostscript, Ghostview and GSview. http://www.cs.wise.edu/~ghost/index.html]

15. Adobe Portable Document Format. Version 1.6http://partners.adobe.com/public/developer/en/pdf/.

16. Моисеев A. PostScript умер, да здравствует PDF?! // Журнал "Publish", №02, 2001 год // Издательство "Открытые системы", http://www.osp.ru/publish/2001/02/069.htm]

17. Adobe Acrobat Reader, http://www.adobe.com/products/acrobat/]

18. Rich Text Format (RTF) Specification, version 1.6, Microsoft Corporation, May 1999.http: //msdn. microsoft. com/library/en-us/dnrtf spec/html/rtf spec. asp.

19. Raggett D., Le Hors A., Jacobs I. HTML 4.01 Specification; W3C Recommendation 24 December 1999.http://www.w3.org/TR/html4/.

20. Scalable Vector Graphics (SVG), XML Graphics for the Web.http://www.w3.org/Graphics/SVG/.

21. W3C Math Home. http://www.w3.org/Math/]

22. Chemical Markup Language (CML). http://www.xmi-cmi.org/]

23. Ink Markup Language (InkML). http://www.w3.org/2002/mmi/ink]27. vCard and vCalendar. http://www.imc.org/pdi/]

24. Dublin Core Metadata Initiative (DCMI).http://www.dublincore.org.

25. Ермаков A.E., Плешко В.В. Семантическая сеть текста в задачах аналитика // Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов Москва, 2002.http://www.rco.ru/article.asp?obno=25.

26. Стин Декер, Сергей Мельник, Франк ван Хермелен, и dp. Semantic Web: роли XML и RDF // Открытые системы, Сентябрь 2001.http://www.osp.ru/os/2001/09/041.htm.

27. Document Object Model (DOM). http://www.w3.org/D0M/]

28. Berners-Lee Т., Hendler J., Ora Lassila The Semantic Web // Scientific American, May 2001.

29. Ora Lassila, Swick R. Resource Description Framework (RDF) Model and Syntax Specification, W3C Recommendation.http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/.

30. Klyne G., Carroll J., McBride B. Resource Description Framework (RDF): Concepts and Abstract Syntax, W3C Recommendation, 10 февраля 2004;http://www.w3.org/TR/rdf-concepts/.

31. Manola F., Miller E., McBride B. RDF Primer, W3C Recommendation, 10 февраля 2004. http://www.w3.org/TR/rdf-primer/]

32. Beckett D., McBride B. RDF/XML Syntax Specification (Revised), W3C Recommendation, 10 февраля 2004.http://www.w3.org/TR/rdf-primer/.

33. Manola F., Miller E., McBride B. RDF Vocabulary Description Language 1.0: RDF Schema; W3C Recommendation, 10 февраля 2004.http://www.w3.org/TR/rdf-s chema/.

34. Naming and Addressing: URIs, URLs,.;http://www.w3.org/Addressing/.

35. Tim Berners-Lee Semantic Web on XML // XML 2000 Washington DC.http://www.w3.org/2000/Talks/1206-xml2k-tbl/.

36. Gruber Т. Toward principles of the design of ontologies used for knowledge sharing // Intl. Journal of Human-Computer Studies. 1995. Vol. 43. P. 907928.ftp://ftp.ksl.Stanford.edu/pub/KSLReports/KSL-93-04.ps.gz.

37. McGuinness D. L., Harmelen F. OWL Web Ontology Language Overview. W3C Recommendation 10 February 2004.http://www.w3.org/TR/owl-features/.

38. Пономарев Д. К. Применение языков описания онтологий для построения web-ориентированных информационных систем // Вестник НГУ. Серия: Информационные технологии в образовании. Новосиб. гос. университет: Новосибирск, 2004. Т.1, вып. 2. ISBN 5-94356-215-Х

39. Gruber Т. A translation approach to portable ontology specifications. // Knowledge acquisition, 5(2), 199-220. 'http://ksl-web.Stanford.edu/knowledge-sharing/papers/README.html.

40. XML Schema. http://www.w3.org/XML/Schema]

41. Российский семинар по Оценке Методов Информационного Поиска. Труды первого российского семинара РОМИП'2003. (Санкт-Петербург, 30 октября 2003г.) Санкт-Петербург: НИИ Химии СПбГУ, 2003, - 132 с.

42. Sintek М., Decker S. TRIPLE an RDF query, inference and transformationlanguage //In Deductive Databases and Knowledge Management (DDLP), 2001.

43. Reggiori A., D. W. van Gulik RDFStorehttp://rdfstore.sourceforge.net.1.kling: RDF query using SquishQL.http://swordfish.rdfweb.org/rdfquery/.

44. Broekstra J., Kampman A. SeRQL: An RDF Query and Transformation Language // Submitted to the International Semantic Web Conference, ISWC 2004, 2004.

45. Haase P., Broekstra J., Eberhart A., Volz R. A Comparison of RDF Query Languages // Proceedings of the Third International Semantic Web Conference, Hiroshima, Japan, 2004.http://www.aifb.uni-karlsruhe.de/WBS/pha/rdf-query/rdfquery.pdf.

46. A Comparison of RDF Query Languageshttp://www.aifb.uni-karlsruhe.de/WBS/pha/rdf-query/.

47. Trowbridge D., Mancini D., Quick D., Hohpe G, Newkirk J., Lavigne J. Enterprise Solution Patterns Using Microsoft .NET (Version 2.0) http://msdn.microsoft.com/architecture/patterns.

48. Ковалев С.П. Формальный подход к разработке программных систем: Учеб. пособие / Новосиб. гос. ун-т. Новосибирск, 2004. 180 с. Пратт Т., Зелковец М. Языки программирования: разработка и реализация. 4-е изд. СПб.: Питер, 2002.

49. XSL Transformations (XSLT) Version 1.0, W3C Recommendation 16 November 1999; http://www.w3.org/TR/xslt.

50. Когаловский M. P. Научные коллекции информационных ресурсов в электронных библиотеках // Труды I Российской конференции по цифровым библиотекам RCDL-1999.

51. Bemers-Lee Т., Fielding R., Masinter L. Uniform Resource Identifiers (URI): Generic Syntax. RFC 2396.http://www.ietf.org/rfc/rfc2396.txt.

52. The Common Gateway Interface, http://hoohoo.ncsa.uiuc.edu/cgi/. Дейт К. Введение в системы баз данных. — М: Наука, 1980. Ульман Дж. Основы систем баз данных. — М: Финансы и статистика, 1983.

53. XML Software: content management systems;http://www.xmlsoftware.com/dms.html.

54. Content Management Systems Suppliers and Vendors;http://www.contentmanager.eu.com/providers.htm.

55. Z39.50 Profile for Access to Digital Collections. (Final Draft). May 3, 1996.http://lcweb.loc.gov/z3950/agency/prof iles/collections.html.

56. The CIMI Profile Release l.OH A Z39.50 Profile for Cultural Heritage1.formation.http : //www. cimi. org/publicdocs/ HarmonizedProf ile/HarmonProf ilel .htm.

57. Taylor M. Zthes: a Z39.50 Profile for Thesaurus Navigation, version 0.5.http://zthes.z3950.org/profile/zthes-05.html.

58. UNIMARC Manual. Руководство по UNIMARC / Пер. на рус. яз. коллектива под рук А.И. Земского, Я.Л. Шрайберга. М.: ГПНТБ России, 1992. -319 с.

59. Формат USMARC. Краткое описание: В 3-х ч. М.: ГПНТБ России. 1996.

60. Российский коммуникативный формат представления библиографических записей в машиночитаемой форме: (Рос. вариант UNIMARC). СПб.: Изд-во РНБ. 1998.

61. ГОСТ-7.1-84 "Библиографическое описание документа". 1986.

62. Жижимов О.Л. Введение в Z39.50: изд. 4-е доп. и перераб. — Новосибирск: Изд-во НГОНБ, 2003. 263 с.

63. Лобанова Э.Ш. Форматы UNIMARC и USMARC: сходство и отличие // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: 4-я междунар. конф. "Крым 97"(7-15 июня 1997 г., г.Судак): Материалы конф., Т. 2, М., 1997.

64. Кривошеий M. ER: диаграммы сущность связь;http://mikkri.naxod.ru/libraxy/pdf/ERModeling.pdf.

65. Яблонский C.B. Введение в дискретную математику: Учеб. пособие для вузов. — 2-е изд.-, перераб. и доп. — М.: Наука. Гл. ред. физ.-мат. лит. — 384 с.

66. Шрайбман В.Б. Система публикации документов, представленных в виде RDF // Магистерская диссертация. Новосибирск, Новосиб. гос. ун-т 2003. 40 с.

67. Java Servlet Technology; http://java.sun.com/products/serviet/]

68. Apache Jakarta Tomcat, http://jakarta.apache.org/tomcat/index.html]

69. Jena A Semantic Web Framework for Java.http ://jena.sourceforge.net/.

70. ISO 8601. Date/Time Representations, http://www.mcs.vuw.ac.nz/ technical/software/SGML/doc/iso860l/IS08601.html]

71. Федотов A.M., Гуськов A.E. Информационная система "Конференции" // Труды VII Международной конференции по электронным публикациям "EL-Pub2002":http://www.ict.nsc.ru/ws/showabstract.dhtml?ru+45+4503.

72. SMART: System for Managing Applications based on RDF Technology;http://web.ict.nsc.ru/smart.

73. Ontology of SCIENCE http://protege.stanford.edu/ ontologies/ontologyOfScience/ontologyof„science.htm]

74. The Protégé Ontology Editor and Knowledge Acquisition Systemhttp://protege.Stanford.edu/.

75. Сударикова И.А. Атлас "Атмосферные аэрозоли Сибири" // Выпускная квалификационная работа бакалавра. Новосибирск, Новосиб. гос. ун-т -2004.'