автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Представление и обработка XML-баз данных

кандидата технических наук
Кадэй Тхэй
город
Москва
год
2009
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Представление и обработка XML-баз данных»

Автореферат диссертации по теме "Представление и обработка XML-баз данных"

09-4

1531

На правах рукописи

Кадэй Тхэй

ПРЕДСТАВЛЕНИЕ И ОБРАБОТКА ХМЬ-БАЗ ДАННЫХ

05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей.

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Л •

Автор:

Москва-2009

Работа выполнена в Московском инженерно-физическом институте (государственном университете)

Научный руководитель: доктор технических наук, профессор

Щукин Борис Алексеевич

Официальные оппоненты: доктор технических наук, профессор

Защита диссертации состоится «01» июля 2009 г. в 14 часов 00 минут на заседании диссертационного совета Д 212.130.03 при Московском инженерно-физическом институте (государственном университете) по адресу:

115409, Москва, Каширское шоссе, 31, тел.:(495)324-84-98, 323-95-26.

С диссертацией можно ознакомиться в библиотеке МИФИ. Автореферат разослан «27» мая 2009 г.

Отзывы в двух экземплярах, заверенные печатью организации, просьба направлять по адресу: 115409, Москва, Каширское шоссе, д.31, диссертационный совет, Шумилову Ю.Ю.

Ученый секретарь диссертационного совета

Ветошкин Владимир Михайлович кандидат технических наук, доцент Новиков Валерий Ареанович

Ведущая организация: Негосударственное образовательное

учреждение Московский институт повышения квалификации

«Атомэнерго» (НОУ МИПК «Атомэнерго»)

Д.Т.Н., профессор

Шумилов Ю.Ю.

РОССИЙСКАЯ

государственная библиотека

2 О О О _

Общая характеристика работы

Актуальность работы

Возрастающее использование XML-технологий привело к тому, что стали накапливаться значительные архивы XML-документов, поэтому в последнее время все больше стали говорить о создании XML баз данных, так как частое конвертирование XML-документов в структуры реляционных баз не эффективно из-за слишком большой разницы в структурах. К настоящему моменту создано уже несколько «native» (родных, созданных именно для XML) XDMS, и они непрерывно совершенствуются.

Однако XML-документы не однородны, их можно разделить на две большие группы: документы, ориентированные на данные и документы со смешанным контентом. Если для управления базами документов со смешанным контентом использование «native» XDMS несомненно оправдано, то управление базами документов, ориентированных на данные, которые широко используются в коммерческой и производственной практике, вызывает дискуссии.

Дело в том, что значительная часть документа - разметка без всяких изменений повторяется из документа в документ, что существенно увеличивает объем базы. В диссертации разработаны алгоритмы, позволяющие разделить разметку и собственно данные, что существенно сокращает объем базы и позволяет использовать для работы с ней стандартные методы DBMS, построенных на базе модели данных Pick UDM.

Цель работы

Целью диссертации является исследование и разработка методов и инструментальных программных средств отображения XML-документов в структуры, определяемые моделью Pick UDM, а также разработка экспериментальных приложений, работающих с XML-базами данных.

Для достижения поставленной цели в диссертации решены следующие задачи:

1. Проанализированы современные методы создания и использования XML-баз данных в информационных системах.

2. Проанализированы инструментальные средства работы с XML-базами данных, как создаваемые с «нуля» -«native» XDMS, так и встраиваемые в современные реляционные DBMS.

3. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

4. Разработаны алгоритмы загрузки XML-документов в базу, управляемую в соответствии с моделью Pick UDM.

5. Разработаны экспериментальные приложения, работающие с XML-базами данных.

Научная новизна

1. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Сформулированы условия, при выполнении которых отображение XML-документов осуществляется без декомпозиции последних.

3. Разработаны алгоритмы загрузки XML-доку ментов в базу, управляемую в соответствии с моделью Pick UDM.

4. Разработаны экспериментальные программные средства, продемонстрировавшие эффективность разработанных алгоритмов.

Практическая ценность

Разработанные алгоритмы и программные средства могут быть использованы в следующих областях:

1. Создания баз XML-документов с ориентацией на данные, работающих под управлением DBMS с моделью данных Pick UDM.

2. Создание систем динамического гипертекста.

3. Разработанные в диссертации подходы, алгоритмы и программные средства использовались в учебном процессе для студентов Союза Мьянма, проводимом на кафедре «Кибернетика» МИФИ. Автор лично проводил занятия со студентами.

Основные научные результаты, представляемые к защите

1. Предлагаемый подход и алгоритмы для отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Алгоритмы и программные средства загрузки XML-документов и оформления в виде XML-документа ответа на запрос к базе данных в соответствии с заданной XML-схемой.

3. Алгоритмы и программные средства, позволяющие проводить динамическую разметку текстов и связывать с этой разметкой возможность выполнения определенных операций.

Апробация работы

Основные результаты диссертации докладывались и обсуждались на следующих научных конференциях и семинарах.

1. На научной сессии МИФИ 2008 г; Москва, МИФИ;

2. ХП московская международная телекоммуникационная конференция студентов и молодых ученых - 2009 г.

3. На Всероссийской межвузовской научно-технической конференции студентов и аспирантов «Микроэлектроника и информатика - 2008 г; Москва, МИЭТ;

4. На международном научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» 2007, 2008 гг. (Алушта).

5. Опубликованы в 2009 году в журнале «Безопасность информационных технологий».

Публикации

Результаты диссертации опубликованы в 6 печатных трудах, в том числе в одной статье в журнале, который включен ВАК РФ в перечень ведущих рецензируемых научных журналов и изданий, и тезисах докладов в сборниках трудов конференций.

Структура и объем работы

Диссертация содержит 4 главы, введение и заключение, 48 рисунки, 1 таблица и 5 приложений.

Общий объем - 128 страниц машинописного текста. Список использованных источников содержит 58 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, её научная новизна и практическая значимость, сформулирована цель работы.

В главе 1 рассматриваются основные положения XML-технологии, анализируется проблема создания XML-баз данных, рассматриваются подходы к решению этих задач на базе «native» XDMS и специальных средств, встраиваемых в современные реляционные DBMS. Поднимается проблема места XML-баз данных в современных информационных системах. В конце первого раздела диссертации поставлена цель и конкретные задачи диссертационного исследования.

XML-технология разработана под эгидой консорциума W3C и рассматривалась как технология следующего поколения Internet. Однако сама технология и идеи, заложенные при ее создании, оказались столь востребованы, что она превратилась в нечто вполне самостоятельное, так как XML-документы одинаково понятны как человеку, так и машине и могут использоваться не только в сфере Web-приложений.

Для человека имена тегов и атрибутов играют как структурообразующую, так и семантическую роль, которые позволяют ему правильно интерпретировать входящие в XML-документ данные. Для машины - это всего лишь один из способов иерархической структуризации данных: теги выполняют чисто синтаксическую функцию.

Данные, оформленные (размеченные тегами) в соответствии с правилами XML, называют XML-документами. Логическая модель таких данных - это разновидность модели полуструктурированных данных.

Существует два типа размеченных данных, которые называют XML-документами.

• правильно оформленные документы (well-formed);

• правильные документы (valid).

Документ считается правильно оформленным, если при его разметке не нарушены правила порождения тегов. Правильным считается документ, теги которого и вся структура определяются предписывающей XML-схемой документа.

Это значит, что при создании правильно оформленного документа могут использоваться любые имена тегов, а для правильного документа - только имена, определенные предписывающей XML-схемой.

Можно дать и другое определение. Документ считается правильно сформированным, если по его тексту можно сгенерировать описывающую XML-схему. Документ считается правильным, если он принадлежит множеству документов, порождаемых предписывающей XML-схемой.

Фактически XML - это метаязык разметки (рис.1). На его основе создаются описания других языков, которые непосредственно используются для разметки документов. Это реализуется с помощью XML схем. Язык, используемый для создания XML схем, может быть разработан без использования синтаксиса XML, в этом случае схема XML-документа не будет XML-документом. Таким языком является Document Туре Definition (DTD).

В настоящее время отдается предпочтение языкам создания XML схем, использующим синтаксис XML. Примером такого языка является W3C XML Schema, определенного в спецификации, принятой в качестве рекомендации W3C. Поэтому XML-схема, созданная на языке W3C XML Schema сама является XML-документом. Однако для решения задачи, которая решается в диссертации, а именно отображения XML-схемы в последовательность атрибутов (описывающую схему в модели Pick UDM) удобнее работать с XML-схемой в синтаксисе DTD. При этом ограничимся только рассмотрением отображения элементов и атрибутов.

Рис.1. XML - метаязык разметки

XML-схема может быть представлена в виде дерева (рис.2).

Пример древовидной структуры, представленной на рис.2, отражает логику представления XML-документа в основной памяти. Эта структура лежит в основе Document Object Model (DOM) - рекомендации консорциума W3C, предназначенной для манипулирования элементами XML-документа в программном тексте.

Фактически DOM определяет "интерфейс, не зависящий от платформы и языка, который позволяет программам и скриптам динамически получать доступ и обновлять содержимое, структуру и стили документов".

По существу, это древовидная структура данных, находящаяся в основной памяти, дополненная набором методов для доступа и редактирования XML документа. Т.е. DOM позволяет выполнять все операции по обработке XML-данных: можно не только читать данные, но и модифицировать содержимое XML-документа, вставляя туда новые теги, удаляя и изменяя их.

' л-.'',*—г-^

¡ШЙНШЙММШМ

г— ^

1111|1Щ|

I-

кафедра;

-, г

1<а._кафедрь1

л*',

___

:; аазвание_кафедры.

Текст

ж

зтелефоны

5

преподаватели тт—-

зяйкж] МПКАОГУ те» ттогНфМЯ '

:пр<а.п п Т1 я та а тд.п

1сКСТ

Ж

таб__номер

_

фи0

Текст

к.'йй}

ш 11

день_ рождения

Текст

-Ж.

номер_телефона <

Текст

И

-------- -

ГГ'

Текст

_

Рис.2. Дерево, представляющее ХМЬ-схему Термин «модель данных» в литературе по базам данных и реальной практике интерпретируется по разному: как средство для моделирования и как результат моделирования. Для обозначения результата моделирования, под которым обычно понимается предписывающая схема базы данных.

Как средство моделирования модель данных обязана включать:

в средства для декларации структуры данных; » средства для манипулирования данными; в средства для декларации ограничений целостности. Например, в теоретической реляционной модели схема базы данных определяется как совокупность схем отношений, манипулирование данными осуществляется средствами алгебры или исчисления, с помощью этих же средств декларируются ограничения целостности. В практических реляционных базах, которые иногда называют Б^Ь-базами данных, схема базы определяется как совокупность структур таблиц, манипулирование

данными и декларация ограничений целостности осуществляется средствами языка SQL.

По аналогии, схема XML-базы данных должна определяться совокупностью XML-схем документов, манипулирование данными XML-базы данных - средствами специального языка, в качестве которого в настоящее время предлагается использовать XQuery. По крайней мере, базовые средства для декларации целостности по ссылкам должны быть определены в этом языке.

На самом деле в традиционном понимании термина «база данных» XML-баз данных пока нет, в реальности есть базы XML-документов. Может быть, поэтому в аббревиатуре названия систем управления ими часто опускают букву «В»: вместо XDBMS используют аббревиатуру XDMS. Однако термин «XML-база данных» прижился, поэтому в тексте диссертации используется также аббревиатура XML DBMS, хотя в реальности он обозначает систему управления базой XML-документов.

В современных реляционных системах однородные данные объединены в таблицы, аналогично, в объектных базах однородные данные разбиваются по классам. В XML-базах данных в большинстве своем хранятся XML-документы, у которых нет предписывающей XML-схемы. Все эти документы сваливаются в единое хранилище, они могут быть определены на разных пространствах имен, что, в общем случае, существенно затрудняет работу с ними.

XML-документ, сохраняемый в базе, самодостаточен - в нем должна присутствовать вся информация, которую он представляет, никаких ссылок вне документа быть не должно. Действительно, пусть XML-документ представляет некоторый коммерческий счет на продукцию. Возьмем один из многих продуктов, представленных в счете. Все его атрибуты: код, наименование, цена, скидка и т.д. должны присутствовать как реальные данные. В этом смысле XML-база данных будет информационно избыточна: в ней должен храниться информационный образ реального счета.

Для поиска в базах XML-документов в настоящее время определен в качестве стандарта язык XQuery, в него же встроены средства для модификации данных. XQuery очень гибкий язык,

допускающий совместное использование с SQL. Этот язык стандартизирован консорциумом W3C, в его разработке принимали участие ведущие специалисты компьютерной отрасли. XQuery позволяет извлекать древовидные данные, трансформировать их и генерировать в качестве результата опять же древовидные данные. Это позволяет строить эффективные решения в области Интернет-приложений: функции, написанные на XQueiy, могут генерировать непосредственно XHTML-страницы (или фрагменты страниц).

Более глубокую обработку найденных XML-документов можно проводить средствами языка программирования, например, Java, используя API на базе объектной модели документа. Структурное преобразование XML-документов целесообразно проводить средствами языка XQuery, а также средствами XSLT.

В заключение первой главы ставится задача диссертации.

XML-документы принято делить на две большие группы: «ориентированные на данные» и «ориентированные на документы» («data centric» и «document centric»). Более подробно эти группы будут описаны в дальнейшем, сейчас же заметим, что для документов первой группы главное - это данные, в основном -коммерческие, и их иерархическая структуризация, а для документов второй группы главное - разметка содержания. Это значит, что документы первой группы имеют дело с данными, являющиеся объектом хранения традиционных систем баз данных, а архивы соответствующих XML-документов состоят из документов электронной коммерции, В2В систем и т.д. Для документов первой группы характерно наличие предписывающих XML-схем, то есть они относятся к категории «valid». Архивы XML-документов второй группы - это содержательные документы интернет-сайтов, например документы XHTML. Разметка документов, так называемая смешанная разметка, осуществляется с ориентацией на определенный словарь, но как таковой предписывающей XML-схемы часто нет, так как она мало информативна.

Разумеется, как те, так и другие документы могут быть объектами хранения в XML-базах данных, однако для документов первой группы вполне могут подойти и традиционные DBMS с

моделью данных, предполагающей более глубокую иерархшо по сравнению с реляционной.

В качестве такой модели данных целесообразно исследовать модель Pick UDM, так как построенная на ее основе XDMS TigerLogic запатентована и обеспечивает столь высокую производительность при работе с XML-базами. XDMS TigerLogic в России в настоящее время недоступна, однако доступна DBMS D3, на которой можно промоделировать разработанные алгоритмы и методики. Таким образом, в диссертации предполагается решить следующие задачи:

1. Исследовать возможность работы с базой XML-документов исключительно средствами DBMS D3;

2. Исследовать ограничения на структуру XML-документа, позволяющую непосредственно загружать данные в область данных, а теговую структуру в словарь;

3. Разработать средства оформления отчетов на запросы к базе данных D3 в виде XML-документа со структурой, задаваемой предписывающей XML-схемой;

Разработать экспериментальную базу данных и систему для работы с ней в среде DBMS D3 и в среде XML DBMS.

В главе 2 развивается подход к отображению XML-документов в структуры, определяемые моделью Pick UDM. Выделяется подкласс XML-документов «ориентированных на данные», для которых такое отображение реализуется естественно и эффективно.

На базе модели Pick UDM разработаны СУБД D3 (TigerLogic) UNIVERSE (ТОМ), UNIDATA (IBM) и многие другие. В отличие от реляционной, эта модель поддерживает многозначность, единственный тип данных - строки переменной длины и определяет атрибуты как функциональные преобразования от данных, хранящихся в базе.

В соответствии с этой моделью база данных рассматривается как совокупность файлов. Стандартно «файл базы данных» состоит из «словаря», используемого для хранения атрибутов и «области данных» - для собственно данных, хотя и те и другие организованы абсолютно одинаково. С каждым словарем может быть связано

несколько областей данных, в том числе и ни одной. Это делает модель Pick UDM более удобной, по сравнению с реляционной, для отображения XML-документов на структуры данных, определяемые этой моделью (рис.3), так как основной компонент файла - запись имеет практически неограниченную длину.

Рис.3. Структура данных модели Pick UDM Для отображения XML-документов будем говорить только о записях с текстовыми данными. Любая запись, будучи считанной из файла базы данных в некоторую переменную «основной памяти», например, Item принимает структуру динамического массива, к элементам которого можно обращаться по целочисленным индексам: itemci, j, k>, i - номер поля записи, j - номер значения, к - номер подзначения. Слово «динамический» означает, что границы измерений априорно не определены и могут быть смоль угодно большими.

Модель Pick UDM не предполагает обязательную предписывающую схему, которая однозначно диктует структуру

записей файлов базы данных. Так как единственным типом данных является текст, то его интерпретация может быть самой разнообразной. Поиск в базе данных может быть проведен с ориентацией на произвольную описывающую схему, состоящую из атрибутов одного или нескольких словарей.

Возникает несколько задач, связанных с отображением XML-документов на структуры, определяемые моделью Pick UDM. Остановимся только на двух:

1. Конвертировать совокупность XML-документов, построенных в соответствии с некоторой XML-схемой, в файл базы данных.

2. Получить ответ на запрос к базе данных, построенной в соответствии с моделью Pick UDM, в форме XML-документа с заданной XML-схемой.

Решение связано с разработкой алгоритма отображения XML-схемы в записи определения атрибутов, сохраняемых в словаре, и разработке алгоритма загрузки информационной составляющей XML-документа в записи области данных (рис.4).

В случае XML-документа произвольной структуры его информационная составляющая отображается в несколько записей области данных. Практически важны случаи, когда XML-документ отображается в единственную запись. Эти случаи можно описать, сформулировав следующее утверждение:

Утверждение. Для отображения XML-документа в виде одной записи необходимо, чтобы в дереве, построенном по преобразованной XML-схеме этого документа, на каждом пути из корня дерева в висячую вершину было не более двух модификаторов «+». (Модификатор «*» рассматривается как «+»).

Большинство экономических документов удовлетворяют этому ограничению.

Рассмотрим алгоритм отображения XML-схемы в структуру, определяемую моделью Pick UDM. Считаем, что XML-схема представлена в синтаксисе DTD. Каждому элементу (тегу) и каждому атрибуту элемента необходимо поставить в соответствие атрибут модели Pick UDM.

<кафедра 1с1_кафедры="35">

скафедра хс$__кафедры»"34"> <телефоны>

<номер__телефона>12 3-45б7</н<жер телефона> <номер_телефона>239-4567С/номер <гелефона> </телефоны> < пр еподав ат ели>

спреподаватель з?аб_номер="2234"> <фио>Вин Зо</фио>

<день_рождения>12 авгс/день_рождения> <номер_/гелефона>623-45б7</номер_телефона> <номер_телефона>4 53-45 67</номер_телефона> </преподаватель> <преподаватель таб_иомер="2235"> <фио>Пхоун Найнг</фио> <номер_телефона>223-7567</комер_фелефона> </преподава1|ель> </преподавао?ели> </кафедра>

1111! 111

■ кафедра- О

кафедра.Ы^кафедры . 1

кафедра/телефоны О

телефоны/ноыер_телефона 2

кафедра/преподаватели - и

преподаватели/преподаватель О

преподаватель. табноыар 3

преподаватель/фио 4

преподаватель /день_рождеиия .5

преподаватель/Номер__телефока 6

Словарь

11ет1С=34

1; 34

2: 123-45671239-4567

3: 2234)2235

4: Вин ЗоЩхоун Найнг

5: 12 авг)

6: 623-4567\453-4567]223-7567

1: 35

2: 4564567]7394567

3: 2534)253512536

4: Седов В.А.]Шиков М.А.]Тур В.В.

5: 22 июн]3 окт]12 сен

6: 3234567)7237567189163543424

Область данних

Рис.4. Отображение ХМЬ-документов Все элементы в ХМЬ-схеме необходимо расположит!, в стандартном иерархическом порядке в соответствии с принципом «сверху - вниз, слева - направо». Декларация атрибутов элемента должна следовать непосредственно за декларацией элемента,

причем атрибут типа ID должен быть декларирован первым. Рассмотрим путь от корня дерева, представляемого XML-схемой, до его висячей вершины. Примерами таких путей могут служить (см. рис.4).

кафедра/преподаватели/преподаватель.табномер хсафедра/преподаватели/преподаватель/фио Первый путь заканчивается именем атрибута, а второй -именем негруппового элемента. Эти пути можно интерпретировать как имена соответствующих данных. Для того чтобы иметь возможность полностью восстановить исходный XML-документ, сохраненный в базе данных в «разобранном» виде, необходимо каждому «подпути» поставить в соответствие атрибут модели Pick UDM:

кафедра

кафедра/преподавашели кафедра/преподаватели/преподаватель кафедра/преподаватели/преподаватель.таб_номер кафедра/преподаватели/преподаватель/фио При этом всем групповым тегам ставятся в соответствие виртуальные атрибуты модели Pick UDM, которые не имеют собственных значений и которым традиционно ставится в соответствие поле с номером 0. Собственные значения имеют атрибуты модели Pick UDM, соответствующие висячим вершинам дерева, представляющего XML-схему. Им должны соответствовать конкретные номера полей записи области данных.

При предположении, что имена групповых тегов не входят в другие группы, имена атрибутов можно сократить и представить в виде:

кафедра

кафедра/преподаватели преподаватели/преподаватель преподаватель. таб__номер преподаватель/фио

Таким образом, имена атрибутов модели Pick UDM образуются следующим образом:

в Корневому элементу XML-документа ставится в соответствие атрибут модели с именем корневого элемента, например, <кафедра> -> кафедра. ® Дочернему элементу XML-документа ставится в соответствие атрибут модели, имя которого образуется конкатенацией имени родителя, символа «/» и имени дочернего элемента:

<преподаватель> ->

преподаватели/преподаватель, в Атрибуту XML-документа ставится в соответствие атрибут модели, имя которого образуется конкатенацией имени элемента, символа «.» и имени атрибута: спреподаватель табномер> ->

преподаватель.табномер. Формирование атрибутов модели Pick UDM производится последовательной обработкой строк XML-схемы, при этом считается, что корневой элемент всегда групповой. Всем групповым тегам ставятся в соответствие виртуальные атрибуты, которые не имеют собственного значения и которым традиционно ставится в соответствие поле с номером 0. Негрупповым тегам и атрибутам последовательно приписываются номера полей.

Загрузка XML-документа в базу данных выполняется при условии, что внутреннее представление XML-схемы предварительно построено.

Считается, что XML-документ представлен текстовым файлом с расширением .xml в каталоге windows, unix или linux. С точки зрения модели Pick UDM — это одна запись, в которой i-ая строка файла представляет значение i-oro поля. Алгоритм загрузки предполагает, что XML-документ представлен в нормализованном виде, то есть его строки соответствуют строкам дерева элементов, получаемым при визуализации в браузере.

Предлагаемая технология позволяет создать компактную базу XML-документов, в которой средствами СУБД D3 решаются все вопросы модификации и поиска. Восстановление XML-документа в виде .xml файла или оформление ответа на запрос к

базе в виде XML-документа с XML-схемой, отличной от исходной, выполняется с несущественными затратами времени.

Существуют две задачи получения XML-документа из базы данных, построенной в соответствии с моделью Pick UDM:

1. оформление в виде XML-документа динамического массива;

2. оформление в виде XML-документа ответа на произвольный запрос к базе данных.

В первом случае получение XML-документа производится в соответствии с заданной внутренней XML-схемой. Во втором случае искомое решение будет получено, если результаты произвольного запроса представить в виде динамического массива. Эта задача полностью решается стандартными средствами DBMS D3 путем промежуточной выдачи результатов запроса в отдельный файл. Значения вычисляемых атрибутов при этом записываются в реальные поля записи, которая при считывании превращается в динамический массив.

В главе 3 рассмотрены вопросы отображения XML-документов со смешанным контентом в структуры, определяемые моделью Pick UDM. Разрабатывается идея динамической разметки линейного текста и связывания с этой разметкой определенных операций, в частности, выполнения гипертекстовых переходов, выполнения операций с базой данных и т.д.

Документы со смешанной разметкой - это широкий класс XML-документов, например, практически все тексты XHTML. Однако в XHTML теги разметки используются исключительно для целей представления, например, какой то фрагмент строки нужно выделить курсивом, что достигается заключением его в теги <ix/i>. С точки зрения диссертации смешанная разметка интересна как простейший способ внесения в текст некоторой семантики. Элемент со смешанным контентом декларируется в DTD строкой, построенной в соответствии со следующим шаблоном:

<!ELEMENT имя_родителя (#PCDATA|имена_дочерних_элементов)*>

Элемент содержит текст, который может (но не обязан) включать фрагменты (до, между, после планарного текста), размеченные тегами с именами дочерних элементов. Эти теги могут располагаться в произвольной последовательности, произвольное количество раз, некоторые из них в реальном XML-документе могут не появиться вообще. С другой стороны, в реальном XML-документе не может появиться тег не декларированный в DTD.

XML-документ, ориентированный на документы, обычно не имеет предписывающей XML-схемы. Вполне достаточно того, чтобы теги были расставлены в соответствии с правилами языка XML. С другой стороны, если документ правильно оформлен, то по его тексту всегда молено сгенерировать описывающую XML-схему.

На практике оказывается очень востребованным простейший вариант элементов со смешанным контентом, в котором все входящие дочерние элементы являются конечными. В этом случае элементы разметки можно выделить в отдельное поле, поставив в соответствие текстовой составляющей специальный тег, например, слово «текст».

WT call . ■■•. ■ V ,..:■■; ■ ■•■■■.. : • . ■:„■■

002 текст]operator]текст]fdi]текст]aai]текст] dict_atr 1 текст] dict_atr] текст] dict__atr] текст

003 При вызове подпрограммы никакие параметры не указываются, но , в любом случае параметр подпрограмме передается, поэтому один параметр должен быть задан в операторе ]Subroutine]. При вызове подпрограммы из ]записи описания файла] в подпрограмму передается вся запись.1 Если подпрограмма вызывается, из ]записи описания атрибута], в качестве параметра ей передается значение . вызывающего атрибута:. Подпрограммы могут быть вызваны из атрибутов корреляций, ]Correlatives], входных преобразований ]Input Conversion] или выходных преобразований ]Output Conversion] записей описания файла или записей описания атрибута. _ ■ '

Рис.5. Отделение тегов XML-документа от контента

На рис.5 для XML-документа, в поле 002 помещена последовательность тегов, а в поле 003 оставлен собственно текст. И теги и фрагменты текста разделены символом «]» -разделителем значений. На этих полях можно определить атрибуты, связанные зависимостью управляющий-подчиненный, которые позволят четко сопоставить каждому тегу его текстовое содержание.

В главе 4 посвящен экспериментальной проверке предлагаемых подходов к работе с XML-базами данных на основе разработанного Web-приложения. Анализируется технология JSF как технология практического построения Web-приложений на основе MVC. Разработана XML-база данных для хранения и поиска документов со смешанным контентом и продемонстрированы результаты поиска на основе SQL и XQuery.

Предположение, что смешанная разметка возникает в результате вторичной разметки XML-документов с четкой статической структурой, информация в которых представляется в виде значительных фрагментов планарного текста. С этими документами могут работать разные люди и каждый оценивает содержимое документа под углом собственной точки зрения. По мере работы с документом отдельные фрагменты текста подвергаются дополнительной разметке с помощью тегов из некоторого ограниченного множества, специфичного для специалиста определенного профиля. Дополнительно размеченный документ может бьггь сохранен в собственной XML-базе данных и в дальнейшем использован для целей анализа, поиска прецедентов и т.д. В настоящее время выполнение подобной семантико-прагматической функции скорее всего, прерогатива человека, но в дальнейшем эта работа может быть будет выполняться интеллектуальными роботами.

В данной главе речь пойдет о построении системы, которая может использоваться при редактировании XML-документов, настраиваться на различные предметные области, использоваться для поиска в XML-базе данных и т.д.

В диссертации, на примере создания базы данных по сбойным ситуациям и описанию способов их устранения, продемонстрирована целесообразность создания таких гибридных систем, совмещающих SQL и XML данные. Проблема создания базы данных по сбойным ситуациям часто встает перед фирмами, производящими обслуживание некоторого оборудования. Функционально системы, поддерживающие такие базы, должны обеспечить средства для описания особенностей сбойной ситуации и способов устранения ее, средства для формирования поисковых запросов и средства для удаленного доступа к базе данных, обычно через Интернет. Функционал «Разметка»

Разметка выполняется на Web-клиенте и начинается с неразмеченного планарного текста. Априорно считается, что текст заключен между корневым тегом, например, <repair> и его закрывающим аналогом </repair>. Текст может быть набран непосредственно в окне или выбран из XML-базы данных. Заметим, что это «valid» XML-документ.

При выполнении разметки курсором выделяется фрагмент текста, ограниченный пробелами, и вызывается список допустимых тегов. Выбирается требуемый тег и «кликом» осуществляется разметка, то есть выбранный тег и его закрывающий аналог обрамляют выделенный фрагмент. Если теперь внутри размеченного фрагмента снова выделить некоторый текст, то при его разметке будут вызываться теги второго уровня, то есть теги определенные в XML-схеме документа в элементе, которым вводится обрамляющий тег.

Чтобы аннулировать уже сделанную разметку надо полностью выделить фрагмент текста, находящегося между открывающим и закрывающим тегами и «кликнуть». После подтверждения разметка удаляется.

Размеченный текст сохраняется в XML-базе данных и может неоднократно модифицироваться. Функционал «Поиск»

Поиск может производиться как по SQL-столбцам, так и по XML-столбцам. Для последнего используется XQuery.

Для поиска по SQL-столбцам на экранной форме клиента обозначаются названия SQL-атрибутов и поля для ввода соответствующих значений.

Для поиска по XML-фрагменту на экране клиентской формы выделено три поля. Первое поле предназначено выбора тега первого уровня, второе поля - для выбора тега второго уровня, третье поле предназначено для искомой текстовой составляющей, в частности, это может быть слово «ANY», которое обозначает «любой текст». В этом случае интересно само присутствие соответствующей разметки.

Значение всех шлей передаются на сервер приложений, где формируется поисковая строка, которая затем передается на выполнение на сервер базы данных. Ответ на запрос выдается в виде XML-документа, для визуального представления которого написана программа на XSLT.

Рассмотрены вопросы построения программной оболочки для Web-приложения, выполняющего подобные функции. Анализируется технология JSF как технология практического построения Web-приложений на основе MVC. Разработана XML-база данных, для хранения и поиска документов со смешанным контентом и продемонстрированы способы поиска XML-документов на основе использования языков SQL и XQuery.

В отличие от подхода, использованного в главе 3, когда для разметки использовались только конечные теги, в главе 4 рассмотрен общий случай, когда смешанная разметка существенным образом зависит от обрамляющего тега. Это предполагает однозначную ориентацию либо на создание базы под управлением «native» XDMS, либо на использование встроенных XML-столбцов в реляционных системах.

К сожалению, сравнивать реальные характеристики приложений не представляется возможным, так как первое работает с энциклопедией, состоящей из 2640 объемных записей и занимающей несколько мегабайт, а второе - только с тестовой базой данных из нескольких десятков сбойных операций.

В заключении приведены основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

При выполнении данной работы получены следующие основные результаты:

1. Проанализированы существующие подходы к созданию XML-баз данных. В результате анализа показано, для создания баз XML-документов с ориентацией на данные совершенно не обязательно использовать специальные XDMS.

2. Проанализированы подходы к созданию современных XDMS и показано, что системы, построенные на базе модели Pick UDM демонстрируют повышенную производительность и масштабирование.

3. Разработан алгоритм преобразования XML-схемы документов, ориентированных на данные, в схему базы данных, определяемую моделью Pick UDM.

4. Разработан алгоритм загрузки XML-документов в базу данных, работающую под управлением DBMS с моделью Pick UDM.

5. Разработаны программные средства, реализующие перечисленные алгоритмы.

6. Проведена экспериментальная проверка работы предложенных алгоритмов

7. Разработана многотерминальная система, позволяющая создавать динамический гипертекст в среде DBMS D3. Система использована в учебном процессе кафедры 22 МИФИ при обучении студентов Союза Мьянма.

8. Разработано экспериментальное Web-приложение с XML-базой данных, использующее разработанные в диссертации алгоритмы и ориентированное на создание баз XML-документов со смешанным контентом и выполнение поисковых операций.

Результаты работы показывают, что поставленные цели диссертации можно считать достигнутыми. Эксперименты подтвердили теоретические разработки, предложенные в диссертации, и показали возможность использования баз данных, построенных на базе модели Pick UDM, для эффективного хранения и обработки XML-документов, ориентированных на данные.

По теме диссертации опубликованы следующие работы:

1. Кадэй Тхэй, Щукин Б.А, Безопасность хранения XML-документов // «Безопасность информационных технологии», 2009 г. №1, с 4S-49.

2. Кадэй Тхэй, Вин Зо, Моделирование процесса взаимодействия локальных систем при их интеграции // «Современные технологии в задачах управления, автоматики и обработки информации: Труды XVI Международного научного технического семинара», Алушта, с 42.

3. Кадэй Тхэй, Обработка RDF данных средствами реляционных СУБД // «Современные технологии в задачах управления, автоматики и обработки информации: Труды XVII Международного научного технического семинара», Алушта, с 230.

4. Кадэй Тхэй, Работа с базами данных, содержащими XML-документы // «Научная сессия МИФИ-2008. Сборник научных трудов. В 15 томах. Т.П. Программное обеспечение технологии» М.: МИФИ, 2008, с 78.

5. Кадэй Тхэй, Включение XML-столбцов в реляционные таблицы // «Микроэлектроника и информатика - 2008. XV-ая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тезисы докладов» М.: МИЭТ, 2008, с 195.

6. Кадэй Тхэй, Приложения с XML-базами данных // «Научная сессия МИФИ-2009. XII Московская международная телекоммуникационная конференция студентов и молодых ученых «МОЛОДЕЖЬ И НАУКИ». Тезисы докладов. В 2-х частях. Ч. 2.» М.: МИФИ, 2009, с 89-90.

Подписано в печать:

26.05.2009

Заказ № 2153 Тиране -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Оглавление автор диссертации — кандидата технических наук Кадэй Тхэй

Введение.

1. XML-технологии и базы данных.

1.1 XML-технологии.

1.1.1 Декларация тега в DTD.

1.1.2 Декларация атрибутов тега.

1.1.3 Логическая модель XML-документа.

1.2 XML-базы данных и базы XML-документов.

1.3 «native» XDMS.

1.3.1 XML-DBMS SEDNA.

1.3.2 XDMS TigerLogic.

1.4 Гибридные SQL/XML базы данных.

1.5 Постановка задачи диссертации.

Выводы по главе 1.

2. Отображение XML-документов с ориентацией на данные в структуры, определяемые моделью Pick UDM.

2.1 Описывающая и предписывающая схемы данных.

2.1.1 Полу структурированная модель данных.

2.1.2 Pick UDM и полуструктурированная модель данных.

2.1.3 Представление полу структурированных данных в Pick UDM.

2.1.4 Задача отображения XML-документов в структуры, определяемые моделью Pick UDM.

2.2 Отображение XML-документа в структуру, определяемую моделью Pick UDM.

2.2.1 Отображение1 XML-схемы в структуру, определяемую моделью Pick UDM.

2.2.2 Алгоритм загрузки XML-документа.

2.2.3 Алгоритм выдачи XML-документа.

2.3 Отображение XML-документов в общем случае.

Выводы по главе 2.

3. Отображение XML-документов со смешанным контентом в структуры, определяемые моделью Pick UDM.

3.1 Декларация элементов со смешанным контентом.

3.2 Отображение документов со смешанным контентом в модели Pick UDM

3.2.1 Файл *.xml как отдельная запись.

3.2.2 Файл *.xml как отдельное поле записи.

3.2.3 Элементы со смешанным контентом как отдельные поля записи

3.2.4 Отделение тегов и их контента.

3.3 Встроенные средства разработки DBMS D3.

3.4 Система «динамического» гипертекста.

Выводы по главе 3.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Кадэй Тхэй

XML вызывает огромный интерес с того момента, как о нем было впервые заявлено в 1997 году как о новой Internet-технологии. Он обеспечивает стандартный способ разметки контента (содержания), предоставляя гибкий способ структурирования данных. Контент XML документа размечается с помощью определяемых разработчиком тегов, на основе правил грамматики XML. Неформально говоря, XML [1,11] ~ это всего лишь способ представления иерархической информации (т.е. некоторой древовидной структуры).

XML разрабатывался с единственной целью - отделение данных от их представления. Представление XML-данных на экранах компьютеров (будь то медицинская карта или коммерческий счет) — это хотя и существенная часть многих приложений, но вполне обособленная. Сам по себе XML-документ не указывает, будет ли, и каким образом, информация отображена на экране, хотя в нем возможна ссылка на программу, реализующую такое представление. Сам XML-документ содержит размеченные данные, но эта разметка существенно отличается от HTML-разметки: разметка, вводимая тегами HTML служит исключительно целям представления, разметка, вводимая тегами XML служит целям структуризации содержания документа - она может рассматриваться как простейший способ введения семантики.

Техника представления XML-документов изменяется от простой до достаточно сложной. Независимо от выбранного метода, дизайн представления информации XML-документа осуществляется с помощью других средств, специально предназначенных для этой цели и называемых шаблонам разметки и таблицами стилей. Дизайнер отдельно определяет шаблоны и стили форматирования и правила их применения. Одну и ту же таблицу стилей можно использовать совместно с несколькими XML-документами для создания сходного вида; наоборот, для одного XML-документа может использовать несколько таблиц стилей, создающих разные виды документа. Стили и шаблоны применяются к данным XML-документа во время его представления клиенту и могут быть использованы для его преобразования в формат HTML или любой другой формат данных.

Однако по мере развития XML было понято, что он может выполнять еще одну существенную функцию, связанную с передачей данных между приложениями. С точки зрения самых различных приложений весьма существенна стандартизованная передача данных между приложениями, не требующая специальных средств, обеспечивающих форматные преобразования. Интеграция унаследованных приложений, создание композитных приложений, технология Web-сервисов, сервис-ориентированная архитектура информационных систем - все эти технологии непосредственно ориентированы на использование XML для передачи данных.

Широкое использование XML-технологий привело к тому, что стали накапливаться значительные архивы XML-документов, поэтому в последнее время все больше стали говорить о создании XML баз данных, так как частое конвертирование XML-документов в структуры реляционных баз не эффективно из-за слишком большой разницы в структурах. К настоящему моменту создано уже несколько «native» (родных, созданных именно для XML) XDMS, и они непрерывно совершенствуются. Это значит, что совершенствуются функции, присущие классическим базам данных: эффективное хранение, индексация, обеспечение безопасности, обработка транзакций и поддержка целостности, многопользовательский доступ, поддержка запросов ко многим документам и т.д. Все эти функции в той или иной степени поддерживаются современными XDMS, но как отмечается в [3] не в той степени зрелости как это присуще реляционным DBMS.

Как задача создания «native» XDMS, так и вообще задача эффективной работы с архивами XML-документов в настоящее время находятся в исследовательской стадии. В этой связи необходимо отметить группу исследователей из ИСП РАН, разработавших оригинальные методы эффективного хранения XML-документов, их индексации, поддержания ограничений целостности и т.д. и реализовавших эти методы в XML DBMS SEDNA [5]. За пределами России также создано несколько XDMS, среди которых отметим систему TigerLogic, разработанную одноименной фирмой [6].

Однако задача состоит не только в том, в том, чтобы создать XDMS и построить на ее основе XML-базу данных - надо найти место этих баз в современных информационных системах, сделать эти системы баз данных востребованными. Эта задача не менее, а может быть и более сложная, поэтому крупные фирмы - производители DBMS пошли по пути встраивания XML в свои реляционные системы. В реляционную таблицу встраивается столбец (один или несколько), которому присваивается тип XML. Каждая строка таблицы в этом столбце содержит указатель на XML-документ, сохраняемый в специальном хранилище. Так организована поддержка XML в DBMS DB 2 фирмы IBM [7,8]. Аналогичные методы используются и в других системах.

Все XML-документы принято разделять на «ориентированные на документы» и «ориентированные на данные» («document centric» и «data centric» [9]).

Это разделение довольно условное, однако в большинстве случаев при «ориентации на документы» в XML-документе в пределах любого тега допускается свободное использование текста, в котором некоторые фрагменты «размечены» XML тегами. Теги разметки могут быть произвольно разбросаны по тексту, лишь бы соблюдались фундаментальные требования по их вложенности. Говорят, что имеет место смешанная разметка, порождающая «mixed content», характерный для содержательных документов, включающих текст, графические фрагменты, цифровые выкладки.

XML-документы, «ориентированные на данные», устроены гораздо более строго: имеется строгая последовательность тегов, каждый тег может быть либо групповым, включающим дочерние, либо конечным, включающим неразмеченный текст. Различные счета, накладные, которыми обмениваются предприятия, оформленные в виде XML-документов, являются типичными i представителями документов, «ориентированных на данные».

Разумеется, и те и другие документы можно хранить в базах, поддерживаемых как «native» XDMS, так и реляционными системами, с встроенной поддержкой столбцов типа XML. Однако следует заметить, что в хранилищах этих баз XML-документы хранятся не в виде привычных текстовых файлов с расширением .xml, а в более развернутом виде, так или иначе связанным с DOM-ориентированной структурой. На их загрузку тратится время, точно также как и выгрузка в виде тестового файла или строки сообщения, при необходимости отправки.

Термин «XML база данных» не совсем точен. Дело в том, что базы данных образуют совокупность взаимосвязанных данных, а не совокупность отдельных несвязанных документов, что характерно как для «native» XDMS, так и для реляционных систем, с встроенной поддержкой столбцов типа XML. Поэтому более точным является термин «база XML-документов», а вопрос отображения содержания XML-документов в стандартные базы данных имеет и самостоятельное значение.

Поэтому, по крайней мере, для архивов документов, «ориентированных на данные», вопрос создания на их основе XML-баз данных не такой однозначный, тем более что данные, включаемые в них, являются объектами хранения традиционных систем. Выполнен ряд исследований, связанных с отображением XML-данных в среды реляционных [10] и объектно-реляционных DBMS [22] баз данных. Существуют также другие модели данных и поддерживающие их DBMS, которые работают с более глубокими иерархическими структурами нежели традиционная «таблица - строка -поле» реляционной модели.

В диссертации в качестве такой альтернативной модели взята модель Pick UDM, лежащая в основе DBMS D3 [23], и показано, что в структуры этой модели весьма эффектно и эффективно отображаются XML-документы, «ориентированные на данные» и наоборот, выдачу на запрос к этой базе можно получить в виде XML-документа с заданной XML-схемой.

Ограниченный подкласс XML-документов, «ориентированных на документы», также можно представить в структурах модели Pick UDM, но для этого приходится воспользоваться идеями, заложенными в модель данных RDF [20]. Эти исследования легли в основу разработки системы «динамической» разметки линейных текстов. Эта разметка осуществляется пользователем, например, учебного пособия и может быть сохранена после сеанса или уничтожена. Эта система, как демонстрация возможностей баз XML-документов, разрабатывалась в среде DBMS D3 на базе материалов «Энциклопедии D3» и в как Web-приложение в среде Eclipse и DBMS DB2 v9 [8], поддерживающей тип данных XML, с использованием технологии Java, JSF, XQuery.

Таким образом, целью диссертации является исследование и разработка методов и инструментальных программных средств отображения XML-документов в структуры, определяемые моделью Pick UDM а также разработка экспериментальных приложений работающих с XML-базами данных.

Для достижения поставленной цели в диссертации решены следующие задачи:

1. Проанализированы современные методы создания и использования XML-баз данных в информационных системах.

2. Проанализированы инструментальные средства работы с XML-базами данных, как создаваемые с «нуля» - «native» XDMS, так и встраиваемые в современные реляционные DBMS.

3. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

4. Разработаны алгоритмы загрузки XML-документов в базу, управляемую в соответствии с моделью Pick UDM.

5. Разработаны экспериментальные приложения, работающие с XML-базами данных.

Для решения поставленных задач в диссертации использованы методы теории графов, методы и средства процедурного и объектно-ориентированного проектирования и программирования.

В диссертации получены следующие новые научные результаты:

1. Разработаны алгоритмы отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Сформулированы условия, при выполнении которых отображение XML-документов осуществляется без декомпозиции последних.

3. Разработаны алгоритмы загрузки XML-документов в базу, управляемую в соответствии с моделью Pick UDM.

Основные научные результаты, выносимые на защиту:

1. Предлагаемый подход и алгоритмы для отображения XML-схем в структуры, определяемые моделью Pick UDM.

2. Алгоритмы и программные средства загрузки XML-документов и оформления в виде XML-документа ответа на запрос к базе данных в соответствии с заданной XML-схемой.

3. Разработку алгоритмов и программных средств, позволяющих проводить динамическую разметку текстов и связывать с этой разметкой возможность выполнения определенных операций.

Разработанные в диссертации подходы алгоритмы и программные средства использованы в учебном процессе кафедры «Кибернетика» МИФИ в курсах, читаемых для студентов Союза Мьянма: «XML-технологии», «Объектно-ориентированные и многозначные базы данных».

В первом разделе диссертации рассматриваются основные положения XML-технологии, анализируется проблема создания XML-баз данных, рассматриваются подходы к решению этих задач на базе «native» XDMS и специальных средств, встраиваемых в современные реляционные DBMS. Поднимается проблема места XML-баз данных в современных информационных системах. В конце первого раздела диссертации поставлена цель и конкретные задачи диссертационного исследования.

Во втором разделе диссертации развивается подход к отображению XML-документов в структуры, определяемые моделью Pick UDM. Выделяется подкласс XML-документов «ориентированных на данные», для которых такое отображение реализуется естественно и эффективно.

Заключение диссертация на тему "Представление и обработка XML-баз данных"

Выводы по главе 4

1. На основе архитектуры МУС разработано Web-приложение, ориентированное на создание и поиск XML- документов со смешанным контентом.

2. Технология JavaServer Faces (JSF), в основе которой лежит архитектура МУС, предоставляет удобные средства для разработки Web-приложений повышенной сложности на платформе J2EE.

3. В рамках приложения разработан редактор, ориентированный на создание и модификацию XML- документов со смешанным контентом.

4. Разработана XML-база данных для хранения и поиска документов со смешанным контентом и продемонстрированы результаты поиска на основе SQL и XQuery.

Заключение

В диссертации исследована проблема представления и обработки XML-документов в DBMS с многозначной моделью данных и XML DBMS.

Показано, что для XML-документов, ориентированных на данные, целесообразно отделять элементы разметки от собственно данных, что способствует существенному сокращению объема базы и дает возможность использовать для работы с XML-документами стандартные средства DBMS.

С этой целью разработаны алгоритмы преобразования XML-схемы документов, ориентированных на данные, в схему базы данных, определяемую моделью Pick UDM, алгоритм загрузки XML-документов в базу данных, работающую под управлением DBMS с моделью Pick UDM и программные средства, реализующие перечисленные алгоритмы.

Исследованы ограничения на структуру XML-документа, позволяющую непосредственно загружать данные в область данных в виде единственной записи, а теговую структуру в словарь, разработаны средства оформления отчетов на запросы к базе данных в виде XML-документа.

Предлагаемая технология позволяет создать компактную базу XML-документов, в которой средствами DBMS D3 решаются все вопросы модификации и поиска. Восстановление XML-документа в виде .xml файла или оформление ответа на запрос к базе в виде XML-документа выполняется с несущественными затратами времени.

В результате проведенного исследования можно сделать вывод, что для создания баз XML-документов с ориентацией на данные совершенно не обязательно использовать специальные XML DBMS.

Показано, что XML-документы со смешанной разметкой можно отображать в DBMS с многозначной моделью данных только в частных случаях смешанной разметки ограниченной вложенности, а в общем случае целесообразно использовать XML DBMS.

Используя это частное представление, разработана многотерминальная система динамической разметки линейного текста путем связывания с этой разметкой определенных операций, в частности, выполнения гипертекстовых переходов, выполнения операций с базой данных и т.д., что демонстрируется на базе электронной энциклопедии DBMS D3.

Когда вложенность элементов смешанной разметки не ограничена, для построения соответствующих баз целесообразно использовать XML DBMS. В диссертации смешанная разметка рассматривается как простейший способ выделения семантических единиц в планарном тексте. С этой целью разработана программная оболочка Web-приложения, позволяющая производить создание, редактирование и поиск XML-документов со смешанным контентом.

В качестве XML-базы данных для хранения и поиска документов со смешанным контентом использована гибридная система - DBMS DB2 v9, совмещающая работу с SQL и XML данными. Архитектура Web-приложения построена на основе шаблона Model-View-Controller (MVC) в исполнении Java Server Faces (JSF) с использованием сервера приложений Apache Tomcat. Программирование выполнено на Java (J2EE).

Библиография Кадэй Тхэй, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Мартин Д. и др,. XML для профессионалов, Издательство «ЛОРИ»,2001.-866 с.

2. Document Type Definition (DTD). The World Wide Web Consortium -http://www.w3.org/TR/REC-html40/sgml/dtd.html.

3. Буре P. XML и базы данных, http://www.osp.ru/os/2000/10/062.htm.

4. Гринев М., Кузнецов С., Фомичев A., XML-DBMS Sedna: технические особенности и варианты использования, http://www.citforum.ru/database/articles/sedna/index.shtml.

5. Sedna XML DBMS http://modis.ispras.ru/Development/sedna.htm.

6. TigerLogic XDMS http://www.tigerlogic.com.

7. DB2 9 pureXML Guide http://www.redbooks.ibm.com/redbooks/pdfs/sg247315.pdf

8. XML-стандарты: результаты прошедшего года, http://www.iso.ru/joumal/articles/489.html.

9. Филиппов В.А., Щукин Б.А., Постояннов А.В., Язык XML и многомерная СУБД D3, издательство: Едиториал УРСС, 2001 г.

10. Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation. 6-October-2000. http://www.w3.org/TR/2000/REC-xml-20001006.

11. XML Schema Part 0: Primer. W3C Recommendation. 2 May 2001.http://www.w3.org/TR/2001/REC-xmlschema-0-20010502.

12. XML Schema Part 1: Structures. W3C Recommendation. 2 May 2001. http://www.w3.org/TR/2001/REC-xmlschema-1 -20010502.

13. XML Schema Part 2: Datatypes. W3C Recommendation. 2 May 2001. http ://www.w3. org/TR/2001/REC-xml schema-2-20010502.

14. Руководство по XML: разработка XML schema. http://www.iso.ru/journal/articles/41 .html.

15. Когаловский M.P., Стандарты платформы XML и базы данных, http://www.elbib.ru/index.phtml?page=elbib/rus/methodology/xmlbase/tutor ial.

16. Resource Description Framework (RDF). Model and Syntax Specification. W3C Recommendation. 22 February 1999. http://www.w3.org/TR/REC-rdf-syntax/.

17. RDF Vocabulary Description Language 1.0: RDF Schema. The World Wide Web Consortium www.w3.org/TR/rdf-schema.

18. RDF Primer. The World Wide Web Consortium http://www.w3 .org/TR/2004/REC-rdf-primer-20040210.

19. Klettke M., Meyer H. XML and Object-Relational Database Systems -Enhancing Structural Mappings Based on Statistics. WebDB 2000, p. 63-68.

20. Pick Universal Data Model, http://www.infoved.rU/software/index.html#text-pick.

21. Document Object Model (DOM). The World Wide Web Consortium -, http://www.w3 .org/DOM/.

22. Simple API for XML (SAX), https://www6.software.ibm.com/developerworks/education/x-usax/index.html.

23. Системы управления полуструктурированными данными, http://www.osp.ru/os/1999/05-06/17983 7/р 1 .html.

24. КОДЦ Э.Ф., Тьюринговская лекция, http://awards.acm.org/listing.cfm.2 8. Semi-structured data model, http://en.wikipedia.org/wiki/Semistructuredmodel.

25. Vaskevitch D., Two Steps Forward, One Step Back, BYTE, May 1992.

26. XSL Transformations (XSLT). Version 1.0. W3C Recommendation 16 November 1999. http://www.w3.org/TR/1999/REC-xsIt-19991116.

27. Леонов И.В., XML и XSLT в примерах для начинающих, http://www.citforum.ru/internet/xmIxslt/xmlxslt.shtml.

28. Anzeni P., Mecca G., Merialdo P. Semistructured and Structured Data in the Web: Going Back and Forth. Workshop on Management of Semistructured Data, May 1997. Доступна по адресу: www.research.att.com/~suciu/ workshop-papers.html.

29. Parikh A., Parikh P., TigerLogic XML Data Management Server. The Power Behind An SOA, http://www.idealliance.org/proceedings/xml05/.

30. Кадэй Тхэй, Щукин Б.А., Безопасность хранения XML документов, Безопасность информационных технологий 2009 г. №1. с 45-49.

31. Кадэй Тхэй, Вин Зо, Труды XVI Международного научно-технического семинара. Сентябрь 2007 г., Алушта.-Тула: Изд-во ТулГУ, 2007.-334 с. «Моделирование процесса взаимодействия локальных систем при их интеграции» с 42.

32. Кадэй Тхэй, Научная Сессия МИФИ-2008. Сборник научных трудов. В 15 томах. Т.11. Технологии разаработки программных систем. Информационные технологии. М.: МИФИ, 2008. 204 с. «Работа с базами данных, содержащими XML-документы» с 78.

33. Кадэй Тхэй, Микроэлектроника и информатика 2008. XV-ая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тезисы докладов. - М.: МИЭТ, 2008. -360с. «Включение XML-столбцов в реляционные таблицы» с 195.

34. Кадэй Тхэй, Труды XVII Международного научно-технического семинара. Сентябрь 2008 г., Алушта.-Тула: Изд-во ТулГУ, 2008.-334 с. «Обработка RDF данных средствами реляционных DBMS» с 230.

35. Кадэй Тхэй, Научная Сессия МИФИ-2009. XII Московская международная телекоммуникационная конференция студентов и молодых ученых «МОЛОДЕЖЬ И НАУКИ». Тезисы докладов. В 2-х частях. Ч. 2. М.: МИФИ, 2009. 276 с. «Приложения с XML-базами данных» с 89-90.

36. Brundage М., "XQuery: The XML Query", http://www.qbmndage.com/xquery.

37. XQuery for the systems analyst or architect. The World Wide Web Consortium www.w3.org/XML/Query.

38. XQuery 1.0 and XPath 2.0 Data Model, W3C Working Draft, 12 November 2003.

39. Сешадри Г., Архитектура Модели 2, http ://www.j avable. com/j avaworld/1299 / 01 /.45. "Kito D. Mann, "JavaServer Faces in Action", Manning Publication Co., 2005r".46."Prentice.Hall.PTR.Core.JavaServer.Faces.Jun.2004.eBook-DDU.chm".

40. Barcia R., "JavaServer Faces (JSF) vs Struts", SYS-CON Media, 2004r.

41. Java Tutorial, Second Edition. Sun Microsystems, Addison-Wesley. — Электрон. дан. 2005. - Режим доступа: http://java.sun.eom/j2ee/l .4/docs/tutorial/doc/index.html, свободный. — Загл. с экрана.

42. Монсон-Хейфел P. Enterprise JavaBeans, 3-е издание. Пер. с англ.

43. СПб.: Символ-Плюс, 2002.-672 е., ил. ISBN 5-93286-041-3.

44. Geary D., Horstmann С. Core JavaServer Faces. Addison Wesley, 2004. -552 c. ISBN: 0131463055.54."IBM Corporation, "Design and Implement Servlets, JSPs, and EJBs for IBM WebSphere Application Server" (August 2000)".

45. Кузнецов С.Д., Концептуальное проектирование реляционных баз данных с использованием языка UML, http://www.citforum.ru/database/articles/umlbases.shtml.

46. Леоненков А., "Самоучитель UML", БХВ-Петербург, 2004г.