автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка технологии автоматизированной подготовки динамических документов и интерактивного повествования

кандидата физико-математических наук
Леонов, Андрей Владимирович
город
Москва
год
2005
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка технологии автоматизированной подготовки динамических документов и интерактивного повествования»

Автореферат диссертации по теме "Разработка технологии автоматизированной подготовки динамических документов и интерактивного повествования"

На правах рукописи

Леонов Андрей Владимирович

РАЗРАБОТКА ТЕХНОЛОГИИ АВТОМАТИЗИРОВАННОЙ ПОДГОТОВКИ ДИНАМИЧЕСКИХ ДОКУМЕНТОВ И ИНТЕРАКТИВНОГО ПОВЕСТВОВАНИЯ

Специальность:

05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

Москва - 2005

Работа выполнена на кафедре системной интеграции и менеджмента Московского физико-технического института (г. Долгопрудный) и в Институте физико-технической информатики (г. Протвино).

Научный руководитель:

Клименко Станислав Владимирович, доктор физико-математических наук, профессор (Институт космических исследований РАН, г. Москва)

Официальные оппоненты:

Зизин Михаил Николаевич, доктор физико-математических наук (Российский научный центр "Курчатовский институт", г. Москва)

Прохоров Сергей Петрович, кандидат физико-математических наук, доцент (Институт системного программирования РАН, г. Москва)

Ведущая организация:

Научно-исследовательский вычислительный центр Московского государственного университета им. М. В. Ломоносова, г. Москва

Защита диссертации состоится "_"_2005 г. в_час._мин.

на заседании диссертационного совета Д 520.009.04 при Российском научном центре "Курчатовский институт" (123182, г. Москва, пл. И. В. Курчатова, д. 1).

С диссертацией можно ознакомиться в научной библиотеке Российского научного центра "Курчатовский институт".

Автореферат разослан "_"_2005 г.

Ученый секретарь

диссертационного совета Д 520.009.04 кандидат технических наук

Яковлев Г. В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. В последнее время в сфере систем управления документами наблюдается несколько тенденций Программные продукты, которые изначально разрабатывались для автоматизации разных аспектов управления документами, постепенно сближаются друг с другом по функциональности, интегрируются с продуктами других производителей В повседневный оборот входят такие термины, как виртуачъный (virtual), живой (live, alive), оперативно доступный по запросу (on-line), эвочюционирхюишй (evolving) и интеллектуальный (intelligent) документ Наконец, все больше компаний начинают позиционировать свои продукты как системы управления знаниями Все эти процессы глубоко взаимосвязаны друг с другом и отражают разные стороны одного явления в сфере управления документами происходит качественный переход, связанный с возникновением нового класса электронных документов - динамических документов

До тех пор, пока основной задачей было эффективное >правление электронными версиями бумажных документов, в центре внимания находились задачи автоматизации документооборота или автоматизации управчения документами К середине 90-х гг прошлого столетия развитие технологий сканирования, автоматического распознавания, регистрации и индексирования документов, устройств хранения данных, систем управления базами данных (СУБД), средств редактирования и печати документов, технологий шифрования, механизмов подтверждения подлинности и целостности документов, повсеместное распространение Интернета и электронной почты позволили в широких масштабах осуществить переход к электронному документообороту Интеграция перечиспенных технологий в единые программные комплексы привела к созданию многофункциональных корпоративных систем управления документами, автоматизирующих различные контуры документооборота предприятий

Дальнейшее развитие технологий интелтектуального поиска и анализа документов, РСУБД и технологий конструирования прототипов (шаблонов) документов, технологий автоматического реферирования и машинного перевода, технологий разбора и генерирования текстов на естественных языках позволило реализовать в системах управления электронными документами

1 Delphi White Paper The Document is the Process http //www delphigroup com/pubs/whitepapers

совершенно новую функциональность, которая была в принципе недоступна при работе с бумажными документами. Электронные информационные системы "научились" автоматически генерировать по запросу пользователя новые документы на основе доступной информации. Такие документы получигш в литературе название динамических, или виртуальных документов.

Это позволяет говорить о качественном переходе к информационным системам следующего поколения, ключевым элементом которых являются динамические документы - эвоуоционирующие, интегпектуалыше, живые. Если раньше основные усилия разработчиков были сконцентрированы на автоматизации ввода бумажных документов в систему, развитии технологий хранения и поиска документов в ба?ах данных и совершенствовании средств коллективной работы с документами, то сейчас акцент сместился на развитие технологий интеллектуальной обработки и анализа информации, совершенствование средств поиска требуемых сведений и их представления в удобной для пользователя форме. Все современные системы управления документами в той или иной степени "умеют" автоматически генерировать новые документы на основе доступной информации.

Анализ последних тенденций в сфере электронного документооборота показывает, что разработка методов и технологий работы с динамическими документами становится магистральным направлением развития современных информационных систем Практически все компании, предлагающие системы управления документами, так или иначе, работают над этой задачей, что в ближайшем будущем приведет к глубокой перестройке существующих бизнес-процессов и схем работы с информацией.

Целью диссертационной работы является разработка и развитие методов и технологий автоматизированной подготовки динамических документов, в том числе динамических документов нового типа -интерактивного повествования в виртуальном окружении.

В рамках данной работы поставлены и решены следующие задачи:

• Исследование нового класса электронных документов - динамических документов. Исследование и разработка методов и технологий автоматизированной подготовки динамических документов.

• Исследование и разработка технологий записи массива XML-документов в РСУБД без использования информации об их структуре и технологий автоматического генерирования DTD для массива XML-документов.

• Исследование нового типа динамических документов - интерактивного повествования в виртуальном окружении Исследование и разработка технологий интерактивного повествования в виртуальном окружении.

Результаты, выносимые на защиту:

• Исследован новый класс электронных документов - динамические документы. Разработана технология автоматизированной подготовки динамических документов. На основе этой технологии создана и внедрена в эксплуатацию система автоматизированной подготовки и публикации документов на корпоративном сайте.

• Разработана технология записи массива XML-документов в РСУБД без использования информации об их структуре и технология автоматического генерирования DTD для массива XML-документов. На основе этих технологий создана система автоматического генерирования DTD для массива XML-документов.

• Исследован новый тип динамических документов - интерактивное повествование в виртуальном окружении. Разработана технология интерактивного повествования в виртуальном окружении. На основе этой технологии создана обучающая система "Виртуальный Планетарий". Научная новизна результатов. Понятие динамического документа

появилось в зарубежной литературе около 10 лет назад. Однако до сих пор не был проведен содержательный анализ этого понятия и связанного с ним комплекса методов и технологий. В данной работе концепция динамических документов впервые представлена в целостном, логически связанном виде. Описана история развития электронных документов, рассмотрены возможности электронных документов, показан механизм возникновения нового класса электронных документов - динамических документов, описаны характеристики динамических документов, исследованы их возможности и преимущества.

Представленная технология автоматизированной подготовки динамических документов является относительно новой. В литературе описаны близкие к ней технологии построения так называемых динамических сайтов. Технология, представленная в данной работе, отличается от них тем, что основное внимание в ней уделено не вопросам программирования, дизайна или верстки, а разработке (конструированию) динамических документов и наиболее эффективной организации информационного взаимодействия пользователей с электронной информационной системой. Объектом исследования являются динамические документы - новый класс электронных документов, которые предоставляют намного более широкие возможности управления информацией, чем традиционные статичные электронные документы.

Представленная технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого массива XML-документов является новой. В литературе описан ряд

алгоритмов записи отдельного XML-документа в РСУБД без использования информации о его структуре Также в литературе описан алгоритм построения DTD для отдельного XML-элемента. В данной работе задача генерирования DTD для массива XML-документов впервые рассмотрена как часть более общей задачи автоматического занесения структурированной информации в РСУБД электронной информационной системы. Разработанная технология записи массива XML-документов в РСУБД и генерирования DTD для этого массива XML-документов позволяет автоматизировать наполнение РСУБД информацией и тем самым существенно повысить эффективность автоматизированной подготовки динамических документов.

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, является новой. В мире есть несколько десятков коллективов, которые занимаются разработкой методов и технологий интерактивного повествования в виртуальном окружении. Однако, как и в любой новой предметной области, понятие интерактивного повествования по-разному трактуется разными исследователями. Этот факт в сочетании с широким спектром систем и технологий виртуального окружения приводит к тому, что каждый коллектив фактически разрабатывает свою технологию интерактивного повествования в виртуальном окружении, которая существенно отличается от других разработок. Представленная технология интерактивного повествования в виртуальном окружении основана на интеграции технологий динамических документов и виртуального окружения на платформе Avango (http://www.avango.org/). Это новый подход, который ранее не рассматривался и не был описан другими исследователями.

Практическая ценность результатов. Технология автоматизированной подготовки динамических документов, представленная в данной работе, может использоваться для построения электронных информационных систем разной функциональности и масштаба. Она представляет интерес для разработчиков современных электронных информационных систем, которых не удовлетворяет функциональность статичных электронных документов, и которые стремятся расширить возможности работы с информацией. Эта технология может использоваться для построения корпоративных информационных систем, баз знаний, систем управления знаниями, корпоративных сайтов, обучающих программ, экспертных систем, публичных информационных порталов и т. д.

Технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого массива XML-документов, описанная в данной работе, представляет интерес для разработчиков электронных информационных систем, которым необходимо

автоматизировать наполнение РСУБД структурированной информацией. Эта задача неизбежно возникает при развитии любой электронной информационной системы, когда ручное занесение информации в систему становится неэффективным и перестает удовлетворять возросшим требованиям к объему и качеству структурирования информации. Представленная технология генерирования DTD для массива XML-документов в комплексе с системами автоматического поиска информации и конвертерами информации из документов и баз данных в формат XML обеспечивает эффективное решение задачи автоматического наполнения РСУБД структурированной информацией. Структурированная информация из таблиц РСУБД может быть легко использована для автоматизированного построения динамических документов.

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, представляет интерес для разработчиков электронных информационных, обучающих и тренировочных систем. Эта технология основана на платформе Avango, которая имеет открытый исходный код и распространяется свободно. Стоимость системы виртуального окружения на Linux-кластере персональных компьютеров сегодня вполне доступна для крупных отечественных научных центров, ВУЗов, промышленных и добывающих корпораций. Учитывая, что стоимость разработки приложений виртуального окружения на базе программного обеспечения с открытым исходным кодом на порядок меньше, чем стоимость фирменных систем с аналогичной функциональностью, можно предположить, что круг потенциальных пользователей предложенной технологии интерактивного повествования в виртуальном окружении достаточно широк. Среди возможных применений данной технологии - создание инструкций по эксплуатации и документации к технологически сложным изделиям, в том числе, "двойного" назначения, в рамках концепций CALS, PLCS, PLM.

Достоверность и обоснованность полученных результатов подтверждается публикациями результатов в ведущих научных журналах и трудах международных конференций, в которых проводится тщательное рецензирование.

Апробация результатов. Технология автоматизированной подготовки динамических документов, представленная в данной работе, была использована для создания системы автоматизированной подготовки и публикации документов на корпоративном сайте. Эта система была внедрена в эксплуатацию в компании "Телеком Транспорт" в 2000-2002 гг.

Технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого

массива XML-документов, представленная в данной работе, была реализована в 2003-2004 гг. виде экспериментальной системы, которая может использоваться как для решения практических задач, так и для дальнейших разработок.

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, была использована для построения экспериментальной обучающей системы "Виртуальный Планетарий". Разработка и развитие этой системы продолжается в настоящее время в Институте физико-технической информатики.

Личный вклад автора. Автору принадлежит инициатива в постановке и решении основных задач диссертации. Личный вклад автора состоит в разработке целостной научной концепции динамических документов [1], разработке новой технологии автоматизированной подготовки динамических документов [2], исследовании задачи построения системы автоматизированной подготовки динамических документов с использованием программного обеспечения с открытым исходным кодом [3], развитии и конструктивной проработке методов и алгоритмов записи XML-документов в РСУБД без использования информации об их структуре [4], развитии и конструктивной проработке методов и алгоритмов генерирования DTD для массива XML-документов [5], разработке новой технологии интерактивного повествования в виртуальном окружении [6].

Публикации. По материалам диссертации опубликовано 6 работ. Список работ приведен в конце автореферата.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, приложений, глоссария и списка литературы. Полный объем диссертации: 125 страниц основного текста (9 таблиц, 10 иллюстраций) и !3 страниц приложений. Список литературы, использованной при работе над диссертацией, содержит 181 наименование.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дана обшая характеристика работы, описана структура диссертации и перечислены результаты, выносимые на защиту.

В главе 1 введен объект исследования: новый класс электронных документов, получивший в литературе название динамических документов.

В разделе 1.1 определены основные термины и понятия: "информация", "документ", "электронный документ" и "динамический документ".

Классическая теория информации не определяет, что такое информация, а просто предполагает, что для источника с заданным распределением вероятности состояний мерой информации является энтропия Н. Для

дискретного источника, состояния которого имеют вероятности

энтропия Н определяется как: Н = р: log pL . Для источника с непрерывным

распределением вероятности состояний с функцией плотности распределения р (х) энтропия Н определяется как: Н = -*j p(x)\ogp(x)dx. В прикладном смысле

информация - это набор сведений (сигналов, символов), которые уменьшают степень неопределенности у их получателя.

При любых видах работы с информацией всегда идет речь о ее представлении в виде определенных символических структур (символов, знаков). Информация, представленная в символическом виде и предназначенная для передачи от отправителя к получателю, называется сообщением. Сообщение /V и содержащаяся в нем информация / связаны друг с другом правилом интерпретации Р, которое представляет собой результат договоренности между отправителем и получателем:

В информатике и технике связи понятие документа отсутствует - с технической точки зрения, это лишь один из возможных типов сообщений, которые используют люди для передачи информации. В прикладном смысле документ - это сообщение, зафиксированное на материальном носителе (в отличие от сигнала - физического процесса, распространяющегося в пространстве и времени, параметры которого содержат сообщение). Например, по законодательству РФ: "Документ - зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать".

Понятие электронного документа не имеет общепринятого определения В прикладном смысле электронный документ - это сообщение, зафиксированное на машинном носителе (магнитном диске, магнитной ленте, лазерном диске и др.) с помощью электронных технических средств. В настоящее время цифровые электронные документы имеют намного большее значение, чем аналоговые. Далее под электронным документом всегда будет пониматься цифровой электронный документ, если не оговорено обратное.

В современных электронных информационных системах основной объем информации хранится не в форме отдельных электронных документов, а в форме структурированных массивов информации (баз данных и т. п.). Один из механизмов взаимодействия пользователя с такой системой заключается в использовании динамических (виртуальных) документов.

Динамический документ - это документ, который автоматически формируется системой по запросу пользователя с использованием доступной информации [1]. Набор правил, по которым обрабатывается доступная

информация в зависимости от запроса пользователя, определяется прототипом динамического документа. Динамические документы, которые выдаются на запросы разных пользователей и даже на повторные запросы одного пользователя, могут иметь существенные отличия. Поэтому динамический документ часто называют виртуальным ~ тем самым подчеркивается, что динамический документ не существует в электронной информационной системе в своем законченном виде, а возникает лишь как ответ системы на запрос пользователя. Определение "динамический" отражает не какие-то особые качества или свойства электронного документа, а способ его формирования. Динамический документ - это результат применения набора правил, заданного прототипом, к массиву доступной информации, с параметрами, определяемыми запросом пользователя.

Схема формирования динамического документа D по запросу пользователя представлена на рис. 1. Здесь введены следующие обозначения: X - набор параметров, определяемый запросом пользователя; F - набор прототипов £ П - массив доступной информации; - прототип из Б, выбранный и преобразованный согласно А.; я - информация из П, выбранная согласно - динамический документ.

Рис. 1. Схема формированиядинамического документа О.

В разделе 12 дан краткий обзор истории развития электронных документов.

В разделе 1 3 описаны новые возможности электронных документов, которые были недоступны при работе с "бумажными" документами

В разделе 14 показано, что развитие технологий, описанных в предыдущем разделе, привело к появлению нового класса электронных документов - динамических документов, которые являются ключевым элементом современных информационных систем [1].

В разделе 1.5 описаны перспективные направления развития методов и технологий работы с динамическими документами.

В главе 2 представлена технология автоматизированной подготовки динамических документов, основанная на хранении структурированной

X

* Б

Б

информации в таблицах РСУБД и использовании прототипов. Эта технология описана на примере системы автоматизированной подготовки и публикации документов на корпоративном сайте, которая была разработана автором в сотрудничестве с коллегами [2] в 2000-2002 гг.

В разделе 2.1 обоснована необходимость автоматизации подготовки и публикации документов.

В разделе 2.2 сформулированы требования, которым должна удовлетворять система автоматизированной подготовки и публикации документов. Показано, что использование динамических документов позволяет построить эффективную систему автоматизированной подготовки и публикации документов, которая удовлетворяет всем описанным требованиям.

В разделе 2.3 описана технология хранения структурированной информации в таблицах РСУБД, технология конструирования прототипов и схема работы интерпретатора.

Прототип представляет собой шаблон ("скелет") документа, в котором с помощью специальных языковых конструкций (меток, или макросов) указаны места, куда интерпретатор должен вставить данные из РСУБД. Прототип документа определяет общую структуру документа и содержит элементы, общие для документов данного типа. По запросу пользователя специальная программа (динамический движок) выбирает требуемый прототип документа и соответствующую ему информацию из базы данных, формирует электронный документ и отсылает его пользователю. Эта программа состоит из двух модулей: один обрабатывает запрос пользователя к серверу, выбирает прототип и информацию из РСУБД (модуль разбора запроса), а другой на основе полученной информации и прототипа формирует электронный документ и отправляет его пользователю (модуль "сборки" документа).

Язык описания прототипа можно рассматривать как язык программирования более высокого уровня, чем язык описания взаимодействия с сервером и базой данных. В этом смысле прототип может рассматриваться как программа на этом языке, а модуль "сборки" документа - как ее интерпретатор. Схема взаимодействия пользователя, сервера, базы данных и интерпретатора представлена на рис. 2.

В разделе 2.4 описана архитектура системы автоматизированной подготовки и публикации документов. В качестве примера рассмотрен корпоративный сайт компании, которая занимается производством и внедрением технологически сложной продукции.

В разделе 2.5 описаны критерии выбора программного обеспечения для построения информационной системы, основанной на использовании

динамических документов. Показано, что в настоящее время для решения рассматриваемой нами задачи данным критериям наиболее полно соответствует программное обеспечение с открытым исходным кодом [3].

Рис. 2. Схема взаимодействия пользователя, сервера, РСУБД и интерпретатора.

В главе 3 представлена технология записи массива XML-документов без использования информации об их структуре в РСУБД и автоматического генерирования DTD для этого массива XML-документов. Эта технология была разработана автором в сотрудничестве с Р. Р. Хуснутдиновым [4], [5] и реализована в виде экспериментальной системы в 2003-2004 гг.

В разделе 3.1 показано, что технология записи массива XML-документов без использования информации об их структуре в РСУБД и автоматического генерирования DTD для этого массива XML-документов является важным элементом системы автоматизированной подготовки динамических документов, так как позволяет автоматизировать создание таблиц РСУБД и их наполнение структурированной информацией.

В разделе 3.2 описаны известные методы записи XML-документов в РСУБД без использования информации об их структуре: Edge, Binary, Universal, Normalized Universal и Path. Их основные характеристики сведены в табл. 1.

В разделе 3.3 избранные методы развиты для решения задачи записи массива XML-документов в РСУБД за один проход (ad hoc).

Каждому XML-документу ставится в соответствие ориентированный ациклический граф, который строится следующим образом. Каждому элементу

документа ставится в соответствие внутренняя вершина графа, каждому атрибуту и секции #PCDATA - висячая вершина (лист) графа Все ребра графа и эпементы нумеруются последовательно, начиная с 1 Виртуальному родителю элемента (элементов) верхнего уровня присваивается номер 0 На рис 3 приведен пример XML-документа и соответствующего ему графа (маленькие числа - номера ребер, большие числа - номера элементов)

Название Вложение Число Возможность записи

значении таблиц за один проход

Edge нет 2 есть

Edqe Inline есть 1 есть

Binary нет >2 есть

Binary Inline есть >1 есть

Universal нет 2 нет

Universal Inline есть 1 нет

Normalized Universal нет >2 нет

Normalized Universal In'me есть > 1 нет

Path нет 2 есть

Табл 1 Сравнительные характеристики существующих методов записиXML-документов в РСУБД без использования информации об их структуре

В методе Edge Distributive информация обо всех ребрах графа хранится в

одной таблице Edge (id, documented, parentid, element_id,

order num, name), правила построения которой сведены в табл 2

id documentjd parentjd elementjd order num пате

Элемент уникаль ныи id г 1 уникальное имя XML документа "elementjd родительского элемента 'elementjd" данного элемента (2 1) поряд ковыи номер ребра имя элем ента

Атрибут уникаль ный id > 1 уникальное имя XML-документа elementjd элемента null поряд ковый номер ребра имя атри бута

Секция #РС DATA уникаль ныи id > 1 уникальное имя XML-документа "elementjd" элемента null поряд ковыи номер ребра null

Табл 2 Правила построения таблицы Edgeв методе Edge Distributive

Значения атрибутов и секций #PCDATA в методе Edge Distributive хранятся в отдельной таблице Value, которая имеет следующую структуру Va ' ue (id, data). Поле id содержит уникальный номер "id" элемента, атрибута или секции # PC DATA, поле data - значение атрибута или секции #PCDATA и значение "null" для элементов Правила построения таблицы Va 2 ue в методе Edge Distributive сведены в табл 3

<person id="l" age="55"> <пагпе>Иван< /паше> <city>MocKBa</citv> <child id="3" age="22">

<пате>Николай</пате> <city>KasaHb</city> <ЬоЬЬу>Плавание</ЬоЬЪ/> < h о Ь Ь у > Ал ь пики з м < / л о о Ь у > </child>

<child id="4" age="7">

<пате>Ольга</пате> <c 11 у>Москва< / с l ty> </child> </person>

<person id="2" age=""38" child="4"> <пате>Мария</name> <city>MocxBa</city> <hobby>Рисование</hobby> </person>

Номер Порядковый номер

значения дочернего

tPCDATA элемента (атрибута)

vi 1

v2 2

v3 3

v8 4 1

v9 2

vlO 3

vil 4

vl2 5

vl3 5 i

vl4 2

vi 5 3

v4 1,2

v5 3

v6 4

v7 5

Рис 3 Пример XML-документа и соответствующего ему графа

__|d__data_

Элемент__уникальныи id г 1__null_

Атрибут__уникальныи id > 1__значение атрибута_

Секция ЙРСРАТА__уникальныи id > 1__содержимое секции #РСРАТА_

Табл 3 Правила построения таблицы Value в методе Edge Distributive

Метод Edge Inline отличается от Edge Distributive тем, что значения атрибутов и секций # PC DATA хранятся в одной таблице с информацией о ребрах графа Метод Binary Distributive отличается от Edge Distributive тем, что информация о ребрах, указывающих на элементы (атрибуты) с одинаковыми именами, хранится в отдельных таблицах Метод Binary Inline отличается от Binary Distributive тем, что значения атрибутов и секций # PC DATA хранятся в тех же таблицах, в которых содержится информация о ребрах графа

В методе Path уникальным идентификатором каждого элемента (атрибута) служит строка "path", которая представляет собой простое объединение имен всех элементов, являющихся родителями данного Разделителем служит точка, имя корневого элемента идет первым, имя данного элемента - последним Поскольку элементы с одинаковым именем могут встречаться в XML-документе несколько раз, к каждому имени в конце добавляется его порядковый номер i в формате "_#i" Например, в рассматриваемом нами XML-документе для элемента <пате>Ольга</пате> строка "path "будет выглядеть так " .person_#0 child_#l ,name_#O"

В методе Path для XML-документа строятся две таблицы - Element (path, value, parent) и Attribute (path, name, value) В таблице Elemen t поле pa th содержит строку "pa th " данного элемента, поле parent - строку "path" родительского элемента, поле value - значение #PCDATA (или "null") В таблице Attribute поле path содержит строку "path" элемента, к которому относится данный атрибут, поле naire - имя атрибута, поле value - значение атрибута Атрибуты типа ID и IDREF в методе Path обрабатываются точно так же, как остальные атрибуты

В раздече 3 4 представлена технология генерирования DTD для массива XML-документов, развитая на основе методов и алгоритмов, описанных авторами системы XTRACT (Bell Laboratories, проект SERENDIP)2

Garofalakis M Gmnis A Rastogi R Seshadn S Shim K XTRACT Learning Document Type Descriptors from XML Document Collections // Data Mining and Knowledge Discovery - 2003 -N 7 - P 23-56

Основную сложность в задаче генерирования DTD для массива XML-документов представляет задача построения DTD для элемента с содержимым из элементов. Эта задача формулируется следующим образом. Пусть элемент X встречается в XML-документе (массиве XML-документов) л раз, которым соответствуют п последовательностей вложенных в него элементов: Si, s2 ... sn. Для множества последовательностей I — {slr s2 ... sB} требуется построить регулярное выражение (DTD элемента X), описывающее все эти последовательности.

Регулярное выражение - это способ кодировки множества последовательностей символов. Синтаксис регулярных выражений основан на использовании метасимволов ?, +, * для обозначения возможного числа повторений символа ('О или 1", "1 или больше", "О, 1 или больше" соответственно), метасимвола | для обозначения дизъюнкции, а также метасимволов ( и ) для выделения групп символов. Например, регулярное выражение (ab) + (c\d) кодирует множество последовательностей {abc, abd, аЪаЪс, ababd, abababc, abababd ...}.

Задачу построения DTD для элемента с содержимым из элементов можно разбить на три этапа: обобщение исходных последовательностей, факторизация полученных регулярных выражений и построение наилучшего DTD на основе полученного множества регулярных выражений, рис. 4. В качестве критерия выбора наилучшего DTD используется минимальная MDL-стоимость (см. ниже). Соответственно, система генерирования DTD состоит из трех модулей: модуля обобщения, модуля факторизации и модуля MDL.

Входными данными для модуля обобщения служит множество последовательностей I. Модуль обобщения обрабатывает все последовательности из I, генерируя для каждой из них (при возможности) одно или несколько регулярных выражений с использованием метасимволов + и |. Например, для I = {abab, ЪЬЪе} модуль обобщения построит регулярные выражения (ab) +, (а\Ь) + и Ь+е. Результатом работы модуля обобщения является множество выражений SG, которое включает регулярные выражения, полученные в результате обобщения последовательностей из I, а также все исходные последовательности из I.

Множество SG служит входными данными для модуля факторизации. Модуль факторизации обрабатывает все выражения из множества Sft генерируя на основе нескольких выражений из SG (при возможности) новые регулярные выражения с использованием факторизации (т. е. вынесения за скобки повторяющихся последовательностей символов). Например, факторизация

выражений Ъ+d и b+e даст b+(d\e), а выражения ас, ad, be, bd будут факторизованы в (а \ Ь) (с \ d). Этап факторизации важен, так как позволяет получить более короткие выражения, которые, возможно, окажутся более предпочтительными на этапе построения наилучшего DTD. Результатом работы модуля факторизации является множество выражений S^, которое включает регулярные выражения, полученные в результате факторизации выражений из множества S& а также все выражения из множества SG.

Наконец, множество SF служит входными данными для модуля MDL. Модуль MDL выбирает из множества выражений Sполученного в результате работы модулей обобщения и факторизации, подмножество выражений S, которое покрывает все последовательности из набора I и MDL-стоимость которого минимальна. Итоговый DTD представляет собой дизъюнкцию (логическое ИЛИ) всех выражений подмножества S.

Итоговый DTD: (ab)+ | (a|b)(c|d) | b+(d|e) Рис.4. Построение DTDдляXML-элемента с содержимым из элементов.

Модуль обобщения генерирует выражения вида (х) +, (аг \ а]... | aj +, и (а1-а2-.ап-)+, где "• " означает ?, + или * ("+"-выражения). Для этого последовательно вызываютсяпроцедуры DISTOVERSLQPATTERN, DTSCCVEROPPATTERN и DIS'-OVERPLWSPATTFRN С различными параметрами.

Процедура DkoveiSEQPATTEPN получает на входе последовательность s и параметр г>1. В том случае, если последовательность s содержит хотя бы одну подпоследовательность вида хх.х (где х - один символ или

последовательность символов) с числом повторений не менее г, процедура DISCOVERSEQPATTERN возвращает регулярное выражение, которое получено из s путем замены этой подпоследовательности на регулярное выражение (х) +.

Процедура DISCOVERORPATTERN заменят локальные скопления символов аь а2, ... аш в последовательности i на регулярные выражения вида (a.1 \ a2 \ ат) +. Идея состоит в том, что если в последовательности s есть подпоследовательность, которая представляет собой частое повторение символов из набора {ах, а2,..., aj, то эта подпоследовательность с большой вероятностью описывается регулярным выражением вида (ai \ а2 \ аш) +.

Процедура DISCOVERPLUSPATTERN строит одно "+ "-выражение для каждой последовательности из I. Алгоритм состоит из двух этапов: сначала строится шаблон который позволяет описать последовательность за

минимальное число повторений, после чего в этот шаблон вместо точек подставляются соответствующие метасимволы (?, * или +).

Модуль факторизации состоит из двух подмодулей: первый из них выбирает "перспективные" для факторизации подмножества из множества S& a второй строит факторизованные формы для этих подмножеств. Алгоритм выбора "перспективных" для факторизации подмножеств множества SG основан на двух идеях. С одной стороны, чем больше выражений в S имеют общие префиксы / суффиксы, и чем больше длина общих префиксов / суффиксов, тем лучшего результата можно ожидать от факторизации подмножества S. С другой стороны, пересечение между подмножествами последовательностей из I, которые описываются различными регулярными выражениями из S, должно быть достаточно мало. Процедура факторизации подробно описана в [5].

Модуль MDL строит наилучший DTD на основе принципа MDL (Minimum Description Length), который в общей формулировке гласит: "наилучшей теорией для описания набора данных является та, для которой минимальна сумма длины самой теории и длины набора данных, описанных (закодированных) с ее помощью". В нашем случае теория - это DTD, а набор данных - это множество последовательностей I. Таким образом, в нашем случае принцип MDL формулируется следующим образом: наилучшим DTD для описания множества I является тот, для которого минимальна сумма числа битов А, необходимых для того, чтобы закодировать данный DTD, и числа битов В, необходимых для того, чтобы закодировать все последовательности из I на основе данного DTD. Сумму А+В мы называем MDL-стоимостью DTD. MDL-стоимость является эффективным количественным критерием оптимального соотношения краткости и точности DTD.

Число битов А вычисляется по следующей схеме Пусть Е - множество симвотов, которые встречаются в последовательностях набора I Пусть М -множество метасимвочов |, *, +, ', ), ( Тогда DTD будет строкой из э юментов множества Е UM. Пусть длина DTD - л Тогда А вычисляется по формуле п *] 1од(\Е UM\)[ Здесь \Е U М\ - число элементов в Е и М, ]хГ - ближайшее к х целое чисто, большее или равное х Пусть, например, Е = {а, Ъ} Тогда длина DTD а*Ь* в битах будет 4*]log?(2+6)[ = 4*3 = 12, длина DTD (ab\abb) (аа\ ab*) - 16*3 = 48, и т д Число битов В вычисляется как сумма чисел битов, необходимых для кодирования каждой последовательности из I Суть алгоритма кодирования отдельной последовательности на основе данного DTD состоит в том, что сначала последовательность кодируется строкой индексов (чисел 0, 1, 2, 3 ), после чего каждый индекс кодируется последовательностью битов

Алгоритм кодирования последовательности s строкой индексов на основе данного DTD D основан на следующих соображениях

• последовательность а кодируется на основе DTD а пустой строкой е,

• последовательность Ь коцируется на основе DTD а | Ъ \ с индексом 1 (который обозначает позицию Ь в дизъюнкции а | Ь\ с начиная с 0)

• последовательность ссс кодируется на основе DTD с* индексом 3 (который обозначает число повторений символа с)

После тою, как построена последовательность индексов, кажчыи индекс представляется в виде иоследоватетьности битов по слетующему правилу Сначала вычистяется число двоичных разрядов, необходимых для представчения данного индекса в двоичной форме ] 1од2 (к+1) [ Затем строится посчедовательность длиной 2*] 1од2 (к+1) [+1, где первые ] 1од2 (к+1) [ символов - это единицы, число которых обозначает число двоичных разрядов, необходимых для представления данного индекса в двоичной форме, потом идет 0 в качестве разделителя, и затем -последовательность из ]log? (к+1) [ нулей и единиц, представляющих уже сам индекс к в двоичной форме Таким образом, 11010,

11011, 4«-» 1110100, 5<-> 1110101 ИТ д

В разделе 3 5 описана архитектура системы записи массива XML-документов в РСУБД и генерирования DTD для них Результаты тестирования модуля записи и извлечения XML-документов представлены в табл 4 и 5 Результаты тестирования модуля генерирования DTD нашей системы (DTDXtract) с зарубежными системами автомагического генерирования DTD (XTRACT, DDbE) представлены в табл 6

Размер массива Edge Distributive Edge Inline Path Binary Distributive Binary Inline

150 Кб 0410 0 289 0 486 2 510 1 982

1 Мб 2 86 2 15 3 72 22 34 17 45

10 Мб 32 9 24 1 43 4 250 6 201 3

Табл 4 Время записи массива XML-документов для разных методов сек

Размер массива Edge Distributive Edge Inline Path Binary Distributive Binary Inline

150 Кб 0 410 0 310 0 657 236 187

1 Мб 2 43 2 21 12 83 1957 1453

10 Мб 38 4 27 4 160 - -

Табл 5 Время извлечения массива XML-документов для разных методов, сек

Оригинальным DTD Система DDbE Система XTRACT Система DTDXtract

a|b|c|d|e a|b|c|d|e a|b|c|d|e a|b|c|d|e

(a|b|c|d|e)* (a|b|c|d|e)* (a|b|c|d|e)* (a|b|c|d]e)*

a'b'Vd? a-b^d'? a'b'cW

(a(bc)+d)* (a|b|c|d)+ (a(bc)'d)' (a(bc)+d)*

(ab'c'dT (a|b|c|d)+ (ab'c'd?)*

Табл 6 Результаты сравнительного тестирования систем DTDXtract, XTRACTu DDbE(имена элементовдля простоты заменены символами)

В главе 4 представлена технология интерактивного повествования в виртуальном окружении, основанная на интеграции технологий динамических документов и виртуального окружения на платформе Avango Эта технология описана на примере обучающей системы "Виртуальный Планетарий", которую автор разработал в сотрудничестве с коллегами [6] в настоящее время

В раздече 4 1 представлен новый тип динамических документов -интерактивное повествование в виртуальном окружении (interactive storytelling virtual storytelling)

В раздече 4 2 рассмотрены основные методы и технологии интерактивного повествования

В раздече 4 ? дан обзор основных техноюгий виртуального окружения В раздече 4 4 рассмотрена платформа Avango (http //www avango org) -программное обеспечение для создания распределенных интерактивных приложений в виртуальном окружении, разработанное в Фраунгоферовском институте медиакоммуникаций (Санкт-Августин, Германия)

В раздече 4 5 описана архитектура и принципы построения интерактивного повествования в виртуальном окружении на примере обучающей системы "Виртуальный Планетарий" [6]

В заключении приведены основные результаты работы

ЗАКЛЮЧЕНИЕ

В работе впервые последовательно изучен новый класс электронных документов - динамические документы - и предложена новая технология автоматизированной подготовки динамических документов. Динамический документ - это документ, автоматически создаваемый системой по запросу пользователя на основе доступной информации. Динамические документы обладают более широкой функциональностью, чем статичные электронные документы, и широко применяются при построении современных электронных информационных систем. В работе также впервые комплексно исследован новый тип динамических документов - интерактивное повествование в виртуальном окружении - и предложена новая технология, основанная на использовании этого типа документов. Это одно из наиболее перспективных направлений развития современных компьютерных технологий, которое находится на стыке электронных информационных систем, компьютерных игр, обучающих программ, виртуальных тренажеров и интерактивных моделей. Таким образом, в полном объеме достигнуты цели настоящей работы. Выводы:

• Изучены возможности, которые дает использование динамических документов при построении электронных информационных систем, и разработана технология автоматизированной подготовки динамических документов, основанная на хранении структурированной информации в таблицах РСУБД и использовании прототипов.

• На базе этих исследований разработаны технология записи массива XML-документов в РСУБД без использования информации об их структуре и технология автоматического генерирования DTD для массива XML-документов. Эти технологии позволяют автоматизировать занесение структурированной информации в РСУБД и повысить эффективность автоматизированной подготовки динамических документов.

• Исследован новый тип динамических документов - интерактивное повествование в виртуальном окружении - и впервые разработана технология интерактивного повествования в виртуальном окружении, основанная на интеграции технологий динамических документов и виртуального окружения на платформе Avango.

• Методы и технологии, развитые в настоящей работе, успешно внедрены в эксплуатацию и могут применяться для создания электронных информационных и обучающих систем разных типов, а также служить основой для дальнейших перспективных исследований и разработок

СПИСОК ПУБЛИКАЦИИ

[1] Леонов Л В Динамический документ - ключевой объект современных информационных систем // Сборник трудов 3-й международной конференции VEonPC'2003 "Системы виртуального окружения на Lmux-кластерах персональных компьютеров" -М,2003 -С 150-169

[2] Леонов А В Бахбух Б М , Лудинов В В , Петренко И И Публикация динамических документов рекламно-информационного характера на корпоративном сайте I Исследовано в России - 2003 - С 1148-1185

[3] Леонов А В , Бахбух Б М Построение корпоративной сети малого или среднего предприятия с использованием операционной системы Linux // Сборник трудов 3-й международной конференции VEonPC'2003 "Системы виртуального окружения на Linux-кластерах персональных компьютеров" -М,2003 -С 141-149

[4] Леонов А В , Хуснутдинов Р Р Построение оптимальной реляционной схемы для хранения XML документов в РСУБД без использования DTD / XML Schema // Программирование - 2004 - N 6 -С 30-48

Leonov A , Khusnutdinov R Construction of an Optimal Relational Schema for Storing XML Documents in RDBMS without Using DTD/XML Schema // Programming and Computer Software - 2004 - N 6 (30) - P 323-336

[5] Леонов А В , Хуснутдинов Р Р Исследование и разработка системы генерирования DTD для XML-документов // Программирование -2005 - N 4 - принята в печать редколлегией журнала

Леонов А В , Хуснутдинов Р Р Исследование и разработка системы генерирования DTD для XML-документов Ч Исстедовано в России -2004 -С 2515-2537

[6] Байгозин Д А , Батурин Ю М , Гебель М , Клименко С В , Леонов А В , Никитин И Н , Никитина Л Д Интерактивное повествование в виртуальном окружении обучающая система "Виртуальный Планетарий" // Вычислительные методы и программирование -2004 -Т 5 -N2 -С 192-205

А В Леонов

Разработка технологии автом ггизированной подготовки динамических документов и интерактивного повествования

Подписано к печати 04 04 0Л Печать офсетная Формат 60 * 84/16 Печ л 12л Уч-изд т 1,33 Тираж 100 экз Заказ 32

ОНТИ ГНЦ РФ Институт физики высоких энергий" 142281, г Протвино Московской обл

05 tö- Vf. S

19 МАЙ яА

960

Оглавление автор диссертации — кандидата физико-математических наук Леонов, Андрей Владимирович

ВВЕДЕНИЕ.

Общая характеристика работы.

Структура диссертации.

Результаты, выносимые на защиту.

1. ОБЪЕКТ ИССЛЕДОВАНИЯ: ДИНАМИЧЕСКИЙ ДОКУМЕНТ.

1.1. Определение терминов и понятий.

1.2. История развития электронных документов.

1.3. Новые возможности электронных документов.

1.4. Динамические документы - новый класс электронных документов.

1.5. Направления развития динамических документов.

2. АВТОМАТИЗАЦИЯ ПОДГОТОВКИ ДИНАМИЧЕСКИХ ДОКУМЕНТОВ.

2.1. Необходимость автоматизации работы с документами.

2.2. Требования к системе подготовки документов.

2.3. Технология построения динамических документов.

2.4. Архитектура системы подготовки документов.

2.5. Критерии выбора программного обеспечения.

3. ГЕНЕРИРОВАНИЕ DTD ДЛЯ МАССИВА XML-ДОКУМЕНТОВ.

3.1. Автоматизация наполнения РСУБД.

3.2. Методы записи XML-документов в РСУБД.

3.3. Модернизация реляционных схем.

3.4. Технология генерирования DTD.

3.5. Система обработки XML-документов.

4. ИНТЕРАКТИВНОЕ ПОВЕСТВОВАНИЕ В ВИРТУАЛЬНОМ ОКРУЖЕНИИ.

4.1. Интерактивное повествование - новый тип динамических документов.

4.2. Методы интерактивного повествования.

4.3. Технологии виртуального окружения.

4.4. Технологическая платформа Avango.

4.5. Обучающая система "Виртуальный Планетарий".

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Леонов, Андрей Владимирович

Работа выполнена на кафедре системной интеграции и менеджмента Московского физико-технического института (г. Долгопрудный) и в Институте физико-технической информатики (г. Протвино), который является базовой организацией этой кафедры.

Автор выражает глубокую признательность Станиславу Владимировичу Клименко за чуткое руководство и постоянную поддержку, значение которых сложно переоценить. Неоценимую помощь на заключительном этапе подготовки диссертации к защите оказал Михаил Исаевич Гуревич, которому автор искренне благодарен. Автор благодарит руководителей компании "Телеком Транспорт" Евгения Гаскевича и Олега Скрипачева за понимание и предоставленную возможность заниматься научной работой. Наконец, автор сердечно благодарит за помощь своих коллег: Бориса Бахбуха, Владимира Лудинова, Виталия Обернихина, Игоря Петренко, Рената Хуснутдинова.

Общая характеристика работы

Актуальность проблемы. В последнее время в сфере систем управления документами наблюдается несколько тенденций. Программные продукты, которые изначально разрабатывались для автоматизации разных аспектов управления документами, постепенно сближаются друг с другом по функциональности, интегрируются с продуктами других производителей1. В повседневный оборот входят такие термины, как виртуальный (virtual), живой (live, alive), оперативно доступный по запросу (on-line), эволюционирующий

1 Приобретения: Hummingbird [120] + PC DOCS + Fulcrum (1999), Documentum [118] + eRoom (2002), Vignette [145] + Epicentric (2002), Oracle [134] + PeopleSoft [136] + J. D. Edwards [126] и т. д. Интеграция: Documentum [118] + Verity [144], SAP [138] + Documentum [118], Convera [113] + Oracle [134] + SUN [142] и т. д. evolving) и интеллектуальный (intelligent) документ, что находит отражение в отчетах исследовательских групп2 и публикациях научных сообществ3. Наконец, все больше компаний начинают позиционировать свои продукты как системы управления знаниямиВсе эти процессы глубоко взаимосвязаны друг с другом и отражают разные стороны одного явления: в сфере управления документами происходит качественный переход, связанный с возникновением нового класса электронных документов — динамических документов [1].

До тех пор, пока основной задачей было эффективное управление электронными версиями бумажных документов, в центре внимания находились задачи автоматизации документооборота или автоматизации управления документами. Уже к середине 90-х гг. прошлого столетия развитие технологий сканирования, автоматического распознавания, регистрации и индексирования документов, устройств хранения данных, систем управления базами данных (СУБД), средств редактирования и печати документов, технологий шифрования, механизмов подтверждения подлинности и целостности документов, повсеместное распространение Интернета и электронной почты позволили в широких масштабах осуществить переход к электронному документообороту [48]. Интеграция перечисленных технологий в единые программные комплексы привела к созданию многофункциональных корпоративных систем управления документами, автоматизирующих

2 Gartner [119], IDC [124], Delphi Group [114], МЕТА Group [128], Ovum [135] и др.

3 IEEE Computer Society [76], IEEE Communication Society [77], IEEE Professional Communication Society [78], Association for Computing Machinery [81], American Society for Information Science and Technology [80], Assosiation of Knowledgework [82] и др.

4 Например, IBM Lotus [123], Microsoft SharePoint Portal [129], Oracle Collaboration Suite [134], Sun Microsystems ONE Portal Server [142], Documentum [118], Hummingbird [120], Convera [113], Hyperwave [121], Open Text [133], Divine [116] и т. д., из отечественных -Cognitive Technologies ("Астарта") [112], Галактика ("Галактика-ZOOM") [99] и др. различные контуры документооборота предприятий [40]. С технической точки зрения, к настоящему моменту задача перехода к электронному документообороту практически решена в таких сферах, как бухгалтерский учет, складской учет (ERP), логистика (SCM, SRM), учет контактов с клиентами (CRM), управление кадрами и других хорошо формализованных областях5.

Переход от оборота бумажных документов к обороту их электронных аналогов позволил многократно упростить процесс подготовки и согласования документов, ускорить их доставку адресатам и прохождение документами своего жизненного цикла, усовершенствовать систему хранения и поиска документов [10] — но не добавил ничего принципиально нового в сам процесс передачи информации от одних людей к другим посредством документов. Статичный электронный документ создавался, утверждался, регистрировался, передавался на исполнение, двигался внутри организации и попадал в архив практически точно так же, как и бумажный: разница заключалась лишь в удобстве обращения с ним. Пользователь мог получить "из компьютера" только те документы, которые были когда-то "в компьютер" занесены - тексты, таблицы, изображения, аудио- или видеофайлы и т. д.

Дальнейшее развитие технологий интеллектуального поиска и анализа документов, РСУБД и технологий конструирования прототипов (шаблонов) документов, технологий автоматического реферирования и машинного перевода, технологий разбора и генерирования текстов на естественных языках позволило реализовать в системах управления электронными документами совершенно новую функциональность, которая была в принципе недоступна

5 Из популярных программных продуктов можно отметить Oracle E-Business Suite [134], PeopIeSoft [136], SAP [138], Siebel [141], i2 [122], J. D. Edwards [126], Sage Group [137], Scala [139], Baan [110], Microsoft Axapta [129], Microsoft Navison [129], из отечественных - 1С: Предприятие [97], Галактика [99], Парус [104], ДЕЛО [107] и др. при работе с бумажными документами [10]. Электронные информационные системы "научились" не просто выдавать пользователю те документы, которые были когда-то занесены "в компьютер", а автоматически генерировать по запросу пользователя новые документы на основе доступной информации [1]. Такие документы получили в литературе название динамических, или виртуальных документов [73]. В современных информационных системах управление отдельными этапами жизненного цикла (document workflow) динамических документов все чаще осуществляется автоматически, что делает их полноправными участниками бизнес-процессов предприятия [45], [70], [72].

Все это позволяет говорить о качественном переходе к информационным системам следующего поколения, ключевым элементом которых являются динамические документы - эволюционирующие, интеллектуальные, живые. Если раньше основные усилия разработчиков были сконцентрированы на автоматизации ввода бумажных документов в систему, развитии технологий хранения и поиска документов в базах данных и совершенствовании средств коллективной работы с документами, то сейчас акцент сместился на развитие технологий интеллектуальной обработки и анализа информации, совершенствование средств поиска требуемых сведений и их представления в удобной для пользователя форме. Все современные системы управления документами в той или иной степени "умеют" автоматически генерировать новые документы на основе доступной информации [33], [71].

Анализ последних тенденций в сфере электронного документооборота показывает, что разработка методов и технологий работы с динамическими документами становится магистральным направлением развития современных информационных систем [1], [32], [39], [73], [150]. Практически все компании, предлагающие системы управления документами, так или иначе работают над этой задачей, что в ближайшем будущем приведет к глубокой перестройке существующих бизнес-процессов и схем работы с информацией.

Целью диссертационной работы является разработка и развитие методов и технологий автоматизированной подготовки динамических документов, в том числе динамических документов нового типа — интерактивного повествования в виртуальном окружении.

В рамках данной работы поставлены и решены следующие задачи:

• Исследование нового класса электронных документов - динамических документов. Описание характеристик динамических документов. Анализ возможностей, которые дает использование динамических документов при построении электронных информационных систем.

• Разработка технологии автоматизированной подготовки динамических документов. Построение на основе этой технологии системы автоматизированной подготовки и публикации документов на корпоративном сайте и ее внедрение в эксплуатацию.

• Разработка технологии записи массива XML-документов в таблицы РСУБД без использования информации об их структуре и автоматического генерирования DTD для этого массива XML-документов. Построение на основе этой технологии экспериментальной системы автоматического генерирования DTD.

• Исследование нового типа динамических документов - интерактивного повествования в виртуальном окружении. Описание методов и технологий интерактивного повествования в виртуальном окружении. Анализ его возможных применений для создания электронных информационных, обучающих и тренировочных систем.

• Разработка технологии интерактивного повествования в виртуальном окружении. Интеграция технологий динамических документов и виртуального окружения на технологической платформе Avango. Построение обучающей системы "Виртуальный Планетарий" на основе технологии интерактивного повествования в виртуальном окружении.

Научная новизна результатов. Понятие динамического документа появилось в зарубежной литературе около 10 лет назад [73]. Однако, до сих пор не был проведен содержательный анализ этого понятия и связанного с ним комплекса методов и технологий. В данной работе концепция динамических документов впервые представлена в целостном, логически связанном виде. Описана история развития электронных документов, рассмотрены возможности электронных документов, показан механизм возникновения нового класса электронных документов - динамических документов, описаны характеристики динамических документов, исследованы их возможности и преимущества.

Представленная технология автоматизированной подготовки динамических документов по своей архитектуре близка к технологии построения так называемых динамических сайтов. Однако существующие технологии построения динамических сайтов разработаны и описаны, как правило, либо с точки зрения программиста, либо с точки зрения дизайнера (верстальщика). В первом случае объектом исследования являются программные продукты и языки программирования, а целью - создание на их основе новых программных модулей, интеграция различных программных продуктов друг с другом, разработка новых алгоритмов и приемов программирования. Во втором случае объект исследования — это языки разметки (HTML и др.), а цель - наиболее эффективное отображение информации на экране монитора с учетом характеристик компьютеров и программного обеспечения пользователей.

Технология, представленная в данной работе, разработана и описана с точки зрения разработчика (конструктора) динамических документов, цель которого - наиболее эффективная организация информационного взаимодействия между электронной информационной системой и ее пользователями. Объектом исследования являются динамические документы — новый класс электронных документов, которые предоставляют намного более широкие возможности управления информацией, чем традиционные статичные электронные документы. Результатом исследования является новая технология работы с информацией, основанная на использовании динамических документов. Эта технология может применяться для построения электронных информационных систем самых разных типов - корпоративных сайтов, баз знаний, экспертных систем и т. д. В частности, на ее основе разработана технология интерактивного повествования в виртуальном окружении, описанная в данной работе.

Представленная технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого массива XML-документов является новой. В литературе описан ряд алгоритмов записи отдельного XML-документа в РСУБД без использования информации о его структуре [53], [54], [55]. Также в литературе описан алгоритм построения DTD для отдельного XML-элемента [57]. В данной работе задача генерирования DTD для массива XML-документов впервые рассмотрена как часть более общей задачи автоматического занесения структурированной информации в РСУБД электронной информационной системы. Разработанная технология записи массива XML-документов в РСУБД и генерирования DTD для этого массива XML-документов позволяет автоматизировать наполнение РСУБД информацией и тем самым существенно повысить эффективность автоматизированной подготовки динамических документов.

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, является новой. В мире есть несколько десятков коллективов, которые занимаются разработкой методов и технологий интерактивного повествования в виртуальном окружении [90], [92]. Однако, как и в любой новой предметной области, понятие интерактивного повествования по-разному трактуется разными исследователями. Этот факт в сочетании с широким спектром систем и технологий виртуального окружения приводит к тому, что каждый коллектив фактически разрабатывает свою технологию интерактивного повествования в виртуальном окружении, которая существенно отличается от других разработок. Представленная технология интерактивного повествования в виртуальном окружении основана на интеграции технологий динамических документов и виртуального окружения на технологической платформе Avango [23]. Это новый подход, который ранее не рассматривался и не был описан другими исследователями.

Научная и практическая ценность результатов. Технология автоматизированной подготовки динамических документов, представленная в данной работе, может использоваться для построения электронных информационных систем разной функциональности и масштаба. Она представляет интерес для разработчиков современных электронных информационных систем, которых не удовлетворяет функциональность статичных электронных документов и которые стремятся расширить возможности работы с информацией. Эта технология может использоваться для построения корпоративных информационных систем, баз знаний, систем управления знаниями, корпоративных сайтов, обучающих программ, экспертных систем, публичных информационных порталов и т. д.

Технология записи массива XML-документов в РСУБД без использования информации о их структуре и генерирования DTD для этого массива XML-документов, описанная в данной работе, представляет интерес для разработчиков электронных информационных систем, которым необходимо автоматизировать наполнение РСУБД структурированной информацией. Эта задача неизбежно возникает при развитии любой электронной информационной системы, когда ручное занесение информации в систему становится неэффективным и перестает удовлетворять возросшим требованиям к объему и качеству структурирования информации. Представленная технология генерирования DTD для массива XML-документов в комплексе с системами автоматического поиска информации и конвертерами информации из документов и баз данных в формат XML обеспечивает эффективное решение задачи автоматического наполнения РСУБД структурированной информацией.

Структурированная информация из таблиц РСУБД может быть легко использована для автоматизированного построения динамических документов.

Технология интерактивного повествования в виртуальном окружении, описанная в данной работе, представляет интерес для разработчиков электронных информационных, обучающих и тренировочных систем. Эта технология основана на технологической платформе Avango, которая имеет открытый исходный код и распространяется свободно [23]. Стоимость системы виртуального окружения на Linux-кластере персональных компьютеров сегодня вполне доступна для крупных отечественных научных центров, ВУЗов, промышленных и добывающих корпораций [93]. Учитывая, что стоимость разработки приложений виртуального окружения на базе программного обеспечения с открытым исходным кодом на порядок меньше, чем стоимость фирменных систем с аналогичной функциональностью, можно предположить, что круг потенциальных пользователей предложенной технологии интерактивного повествования в виртуальном окружении достаточно широк. Среди возможных применений данной технологии - создание инструкций по эксплуатации и документации к технологически сложным изделиям, в том числе, "двойного" назначения, в рамках концепций CALS, PLCS, PLM [102].

Достоверность и обоснованность полученных результатов подтверждается публикациями результатов в ведущих научных журналах и трудах международных конференций, в которых проводится тщательное рецензирование.

Личный вклад автора. Автору принадлежит инициатива в постановке и решении основных задач диссертации. Личный вклад автора состоит в разработке целостной научной концепции динамических документов [1], разработке новой технологии автоматизированной подготовки динамических документов [2], исследовании задачи построения системы автоматизированной подготовки динамических документов с использованием программного обеспечения с открытым исходным кодом [3], развитии и конструктивной проработке методов и алгоритмов записи XML-документов в РСУБД без использования информации об их структуре [4], развитии и конструктивной проработке методов и алгоритмов генерирования DTD для массива XML-документов [5], разработке новой технологии интерактивного повествования в виртуальном окружении [6].

Апробация результатов. Технология автоматизированной подготовки динамических документов, представленная в данной работе, была использована для создания системы автоматизированной подготовки и публикации документов на корпоративном сайте. Эта система была внедрена в эксплуатацию в компании "Телеком Транспорт" в 2000-2002 гг. и успешно функционирует в настоящее время.

Технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого массива XML-документов, представленная в данной работе, была реализована в виде экспериментальной системы, которая может использоваться как для решения практических задач, так и для дальнейших исследований и разработок.

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, была использована для построения экспериментальной обучающей системы "Виртуальный Планетарий". Разработка и развитие этой системы продолжается в настоящее время в Институте физико-технической информатики.

Публикации. По материалам диссертации опубликовано 6 работ [1-6].

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, приложений, глоссария и списка литературы. Полный объем диссертации: 125 страниц основного текста (9 таблиц, 10 иллюстраций) и 13 страниц приложений. Список литературы, использованной при работе над диссертацией, содержит 181 наименование.

Заключение диссертация на тему "Разработка технологии автоматизированной подготовки динамических документов и интерактивного повествования"

Основные результаты данной работы представлены ниже. Описание каждого результата состоит из краткой формулировки, основных тезисов, комментария с оценкой научной новизны и практической значимости и списка публикаций, в которых был отражен данный результат.

1. Исследован новый класс электронных документов — динамические документы.

• Динамический документ - это документ, создаваемый системой по запросу пользователя на основе доступной информации.

• Динамические документы обладают намного более широкой функциональностью, чем традиционные статичные электронные документы.

• Концепция динамических документов широко применяется для построения современных электронных информационных систем. Понятие динамического документа появилось в зарубежной литературе около 10 лет назад [73]. Однако, до сих пор не был проведен содержательный анализ этого понятия и связанного с ним комплекса методов и технологий. В данной работе концепция динамических документов впервые представлена в целостном, логически связанном виде. Описана история развития электронных документов, рассмотрены возможности электронных документов, показан механизм возникновения нового класса электронных документов — динамических документов, описаны характеристики динамических документов, исследованы их возможности и преимущества.

Данные результаты отражены в публикации [1].

2. Разработана технология автоматизированной подготовки динамических документов.

• Технология автоматизированной подготовки динамических документов основана на хранении структурированной информации в РСУБД и использование прототипов.

• С использованием разработанной технологии построена система автоматизированной подготовки и публикации документов на корпоративном сайте, которая была внедрена в эксплуатацию в компании "Телеком Транспорт" в 2000-2002 гг. и успешно функционирует в настоящее время.

Представленная технология автоматизированной подготовки динамических документов по своей архитектуре близка к технологии построения так называемых динамических сайтов. Однако существующие технологии построения динамических сайтов разработаны и описаны, как правило, либо с точки зрения программиста, либо с точки зрения дизайнера (верстальщика). В первом случае объектом исследования являются программные продукты и языки программирования, а целью — создание на их основе новых программных модулей, интеграция различных программных продуктов друг с другом, разработка новых алгоритмов и приемов программирования. Во втором случае объект исследования — это языки разметки (HTML и др.), а цель - наиболее эффективное отображение информации на экране монитора с учетом характеристик компьютеров и программного обеспечения пользователей.

Технология, представленная в данной работе, разработана и описана с точки зрения разработчика (конструктора) динамических документов, цель которого — наиболее эффективная организация информационного взаимодействия между электронной информационной системой и ее пользователями. Объектом исследования являются динамические документы — новый класс электронных документов, которые предоставляют намного более широкие возможности управления информацией, чем традиционные статичные электронные документы. Результатом исследования является новая технология работы с информацией, основанная на использовании динамических документов. Эта технология может применяться для построения электронных информационных систем самых разных типов — корпоративных сайтов, баз знаний, экспертных систем и т. д. В частности, на ее основе разработана технология интерактивного повествования в виртуальном окружении, описанная в данной работе.

Технология автоматизированной подготовки динамических документов, представленная в данной работе, может использоваться для построения электронных информационных систем разной функциональности и масштаба. Она представляет интерес для разработчиков современных электронных информационных систем, которых не удовлетворяет функциональность статичных электронных документов и которые стремятся расширить возможности работы с информацией. Эта технология может использоваться для построения корпоративных информационных систем, баз знаний, систем управления знаниями, корпоративных сайтов, обучающих программ, экспертных систем, публичных информационных порталов и т. д. Данные результаты отражены в публикации [2].

3. Разработана технология записи массива XML-документов в РСУБД без использования информации об их структуре и автоматического генерирования DTD для этого массива XML-документов.

• Технология записи массива XML-документов в РСУБД без использования информации об их структуре и автоматического генерирования DTD для этого массива XML-документов позволяет автоматизировать занесение структурированной информации в таблицы РСУБД и тем самым существенно повысить эффективность автоматизированной подготовки динамических документов.

• Технология записи массива XML-документов в таблицы РСУБД без использования информации об их структуре и автоматического генерирования DTD для этого массива XML-документов была разработана и реализована в виде экспериментальной системы в 20032004 гг.

Представленная технология записи массива XML-документов в РСУБД без использования информации об их структуре и генерирования DTD для этого массива XML-доку ментов является новой. В литературе описан ряд алгоритмов записи отдельного XML-документа в РСУБД без использования информации о его структуре [53], [54], [55]. Также в литературе описан алгоритм построения DTD для отдельного XML-элемента [57]. В данной работе задача генерирования DTD для массива XML-документов впервые рассмотрена как часть более общей задачи автоматического занесения структурированной информации в РСУБД электронной информационной системы. Разработанная технология записи массива XML-документов в РСУБД и генерирования DTD для этого массива XML-документов позволяет автоматизировать наполнение РСУБД информацией и тем самым существенно повысить эффективность автоматизированной подготовки динамических документов. Эта технология реализована в виде экспериментальной системы, которая может использоваться как для решения прикладных задач, так и для дальнейших научных разработок.

Технология записи массива XML-документов в РСУБД без использования информации о их структуре и генерирования DTD для этого массива XML-документов, описанная в данной работе, представляет интерес для разработчиков электронных информационных систем, которым необходимо автоматизировать наполнение РСУБД структурированной информацией. Эта задача неизбежно возникает при развитии любой электронной информационной системы, когда ручное занесение информации в систему становится неэффективным и перестает удовлетворять возросшим требованиям к объему и качеству структурирования информации. Представленная технология генерирования DTD для массива XML-документов в комплексе с системами автоматического поиска информации и конвертерами информации из документов и баз данных в формат XML обеспечивает эффективное решение задачи автоматического наполнения РСУБД структурированной информацией. Структурированная информация из таблиц РСУБД может быть легко использована для автоматизированного построения динамических документов. Данные результаты отражены в публикациях [4], [5].

4. Исследован новый тип динамических документов — интерактивное повествование в виртуальном окружении, и разработана технология интерактивного повествования в виртуальном окружении.

• Интерактивное повествование в виртуальном окружении — это новый жанр компьютерных приложений, который находится на стыке электронных информационных систем, компьютерных игр, обучающих программ, виртуальных тренажеров и интерактивных моделей.

• Технология интерактивного повествования в виртуальном окружении основана на интеграции технологий динамических документов и виртуального окружения на технологической платформе Avango.

• На основе представленной технологии интерактивного повествования в виртуальном окружении разработана экспериментальная обучающая система "Виртуальный Планетарий".

Технология интерактивного повествования в виртуальном окружении, представленная в данной работе, является новой. В мире есть несколько десятков коллективов, которые занимаются разработкой методов и технологий интерактивного повествования в виртуальном окружении [90], [92]. Однако, как и в любой новой предметной области, понятие интерактивного повествования по-разному трактуется разными исследователями. Этот факт в сочетании с широким спектром систем и технологий виртуального окружения приводит к тому, что каждый коллектив фактически разрабатывает свою технологию интерактивного повествования в виртуальном окружении, которая существенно отличается от других разработок. Представленная технология интерактивного повествования в виртуальном окружении основана на интеграции технологий динамических документов и виртуального окружения на технологической платформе Avango [23]. Это новый подход, который ранее не рассматривался и не был описан другими исследователями.

Технология интерактивного повествования в виртуальном окружении, описанная в данной работе, представляет интерес для разработчиков электронных информационных, обучающих и тренировочных систем. Эта технология основана на технологической платформе Avango, которая имеет открытый исходный код и распространяется свободно [23]. Стоимость системы виртуального окружения на Linux-кластере персональных компьютеров сегодня вполне доступна для крупных отечественных научных центров, ВУЗов, промышленных и добывающих корпораций [93]. Учитывая, что стоимость разработки приложений виртуального окружения на базе программного обеспечения с открытым исходным кодом на порядок меньше, чем стоимость фирменных систем с аналогичной функциональностью, можно предположить, что круг потенциальных пользователей предложенной технологии интерактивного повествования в виртуальном окружении достаточно широк. Среди возможных применений данной технологии - создание инструкций по эксплуатации и документации к технологически сложным изделиям, в том числе, "двойного" назначения, в рамках концепций CALS, PLCS, PLM [102].

Данные результаты отражены в публикации [6].

Заключение

Библиография Леонов, Андрей Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Публикации автора по теме диссертации

2. Леонов А. В. Динамический документ — ключевой объект современных информационных систем // Сборник трудов 3-й международной конференции VEonPC'2003 "Системы виртуального окружения на Linux-кластерах персональных компьютеров". М., 2003. - С. 150-169.

3. Леонов А. В., Бахбух Б. М., Лудинов В. В., Петренко И. И. Публикация динамических документов рекламно-информационного характера на корпоративном сайте // Исследовано в России. 2003. - С. 1148-1185.

4. Леонов А. В., Хуснутдинов P. P. Исследование и разработка системы генерирования DTD для XML-документов // Программирование. — 2005. N 4. - принята в печать редколлегией журнала.

5. Леонов А. В., Хуснутдинов Р. Р. Исследование и разработка системы генерирования DTD для XML-документов // Исследовано в России. -2004.-С. 2515-2537.

6. Баричев С. Г., Серов Р. Е. Основы современной криптографии. — М.: Горячая линия Телеком, 2002. - 175 с.

7. Бауэр Ф., Гооз Г. Информатика / Пер. с нем. М.: Мир, 1976. - 484 с.

8. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2000. - 384 с.

9. Электронные документы в корпоративных сетях / С. В. Клименко, И. В. Крохин, В. М. Кущ, Ю. Л. Лагутин. М.: Эко-Трендз, 1999.271 с.

10. Кнут Д. Е. Все про ТеХ / Пер. с англ. Протвино: АО RDTeX, 1993. -592 с.

11. Марчук Ю. Н. Основы компьютерной лингвистики. — М.: Сигнал, 1999. -265 с.

12. Новак JI. Г., Кузнецов С. Д. Свойства схем данных XML // Труды Института системного программирования РАН. М., 2003. http://utc.j4nr.ru/internet/xml/xmlsv/XMLsv.shtml.htm

13. Плискин Е. Л. Управление версиями в системах коллективного создания документов // Сборник трудов ИСА РАН "Развитие безбумажной технологии в организационных системах". -М., 1999.

14. Холзнер С. Perl: специальный справочник / Пер. с англ. СПб: Питер, 2000.-640 с.

15. Шнайер Б. Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си / Пер. с англ. М.: Триумф, 2002. — 816 с.

16. Шеннон К. Математическая теория связи / Пер. с англ.

17. В. Ф. Писаренко. — В кн.: Шеннон К. Работы по теории информации и кибернетике. -М.: ИЛ, 1963. 832 с.

18. Lannon J. М. Technical Writing. 7th ed. New York: Longman, 1996.

19. Gobel M. et al. On Creating Virtual Reality Stories And Interactive Experiences // Proc. GraphiCon. 2000.

20. McCormick В. H., DeFanti T. A., Brown M. D. Visualization in Scientific Computing // Computer Graphics. 1987. - Vol. 21. - No. 6.

21. Aukstakalnis S., Blatner, D. Silicon Mirage The Art and Science of Virtual Reality. - Berkeley, С A: Peachpit Press. - 1992.

22. Milgram P., Kishino F. A Taxonomy of Mixed Reality Visual Displays // IEICE Transactions on Information Systems E77-D (12). 1994.

23. Tramberend H. Avango: A Distributed Virtual Reality Framework // Proc. IEEE Virtual Reality 1999. 1999.

24. Klimenko S., Nikitin I., Burkin V., Gobel M., Hasenbrink F., Tramberend H. Virtual Planetarium in CyberStage // Proc. 6th Eurographics Workshop on Virtual Environments. 2000.

25. Klimenko S., Nielson G., Nikitina L., Nikitin I., Strassner J. Virtual Planetarium: Learning Astronomy in Virtual Reality // Proc. ED-MEDIA'2004. 2004.

26. Abe Y., Suzuki J., Tashiro G., Yamamoto Y. Persona: a Framework to provide Adaptive Presentation for Web Documents. IPSJ Summer Programming Symposium.

27. Adams К. C. The Web as Database: New Extraction Technologies and Content Management. ONLINE, March 2001.

28. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — Computer Science Department, Stanford University. — 1998.

29. Chakrabarti S., van den Berg M., Dom B. Focused crawling: a new approach to topic-specific Web resource discovery. Amsterdam, Netherlands: Computer Networks. - 1999.

30. Coffman K. G., Odlyzko A. M. Growth of the Internet // Optical Fiber Telecommunications IV B: Systems and Impairments, I. P. Kaminow and T. Li, eds. Academic Press. - 2002. - P. 17-56.

31. Cooper M., Foote J. Automatic Music Summarization via Similarity Analysis. 2002.

32. Costello D. For Knowledge, Look Within // Knowledge Management Magazine. September 2000.

33. Fikes R., Jenkins J., Frank, G. JTP: A System Architecture and Component Library for Hybrid Reasoning. Knowledge Systems Laboratory. 2003.

34. Harney J. Predictive analytics: forecasting future trends from existing data. — KMWorld Magazine. January 2003. - Volume 12. - Issue 1.

35. Hutchins W. J. Machine translation: past, present, future. Chichester (UK): Ellis Horwood. - 1986. - 382 p.

36. Hutchins W. J. Machine translation today and tomorrow // Computerlinguistik: was geht, was kommt? Festschrift fur Winfried Lenders, hrsg. Gerd Willee, Bernhard Schroder, Hans-Christian Schmitz. -Sankt Augustin: Gardez! Verlag. 2002. - P. 159-162.

37. Khoussainov R., Kushmerick N. Optimising Performance of Competing Search Engines in Heterogeneous Web Environments. 2003.

38. Kitsuregawa M., Wang Y. Link Based Clustering of Web Search Results. — 2001.

39. Klusch M., Bergamaschi S., Edwards P., Petta, P. Intelligent Information Agents: The AgentLink Perspective. Austrian Research Institute for Artificial Intelligence, Vienna, Austria. — 2003.

40. Koulopoulos Т. M., Frappaolo C. Electronic Document Management Systems: A Portable Consultant. New York: McGraw-Hill, Inc. - 1995.

41. Lahtinen T. Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods. 2000.

42. Mani I. Automatic Summarization. Amsterdam, The Netherlands: John Benjamins Publishing Co. - 2001. - 285 p.

43. Mitkov R. Anaphora resolution. Longman. - 2002.

44. Ngo C.W., Pong T.C., Zhang H.J. Recent Advances in Content Based Video Analysis. — International Journal of Image and Graphics. 2002.

45. Prior C. Workflow and Process Management. 2003.

46. Ruger S. M., Zervas G. The Curse of Dimensionality and Document1. Clustering. 1999.

47. Saggion H. Automatic Abstracting: towards a Text Based Generation.

48. Sutton M. J. D. Document Management for the Enterprise: Principles, Techniques, and Applications. New York: Wiley Computer Publishing. -1996.

49. Williamson В., Miller L. The semantic web: A touch of intelligence for the internet? 2003.

50. Woods E. Knowledge management 2002-2003: the end of the beginning. -KMWorld Magazine. January 2003. - Volume 12. - Issue 1.

51. Wooldridge M., Jennings N. Intelligent Agents: Theory and Practice. -Knowledge Engineering Review. June 1995. - No 2. - Volume 10.

52. Zha H., Ji X. Poster session: Correlating multilingual documents via bipartite graph modeling // Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. 2002.

53. Florescu D., Kossmann D. A performance evaluation of alternative mapping schemes for storing XML data in a relational database // Rapport de Recherche No. 3680 INRIA, Rocquencourt, France. May 1999.

54. Florescu D., Kossmann D. Storing and querying XML data using an RDBMS // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 1999.

55. Chen Q., Khan L, Rao Y. A Comparative Study of Storing XML Data in Relational and Object-Relational Database Management Systems // Proceedings of the International Conference on Internet Computing. Las Vegas, Nevada, USA. - 2002. - P. 277-282.

56. Zwol R. v., Apers P., Wilschut A. Modelling and querying semistrictured data with MOA // Workshop on Queiy processing for semistructured data and non-standard data formats. 1999.

57. Garofalakis M., Gionis A., Rastogi R., Seshadri S., Shim K. XTRACT: Learning Document Type Descriptors from XML Document Collections // Data Mining and Knowledge Discovery. 2003. - N 7. - P. 23-56.

58. Shafer К. E. Creating DTDs via the GB-Engine and Fred. 1995.

59. Brazma A. Efficient Identification of regular expressions from representative examples // Proc. of the Ann. Conf. on Computational Learning Theory (COLT). 1993.

60. Kilpelainen P., Mannila H., Ukkonen E. MDL learning of unions of simple pattern languages from positive examples // Proc. of the European Conf. on Computational Learning Theory (EuroCOLT). 1995.

61. Fernandez M., Suciu D. Optimizing regular path expressions using graph schemas // Proc. of the Intl. Conf. on Database Theory (ICDT). 1997.

62. Goldman R., Widom J. DataGuides: Enabling query formulation and optimization in semistructured databases // Proc. of the Intl. Conf. on Very Large Data Bases (VLDB). 1997.

63. Nestorov S., Abiteboul S., Motwani R. Extracting schema from semistructured data // Proc. of the ACM SIGMOD Intl. Conf. on Management of Data. 1998.

64. Brayton R. K., McMullen C. The Decompozition and Factorization of Boolean Expressions // Proc. Of the Intl. Symp. On Circuits and Systems. -1982.

65. Charikar M., Guha S. Improved Combinatorial Algorithms for the Facility Location and K-median Problem // Proc. of the Ann. Symp. on Foundations of Computer Science (FOCS). 1999.

66. Hochbaum D. S. Heuristics for the Fixed Cost Median Problem //

67. Mathematical Programming. 1982. -N 22. - P. 148-162.

68. Hopcroft J. E., Ullman J. D. Introduction to Automation Theory, Languagesand Computation. Reading, Massachusetts: Addison-Wesley. - 1979.

69. Gutmann P. Encryption and Security Tutorial:http://www.cs.auckland.ac.nz/~pgut001/tutorial/index.html1.man P., Varian H. R. How much information? Internet summary.http://www.sims.berkeley.edu/research/projects/how-muchinfo/internet.html

70. AIIM User Guide. Business Process Management and Workflow. http://www.aiim.org/inform/alldocrep.asp

71. AIIM User Guide. Document and Content Capture. http://www.aiim.org/inform/alldocrep.asp

72. The UCLA Internet Report. Surveying the Digital Future. Year Three. -UCLA Center for Communication Policy. 2003. http://www.ccp.ucla.edu/pages/internet-report.asp

73. Wang A. R. R. Algorithms for Multi-Level Logic Optimization. PhD Thesis,

74. Univ. of California, Berkeley. 1989.1. Сайты научных сообществ

75. EE Computer Society: http://computer.org/

76. EE Communication Society: http://comsoc.org/

77. EE Professional Communication Society: http://ieeepcs.org/

78. American Association for Artificial Intelligence: http://www.aaai.org/

79. American Society for Information Science and Technology: http://www.asis.org/

80. Association for Computing Machinery: http://portal.acm.org/

81. Assosiation of Knowledgework: http://www.kwork.org/

82. Международный семинар Диалог: http://www.dialog-21.ru/ Сайты конференций

83. International Conference on Advances in Computer Entertainment Technology (ACE 2004): http://www.ace2004.org/85. 4th International Conference on Computational Semiotics for Games and New Media (COSIGN 2004): http://www.cosignconference.org/

84. ACM Collaborative Virtual Environments (CVE 2002): http://www.cve2002.org/cve2002-storytelling.html

85. Арсеналъ: http://www.ars.ru/

86. Галактика: http://www.galaktika.ru/

87. ЛАНИТ: http://www.lanit.ru/

88. МедиаЛингва: http://www.medialingua.ru/

89. НИЦ CALS-технологий "Прикладная Логистика": http://www.cals.ru

90. Оптима: http://www.optima.ru/

91. Парус: http://www.parus.ru/

92. ПРОМТ: http://www.promt.ru/

93. Телеком Транспорт: http://www.tt.ru

94. ЭОС: Электронные офисные системы: http://eos.ru/eos/

95. ABBYY: http://www.abbyy.ru/

96. Adobe: http://www.adobe.com/

97. В aan: http://www.baan.com/

98. Borland Software Corporation: http://www.borland.com/

99. Cognitive Technologies: http://www.cognitive.ru/

100. Convera: http://www.convera.com/

101. Delphi Group: http://www.delphigroup.com/

102. Digital Design: http://www.digdes.ru/

103. Divine: http://www.divine.com/

104. Document Scanners: http://www.highspeedscanner.com/

105. Documentum: http://www.documentum.ru/

106. Gartner: http ://www.gartner. com/

107. Hummingbird: http://www.hummingbird.ru/

108. Hyperwave: http://www.hyperwave.com/122. i2 Technologies: http://www.i2.com/123. IBM: http://www.ibm.com/124. IDC: http://www.idc.com/

109. I.R.I.S.: http://www.irislink.com/

110. J. D. Edwards: http://www.jdedwards.com/

111. Macromedia: http://www.macromedia.com/

112. META Group: http://www.metagroup.com/

113. Microsoft: http://www.microsoft.com/

114. Microsystems: http://www.analyst.ru/

115. MOVES Institute: http://www.movesinstitute.org/

116. Novell: http://www.novell.com/

117. Open Text Corporation: http://www.opentext.com/

118. Oracle: http://www.oracle.com/

119. Ovum: http://www.ovum.com/

120. PeopleSoft: http://www.peoplesoft.com/

121. Sage Group: http://www.sage.com/138. SAP: http://www.sap.com/

122. Scala: http://www.scala.net/

123. ScanSoft: http://www.scansoft.com/

124. Siebel Systems: http://www.siebel.com/

125. Sun Microsystems: http://www.sun.com/

126. Sybase: http://www.sybase.org/

127. Verity: http://www.verity.com/

128. Vignette: http://www.vignette.com/

129. Сайты стандартов, технологий и программных продуктов

130. Официальная страница АИога: http://www.hitsw.com/productsservices/xmlplatform/alloradsheet.html

131. Официальная страница Alpha Works: Data Descriptors by Example: http://www.alphaworks.ibm.com/tech/DDbE

132. Официальный сайт разработчиков Apache: http://www.apache.org.

133. Официальный сайт ASP: http://www.asp.net/

134. Официальная страница Autonomy: http://www.autonomy.com/Content/Technology/

135. Официальная страница Avango: http://www.avango.org/

136. Официальный сайт HTML: http://www.w3.org/MarkUp/

137. Официальная страница IBM DB2 XML Extender: http://www-306.ibm.com/software/data/db2/extenders/xmlext/index.html.

138. Официальная страница Java 2 Standard Edition: http://java.sun.com/j2se/

139. Knowledge Markup Language (KML) home page: http://kml.mipt.ru/

140. Официальная страница FOR XML EXPLICIT: http://msdn.microsoft.com/library/periodic/period01/xmlExplicit.htm.

141. Официальный сайт разработчиков MySQL: http://www.mysql.org/

142. Официальная страница MySQL: Open Source Relational Database Management System: http://www.mysql.com.

143. Официальная страница Oracle XML SQL Utilities: http://otn.oracle.com/tech/xml/index.html.

144. Официальный сайт разработчиков Perl: http://www.perl.com.

145. Perl Template Toolkit Home Page: http://template-toolkit.org/

146. Библиотека модулей для Perl: http://perl.cpan.org/.

147. Официальный сайт разработчиков PHP: http://www.php.net.

148. PHP Smarty Template Engine: http://smarty.php.net/

149. Официальный сайт разработчиков PostgreSQL: http://www.postgresql.org.

150. Resource Description Framework (RDF):http://www.w3 .org/RDF/Overview.html

151. Официальная страница SAXON: http://sourceforge.net/projects/saxon

152. Overview of SGML Resources: http://www.w3.org/MarkUp/SGML/

153. Официальная страница Sybase Inc. XML & Web-Services: http://www.sybase.com/products/databaseservers/ase/javaxml

154. TeX Users Group (TUG) home page: http://www.tug.org/

155. Официальный сайт XML: http://www.xml.org/

156. Спецификация XML 1.0: http://www.w3.org/TR/REC-xml

157. Официальная страница XML Spy: http://www.xmlspy.com/ Другие ресурсы сети Интернет

158. The Internet Operating System Counter: http://www.leb.net/hzo/ioscount/index.html.

159. Netcraft Web Server Survey: http://www.netcraft.com.

160. Netstat: http://www.netstat.ru.

161. Augmented Reality Homepage: http://www.augmented-reality.org

162. Augmented Reality Page: http://www.se.rit.edu/~jrv/research/ar/

163. Jaron Lanier's Homepage: http://www.advanced.org/jaron/

164. Глоссарий.Ру: http://www.glossary.ru

165. Федеральный закон РФ "Об информации, информатизации и защите информации" от 20.02.1995 № 24-ФЗ