автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Математические модели и методы для автоматизированных систем обработки структурированной информации

кандидата технических наук
Зимакова, Мария Вячеславовна
город
Пенза
год
2001
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Математические модели и методы для автоматизированных систем обработки структурированной информации»

Оглавление автор диссертации — кандидата технических наук Зимакова, Мария Вячеславовна

Введение.

Глава 1. Объективные предпосылки разработки математических моделей и методов для автоматизированных систем создания и хранения структурированной информации.

1.1 Системный анализ информационных потоков в системе управления предприятием.

1.2 Сравнительный анализ методов распознавания логической структуры документов.

1.2.1 Классификация электронных документов и форматы представления их структуры.

1.2.2 Представление логической структуры документов.

1.2.3 Распознавание логической структуры документов.

1.3 Сравнительный анализ методов хранения и поиска структурированной информации.

1.3.1 Методы манипуляции структурированными документами.

1.3.2 Языки запросов для структурированного поиска.

1.3.3 Хранение документов XML в базах данных.

1.4 Постановка задач исследования для проектирования автоматизированной системы создания и хранения структурированной информации с использованием принципов системного подхода.

Выводы.

Глава 2. Исследование и разработка математических моделей, методов и алгоритмов определения логической структуры документов.

2.1 Абстрактная математическая модель класса документов.

2.1.1 Математическая модель документа, основанная на применении логических областей.

2.1.2 Описание модели класса документов при помощи грамматик.

2.1.3 Контекстно-вероятностная модель класса документов.

2.2 Методы формирования представления логической структуры класса документов с использованием контекстно-вероятностной модели.

2.2.1 Постановка задачи построения грамматики логической структуры класса документов.

2.2.2 Структура базы знаний для построения грамматик нижнего уровня.

2.2.3 Алгоритм обобщения грамматик.

2.2.4 Алгоритм объединения альтернативных правил грамматики.

2.2.5 Построение множества грамматик нижнего уровня.

2.2.6 Построение грамматики верхнего уровня.

2.2.7 Извлечение контекстно-вероятностной информации из класса структурированных документов.

2.3 Построение дерева логической структуры документа.

2.3.1 Постановка задачи построения дерева логической структуры документа.

2.3.2 Основные алгоритмы построения дерева логической структуры документа.

2.3.3 Построение дерева логической структуры документа с использованием физических атрибутов.

2.3.4 Построение дерева логической структуры документа с использованием контекстно-вероятностных зависимостей.

2.3.5 Оценочные характеристики алгоритмов построения дерева логической структуры документов.

Выводы.

Глава 3. Исследование и разработка методов хранения и поиска структурированной информации в базах данных.

3.1 Разработка исчисления и языка для структурированных запросов.

3.1.1 Основные разбиения множества элементов электронного документа.

3.1.2 Разработка исчисления для создания структурированных запросов.

3.1.3 Дополнительные предикаты для структурированных запросов.

3.1.4 Редукция исчисления для структурированных запросов к реляционному исчислению с переменными на кортежах.

3.1.5 Разработка языка структурированных запросов.

3.2 Исследование структурированного поиска при использовании модели СУБД с инвертированными файлами.

3.2.1 Описание модели структурированной СУБД с инвертированными файлами.

3.2.2 Разработка структуры СУБД с инвертированными файлами.

3.2.3 Обеспечение целостности СУБД с инвертированными файлами при включении, модификации и удалении записей.

3.3 Исследование структурированного поиска в реляционных базах данных.

3.3.1 Описание структурированной реляционной модели СУБД.

3.3.2 Описание схемы структурированной реляционной СУБД.

3.3.3 Редукция построенного языка структурированных запросов к языку SQL.

3.4 Структурированный поиск в объектно-реляционных базах дареных

Выводы.

Глава 4. Разработка и исследование автоматизированной системы создания и хранения структурированной информации.

4.1 Разработка архитектуры интерактивной автоматизированной системы создания и хранения структурированной информации.

4.2 Методология оценки правильности определения логической структуры документа.

4.2.1 Сравнение упорядоченных деревьев.

4.2.2 Ь-деревъя.

4.3 Методология оценки эффективности информационной системы для хранения и поиска структурированной информации.

4.3.1 Измерение временного интервала.

4.3.2 Измерение полноты и точности системы.

4.4 Структурирование и хранение документов системы менеджмента качества.

4.4.1 База документов системы менеджмента качества.

4.4.2 Экспериментальные результаты по оценке правильности распознавания логической структуры документов системы менеджмента качества.

4.4.3 Экспериментальные результаты по оценке эффективности хранения и поиска структурированных документов системы менеджмента качества.

Выводы.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Зимакова, Мария Вячеславовна

Наиболее актуальной задачей в настоящее время для современных предприятий в информационном плане является обеспечение эффективного управления всем объемом разнородных данных, которые порождаются, хранятся и используются в автоматизированной системе управления предприятием. Существенное отличие в подходе к методам управления вызвано введением на предприятиях системы менеджмента качества в соответствии со стандартами серии ISO 9000:2000 и концепцией информационной поддержки жизненного цикла сложной продукции в соответствии с семейством стандартов ISO 10303 по CALS-технологиям, одним из главных требований которых является создание и хранение структурированной информации [19,22 -24].

С внедрением корпоративных сетей для поддержки систем управления предприятием и использованием Web-сетей для межкорпоративного обмена [54, 67], все большее распространение для представления логической структуры документов получает новый метаязык XML [73, 83, 84, И8], который является подмножеством SGML [62, 137]. Указанные обстоятельства вызвали большой научный интерес к проблеме управления полуструктурированными данными, которая в настоящее время разрабатывается многочисленными фирмами и научными центрами, среди которых можно выделить группу Дж. Ульмана в Стэндфордском университете (США), Database Group из центра CS+E (Center 'Science + Education') при Вашингтонском университете (США), группу CEDAR (Center of Excellence for Document Analysis and Recognition) в университете Буффало (США), CENPARMI (Center for Pattern Recognition and Machine Intelligence) в Конкордском университете (Канада), а также группу DAR (Document Analysis and Recognition) во Фрибургском университете (Швейцария).

Большинство работ по проблеме определения логической структуры предназначены либо для документов строго определенного стиля, либо документов с изменяющейся структурой, но ограниченным числом изменений [132, 143, 158]. Однако, существует большой класс корпоративной документации, который не имеет постоянного состава, причем каждый отдельный документ также может изменять свою логическую структуру и состав логических элементов, что делает неприменимым использование традиционного подхода по созданию фиксированного проблемно-ориентированного языка на базе XML. В связи с этим актуальным становится решение задачи разработки автоматизированной системы обработки структурированной информации с целью определения логической структуры заданного класса документов и последующего сохранения структурированных документов в базе данных.

Целью диссертационной работы является:

• исследование и разработка математических моделей и методов определения логической структуры класса документов для автоматизированной системы, способной эффективно функционировать в системе управления предприятием при изменяющемся составе класса полуструктурированных документов;

• исследование и разработка отображения логической структуры документов на различные модели баз данных и языка структурированных запросов с использованием коммерческих баз данных, позволяющих осуществлять эффективную поддержку работы автоматизированной системы при изменяющемся составе класса структурированных документов.

Методы исследования. В диссертационной работе использованы методы системного анализа, абстрактной алгебры, теории предикатов, теории вероятностей и математической статистики, комбинаторики, теории нечетких множеств, теории синтаксического анализа. При программной реализации предлагаемых методов и алгоритмов использованы технологии модульного и объектно-ориентированного проектирования программного обеспечения.

Публикации. По теме диссертации опубликовано 14 печатных работ [35-48].

Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих научных кворумах:

• III международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 1998);

• I всероссийской научно-технической конференции «Компьютерные технологии в науке, проектировании и производстве» (Нижний Новгород, 1999);

• международном симпозиуме «Надежность и качество'99» (Пенза, 1999);

• IV международной научно-методической конференции «Университетское образование» (Пенза, 2000);

• IX международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций» (Рязань, 2000);

• IV международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 2000);

• V международной научно-методической конференции «Университетское образование» (Пенза, 2001);

• международном симпозиуме «Надежность и качество» (Пенза, 2001).

Практическая ценность результатов работы заключается в следующем:

• на базе предложенных в диссертации математических моделей и методов распознавания логической структуры документов разработана автоматизированная система, которая была использована для структурирования документов системы менеджмента качества предприятия;

• разработанная в диссертации модель данных и язык структурированных запросов использовался в предлагаемой автоматизированной системе, что позволило адаптироваться к изменяющемуся составу класса документов и осуществлять быстрый поиск в множестве структурированных документов системы менеджмента качества.

Научная новизна. Научная новизна представленной диссертационной работы заключается в следующем:

1. Предложено с целью повышения эффективности работы с классами полуструктурированных документов переменного состава ввести в структуру системы управления предприятием автоматизированную систему создания и хранения структурированной информации.

2. Предложена новая абстрактная математическая модель класса структурированных документов, определяющая не только физическую и логическую структуру документов заданного класса, но и набор контекстно-вероятностных зависимостей между элементами структуры.

3. Разработаны и исследованы итерационные методы и алгоритмы формирования представления заданного конечного класса документов с использованием предложенной контекстно-вероятностной модели, которые позволяют создавать представление заданного класса документов за конечное число итераций.

4. Разработаны и исследованы методы и алгоритмы комбинированного грамматического разбора документов с общей тенденцией снизу вверх с использованием физической структуры и контекстно-вероятностных зависимостей, что позволило существенно улучшить характеристики алгоритмов по сравнению с недетерминированными методами.

5. Предложено исчисление для структурированных запросов, направленное на выделение логической структуры электронного документа и на основе предложенного исчисления разработан гибкий и выразительный язык для структурированных запросов.

6. Разработаны методы хранения структурированной информации в реляционных базах данных, отличающиеся гибким представлением логической структуры класса документов с изменяющимся составом.

7. Проведено экспериментальное исследование разработанной автоматизированной системы создания и хранения структурированной информации на множестве документов системы менеджмента качества и были получены численные характеристики и экспериментальные зависимости, подтверждающие эффективность предложенных моделей и методов.

Реализация и внедрение результатов исследований. Результаты исследований, методики, разработанная автоматизированная система создания и хранения структурированной информации были использованы для разработки и хранения документации системы менеджмента качества и для внедрения CALS-технологий на предприятии, что подтверждено соответствующим актом.

Структура и объем диссертации. Диссертационная работа состоит из введения,

Заключение диссертация на тему "Математические модели и методы для автоматизированных систем обработки структурированной информации"

Выводы

1. Проведенное системное исследование позволило определить структуру автоматизированной системы создания и хранения структурированной информации и ее модулей, выявить связи между элементами и модулями системы.

2. Предложено в качестве критерия для оценки качества распознавания логической структуры документов использовать 5-дерево, размер которого однозначно связан с трудоемкостью ручного редактирования структуры документа.

3. Предложена методология и разработана многокритериальная оценки эффективности исследуемой информационной системы, позволяющая более адекватно оценивать функционирование реальной системы.

4. Исследован процесс распознавания логической структуры документов на выборке из состава документов системы менеджмента качества и экспериментально исследованы характеристики предложенных в диссертации алгоритмов; в результате сравнительной оценки сделан вывод об их эффективности.

5. В результате экспериментального исследования предложенной информационной системы были сделаны выводы о логарифмической зависимости длины временного интервала от количества документов и высокой выразительности предлагаемого языка структурированных запросов.

заключение

1. В результате системного анализа информационных процессов систем управления предприятием предложено с целью повышения эффективности работы с классами полуструктурированных документов переменного состава использовать автоматизированную систему для определения их логической структуры и хранения, а также сформулированы основные задачи по исследованию и разработке автоматизированных систем данного класса.

2. Проведенный критический анализ и классификация методов создания и хранения структурированной информации для рассматриваемых автоматизированных систем показал, что наиболее перспективными являются итерационные методы распознавания с обучением, а для хранения и поиска информации наиболее применимы методы отображения структурированных документов на реляционные модели баз данных.

3. Предложена и исследована абстрактная математическая модель класса документов, определяющая не только физическую и логическую структуру документов заданного класса, но и набор контекстно-вероятностных зависимостей элементов структуры, что позволяет более адекватно представить существующие на практике классы документов и разработать эффективные методы и алгоритмы для работы с классами структурированных документов.

4. Разработаны и исследованы итерационные методы и алгоритмы формирования представления заданного конечного класса документов с использованием предложенной контекстно-вероятностной модели, которые позволяют создавать эффективное представление заданного класса документов за конечное число итераций.

5. Разработаны и исследованы методы и эффективность алгоритмов комбинированного грамматического разбора с общей тенденцией снизу вверх с использованием физической структуры и контекстно-вероятностных зависимостей, что позволило существенно улучшить характеристики алгоритмов по

162 сравнению с недетерминированными методами.

6. Предложено исчисление для структурированных запросов, отличающееся спецификой предикатов, направленных на выделение логической структуры электронного документа и на основе предложенного исчисления разработан гибкий и выразительный язык для структурированных запросов.

7. Разработаны и исследованы методы хранения структурированной информации в реляционных базах данных, отличающиеся гибким представлением логической структуры класса документов с изменяющимся составом.

8. В результате проведенного экспериментального исследования разработанной автоматизированной системы создания и хранения структурированной информации на множестве документов системы менеджмента качества были получены численные характеристики и экспериментальные зависимости, подтверждающие эффективность предложенных моделей и методов.

Библиография Зимакова, Мария Вячеславовна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айзенберг Э., Мелтон Дж. SQL-программы, использующие язык программирования JAVA // Открытые системы. 1997. - № 9-10.

2. Аписелла М. Новая версия DB2 больше простоты и интеллекта // Сош-puterworld Россия. - 2000. - № 20. - С. 37.

3. Архангельский А.Я. Программирование в Delphi 5.- М. :БИНОМ, 2000.-967 с.

4. Атре Ш. Структурный подход к организации баз данных: Пер. с англ. М.: Финансы и статистика, 1983. - 317 с.

5. Ахо А., Ульман Дж. Теория синтаксического анализа и компиляции: Пер. с англ. -М.: Мир, 1978. -Т. 1. -472 с.

6. Ахо А., Хопкрофт Дж., Ульман Дж. Структуры данных и алгоритмы: Пер. с англ. М.: Вильяме, 2000. - 496 с.

7. Барабанов В.В., Херсонский Н.С., Карасев С.Н., Пономаренко В.Д., Рожков В.Н. Применение CALS-технологий для электронного описания систем качества предприятий // Стандарты и качество. 2001. - № 3. - С. 28-30.

8. Биркгоф Г. Теория решеток: Пер. с англ. М.: Наука, 1984. - 432 с.

9. Биркгоф Г., Барти Т. Современная прикладная алгебра: Пер. с англ. М.: Мир, 1976.-408 с.

10. Бобровский С. Delphi 5: учебный курс. СПб.: Питер, 2000. - 640 с.

11. Борн Г. Форматы данных: Пер. с нем. Киев: BHV, 1995. - 472 с.

12. Бусленко Н.П., Калашников В.В., Коваленко И.Н. Лекции по теории сложных систем. М.: Мир, 1973. - 328 с.

13. Вайнгартен Ф. Трансляция языков программирования: Пер. с нем. М.: Мир, 1977.- 192 с.

14. Ван дер Варден Б.Л. Алгебра: Пер. с нем. М.: Наука, 1979. - 464 с.

15. Вентцель Е.С. Теория вероятностей. М.: Наука, 1969. - 576 с.

16. Виленкин Н.Я. Комбинаторика. М.: Наука, 1969. - 384 с.

17. Гиг Дж. ван. Прикладная общая теория систем: В 2 т. М.: Мир, 1981.

18. Гинзбург С. Математическая теория контекстно-свободных языков: Пер. снем. М.: Мир, 1970. - 320 с.

19. ГОСТ Р 50.1-2000. CALS-технологии. Интерактивные электронные технические руководства. Требования к логической структуре базы данных.

20. ГОСТ Р 6.30-97. Унифицированные системы документации. Унифицированная система организационно-распорядительной документации. Требования к оформлению документов.

21. ГОСТ РД IDEF 0 2000. Методология функционального моделирования IDEF0.

22. ГОСТ Р ИСО 10303-45-2000. Системы автоматизации производства и их интеграция. Представление данных об изделии и обмен этими данными.

23. ГОСТ Р ИСО 9000-1:94. Общее руководство качеством и стандарты по обеспечению качества. Руководящие указания по выбору и применению.

24. ГОСТ Р ИСО 9004-1:94. Общее руководство качеством и элементы системы качества. Руководящие указания.

25. Грубер М. Понимание SQL: Пер. с англ. М.: Мир, 1993. - 292 с.

26. Грэй П. Логика, алгебра и базы данных: Пер. с англ. М.: Машиностроение, 1989.-368 с.

27. Губанов В.А., Захаров В.В., Коваленко А.Н. Введение в системный анализ. Л.: Издательство Ленинградского Университета, 1988. - 232 с.

28. Гудман С., Хидетниеми С. Введение в разработку и анализ алгоритмов: Пер. с англ. -М.: Мир, 1981.-368 с.

29. Де Гроот М. Оптимальные статистические решения: Пер. с англ. М.: Мир, 1974.-492 с.

30. Деджесус Э. XML на арене баз данных // Computerworld Россия. 2000.-№45. -С. 42-44.

31. Дейт К. Дж. Введение в системы баз данных: Пер. с англ. М.: Вильяме, 1999.-516 с.

32. Емельянов Н.Е. Электронные документы и БД // Директору информационной службы. 1999. - № 4. - С. 32-35.

33. Зелковиц М., Шоу А., Гэннон Дж. Принципы разработки программного обеспечения: Пер. с англ. -М.: Мир, 1982. 368 с.

34. Зильбершац А., Здоник С. Стратегические направления систем баз данных // СУБД. 1997. - № 4. - С. 57-59.

35. Зимакова М.В. Исследование и разработка интерактивной системы распознавания логической структуры документов // IV Международная научно-методическая конференция «Университетское образование»: Тез. докл. -Пенза, 2000. Часть I. - С.31 -32.

36. Зимакова М.В. Исследование проблемы обобщения грамматик в процессе извлечения логической структуры документов // IV Международная научно-техническая конференция «Новые информационные технологии и системы»: Тез. докл. Пенза, 2000. - С. 75-76.

37. Зимакова М.В. Концепции построения интегрированной среды обучения / М.В. Зимакова, В.Ф. Зимаков // V Международная научно-методическая конференция «Университетское образование»: Тез. докл. Пенза, 2001. - Часть II - 59-60.

38. Зимакова М.В. Моделирование структурированных документов с использованием статистической информации / М.В. Зимакова, Б.Г. Хмелевской, В.Ф.

39. Зимаков // IV Международная научно-техническая конференция «Новые информационные технологии и системы»: Тез. докл. -Пенза, 2000.-С. 74-75.

40. Зимакова М.В. Оценка качества страницы при помощи извлечения простых особенностей / М.В. Зимакова, Б.Г. Хмелевской, А.А. Курлевский // Международный симпозиум «Надежность и качество'99»: Сб. статей -Пенза, 1999.-С. 61-63.

41. Зимакова М.В. Разработка исчисления предикатов для структурированного поиска в базе электронных документов // IV Международная научно-методическая конференция «Университетское образование»: Тез. докл. -Пенза, 2000. Часть I. - С. 32-34.

42. Зимакова М.В. Сравнительная характеристика методов распознавания структуры документов // Международный симпозиум «Надежность и каче-ство'99»: Сб. статей Пенза, 1999. - С. 58-61.

43. Зимакова М.В. Структурирование информации в интегрированных средах обучения / М.В. Зимакова, В.Ф. Зимаков // V Международная научнометодическая конференция «Университетское образование»: Тез. докл. -Пенза, 2001. Часть 2. - С. 60-61.

44. Зиндер Е.З. Время понимать // Директору информационной службы. -2000.-№ 6.-С. 39-41.

45. Зырянов М.А. Блеск и «нищета» XML // Computerworld Россия. 1999. -№44.-С. 1-8.

46. Игнатович Н.И. Семейство реляционных баз данных IBM DB2 // СУБД. -1997,-№2.-С. 62-65.

47. Календарев А.В. Понятие XML/EDIM // Открытые системы. 1998. - № 4. -С. 31-35.

48. Ким В., Гарза Ж., Грэхем Б. Пути развития объектно-реляционных технологий баз данных // СУБД. 1996. - № 4. - С. 22-24.

49. Кинг П. Х-фактор // Директору информационной службы. 2000. - № 6. -С. 34-35.

50. Кириллов В.В. Основы проектирования реляционных баз данных. Санкт-Петербургский Государственный Технический Университет точной механики и оптики, 1998. - 256 с.

51. Кнут Д. Искусство программирования для ЭВМ: В 3 т. М.: Мир, 1976. Т.1: Основные алгоритмы. - 836 с.

52. Кнут Д. Искусство программирования для ЭВМ: В 3 т. М.: Мир, 1978. Т.З. Сортировка и поиск. - 844 с.

53. Колесников JI.A. Основы теории системного подхода. Киев: Наукова Думка, 1988.-366 с.

54. Колесников С.В. Эффективное внедрение корпоративных технологий финансово-экономического управления // Consulting Magazine Россия. 2000. -№ 18. - С. 16-20.

55. Конолли Т., Бегг К., Страчан А. Базы данных: проектирование, реализация и сопровождение: Пер. с англ. М.: Вильяме, 2000. - 496 с.

56. Коржов В.И. Domino для сверхчеловека? // Computerworld Россия. 1999.20.-С. 12.

57. Коржов В.И. SGML документальный метаязык // Computerworld Россия.- 1997.-№36.-С. 53-54.

58. Коржов В.И. Наследница ИНЭС. Возрождение иерархических СУБД // Computerworld Россия. 2000. - № 44. - С. 42-43.

59. Коршунов Ю.М. Математические основы кибернетики. М.: Энергоатом-издат, 1987.-496 с.

60. Кофман А. Введение в прикладную комбинаторику: Пер. с англ. М.: Наука, 1975.-432 с.

61. Кофман А. Введение в теорию нечетких множеств: Пер. с англ. М.: Радио и связь, 1982.-466 с.

62. Кузнецов С.Д. XML: модное направление или новая эпоха? // Директору информационной службы. 2000. - № 6. - С. 36-38.

63. Курош А.Г. Лекции по общей алгебре. М.: Наука, 1973. - 398 с.

64. Курош А.Г. Общая алгебра (лекции 1969 1970 учебного года). - М.: Наука, 1974.-212 с.

65. Ладыженский Г.М. Системы управления базами данных коротко о главном // СУБД. - 1995. - №№ 1 - 4.

66. Ланкастер Ф.У. Информационно-поисковые системы: характеристики, испытания и оценка: Пер. с англ. М.: Мир, 1972. - 308 с.

67. Леттинг М. XML проникает в Java//Computerworld Россия.-2000.-№ 15- С. 37.

68. Либерти Дж., Крейли М. Создание документов XML для Web: Пер с англ.- М.: Вильяме, 2000. 456 с.

69. Макгивер К. Structured Query Language // Computerworld Россия. 2000. -№ 20. - С. 40.

70. Марсан К. Поисковый механизм для документов XML // Computerworld Россия. 2000. - № 20. - С. 36.

71. Мартин Дж. Организация баз данных в вычислительных системах: Пер. с англ.-М.: Мир, 1978.-412 с.

72. Мейер Д. Теория реляционных баз данных: Пер. с англ. М.: Мир, 1987. -492 с.

73. Месарович М., Такахара Я. Общая теория систем: математические основы: Пер. с англ. М.: Мир, 1978. - 468 с.

74. Моисеев Н.Н. Математические задачи системного анализа. М.: Наука,1981.-488.

75. Ниман Т. Сортировка и поиск: рецептурный справочник. М.: Наука, 1998.-324 с.

76. Оре О. Теория графов: Пер. с англ. М.: Наука, 1980. - 336 с.

77. Перегудов Ф.И., Тарасенко Ф.П. Введение в системный анализ. М.: Высшая школа, 1989. - 372 с.

78. Питтс Н. XML за рекордное время: Пер. с англ. М.: Мир, 2000. - 444 с.

79. Питц-Моултис Н., Кирк Ч. XML: Пер. с англ. СПб.: BHV, 2000. - 736 с.

80. Плоткин Б.И. Универсальная алгебра, алгебраическая логика и базы данных. -М.: Наука, 1991.-448 с.

81. Райзер Г. Дж. Комбинаторная математика: Пер. с англ. М.: Мир, 1966. -458 с.

82. Рейуорд-Смит В. Дж. Теория формальных языков: Пер. с англ. М.: Радио и связь, 1988.- 128 с.

83. Риордан Дж. Введение в комбинаторный анализ: Пер. с англ. М.: ИЛ, 1963.-468 с.

84. Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных // СУБД. 1996. - № 4. - С. 28-32.

85. Сачков В.Н. Комбинаторные методы дискретной математики. М.: Наука,1982.-388 с.

86. Сван Т. Основы программирования на Delphi для Windows 95: Пер. с англ. Киев: Диалектика, 1996. - 380 с.

87. Свиткин М.З., Мацута В.Д., Рахлин К.М. Менеджмент качества и обеспечение качества продукции на основе международных стандартов ИСО.

88. СПб: Питер-Пресс, 1999. 468 с.

89. Системный анализ и структуры управления. / Под общ. ред. В.Г. Шорина. -М.: Знание, 1975.-304 с.

90. Скорняков JI.A. Элементы алгебры. М.: Наука, 1980. - 240 с.

91. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики. М.: Наука, 1969. - 512 с.

92. Солтон Дж. Динамические библиотечно-информационные системы: Пер. с англ. М.: Мир, 1979. - 558 с.

93. Сто л л Р. Множества. Логика. Аксиоматические теории: Пер. с англ. М.: Просвещение, 1968. -488 с.

94. Стэкпоул Б. Присвойте себе метку // Директору информационной службы.- 2000. № 6. - С. 6-9.

95. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. М.: Советское радио, 1973. - 560 с.

96. Трамбле Ж., Соренсон П. Введение в структуры данных: Пер. с франц. -М.: Машиностроение, 1982. -376 с.

97. Ульман Дж. Основы систем баз данных: Пер. с англ. М.: Финансы и статистика, 1983. - 436 с.

98. Фаронов В.В. Delphi 3: учебный курс. М.: Нолидж, 1998. - 400 с.

99. Флейшман Б.С. Основы системологии. М.: Радио и связь, 1982. - 320 с.

100. Фрид Э. Элементарное введение в абстрактную алгебру: Пер. с англ. М.: Мир, 1979.-260 с.

101. Фролов А.В., Фролов Г.В. Сервер Web своими руками. М.: Диалог-МИФИ, 1998.-288 с.

102. Хансен Г., Хансен Дж. Базы данных: разработка и управление: Пер. с англ.- М.: БИНОМ, 1999. 496 с.

103. Хантер Р. Проектирование и конструирование компиляторов: Пер. с англ.- М.: Финансы и статистика, 1984. 464 с.

104. Хоумер А., Улмен К. Dynamic HTML: справочник: Пер. с англ. СПб: Питер, 2000. -512 с.

105. Храмцов П.A. XML через призму программирования // Открытые системы. 1999. -№9-10. -С. 22-28.

106. Храмцов П.А. Информационная система WAIS // Открытые системы.1995.-№ 6.-С. 26-29.

107. Шварц Э. Спецификация EDI погружается в XML // Computerworld Россия. -2000.-№40.-С. 37.

108. Эйнджел Дж. XML: время пришло // LAN/Журнал сетевых решений. -1999.-№ п.- с. 40-41.

109. Ягер Т. XML помогает извлекать информацию // Computerworld Россия. -2001.- № 1.-С. 26.

110. Abiteboul S., Quass D., McHugh J., Widom J., Wienner J. The local query language for semistructured data. Proceedings of the Third International Conference on Document Analysis and Recognition, IEEE Computer Society Press,1996.

111. Akindele O., Belaid A. Construction of generic models of document structures using inference of tree grammars. Proceedings of the Third International Conference on Document Analysis and Recognition, IEEE Computer Society Press, 1995.-P. 206-209.

112. Azokly A.S. Une approche uniforme pour la reconnaissance de la structure physique de documents composites fondee sur l'analyse des espaces. Phd thesis, l'lnstitut d'Informatique, Universite de Fribourg, Suisse, 1995. 155 p.

113. Bapst F., Brugger R., Ingold R. Towards an interactive document structure recognition system. Internal working paper, Institute of Informatics, University of Fribourg, Switzerland, 1995. 29 p.

114. Berstel J., Boasson L. Formal properties of XML grammars and languages. Proceedings of the International Conference on Document Analysis and Recognition, Institut Gaspard Monge, Universite Denis-Diderot, France, 2000. P. 100-124.

115. Bonifati A., Ceri S. Comparative analysis of five XML query languages. Proceedings of the Third International Conference on Document Analysis and Recognition, Politecnico di Milano, Italy, 1999. P. 34-51.

116. Brugger R., Zramdini A., Ingold R. Document modeling using generalized n-grams. 3rd International Conference Document Analysis and Recognition, Montreal, Canada, 1995. P. 121-126.

117. Ceri S., Comai S., Damiani E., Fraternali F., Paraboschi S., Tanca L. XML-GL: a graphical language for querying and restructuring WWW data. Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999.

118. Chawathe S. Managing change in heterogeneous autonomous databases. Phd thesis, Stanford University, Stanford, USA, 1999. 308 p.

119. Clarke Ch., Cormack G., Burkowski F. An algebra for structured text search and a framework for its implementation. Technical Report CS-94-30, University of Waterloo, Waterloo, Canada, 1994. 24 p.

120. Cohen S., Kanza Y., Kogan Y., Nutty W., Sagiv Y., Serebrenikz A. EquiX a search and query Language for XML. Hebrew University, Israel, German Research Center for Artificial Intelligence, Germany, Computer Science Department, Belgium, 2000. - P. 53-75.

121. Deutsch A., Fernandez M., Florescu D., Levy A., Suciu D. XML-QL: A query language for XML. Submission to the World Wide Web Consortium, 1998.

122. Douglas S., Hurst M. Layout and language: lists and tables in technical documents. Proceedings of the 2nd Conference on Raster imaging and digital typography, Colorado, USA, 1998.

123. Fankhauser P., Xu Y. MarkltUp! An incremental approach to document structure recognition. Electronic Publishing: Origination, Dissemination and Design, Vol. 6(4), 1993.-P. 435-446.

124. Feng A., Wakayama T. SIMON: A grammar based transformation system for structured documents. Electronic Publishing: Origination, Dissemination and Design, Vol. 6(4), 1993. P. 361-372.

125. Frank R. From regular to context free to mildly context sensitive tree rewritingsystems: the path of child language acquisition. Technical Report TALANA-RT-94-01, University of Delaware, USA, 1994.-P. 12-16.

126. Gonnet G.H., Tompa W.M. Mind your grammar a new approach to modeling text. Proceedings of the 13th Conference Visual Languages and Databases, Brighten, England, 1987.

127. Guillevic D., Suen C.Y. Cursive script recognition applied to the processing of bank cheques. Proceedings of the 3rd International Conference Document Analysis and Recognition, Montreal, Canada, 1995.

128. Gyssens M., Paredaens J., Van Gucht D. A grammar-based approach towards unifying hierarchical data models. Proceedings of the 1st International Conference on Management of Data, Portland, Oregon, 1989.

129. Hay D. XML: What is it, anyway? Intelligent Enterprise, Volume 2, Number 11, 1999.-P. 245-274.

130. Hurst M., Douglas S. Layout & Language: Preliminary experiments in assigning logical structure to table cells. Proceedings of the 3d Conference on Raster imaging and digital typography, Colorado, USA, 1998.

131. ISO 8613. Information processing Text and office systems - Office document architecture (ODA), 1989.

132. ISO 8879. Information Processing Text and Office Systems - Standard Generalized Markup Language (SGML), 1986.

133. ISO 9075. The relational database description language (SQL). Addition 1: 1992.

134. ISO/IEC TR 10183-1. Information technology Text and office systems - Office Document Architecture (ODA) and interchange format - Technical report on ISO 8613 implementation testing - Part 1: Testing methodology, 1993.

135. ISO/IEC TR 10183-2. Information technology Text and office systems - Office Document Architecture (ODA) and interchange format - Technical report on ISO 8613 implementation testing - Part 2: Framework for abstract test cases, 1993.

136. Kao M., Lam Т., Sung W., Ting H. Even faster and more unifying algorithm for comparing trees via unbalanced bipartite matchings. Yale University, USA, University of Hong Kong, Hong Kong, 2001. P. 63-81.

137. Klein В., Fankhauser P. Error tolerant document structure analysis. IEEE International Forum on Research and Technology on Advances in Digital Libraries: ADL'97, 1997.-P. 116-127.

138. Kuikka E., Penttonen M. Transformation of structured documents. Electronic Publishing: Origination, Dissemination and Design, Vol. 8(4), 1995. P. 181-193.

139. Lam L., Suen C.Y., Guillevic D., Strathy N.W., Cheriet M., Liu K., Said J.N. Automatic processing of information on cheques. Proceedings of the 1st International conference on image analysis and processing, Milan, Italy, 1995.

140. Liang J. Document structure analysis and performance evaluation. Phd thesis, University of Washington, Washington, USA, 1999. 209 p.

141. Losee R.M. Learning syntactic rules and tags with genetic algorithms for information retrieval and filtering: an empirical basis for grammatical rules. University of North Carolina, USA, 1995. 20 p.

142. Mendelsohn N. Query languages workshop position paper. 3rd International Conference Query Languages, Cambridge, USA, 1998.

143. Murata M. File format for documents containing both logical and layout structures // Electronic Publishing: Origination, Dissemination and Design. 1995. -8 (4).-P. 295-317.

144. Niyogi D., Srihari S. The use of document structure analysis to retrieve information from documents in digital libraries. Proceedings of the Electronic Imaging Conference Document Recognition IV, 1997. P. 330-342.

145. Pfeifer U., Fuhr N., and Huynh T. Searching structured documents with the enhanced retrieval functionality of freeWAIS-sf and SFgate. Proceedings of the 3rd International World Wide Web Conference, Dortmund, Germany, 1995.

146. Raman Т. V. Audio system for technical readings. Phd thesis, Cornell University, Cornell, USA, 1994. 174 p.

147. Renear A., Mylonas E., Durand D. Refining our notion of what text really is: the problem of overlapping hierarchies. 2nd International Conference Research in Humanities Computing, Oxford, USA, 1995. P. 128-142.

148. Roberge J. XML database tool. Technical project, France, 1998.

149. Robie J., Lapp J., Schach D. XML Query Language (XQL). Proceedings of the Third International Conference on Document Analysis and Recognition, IEEE Computer Society Press, 1998.

150. Sima'an K. Tree-gram parsing lexical dependencies and structural relations. Proceedings of the International Conference on Document Analysis and Recognition, University of Amsterdam, Netherlands, 2000. P. 147-155.

151. Spertus E. ParaSite: mining the structural information on the World-Wide Web. Phd thesis, Massachusetts Institute of Technology, USA, 1998.

152. Srihari S.N., Lam S.W., Govindaraju V., Srihari R.K., Hull J.J. Document image understanding. Center of Excellence for Document Analysis and Recognition, State University of New York at Buffalo, Buffalo, USA, 1995.

153. Suen C.Y, Liu K., Strathy N.W. Sorting and recognizing cheques and financial documents. Proceedings of the 5th International Conference Document Analysis and Recognition, New York, USA, 1999.

154. Summers K.M. Automatic discovery of logical document structure. Phd thesis, Cornell University, Cornell, USA, 1998.- 196 p.

155. Turau V. Making legacy data accessible for XML applications. Technical report 331, Wiesbaden, Germany, 1999.

156. Turau V., Rakow T.C. A Schema partition for multimedia database management systems. Integrated Publication and Information Systems Institute, Darmstadt, Germany, 1999.

157. W3C XSL Working Group. The query language position paper of the XSL Working Group. Proceedings of the Query Languages workshop, Cambridge, USA, 1998.

158. Wang B. The design of an integrated information system. Proceedings of 7th International Conference Database and Expert Systems Applications, Springer-Verlag, USA, 1996. P. 479-488.

159. XML support in Oracle8z and beyond. An Oracle Technical Whitepaper, 1998.

160. Xu Y. An incremental approach to document structure recognition. Phd thesis, Darmstadt Technical University, Germany, 1998. 139 p.

161. Yeh L., Yao H., Chen Y. SSQL: a semistructured query language for SGML document retrievals. Proceedings of the 14th Annual International Conference on Computer Documentation, Montreal, Canada, 1996.

162. Список использованных источников, полученных из сети Интернет

163. И1. Официальный сайт фирмы dbXML Group. (URL: http://www.dbxmlgroup. com).

164. И2. Официальный сайт фирмы eXelon. (URL: http://www.exeloncorp.com).

165. ИЗ. Официальный сайт фирмы IBM. (URL: http://www-4.ibm.com).

166. И4. Официальный сайт фирмы Microsoft SQL Server. (URL: http://msdn. microsoft.com).

167. И5. Официальный сайт фирмы Oracle. (URL: http://technet.oracle.com).

168. И6. Официальный сайт фирмы Software AG. (URL: http://www.softwareag.com).

169. И7. Официальный сайт фирмы The Connection Factory. (URL: http://www.x-hive.com).

170. И8. Extensible Markup Language (XML) 1.0 W3C Recommendation, 1998. (URL: http ://www.w3 .org/TR/1998/REC-xml-19980210).

171. И9. HTML 4.0 Specification W3C Recommendation, 1998. (URL: http:// www. w3 .org/TR/REC-html40).

172. SmallLetter> 'aYb'i'c^dletfl'gThTiTjTklll'm'IVI^'I'p'I'qYrYs^tTulVIWI'xYy'l'z'I'a'бТвТгТдТеТёТжТзТи.,йТкТлТмТнТоУп1^|^|У|У|'фТхТцТч,|,шТ щТъТы'1'ьТэТюТя'

173. BigLetter> W|B1,CTD1^1FrGTHlT|7TKlTlM^KrO'|'PTQTRTSTT'ru,|,VTwтxтYTZlW|ътвтгтдтEl'Ёl'Жl,зтитйтк,|,лтмтн'|,oтп'|,p,| 'сттту'рфтхтцтчтшч'щтътычътэтютя'

174. Number> '0TlT2T3T4T5'|'6T7'j '8'Г9'1. Separator> > t i|i t

175. Mark> ->• 1 l|l ljr.ljf.ljl I-pt^l .y|!|l|M ТПТ

176. Symbol> '@T#T$T%TAT&T*1 ''н-'!1. Tags> -<4'>'|7

177. Рисунок А.1 База знаний, применяемая для работы с документами системы менеджмента качества

178. Рисунок А.З Физические атрибуты, соответствующие грамматике логической структуры класса документов системы менеджмента качества

179. Как было указано в 4.3.1, база документов содержит также тестовый набор структурированных запросов. Часть тестового набора структурированных запросов представлена в Таблице А. 1.