автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методика представления слабоструктурированных данных в реляционных СУБД

кандидата технических наук
Никитин, Владимир Ильич
город
Тула
год
2003
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методика представления слабоструктурированных данных в реляционных СУБД»

Оглавление автор диссертации — кандидата технических наук Никитин, Владимир Ильич

ВВЕДЕНИЕ

1. АНАЛИЗ СУЩЕСТВУЮЩИХ МОДЕЛЕЙ ДАННЫХ И МЕТОДОВ ПОСТРОЕНИЯ ИНФОРМАЦИОННЫХ СИСТЕМ

1.1 Анализ и классификация моделей данных

1.2 Анализ методов построения информационных систем

1.3 Механизмы отображения моделей данных

1.4 Задачи исследования принципов представления слабоструктурированных данных в реляционных базах данных

1.5 Выводы

2. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПРЕДСТАВЛЕНИЯ СЛАБОСТРУКТУРИРОВАННЫХ ДАННЫХ

2.1 Формирование структур данных

2.2 Методика организации эффективного доступа к данным

2.3 Формирование путей к объектам базы слабоструктурированных данных

2.4 Операции над объектами базы слабоструктурированной данных

2.5 Построение реляционной схемы базы данных

2.6 Анализ обобщенной модели слабоструктурированных данных

2.7 Выводы

3. ПОДДЕРЖАНИЕ ЦЕЛОСТНОСТИ СЛАБОСТРУКТУРИРОВАННЫХ ДАННЫХ НА ОСНОВЕ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО ПОДХОДА

3.1 Оптимизация запросов к объектам слабоструктурированных данных

3.2 Представление модели слабоструктурированных данных в терминах объектно-ориентированного языка программирования

3.3 Операции над объектами обобщенной модели слабоструктурированных данных

3.4 Классы обобщенной модели слабоструктурированных данных

3.5 Выводы 82 4. РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ НА ОСНОВЕ

ПРЕДЛОЖЕННОЙ МЕТОДИКИ

4.1 Описание информационной системы

4.2 Критерий оценки эффективности запроса

4.3 Построение запросов к базе слабоструктурированных данных

4.4 Определение релевантности информации

4.5 Формирование таблиц

4.6 Формирование электронного каталога

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Никитин, Владимир Ильич

Актуальность темы. Современный этап становления общества неотъемлемо связан с развитием информационных технологий, одной из составляющих которых является накопление информации и организация к ней оперативного доступа. Большая часть информации, которая хранится и обрабатывается, представлена в слабоструктурированном виде. Слабоструктурированные данные это данные, в которых структура присутствует неявно и может меняться со временем. Для работы с данными подобного типа требуется специальное математическое и программное обеспечение. Основная сложность проектирования информационных систем, работающих с информацией подобного класса, состоит в недостаточной эффективности доступа к данным, а также с отсутствием универсальной методики поиска данных и организации доступа. Существующие методы доступа основаны на сетевых и иерархических моделях, каждая из которых использует свои собственные средства представления информации, что затрудняет их использование при разработке современных информационных систем. Основными операциями со слабоструктурированными данными являются восстановление неявно присутствующих структур в исходных данных и организация эффективного поиска. В настоящее время около 70 % данных хранится в реляционных базах данных (БД). Разработка новых систем хранения информации потребует замены существующих баз данных, что связано с большими финансовыми затратами. В связи с этим возникла необходимость разработки новых принципов представления слабоструктурированных данных в существующих базах.

Указанные выше обстоятельства обуславливают выбор объекта исследования - базы данных слабоструктурированной информации. Данная работа направлена на создание новых принципов представления слабоструктурированных данных и организацию доступа к ним на основе существующих моделей и принципов представления слабоструктурированной информации.

В качестве предмета исследования были выбраны методы восстановления структур слабоструктурированных данных, позволяющих организовать эффективный доступ к информации необходимой пользователю.

Цель работы - повышение эффективности доступа к данным за счет выявления и формирования структур, полученных в результате преобразования слабоструктурированных данных с применением графовых моделей.

Поставленная цель была достигнута решением следующих задач:

1. Разработка принципов представления слабоструктурированных данных в структуры вида ориентированного дерева и выделения основных

Ц элементов (объектов) в полученной структуре.

2. Создание методики эффективного доступа и поиска информации на основе предложенных принципов построения структур данных.

3. Разработка принципов организации данных полученных структур в реляционной БД, позволяющих сократить время доступа к данным.

4. Разработка библиотеки классов, позволяющей осуществлять доступ и поиск информации в выявленных структурах данных, на основе объектно-ориентированного языка программирования.

5.Разработка принципов построения запросов, к полученным структурам, на основе регулярного языка запросов - Structured Query Language (SQL).

Методы исследования. Проведенные исследования основаны на методах теории графов, теории множеств и теории алгоритмов. Перечисленным выше аналитическим методам исследования посвящены работы отечественных ученых: B.B. Белова, Э.Э. Гасанова, В.А. Евстигнеева, О.П. Кузнецова, A.A. Маркова, Н.И. Нагорнова и др., а также зарубежных специалистов: К. Беджа, А. Кофмана, Д. Кнута, М. Свами, Р. Ульсона и др. ^ При разработке алгоритмов, программного обеспечения и принципов организации слабоструктурированных данных был применен объектно-ориентированных подход.

Научная новизна исследований заключается в следующем:

- разработана методика представления слабоструктурированных данных на основе графовой модели, выделены основные характеристики данных в виде объектов и определяющие структурные связи между ними;

- предложена методика эффективного поиска информации в полученных структурах на основе тематических таблиц;

- разработаны алгоритмы построения запросов к полученным струк-£ турам данных.

Практическая ценность диссертации состоит в следующем:

- реализации основных принципов представления слабоструктурированных данных в структуры данных, пригодных для дальнейшего использования с целью хранения, доступа, поиска и преобразования информации;

- разработке библиотеки классов, позволяющей осуществлять доступ к полученным структурам данных;

- разработке программного обеспечения, позволяющего использовать реляционные БД для хранения слабоструктурированных данных.

Реализация результатов работы. Прикладные результаты данной работы внедрены в рамках научно-технического сотрудничества с компаниями ООО "НИПИМ-Сервис" и ОАО "ТОЗ" для которых были разработаны хранилища данных научно-технической, технологической, нормативной документации, а также использованы при создании электронного каталога Научной Библиотеки Тульского государственного университета.

Теоретические результаты данной работы внедрены в учебных курсах кафедры ЭВМ Тульского государственного университета: "Программирование на языке высокого уровня", "Технологии программирования" и "Системы и сети передачи информации".

Апробация работы. Основные результаты диссертационной работы докладывались на следующих конференциях и семинарах: VI Всероссийская научная конференция с международным участием "Новые информационные технологии. Разработка и аспекты применения" (Таганрог, РОЦНИТ, 2003); Научно-техническая конференция профессорско-преподавательского состава кафедры ЭВМ (Тула, ТулГУ, 2001, 2002, 2003 г.г.); X Всероссийская научно-методическая конференция "Телемати-ка-2003"; Международная научно-техническая конференция по защите информации (Тула, ТулГУ, 2002); Международная молодежная научная конференция "XXVII Гагаринские чтения" (Москва, МАТИ, 2001); VI Международная научно-методическая конференция "Телематика-1998" (Санкт-Петербург, 1998).

Публикации. По результатам исследований опубликовано 10 работ, в том числе 7 статей, 3 тезиса доклада.

Характеристика работы. Диссертационная работа состоит из введения, четырех разделов и заключения, содержит 116 страниц, 24 рисунка, 12 таблиц, список использованной литературы из 102 наименований.

Заключение диссертация на тему "Методика представления слабоструктурированных данных в реляционных СУБД"

4.7 Выводы

1. В результате проведенной работы разработана информационная система, предназначенная для хранения информации различной природы, а также доступа и поиска релевантной информации, удовлетворяющей запросам пользователей.

2. Разработаны принципы построения запросов к полученным структурам данных на основе регулярного языка запросов - Structured Query Language, необходимые для формирования минимальных выборок данных.

3. Проведен анализ данных с целью определения их релевантности.

ЗАКЛЮЧЕНИЕ

1. Разработана методика представления слабоструктурированных данных в структуры на основе графовой модели, позволяющая выделять основные характеристики данных в виде объектов и определять их структурные связи.

2. Разработана методика эффективного доступа и поиска информации в полученных структурах данных на основе построения тематических таблиц.

3. Разработаны структуры таблиц, предназначенные для хранения слабоструктурированных данных в реляционных БД.

4. Разработана библиотека классов, осуществляющая доступ к слабоструктурированным данным с использованием объектно-ориентированного языка программирования.

5. Разработаны принципы построения запросов к полученным структурам на основе регулярного языка запросов - SQL.

6. Разработан программный комплекс, основанный на предложенных принципах и методах представления слабоструктурированных данных.

7. Результаты данной работы внедрены в рамках научно-технического сотрудничества с компаниями ООО "НЖШМ-Сервис" и ОАО "ТОЗ", для которых были разработаны хранилища данных научно-технической, технологической и нормативной документации, а также использованы при создании электронного каталога Научной Библиотеки Тульского государственного университета.

Теоретические результаты настоящей работы внедрены в учебных курсах кафедры ЭВМ Тульского государственного университета: "Программирование на языке высокого уровня", "Технологии программирования" и "Системы и сети передачи информации".

Библиография Никитин, Владимир Ильич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аткинсон M., Бансилон Ф. ДеВитт Д., Дитрих К., Майнер Д., Здо-иик С. Манифест систем объектно-ориентированных баз данных // СУБД.- 1995.-№4.

2. Ахаян Р., Горев А., Макатирипов С. Эффективная работа с СУБД-Санкт-Петербург: Питер, 1997.

3. Бедж К. Теория графов и ее применение. Изд-во иностр. лит., 1962.

4. Белов В.В., Воробъев Е.М., Шаталов В.Е. Теория графов М.: Высшая школа, 1976.

5. Берзтисс А.Т. Структуры данных М.: Связь, 1977.

6. Бобровски С. Oracle 8: Архитектура.- М.: Лори, 1998 210 с.

7. Бобровски С. Oracle 7: Вычисления клиент/сервер М.: Лори, 1996-651 с.

8. Боровицкий М.Д., Смирнов C.B. Реализация и исследования производительности объектно-ориентированной СУБД // Программирование.- 1992.-JVo6.-C. 18-28.

9. Боумен У. Графическое представление информации М.: Мир, 1971.

10. Буре Р. XML и базы данных // Открытые системы 2000 - № 10 - С. 62-65.

11. Буч. Г. Объектно-ориентированное проектирование с примерами применений. М.: ИВК и Киев: Диалектика, 1992.

12. Васин Ю.Г., Кузин С.Г., Прахов И.А. Инструментальная системаподдержки графовых моделей // В кн.: VI Всероссийская конференция с участием стран СНГ "Методы и средства обработки сложной графической информации": Тез. докл. Н.Новгород, 2001.

13. Виноградов И.Д., Кузнецов C.B., Смирнов C.B. Приобретение знаний и моделирование для реорганизации инженерной деятельности. Распределенная обработка информации: Тр. шестого международного семинара.- Новосибирск: СО РАН, 1978.- С. 304-307.

14. Виттих В.А. Интеграция знаний при исследованиях сложных систем на основе инженерных теорий // Известия РАН. Теория и системы управления. 1998.- № 5.- С. 132-139.

15. Власов А.И. Технология создания WEB узлов / Конспект лекций-М.: УЦ ОАО Газпром, 1999,- 102 с.

16. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем С.Петербург: Питер, 2000 - 384 с.

17. Гарсиа-Молина, Гектор, Ульман, Джефри Д., Уидом, Дженнифер Системы баз данных. Полный курс.: Пер. с англ.- М.: Издательский дом Вильяме, 2003.- е.: ил. Парал. Тит. англ.

18. Гасанов Э.Э. Информационно-графовая модель хранения и поиск данных // Интеллектуальные системы,- Т. 3,- № 3-4 1998.- С. 163192.

19. Гасликова И. Поиск информации в контексте // Информационные ресурсы России 1998 - № 6.- С. 31.

20. Грабер М. Введение в SQL.- M.: Лори, 1996,- 308 с.

21. Грей Д. Управление данными. Прошлое настоящее и будущее // СУБД.- 1998.-№3.

22. Григорьев Е. Представление идентифицируемых сложных объектов в реляционной базе данных. // Открытые системы 2000,- № 1-2.

23. Гринев М. Системы управления полу структурированными данными. // Открытые системы 1999 - № 5-6.

24. Грей П, Логика, алгебра и базы данных: Пер. с англ.- М.: Машиностроение, 1989 368 е.: ил.

25. Дейт К., Дж. Введение в системы баз данных- М.: Наука, 1980464 с.

26. Дейт К., Дж. Введение в системы баз данных 6-е изд. Киев: Диалектика, 1998. 784 с.

27. Дейт К., Дж. Введение в системы баз данных 7-е изд.: Пер. с англ-М.: Издательский дом Вильяме, 2001 - 1072 е.: ил. Парал. тит. англ.

28. Дрибас В.П. Реляционные модели баз данных Мн.: Изд-во БГУ им. В.И. Ленина, 1982. - 1992 с.

29. Дунаев С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования- М.: ДИАЛОГ-МИФИ, 1999.-416 с.

30. Евстигнеев В.А. Применение теории графов в программировании-М.: Наука, 1985.-352 с.

31. Жигалов В. Как нам обустроить поиск в сети ? // Открытые системы.- 2000 -.№ 12.

32. Замулин A.B. Системы программирования баз данных и знаний-Новосибирск: Наука, 1990.

33. Индексирование документов. Общие требования к координальному индексированию: ГОСТ 7.66-92 (ISO 5963-85).- Введ. 01.01.93 М., 1992 12 с.-- (Система стандартов по информ., библ. и изд. делу).

34. Информационные технологии. Система стандартов по базам данных. Концепции и технология для концептуальной схемы и информационной базы: ГОСТ 34.320-96. Введ. 01.01.97,- М. 1996. - 46 с.

35. Информационная технология. Язык баз данных SQL. ГОСТ Р ISO/МЭК 9075-93.- Введ. 01.07.94. -М., 1993. 26 с.

36. Поиск и распространение информации. Термины и определения. ГОСТ 7.73-96. Введ. 01.01.98,- Минск, 1997.- 15 е.- (Система38.41.44,45