автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы представления категорированных отношений в реляционных базах данных территориально распределенных информационных систем
Автореферат диссертации по теме "Методы представления категорированных отношений в реляционных базах данных территориально распределенных информационных систем"
На правах рукописи й
Бистерфельд Ольга Александровна
Г
МЕТОДЫ ПРЕДСТАВЛЕНИЯ КАТЕГОРИРОВАННЫХ ОТНОШЕНИЙ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ
СИСТЕМ
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Рязань 2005
Работа выполнена на кафедре САПР ВС ГОУВПО «Рязанская государственная радиотехническая академия»
Научный руководитель: доктор технических наук, профессор
Корячко Вячеслав Петрович
Официальные оппоненты: доктор технических наук, профессор
Попов Юрий Алексеевич
кандидат технических наук, доцент Логинов Александр Анатальевич
Ведущая организация: 4-й Центральный научно-
исследовательский институт Министерства обороны Российской Федерации (г. Юбилейный Московской области)
Защита состоится « 30 » ноября в 12 часов на заседании
диссертационного совета Д212.211.01 в ГОУВПО «Рязанская государственная радиотехническая академия» по адресу: 390005, г. Рязань, ул. Гагарина, 59/1.
С диссертацией можно ознакомиться в библиотеке ГОУВПО «РГРТА».
Автореферат разослан « 21 » октября 2005 г.
Ученый секретарь диссертационного совета канд. техн. наук, доцент
В.Н.Пржегорлинский
г»*-* 21П7Я
Общая характеристика работы
Актуальность работы. Информационно-телекоммуникационные технологии (ИКТ) интенсивно внедряются во все сферы человеческой деятельности. Вопросам ИКТ на государственном уровне в Российской Федерации придается особое значение, принята Федеральная целевая программа «Электронная Россия».
Тенденции развития ИКТ, диктуемые потребностями общества в информационном обеспечении всех сторон человеческой деятельности, влекут за собой рост сложности программ и баз данных (БД). Объемы БД - от сотен мегабайт до десятков гигабайт и выше. Трудоемкость создания программных комплексов и БД измеряется сотнями и тысячами человеко-лет, а длительность жизненного цикла - десятком и более лет.
Важнейшим направлением повышения эффективности промышленного сектора экономики России, повышения качества и конкурентоспособности на внешнем рынке наукоемкой продукции являются CALS-технологии. Стратегией CALS является создание единого информационного пространства для всех участников жизненного цикла наукоемкой продукции. В этих условиях возрастает роль территориально-распределенных информационных систем (ИС).
С другой стороны, динамика общественных процессов требует значительного ускорения разработки прикладных программ и БД, снижения трудоемкости и обеспечения возможности их совершенствования при эксплуатации, наращивания или изменения функций при изменении требований к ним со стороны пользователей. Поэтому поиск путей реализации непрерывно растущих требований составляет одно из актуальных направлений современной информатики.
При создании и эксплуатации ИС, как никогда ранее в инженерной практике, широко используются модели: информационные, функциональные, процессов, объектов, потоков данных и др.
На протяжении последних тридцати-сорока лет постоянно создаются и развиваются все новые и новые методы моделирования, формируются международные, национальные и фирменные стандарты, выпускаются на рынок многочисленные программные средства поддержки технологии моделирования. Теоретические основы ИКТ, технологии реляционных БД, технологий моделирования информационных систем определились в работах Кодда Е., Чена П., Буча Г., Дейта К. и др. зарубежных ученых.
Большой вклад в теорию создания ИС внесли российские ученые Костогрызов А.И., Корячко В.П., Мамиконов А.Г., Норенков И.П., Филинов E.H. и др., которые проводят исследования в области построения ИС, автоматизации проектирования, технологии БД, CALS, моделирования ИС и в других направлениях. Вместе с тем, несмотря на бурное развитие моделирования ИС, растущие потребности
Переход в рамках CALS-технологий на электронное документирование продукции на всех стадиях жизненного цикла - одно из направлений, предъявляющих более высокие требования к моделированию, чем те, которые могут быть удовлетворены известными методами. Сложная, наукоемкая продукция (транспортная: автомобильная, морская, железнодорожная; ракетная; компьютерная и т.п. техника, в основном именно для такой продукции актуальна CALS-технология) отличается использованием в одном изделии десятков тысяч видов комплектующих изделий. Для представления видов изделий, имеющих различные наборы характеризующих их свойств, широко используются категорированные отношения в реляционных БД. Однако создавать структуры БД, отражающие особенности каждого типа изделий, не представляется возможным из-за слишком большого числа типов. На практике применяются эвристические приемы, позволяющие при внесении в БД данных по изделиям формировать произвольный набор их свойств. Такие приемы позволяют создавать в БД «скрытые» (не отраженные в моделях) формы данных, которые не предусмотрены в известных методах моделирования.
Для создания научной основы решений задач представления «скрытых» категорированных отношений необходимо дополнение известных методов моделирования новыми методами. Новые методы должны сочетать в себе возможность, с одной стороны, ограничения числа таблиц в БД, а с другой - описания структуры данных (например, на уровне специальных средств, которые именуют «метаданными» - данными о данных).
Другой принципиальной особенностью CALS является манипулирование информационными ресурсами, накапливаемыми различными участниками жизненного цикла продукции. Используемый в рамках CALS-стандартов метод моделирования (язык Express) часть проблем решает, но не позволяет моделировать физическое размещение информационных ресурсов. Новые методы должны решать эту задачу.
При одном и том же представлении категорированных данных на уровне модели существует много вариантов их реализации в структуре БД. В многотомном описании методологии проектирования Oracle, которая считается наиболее совершенным руководством по проектированию БД, приведены только словесные описания вариантов с кратким перечнем достоинств и недостатков каждого. Выбор варианта реализации методически не поддерживается. Вариантность представлений ставит еще одну задачу - оценки их эффективности и разработки методики выбора варианта при проектировании ИС.
Цель работы - сокращение сроков проектирования, уменьшение материальных затрат и повышение качества функционирования территориально распределенных ИС за счет рациональной организации категорированных данных в реляционных БД, достигаемой разработкой новых методов моделирования категорированных информационных ресурсов.
Для реализации этой цели должно быть разработано математическое и программное обеспечение решения следующих проблем:
информационного моделирования ресурсов территориально распределенных ИС;
оценки необходимых объемов памяти для хранения категорирован-ных информационных ресурсов;
оценки производительности вариантов хранения категорированных информационных ресурсов;
создания инженерной методики выбора вариантов реализации.
Задачи исследований. Для достижения целей диссертационной работы необходимо решение следующих задач.
1. Разработка метода моделирования информационных ресурсов распределенных автоматизированных систем.
2. Разработка программы моделирования информационных ресурсов системы.
3. Исследование представления категорированных данных в реляционных БД и разработка аналитических моделей этих данных.
4. Исследование зависимостей ресурсов памяти для категорированных данных и разработка аналитического метода их оценки.
5. Разработка имитационной программы для проверки достоверности аналитических моделей и уточнения их параметров.
6. Исследование зависимостей времени доступа к категорирован-ным данным в БД и разработка аналитических моделей времени доступа.
7. Разработка имитационных программ для определения параметров аналитической модели времени доступа.
8. Разработка критериев интегральной оценки эффективности фрагментов БД с категорированными данными для инженерной методики выбора вариантов представления. Разработка инженерной методики рационального выбора вариантов представления.
Методы исследования. Основные теоретические положения, выводы и экспериментальные результаты диссертационной работы получены с использованием теории графовых моделей, теории аналитических функций, теории вероятностей, теории имитационного моделирования.
Публикации. По итогам исследований опубликовано 11 работ, в том числе 6 материалов всероссийских и международных научно-технических конференций. В Российском агентстве по патентам и товарным знакам зарегистрирована программа для моделирования информационных ресурсов автоматизированных систем.
Апробация работы. Результаты настоящей работы докладывались на семи научно-технических конференциях, в том числе на всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в радиоэлектронике", г. Рязань, 1998 г., международной молодежной научной конференции "XXV Гагарин-
ские чтения", г. Москва, 1999 г., 4-й всероссийской научно-технической конференции студентов, молодых ученых и специалистов, г. Рязань, 1999 г., 3-й Международной научно-технической конференции "Космонавтика. Радиоэлектроника. Геоинформатика.", г. Рязань, 2000 г., межвузовской научно-технической конференции студентов, молодых ученых и специалистов «Новые технологии в учебном процессе и производстве», г. Рязань, 2003 г.
Научная новизна. В диссертации разработаны новые метод моделирования информационных ресурсов системы и аналитико-имитационные методы оценки необходимых ресурсов памяти для реализации фрагментов БД с категорированными отношениями и их временных характеристик. Методы основаны на аналитических моделях требуемых ресурсов памяти для фрагментов БД, аналитических моделях времени доступа к фрагментам БД. Получены зависимости требуемых ресурсов, времени доступа от различных параметров категорированных данных и вариантов организации категориро-ванных отношений и синтезированы критерии интегральной оценки, позволяющие существенно сократить сроки проектирования и выбрать рациональные варианты организации БД.
При проведении исследований в рамках диссертационной работы получены новые научные результаты.
1. Разработан новый метод моделирования информационных ресурсов системы.
2. Разработаны аналитические модели требуемых ресурсов памяти для фрагментов БД с различными вариантами организации.
3. Разработаны аналитические модели времени доступа к фрагментам БД с различными вариантами организации.
4. Получены критерии интегральной оценки фрагментов БД с различными вариантами организации категорированных данных, учитывающие ресурсы памяти и время доступа к данным фрагментов.
Достоверность научных положений определяется: корректностью использования математического аппарата; сравнением результатов, полученных на основе теории аналитических функций и на основе имитационного моделирования;
оценкой точности экспериментальных данных методами математической статистики.
Прастнческая значимость работы. На основе полученных результатов автором создана инженерная методика оценки проектных решений по фрагментам БД. Наибольший эффект может быть достигнут при проектировании БД ИС средней и большой сложности следующего назначения:
информационная поддержка изготовления, испытаний и эксплуатации сложных технических изделий;
РЭМ-системы (при реализации САЬБ-технологий); управление проектами для организаций и предприятий, связанных с созданием сложной наукоемкой продукции;
компьютеризированные системы менеджмента качества для проектных организаций и предприятий, связанных с созданием сложной наукоемкой продукции.
Гибкость и универсальность методов делают возможным их применение при создании инженерных методик оценки проектных решений по фрагментам баз данных с произвольными структурами данных.
Реализация и внедрение результатов работы. Результаты исследований внедрены в ФГУП ОКБ «Спектр» (г. Рязань) при выполнении НИОКР по созданию информационных систем различного назначения, в учебный процесс студентов специальностей 220100 и 075200 Рязанской государственной радиотехнической академии и Рязанского института (филиала) Московского государственного открытого университета.
Структура работы. Диссертация содержит 145 страниц основного текста и состоит из введения, пяти глав, заключения, библиографического списка из 87 наименований и 4 приложений на 42 листах. В диссертацию включены 84 рисунка и 4 таблицы.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, определены цели и задачи исследований.
В первой главе приведена обобщенная структура ИС, их классификация. Выполнена классификация моделей, методов и принципов, используемых при создании ИС (рис. 1). Проведен обзор применяемых на практике методов информационного моделирования и вариантов представления в этих моделях категорированных отношений. Детализированы задачи исследований и направления их решения.
I) в части создания нового метода информационного моделирования.
Комплексная реализация принципов, примененных в отдельных известных методах информационного моделирования:
а) представление в модели типов объектов предметной области сущностями (ER-моделирование); известные методы - IDEF1X; метод Бар-кера; язык Express из CALS-стандартов;
б) фрагментарное представление модели; полная информационная модель представляется совокупностью отдельных, связанных между собой фрагментов, формируемых произвольно (свободная декомпозиция); известный метод- язык Express;
в) представление пользователям (персоналу) текстовой нотации модели; известный метод - язык Express;
г) представление программным средствам структурированных данных модели; известный метод - язык Express.
Рис.1
Реализация не применявшихся в информационном моделировании, но известных принципов, использующихся в методах для других типов моделей информационных систем:
а) представление в модели объектов предметной области 2-го порядка (тип типа объекта предметной области); 2-й и более высокий порядок объектов известен в методе ЮЕРЗ; по предлагаемому методу с объектов 2-го порядка реализуются возможности представления в модели «скрытых»
(не отраженных в явном виде в структуре БД) структур данных; детализация показывает структуру данных в таких фрагментах;
б) фрагментапьное представление модели; модель представляется совокупностью отдельных, связанных между собой фрагментов, фрагментация по иерархическому принципу известна в методе ЮЕРО;
в) реализация детализации информационной модели (иерархическая и свободная декомпозиция); иерархия известна в методе ЮЕРО, свободная декомпозиция - в схематиках процессов по методу ШЕИЗ;
г) моделирование физического размещения информационных ресурсов системы; известно в методе 11МЬ (диаграммы размещения);
2) в части исследований представлений категорированных данных в БД.
1. Разработка модели категорированных данных.
2. Разработка аналитического метода оценки ресурсов памяти, требуемых для хранения категорированных данных.
3. Разработка имитационной программы для проверки достоверности и уточнения параметров аналитической модели.
4. Разработка аналитических моделей времени доступа к категори-рованным данным.
5. Разработка имитационных программ для определения параметров аналитических моделей времени доступа.
6. Разработка критериев оценки эффективности фрагментов категорированных данных для инженерной методики выбора вариантов представления категорированных данных.
7. Разработка инженерной методики выбора вариантов представления категорированных данных.
Во второй главе рассматривается предлагаемый метод моделирования информационных ресурсов системы.
Излагаются принципы, реализованные в методе (эти принципы показаны на рис. 1), содержание, элементы и правила метода.
Основные свойства метода:
- независимость от предметной области;
- поддержка модульности (фрагментация и детализация) моделей информационных ресурсов и связей между модулями;
- воспринимаемость модели человеком и компьютером.
Независимость от предметной области. Метод задает представление данных о различных предметных областях, поэтому элементы модели, использующиеся в качестве формы представления, должны быть нейтральными по отношению к предметной области.
Поддержка модульности (фрагментация и детализация) моделей информационных ресурсов и связей между модулями. Модель информационных ресурсов системы может быть очень велика и обладать значительной сложностью. Модели частично пересекаются. Возникает потреб-
ность в разделении больших моделей на более мелкие части, чтобы, с одной стороны, упростить модели, а с другой - избежать избыточности, задав схожие части модели один раз. Для идентификации таких частей используется понятие «схема интегрируемых ресурсов». Взаимосвязи между ее элементами, попавшими в разные «куски», должны быть сохранены. Метод связывает между собой несколько более мелких модулей моделей в единое целое заданием связей между элементами.
Основные элементы метода. Независимость от предметной области обеспечивается использованием известного подхода - модели «сущность-отношение» (ЕЯ-модель) с основным элементом «сущность».
Сущность - абстрактное понятие, выражающее класс (тип) объектов реального мира, имеющих общие характеристики. Если для предметной области важно множество объектов, имеющих общие свойства, то в модели это множество представляется в виде сущности.
Сущность выражает класс (тип) объектов - объект 1-го порядка, имеющих общие характеристики. Характеристики объектов выражаются атрибутами сущности - абстрактным понятием, выражающим отдельную характеристику класса (типа) объектов реального мира. Каждый атрибут сущности имеет имя, описывающее выражаемую атрибутом характеристику в контексте сущности.
Сущность выражает некоторый абстрактный, модельный образец объекта реального мира. Сами объекты выражаются с помощью экземпляров сущностей. Сущности, атрибуты сущностей, отношения между сущностями (ЕЛ-модели) последние несколько десятилетий служили концептуальной основой технологии реляционных баз данных и определили бурное развитие информационно-коммуникационных технологий. Вместе с тем в их определениях существуют некоторые противоречия.
В предлагаемом методе важна концепция объектов первого и второго порядков. Семантически в предметной области можно выделить двух-, трех- и многоуровневые связи между объектами. Каждый уровень многих из них может быть определен, например, отношением типа «супертип-тип». Несколько уровней определяются как супертип - тип (супертип) - тип (су-пертип) -.... С точки зрения семантики предметной области «супертип» -это тип типа. Но по концепции информационного моделирования «супертип» - это также подмножество, тип объектов (материальных или абстрактных) и, если оно значимо с точки зрения необходимости знания информации об этом подмножестве, это подмножество является типом и претендует на представление сущностью в информационной модели. С точки зрения информационного моделирования «супертип» (семантически в предметной области) также является объектом первого порядка (по концепции информационного моделирования). В новом методе, в отличие от известных, введен еще один элемент, по иному представляющий в модели объекты предметной области - как тип типов объектов - объект второго порядка. Объект
второго порядка однозначно не связан с «супертипом» из семантики предметной области. Объект второго порядка - дополнительный вид представления объектов предметной области в информационной модели.
В известных информационных моделях упоминавшиеся «скрытые» формы, эвристические отклонения явным образом не представлены и неразличимы. В предлагаемом методе для этого предназначен объект второго порядка - представляемый вершиной (объект первого порядка представляется сущностью).
Для дополнительной идентификации объектов второго порядка в предлагаемом методе используется элемент «отдельная схема». Элементы отдельной схемы (вершины), точно так же как и сущности, реализуются в виде таблиц в БД. Отдельные схемы могут быть детализированы. Метод позволяет показать структуру данных, для хранения которых предназначена отдельная схема, но эта детализация не реализуется таблицами в БД.
Для представления физического размещения добавлен элемент -«база данных». Для фрагментации добавлены элементы (точнее, типы элементов, так как в реальной модели может быть для каждого типа несколько экземпляров, имеющих индивидуальные имена): «прикладной протокол», «схема прикладного протокола», «интегрируемый ресурс», «схема интегрируемого ресурса». Из дополнительных элементов, называемых в методе «элементами структуризации модели», формируется иерархия модели информационных ресурсов системы (рис. 2).
Разработана информационная модель метода. Для инструментальной поддержки метода разработана программа, имеющая внутреннюю базу данных, структура которой соответствует информационной модели метода (рис. 3). Структура программы и основные функции составных частей программы показаны на рис. 4.
«Базы данных»
« — «Прнсвдм |фОГСМ№»> «¿кпнтчммые ресурсь» <Одоымсжм*>
<Оои1рМШЫ( «Оииы ингардоммх <Афшм*>
ЦШМ01Ш> рн>рот»>
* * *
<{Ц-мокя»> С/инпт
«£К-мш»> Ошюот
Реализуются в БД в виде таблии
Пгалп^емые прасвдм
■фопюгъихям, ипордоодеревдхы Ои^оат
ЗЛЕКСтЫ_МОЛЛИ.И_ОБЪЕКТЫ_СТРУКТУРИЗА111И
Иш_элеченп
(^■СИК^Л)!^!
В чоз^г вобъеят с_жсг«еом Уяжа.»иый_жи«с (Ж) Атри6<т_су1шюстт1_с_инде«с0ч. У№№альмы*_иплстсс (РХ)
СВЯ74_ЭЛЕМЕНТОВ
Солркит
Объект солфотг э*»енг / тоект вмолп »объект ■ЯО^СМЯКШЙ ОПОЮТС С ЛШВСТМ / С\И0ЮС1Ъ нмвсг и I нише ПС
Поряа«яьЛ_итср ^ Зьёмект с тсккоом содфмп Умпа.%иый инжис (ПС) ™Элечсит_с юиежоом_вюлгг Уиикиьный.типс (ТК)
ТИП АТРИБУТА
ОПИСАНИЕ АТИвУГА
^цектим вдябуя
Имя тиш е I рябута
т:
Опюсшся
«прфп Г
•С
АнивутУи»
Инжк тяпа прибтДО)
"Т
■и
свойсгелтитА лтрибУТА
ПЛЯАМГП1 СВОЙСТВА
Икает свКся РЮфосп
Ими сюйьт 4
Д-и_т*в_»гр»<Чт» Игаоктя т_*трибут» (УК)
Атрибут (Ж) Икэсяс_сюйстп (ПС)
Рис.3
/ Выбор фра?мента(ов) модениЬя формирования ► отчета с текстовой нотацией фрагмента(ов) •
~ 2 Перехгк) к формированию отчета с текстовЫ! нотацией ^ моде т ¡пи ее фрагментов
I Представление гнчыоватемм текстояо/ё нотации модели ти ее фрагментов
В третьей главе рассматривается предлагаемый аналитический метод оценки требуемых ресурсов памяти.
Наиболее развиты варианты реализации категорированных отношений в СУБД Oracle (рис. 5). Получены аналитические выражения для каждого варианта реализации. Обозначения: N - число записей в БД; Nm,x - максимально возможное число записей в БД; Куи - размер уникального идентификатора; Аоа - размер общих атрибутов; kk - число категорий; А, - размер частных атрибутов (для категории i); N, - число записей категории i; N,m„-максимально возможное число записей категории i; Куи, - размер уникального идентификатора для категории i.
Объем памяти по варианту а: Оа = N(K,„ + А«, +1 А,). (1) Объем по варианту б: oe = z N,(K,. + а«. + а,) (2)
Объем по варианту в: О. = Ы(Куи + А«,)+1 ы,(Куи + Ао, + А,) (3) Объем по варианту г: Or = N(KV. + A„ + z к,„)+1 N,(KlH1 + A,) (4) Для анализа эффективности вариантов более полезны относительные оценки: (Оа - Об)/ Оа; (Оа - Ов)/ Оа; (О, - Ог)/ Оа и абсолютные оценки: О.; (О, - Об); (Оа - О,); (Оа - Ог).
(Oa-06)/Oa=Aoa[ZAi/Aoa-X(Ni/N)(Ai/Aoa)]/[Aoa( I +£Ai/Aoa)+logl ONmax] (5) Oa-06=NAoa[XAi/Aoa-S(Ni/N)(Ai/Aoa)] (6)
(Оа-Ов)/Оа=
={Aoa[IAi/Aoa-I-I(Ni/N)(Ai/Aoa)]-logl0Nmax}/[Aoa(I +IAi/Aoa)+loglONmax] (7)
варианты реализации
В с
It #
В1 CI
. J 1 - )
Вариант a
Вариант в
W)
*'B1 оВ2
C(#)
»•CI
oC2
Вариант б
Вариант г
Рис.5
Oa-OB=N{Aoa[EAi/Aoa-l-E(Ni/N)(Ai/Aoa)]-logIONmax} (8)
(Oa -Or)/Oa={Aoa[E Ai/Aoa-E (Ni/ N)(Ai/Aoa)]-
EloglONimax-loglO Nmax }/[ Aoa(I+E Ai/Aoa)+loglO Nmax] (9) (Oa-Or)=N{Aoa[EAi/Aoa-E(Ni/ N)(Ai/Aoa)]-E loglO Nimax-logIO Nmax) (10)
Oa= N[ Aoa( I + E Ai/Aoa) + log 10 Nmax], (11)
Об = N[Aoa{ 1 + E(Ni/ N)(Ai/Aoa)) + loglO Nmax] (12)
Ob = N[Aoa {2 + 1 (Ni/N)(Ai/Aoa)} + 21ogl0 Nmax ] (13)
Or = NfAoa (I + E(Ni/N)(Ai/Aoa)} + ElogIO Nimax + 2log 10 Nmax ] (14)
Для уменьшения трудоемкости проектных работ был проведен ряд преобразований. Обращено внимание на набор компонентов выражений (5) - (14): N5 1Ч1т„; А0>; I А,/А0.; Е (N,7 Н)(А,/Аоа).
Набор М;МтаN,„0x1; Лоа; |а, |; | п, | используется как модель кате-горированных данных для исследований зависимостей объемов памяти, необходимых для реализации в БД.
Эти компоненты достаточно адекватно представляют реальную БД
и особенности структуры данных. С вводом обозначений: а; = А|/А0>; п>, = Nä/ N, формулы (5) - (14) преобразуются.
(Оа - Об)/ Oa = Aoa(Iai - Е ni ai)/[ Аоа(1 + Z ai) + loglO Nmax] (15)
Oa - Об = NAoa(Eai - S ni ai) (16)
(Oa-Oe)/Oa=[Aoa(Eai-1 -Eni ai)-log 10 Nmax ]/[Aoa( 1+E ai)+logl 0 Nmax] (17)
Oa - Ob = N[Aoa (Eai - 1 -1 ni ai) - loglO Nmax] (18)
(Oa-Or)/Oa=[Aoa(Eai-Iniai)-EloglONimax-loglONmax]/(Aoa(l+Eai+loglONmax)] (19)
(Oa -Or)=N[Aoa(Eai-Zni ai) - ElogIO Nimax - loglO Nmax] (20)
Oa= N[Aoa( I + E ai) + log 10 NmaxJ (21)
Об = N[Aoa(l + Im ai) +loglO Nmax] (22)
Ob = N[Aoa (2 + E m ai) + 2log 10 Nmax ] (23)
Or = N[Aoa (I + E ni ai)+ ElogIO Nimax + 2logl0 Nmax ] (24)
Формулы (15) - (24) положены в основу аналитического метода оценки требуемых объемов памяти по вариантам реализации в БД.
По моделям получены зависимости, одна из которых представлена на рис. 6. Зависимости показывают потенциальные возможности минимизации затрат памяти с помощью выбора вариантов представления. Ресурсы памяти могут быть сокращены на 60-70 %.
Уточнение моделей. В аналитических выражениях единицей измерения является символ данных - Бд. Это удобно для определения параметров модели по анализу ЕК-моделей проектируемых БД, но при оценке затрат ресурсов памяти общепринятыми являются: кбит, Мбит и Гбит. В ЭВМ и в СУБД используются методы сжатия данных. Современные СУБД обладают развитыми средствами повышения производительности БД. Ряд методов повышения производительности предусматривает избыточность (например, методы индексации записей). Для практического применения аналитических выражений (15) - (24) необходимо определить коэффициент учета сжатия и избыточности данных к« размерностью бит/символ данных.
Рис.6
При этом оценки (в единицах измерения - бит) затрат ресурсов памяти вариантов следующие: Оабит= k^O,; (W = k,.c6 Ое; Ов6ит = k^.0,; 0Лит = kec,. Ог. Для определения kec необходимо учесть особенности кодирования символов данных - Sfl. представляется кодом, содержащим несколько символов (символов кода - S„). Наиболее употребительным является стандарт ASCII. Таким образом, одними из компонентов к« являются NSlI - число символов и коэффициент (nSlc) представления символа кода SK. Учитываются также коэффициент учета сжатия (к,,*) данных при записи в ЭВМ и избыточность данных (кид). Общий вид к«: ktc= к<;Ж кнд nSK NSk. Значения п5к и кид могут быть определены при анализе вариантов. Аналитически определить к<;Ж и NSl[ гораздо сложнее. Предлагается использовать для оценки ксс имитационную профамму.
Шаги процедуры определения значения к«:
- внесение набора тестовых записей (ряд значений N) и фиксация затрат (в битах) ресурсов памяти - Оанмит (N); 06имит (N); 0„имят (N); OrHMHT(N);
- расчет затрат ресурсов по аналитическим моделям (в символах Sa) для каждого значения из ряда N - Oa(N); 06(N); 0„(N); Or(N);
- расчет к« для каждого N,:
'Vca (N) = 0 аимит (N)/ Oa(N); kcc6(N) = Овимит (N) / 06(N);
k«.(N) = Овинит (N) / 0„(N); kcc,(N) = Огимнт (N) / Or(N);
- определение среднего значения k<.ca; k<.c6; kecB; k<,cr;
- построение зависимостей Оа6ит 0,бит Orf„T.
Сравнение данных уточненных аналитических моделей и экспериментальных показало, что среднеквадратичное отклонение не превышает нескольких процентов от величины 01бит-
В четвертой главе рассматривается предлагаемый аналитико-имитационный метод оценки времени доступа к фрагментам БД.
С момента создания первых СУБД и до настоящего времени одним из постоянных направлений их совершенствования является повышение производительности. Однако рост объемов данных в БД не снимает пробле-
му и при проектировании БД также разрабатывается и реализуется комплекс мер по обеспечению требований по производительности. Оценка производительности на проектных стадиях обеспечивает своевременное определение эффективности принимаемых решений.
Предлагается использовать оценки времени исполнения запроса (время доступа - Т). Сложные процессы, реализуемые в СУБД, операционных системах и в телекоммуникациях системы, постоянно меняющееся количество записей в таблицах БД приводят к тому, что время исполнения запроса имеет характер сложной функции от системы случайных величин.
С другой стороны, Т, очевидно, является функцией нескольких переменных и зависит от числа записей, от числа таблиц и от числа колонок таблиц. Т = где N - число записей в БД, к - число полей в записях, I
- число таблиц в БД, из которых необходима выборка данных. Для проверки гипотезы разработана имитационная 5(}Ь-процедура и получены зависимости для тестовой таблицы СУБД (рис. 7). Анализ показывает, что зависимости линейны. Для аппроксимации использовался метод наименьших квадратов в соответствии с линейными уравнениями: у5 = ш5 х + Ь5, где т5 — угол наклона и Ь5 — координата пересечения оси абсцисс, причем гп5 и Ь5 такие, что для каждого значения числа колонок в
£ I Т„ - у„ |2= шш,
где \ - число измерений по каждой зависимости.
Полученное семейство зависимостей позволяет оценить производительность вариантов. Вместе с тем в инженерной практике пользоваться полученными зависимостями неудобно. Построение аналитических моделей упрощает оценочные расчеты и снижает вероятность ошибок.
Экспериментальные данные характеризуются линейными зависимостями времени доступа к таблице Т = ^(ТЧ) и Т = £г(к) от числа записей и от числа колонок. Зависимости коэффициентов ш и Ь линейных (у = тх + Ь) уравнений семейства регрессий Т = Г|(М) представлены на рис. 8. На зависимости т = Г (к) и Ь = ^к) также построены линейные регрессии. Коэффициенты последних двух регрессий вида у = тх + Ь обозначим соответственно тт; Ьт; ть; Ьь.
Предлагается использовать в качестве аналитической модели времени доступа к таблице данных функцию двух переменных N и к (число записей и число колонок таблицы):
Тт = (ттк + ЬтЖ + (тьк + Ьь). (25)
—л—Зпоявт» —Щ— Эсоямси —I—4 голомм к Зколонга —•— в колон» --»- 7 колонок
Число )«МС«в • твбли* рттт полного доступ* о? числа иолом
Рис.7
4,5 4 3,5 • 3
[ 2,5
I 2
£ 1,5 1
0,5 0
§§1
* =02551ч + I 8022 {Г-0.9925
•Л27М1 40572 Н - 09452
123456789
Линейный (т) Линейный (Ь|
Рис. 8
Оценки достоверности аппроксимации моделью экспериментальных данных проведены с помощью коэффициентов Пирсона (Я). Для каждого значения к дополнительно определены среднее значение отклонения данных модели от экспериментальных (Д5Г), максимальное (Атах) и систематическое отклонение (А0,и). Отклонения не превысили нескольких процентов.
Следующим шагом исследований является разработка аналитических моделей для различных вариантов представления категорированных отношений. Определены модели для оценок (по вариантам а, б, в и г):
Та Тц, Тв, Т, - арифметическое среднее время доступа (АСВД);
Таос, Тг-юс, Твоо Тгпс - АСВ при условии полного выбора данных (общие и частные атрибуты);
Т<ю Tfm Tea T?„ - АСВД при выборе общих атрибутов записей; Tac, Т(,с, Твс, Тк - АСВД при выборе частных атрибутов; Таи Тб„ Тв1, Т„ - АСВД к данным категории i; Таюс, Т6шо Т„ос Тгшс - время доступа к данным категории i (ВДК) при выборе общих и частных атрибутов;
Та,о, ТЫп Твт Т„„ - ВДК при выборе общих атрибутов; Та,о Tr,w, Тв,с Т„с - ВДК при выборе частных атрибутов. Tat =тапк = Таю = Talc =[mm(klla+lkj+bJN+mh(kna+IkJ 4 bh. (26)
Та=Тбюс=ТЙт=Тб1с = [mm(k„ +kj + bJN, + mh(kíia + kj + bh. (27) [mm(Ka +kj + bJN, + mh(kM + kj + bh (28)
Tm=(mmk„a + bJN + тф.,ю + Ъы (29)
L,„c=(mmk,a+bJN,+mh kla+bh+fmm(k„a+kk)+bnJN+mb(koa+kll)+bh. (30) T„0= [m„(koa +kt) + bm]N + mh(kM + k/J + bA. (31)
Т,„= (rnmk,a + bJN, + mb k,a + bh. (32)
С учетом распределений вероятностей обращения к категориям
|Ро, ■ г<>, • р<» , | и распределений вероятностей типов обращений для каждой из к категорий (р - обращение за общими и частными атрибутами; о - за общими; с - за частными)
\р.''р.1'рк\ b;'/W=| |.
Та — Таос — Тао — Tac ^ Tatoc (33)
Tg = Тцпс =Tf0-Tgc= T6loc. (34)
1=1
T<= 'f, Po, [(Г* + )Твюс + PB, THm }. (35)
С учетом теоремы гипотез (формулы Бейеса):
/, 'T/Hm
Т
1 я
Z PO.Pt.
*' ¿4
Z Po , Р g<T я,с /j Ри^в'Твюс
Т
Z Ро,Р„, Z Ро,Рй
. = 1 I
i Ро,РКТйт
- 1 = 1
(36)
(37)
ВО - к „
I Ро,Рш.
+ ркТ»«> ■ (39)
= Z < ^ + Рн- Тги + ^ ) • (40)
I
т
««
I
I « I
£ Ро.Р.Тп
± Га Р..
) = 1
£ ^лл j_
t Р»Л:
(41)
(42)
Т = -• (43)
go 1 4 7
Т, = Рв, Тпж +Р„,тпс + Рв,тт . (44)
и р ''с " о
Формулы (26 - 44) - совокупность аналитических моделей для оценки производительности фрагментов БД с категорированными отношениями. Получен и проанализирован ряд зависимостей, одна из них приведена на рис. 9. Варианты организации могут отличаться по времени доступа более чем в 5 раз.
Чк.П 1ШМССЙ
Вариант А —■— Вариант Б Вариант В ' Вариант Г"
Рис.9
В пятой главе рассматриваются критерии интегральной оценки вариантов (одновременного учета затрат памяти и времени доступа). Критерии (К, К„ и Кк) синтезированы исходя из требований по чувствительности критериев к изменениям времени доступа (АТ/Т), затрат памяти (AV/V) и к изменениям
«удельных» времени доступа (At/t, где t = T/N, N - число записей) затрат памяти (Аv/v где v = V/N) в соответствии с весовыми коэффициентами кт и к/.
. к AL_* А* AÜ л*. . ы у л»
*■ ' г ' f' ' аг„ г I ' v ' К, ~ т Т ~ ' ~
Критерии имеют вид:
, М кт +*I хт *,
К = г r v ' ■ К „ = —t-т—;К к = —Г-1-. (46)
о fkryk, ' * Т кт У кI
Критерием /Г удобно пользоваться в случаях, когда варианты сравниваются при одном и том же числе записей N. К„ оценивает варианты при оценках Т и V для различных N (даже в случаях когда для одних вариантов реализации известны оценки при одних значениях N, а для других вариантов - при других). Критерием Кк адекватно оцениваются варианты с индексированием записей.
Получен ряд критериальных оценок вариантов организации катего-рированных данных. На рис. 10 представлена одна из оценок.
Ко вариантов оргаинмцин категорнроваиных данных (2000 записей)
ф вариант А 0 вариант Б с поиском О вариант В О вариант Г
Рис. 10
Разработанные аналитические модели для оценки ресурсов памяти для реализации фрагментов категорированных данных и временных характеристик доступа к таким фрагментам являются функциями нескольких переменных. В конечном итоге для рационального выбора варианта реализации в БД фрагментов с категорированными данными должны учитываться несколько десятков параметров. Технология организации коллекции данных и проведения их анализа в современных системах поддержки принятия решений (и, в частности, в многомерных БД) хорошо согласуется с потребностями организации компьютерного хранения и многомерного анализа данных, формируемых в соответствии с разработанными аналитическими моделями. Экспериментальные данные, получаемые с помощью разработанных имитационных программ, должны превращаться в постоянно пополняемую
коллекцию данных и многократно использоваться для решения проектных задач. На настоящий момент в отечественной практике еще не распространено использование специальных многомерных СУБД (MOLAP-серверов, Multidimensional OLAP). Для организации прототипа многомерной базы данных и OLAP-среды в диссертации использован процессор электронных таблиц Microsoft Excel.
На основе разработанных аналитических моделей и среды анализа создана инженерная методика выбора рациональной организации категори-рованных данных в реляционных БД. Разработана функциональная модель, приведено описание процедур и шагов инженерной методики, оценена трудоемкость основных шагов.
В заключении подведены итоги проведенной работы и сформулированы основные научные и практические результаты. В диссертации содержится решение задачи разработки новых методов моделирования баз данных информационных систем, имеющей существенное значение для сокращения сроков, уменьшения материальных затрат и повышения качества проектирования информационных систем.
Приложения содержат описания программы моделирования информационных ресурсов системы, имитационной программы для получения экспериментальных данных для уточнения аналитических моделей ресурсов памяти и среды для анализа многомерных данных инженерной методики выбора рациональных вариантов организации в БД категорированных данных. Прилагаются копии актов о внедрении результатов работы и данные о регистрации программы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Разработаны аналитические, имитационно-аналитические методы, модели и программы для решения следующих задач:
моделирования информационных ресурсов систем;
оценки затрат ресурсов памяти, требуемых для различных вариантов организации фрагментов категорированных данных в БД информационных систем;
оценки времен доступа к фрагментам категорированных данных и к отдельным категориям данных при различных вариантах организации фрагментов;
интегральной оценки эффективности для выбора рациональных вариантов организации фрагментов категорированных данных.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Артамонов М.М., Бистерфельд О.А., Новиков Ю.А., Пресняков А.Н. Способ контроля и диагностики многопараметрических объектов по данным телеизмерений с использованием технологий баз данных // Тезисы
докладов 3-ей Международной научно-технической конференции "Космонавтика. Радиоэлектроника. Геоинформатика." Рязань, 2000.
2. Атаманова Н.В., Бистерфельд O.A., Решетников М.А. Анализ различий российских и зарубежных правил оформления конструкторской документации радиоэлектронной аппаратуры // Материалы межвузовской научно-технической конференции студентов, молодых ученых и специалистов «Новые технологии в учебном процессе и производстве». Рязань, 2003.
3. Бистерфельд O.A., Сидоров М.В., Таганов P.A. Исследование зависимости затрат памяти на представление категорированных отношений в реляционных базах данных // Новые информационные технологии в научных исследованиях и в образовании: Тез. докл. 4-й Всероссийской НТК. Рязань, 1999.
4. Бистерфельд O.A., Таганов P.A. Метод конвертации данных о технической документации в интегрированные базы данных предприятия // Тезисы докладов всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в радиоэлектронике". Рязань, 1998.
5. Бистерфельд O.A., Таганов P.A. Метод идентификации и просле-живаемости продукции в системе качества // Тезисы докладов международной молодежной научной конференции "XXV Гагаринские чтения". М., 1999.
6. Бистерфельд O.A., Таганов P.A. Модель автоматизированной информационной системы поддержки процесса проектирования научно-технической продукции // Тезисы докладов международной молодежной научной конференции "XXV Гагаринские чтения". М., 1999.
7. Бистерфельд O.A. Вариант концепции моделирования деятельности при создании автоматизированных информационных систем // Военно-научный сборник. Рязань, 1999.
8. Бистерфельд O.A. Исследование зависимостей затрат памяти и быстродействия на представление категорированных отношений в реляционных базах данных // Военно-научный сборник. Рязань, 1999.
9. Бистерфельд O.A., Преснякова Т.Д. Моделирование информационных потребностей исследований влияния военно-прикладной направленности преподавания технических дисциплин на изучение специальных военных дисциплин // Военно-научный сборник. Рязань, 2001.
10. Бистерфельд O.A., Преснякова Т.Д. Концепция моделирования информационных потребностей ИС // Военно-научный сборник. Рязань, 2002.
11. Бистерфельд O.A. Свидетельство о регистрации программы инструментальной поддержки метода моделирования информационных ресурсов системы, № 2005611848 от 25.07.2005 г.
Бистерфельд Ольга Александровна
МЕТОДЫ ПРЕДСТАВЛЕНИЯ КАТЕГОРИРОВАННЫХ ОТНОШЕНИЙ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ
СИСТЕМ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Подписано в печать 10.10.05. Формат бумаги 60x84 1/16. Бумага газетная. Печать трафаретная. Усл. печ. л. 1,25.
Уч.-изд. л. 1,25. Тираж 100 экз. Рязанская государственная радиотехническая академия 390005, Рязань, ул. Гагарина, 59/1. Редакционно-издательский центр РГРТА.
f<
IS 211 40
РНБ Русский фонд
2006-4 22589
i
с
Оглавление автор диссертации — кандидата технических наук Бистерфельд, Ольга Александровна
Введение.
Глава 1 Классификация информационных систем, методов моделирования и постановка задач исследований.
1.1 Обобщенная схема информационных систем.
1.2 Классификация информационных систем.
1.3 Анализ и классификация моделей, методов и принципов, используемых при создании информационных систем.
1.4 Исследование методов представления категорированных отношений.
1.5 Выводы и постановка задач исследований.
Глава 2. Метод моделирования информационных ресурсов системы.
2.1 Введение.
2.2 Принципы метода моделирования информационных ресурсов системы.
2.3 Содержание, элементы и правила метода моделирования информационных ресурсов системы.
2.4 Программа инструментальной поддержки метода моделирования информационных ресурсов системы.
2.5 Основные результаты.
Глава 3. Аналитический метод оценки объемов памяти, необходимых для реализации категорированных отношений в реляционных базах данных.
3.1 Введение и постановка задачи.
3.2 Аналитический метод оценки различий в требуемых ресурсах памяти БД вариантов представления категорированных отношений. Модель базы категорированных данных.
3.3 Имитационная программа для уточнения аналитических выражений метода оценки требуемых ресурсов памяти.
3.4 Основные результаты.
Глава 4. Аналитико-имитационный метод оценки временных характеристик вариантов реализации категорированных отношений в реляционных базах данных.
4.1 Введение и постановка задачи.
4.2 Процедуры доступа к информации в известных вариантах представления категорированных отношений.
4.3 Имитационная программа метода.
4.4 Анализ экспериментальных данных.
4.5 Аналитические модели метода.
4.6 Анализ данных, полученных с помощью аналитических моделей.
4.7 Основные результаты.
Глава 5. Инженерная методика выбора вариантов представления категорированных отношений в реляционных базах данных
5.1 Введение и постановка задачи.
5.2 Синтез критериев оценки вариантов реализации категорированных отношений.
5.3 Критериальная оценка вариантов представления категорированных данных.
5.4 Прототип многомерной базы данных и OLAP-среды для проведения анализа и выбора вариантов представления категорированных отношений.ИЗ
5.5 Процедуры и шаги методики.
5.6 Функциональная модель методики.
5.7 Основные результаты.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Бистерфельд, Ольга Александровна
Актуальность работы. Информационно-телекоммуникационные технологии (ИКТ-технологии) интенсивно продвигаются во все сферы человеческой деятельности.
Вопросам, связанным с внедрением ИКТ на государственном уровне в Российской Федерации придается особое значение [64], принята Федеральная целевая программа «Электронная Россия» [57].
Тенденции развития ИКТ, диктуемые потребностями общества в информационном обеспечении всех сторон человеческой деятельности, влекут за собой непрерывный рост сложности программ и баз данных. Масштабы таких функционально законченных прикладных программных комплексов достигают сотен тысяч и миллионов строк текста, а объемы баз данных - от сотен мегабайт до десятков гигабайт и выше. Трудоемкость создания таких программных комплексов и баз данных измеряется сотнями и тысячами человеко-лет, а длительность жизненного цикла может составлять десяток и более лет [17].
Важнейшим направлением повышения эффективности промышленного сектора экономики России, повышения качества и конкурентоспособности на внешнем рынке наукоемкой продукции с использованием современных высоких технологий является применение CALS-технологий, реализуемых в ходе всего жизненного цикла продукции, услуг и компонентов [49]. Стратегией CALS-технологий является создание единого информационного пространства для всех участников жизненного цикла наукоемкой продукции. В этих условиях возрастает роль территориально распределенных информационных систем.
С другой стороны, динамика общественных процессов требует значительного ускорения разработки прикладных программ и баз данных, снижения трудоемкости и обеспечения возможности их совершенствования в процессе эксплуатации, наращивания или изменения функций при изменении требований к ним со стороны пользователей. Как никогда ранее в инженерной практике при создании информационных систем широко используются модельный подход и средства автоматизации проектирования. Поэтому совершенствование методов моделирования и оптимизации представления данных в информационных системах, повышение их гибкости для удовлетворения непрерывно растущих требований составляет одно из актуальных направлений современной информатики.
Цель работы - сокращение сроков проектирования, уменьшение материальных затрат и повышение качества функционирования территориально распределенных информационных систем за счет рациональной организации категорированных данных в реляционных базах, достигаемой применением новых метода моделирования информационных ресурсов системы, аналитических и аналитико-имитационных моделей категорированных данных, позволяющих выбрать наиболее оптимальные варианты представления категорированных данных.
Для реализации этой цели должно быть разработано математическое и программное обеспечение решения следующих проблем:
- информационного моделирования ресурсов территориально распределенных автоматизированных систем;
- оценки необходимых объемов памяти для хранения категорированных информационных ресурсов;
- оценки производительности вариантов хранения категорированных информационных ресурсов;
- создания инженерной методики выбора вариантов реализации категорированных информационных ресурсов в реляционных базах данных.
Задачи исследований. Для достижения целей диссертационной работы необходимо решение следующих задач:
1. Разработка метода моделирования информационных ресурсов распределенных автоматизированных систем.
2. Разработка программы для моделирования информационных ресурсов распределенной автоматизированной системы
3. Исследование представления категорированных данных в реляционных базах и разработка аналитических моделей категорированных данных.
4. Исследование зависимостей ресурсов памяти, требуемых для категорированных данных и разработка аналитического метода оценки ресурсов памяти, требуемых для хранения категорированных данных.
5. Разработка имитационной программы для проверки достоверности аналитических моделей и уточнения параметров аналитической модели категорированных данных.
6. Исследование зависимостей времени доступа к категорированным данным в реляционных базах и разработка аналитических моделей времени доступа к категорированным данным.
7. Разработка имитационных программ для определения параметров аналитической модели времени доступа к категорированным данным.
8. Разработка критериев интегральной оценки эффективности фрагментов баз данных с категорированными данными для инженерной методики выбора вариантов представления категорированных данных.
9. Разработка инженерной методики рационального выбора вариантов представления категорированных данных.
Методы исследования. Основные теоретические положения, выводы и экспериментальные результаты диссертационной работы, получены с использованием теории графовых моделей, теории аналитических функций, теории вероятностей, теории имитационного моделирования.
Публикации. По итогам исследований опубликовано 12 работ, в том числе 7 тезисов докладов на всероссийских и международных научно-технических конференций.
В Российском агентстве по патентам и товарным знакам зарегистрирована программа для моделирования информационных ресурсов автоматизированных систем.
Личное участие автора в проведении исследований. В работах, выполненных по теме диссертации, автору полностью принадлежат постановка целей и задач, разработка основных теоретических положений, методов и программ для исследований представления категорированных данных в реляционных базах данных.
Апробация работы. Результаты настоящей работы докладывались на семи научно-технических конференциях, в том числе на всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в радиоэлектронике", г. Рязань, 1998 г., международной молодежной научной конференции "XXV Гагаринские чтения", г. Москва, 1999 г., 4-ой всероссийской научно-технической конференции студентов, молодых ученых и специалистов, г. Рязань, 1999г., 3-ей Международной научно-технической конференции "Космонавтика. Радиоэлектроника. Геоинформатика.", г. Рязань, 2000г., межвузовской научно-технической конференции студентов, молодых ученых и специалистов «Новые технологии в учебном процессе и производстве», г. Рязань, 2003 г.
Научная новизна. В диссертации разработаны новые метод моделирования информационных ресурсов системы и аналитико-имитационные методы оценки необходимых ресурсов памяти для реализации фрагментов баз данных с категорированными отношениями и их временных характеристик. Получены аналитические модели требуемых ресурсов памяти для фрагментов баз данных, аналитические модели времени доступа к фрагментам баз данных, критерии интегральной оценки фрагментов и зависимости требуемых ресурсов, времени доступа от различных параметров категорированных данных и вариантов организации категорированных отношений, позволяющие существенно сократить сроки проектирования и выбрать рациональные варианты организации баз данных.
При проведении исследований в рамках диссертационной работы, получены новые научные результаты.
1. Разработан новый метод моделирования информационных ресурсов системы.
2. Разработаны аналитические модели требуемых ресурсов памяти для фрагментов баз данных с различными вариантами организации категорированных данных.
3. Разработаны аналитические модели времени доступа к фрагментам баз данных с различными вариантами организации категорированных данных.
4. Получены критерии интегральной оценки фрагментов баз данных с различными вариантами организации категорированных данных, учитывающие требуемые ресурсы памяти и время доступа к данным фрагментов.
Достоверность научных положений определяется:
- корректностью полученных аналитических формул;
- сравнением результатов полученных на основе теории аналитических функций и на основе имитационного моделирования;
- оценкой точности экспериментальных данных методами математической статистики.
Практическая значимость работы. На основе полученных результатов автором создана инженерная методика оценки проектных решений по фрагментам баз с категорированными данными. Наибольший эффект может быть достигнут при проектировании баз данных информационных систем средней и большой сложности следующего назначения:
- информационной поддержки изготовления, испытаний и эксплуатации сложных технических изделий;
- PDM - системы (при реализации CALS - технологий);
- управления проектами для организаций и предприятий, связанных с созданием сложной наукоемкой продукции;
- компьютеризированные системы менеджмента качества для проектных организаций и предприятий, связанных с созданием сложной наукоемкой продукции.
Гибкость и универсальность разработанных методов делает возможным их применение при создании инженерных методик оценки проектных решений по фрагментам баз данных с произвольными структурами данных. При этом области применения результатов работы могут быть существенно расширены.
Реализация и внедрение результатов работы Результаты исследований внедрены в ФГУП ОКБ «Спектр» (г. Рязань), при выполнении НИОКР по созданию информационных систем различного назначения, в учебный процесс студентов специальностей 220100 и 075200 Рязанской государственной радиотехнической академии и рязанского Филиала Московского открытого университета.
Копии актов о внедрении представлена в Приложении 4.
Структура работы Диссертация содержит 146 страницы основного текста и состоит из введения, пяти глав, заключения, библиографического списка из 87 наименований и 4 приложений на 42 листах. В диссертацию включены 84 рисунка и 4 таблицы.
Заключение диссертация на тему "Методы представления категорированных отношений в реляционных базах данных территориально распределенных информационных систем"
Основные результаты диссертации опубликованы в следующих работах [1, 2,6- 15].
ЗАКЛЮЧЕНИЕ
В результате выполнения исследований по теме диссертации создано математическое обеспечение и инструментальные средства для моделирования представления категорированных данных в БД информационных систем.
Разработаны аналитические, имитационно-аналитические методы, модели и программы для решения следующих задач: моделирование информационных ресурсов систем; оценки затрат ресурсов памяти, требуемых для различных вариантов организации фрагментов категорированных данных в БД информационных систем; оценки времен доступа к фрагментам категорированных данных и к отдельным категориям данных при различных вариантах организации фрагментов; интегральной оценки эффективности для выбора рациональных вариантов организации фрагментов категорированных данных.
Новые научные результаты получены для метода моделирования информационных ресурсов систем. Проработаны принципы представления объектов предметной области в информационной модели в виде объектов 2 порядка. Предложенный метод позволяет представлять физическое размещение информационных ресурсов системы, детализировать и фраг-ментировать информационную модель, что является новым для методов информационного моделирования.
Новыми являются аналитические модели для оценок ресурсов памяти, требуемых для фрагментов БД с категорированными данными и аналитические модели для оценок времен доступа к фрагментам БД и к отдельным категориям данных.
Разработаны программные средства для получения экспериментальных данных, позволяющих уточнить параметры аналитических моделей для конкретных СУБД и технических средств, на которых реализуются БД системы.
Разработаны критерии интегральной оценки производительности и ресурсов памяти фрагментов с категорированными данными, позволяющие проводить выбор рациональных вариантов организации фрагментов.
Разработаны процедуры, шаги и функциональная модель инженерной методики проведения комплекса работ, обеспечивающих рациональное построение фрагментов БД системы.
Проведенная экспериментальная проверка показала корректность предложенных моделей и методов исследований. Разработанная инженерная методика, аналитические модели и методическое обеспечение позволяют сократить сроки отработки БД проектируемых систем и на начальных стадиях проектных работ получить достоверные оценки производительности и затрат ресурсов памяти для фрагментов БД и выбрать рациональные варианты их организации.
Разработанные методики и инструментальные средства применялись при выполнении НИОКР по созданию информационных систем в ФГУП ОКБ «Спектр» и позволили сократить сроки проектных работ, повысить производительность, уменьшить ресурсы памяти БД создаваемых систем.
Результаты диссертационной работы использованы в курсах «Проектирование информационных систем» и «Моделирование в информационных системах», читаемых на кафедре ЭВМ РГРТА и в курсе «Информационные потребности автотранспортных систем», читаемого в рязанском Филиале Московского открытого университета.
На основании вышесказанного можно сделать вывод о том, что в диссертации содержится решение задачи разработки методов моделирования баз данных информационных систем, имеющей существенное значение для сокращения сроков, уменьшения материальных затрат и повышения качества проектирования информационных систем.
Библиография Бистерфельд, Ольга Александровна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. К. В. Ахтырченко, В. В. Леонтьев. Распределенные объектные технологии в информационных системах СУБД. № 5-6. 1997, с. 52-64.
2. Ашимов А.А., Мамиконов А.Г., Кульба В.В. и др. Формализованные модели и методы анализа и синтеза структур баз данных. В кн. VIII Всесоюзное семинар-совещание «Управление большими системами». Алма-Ата, 1983.
3. Безкоровайный М.М., Костогрызов А.И., Львов В.М. Инструментально-моделирующий комплекс для оценки качества функционирования информационных систем. М.: Изд. Вооружение. Политика. Конверсия. 2001.
4. Бистерфельд О.А., Таганов Р.А. Метод идентификации и прослеживаемости продукции в системе качества. Тезисы докладов международной молодежной научной конференции "XXV Гагаринские чтения", М., 1999.
5. Бистерфельд О.А., Таганов Р.А. Модель автоматизированной информационной системы поддержки процесса проектирования научно-технической продукции. Тезисы докладов международной молодежной научной конференции "XXV Гагаринские чтения", М., 1999.
6. Бистерфельд О.А. Вариант концепции моделирования деятельности при создании автоматизированных информационных систем. Военно-научный сборник, г. Рязань, 1999.
7. Бистерфельд О.А. Исследование зависимостей затрат памяти и быстродействия на представление категорированных отношений в реляционных базах данных. Военно-научный сборник, г. Рязань, 1999.
8. Бистерфельд О. А., Преснякова Т.Д. Моделирование информационных потребностей исследований влияния военно-прикладной направленности преподавания технических дисциплин на изучение специальных военных дисциплин. Военно-научный сборник, г. Рязань, 2001.
9. Бистерфельд О. А., Преснякова Т.Д. Особенности преподавания курса "Начертательная геометрия" в военном институте. Военно-научный сборник, г. Рязань, 2001.
10. Бистерфельд О. А., Преснякова Т.Д. Концепция моделирования информационных потребностей ИС. Военно-научный сборник, г. Рязань, 2002.
11. Бистерфельд О.А., Милованова И.В., Преснякова Т.Д. Некоторые проблемы физико-механических испытаний материалов. Военно-научный сборник, г. Рязань, 2004.
12. Богуславский Л.Б., Ляхов А.И. Оценка производительности распределенных информационно-вычислительных систем архитектуры «клиент-сервер». Автоматика и телемеханика. 1995. №9.
13. Боэм Б.У. Инженерное проектирование программного обеспечения: Пер. с англ./Под ред. А.А. Красилова. М.: Радио и связь, 1985.
14. Брехов О.М. Оценка производительности ВС аналитико-статистическими моделями. М.: Энергоатомиздат. 1993.
15. Брехов О.М. Теория и проектирование вычислительных систем и сетей. М.: МАИ, 1998.
16. Буч Г. Объектно-ориентированное проектирование с примерами применения. Пер. с англ./М.: Конкорд, 1992.
17. Вентцель Е.С. Теория вероятностей. М.: Государственное издательство физико-математической литературы, 1962.
18. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. М.: Наука. 1988.
19. Весли П. Меллинг. Корпоративные информационные архитектуры: и все-таки они меняются. СУБД. № 2. 1995, с. 45-59.
20. Волков И., Галахов И. Архитектура современной информационно-аналитической системы Директор информационной службы 2002 №3
21. Головкин Б.А. Построение вероятностной модели и анализ вычислительных процессов. Изв. АН СССР. Техническая кибернетика. 1973. №3.
22. ГОСТ Р ИСО 10303-11-2000. Системы автоматизации производства и их интеграция. Представление данных об изделии и обмен этими данными. Часть 11. Методы описания. Справочное руководство по языку EPRESS.
23. Дейт К., Введение в системы баз данных, Москва, Санкт-Петербург, Киев, 2000.
24. Зиндер Е. 3. Соотнесение и использование стандартов' <организации жизненных циклов систем. СУБД. № 3, 1997.
25. Калянов Г.Н. Теория и практика реорганизации бизнес-процессов. М. Синтег. 2000.
26. Когаловский М.Р. Технология баз данных на персональных ЭВМ, М., Финансы и статистика, 1992.
27. Когаловский М.Р., Зиндер Е.З. Глоссарий по хранилищам данных, многомерному моделированию и анализу данных Директор информационной службы. 2002. №3.
28. Костогрызов А.И., Петухов А.В., Щербина A.M. Основы оценки, обеспечения и повышения качества выходной информации в АСУ организационного типа. М.: Изд. Вооружение. Политика. Конверсия. 1994.
29. Костогрызов А.И., Липаев В.В. Сертификация качества функционирования автоматизированных информационных систем. М.: Изд. Вооружение. Политика. Конверсия. 1996.
30. Костогрызов А.И., Нистратов Г.А. Стандартизация, математическое моделирование, рациональное управление и сертификация в области системной и программной инженерии. М.: Изд. ВПК. 2004.
31. Кузнецов С.Д. Стандарты языка реляционных баз данных SQL: краткий обзор. СУБД № 2, 1996.
32. Левин А., Судов Е. CALS-сопровождение жизненного цикла. Открытые системы, март 2001.
33. Лезер Н. Архитектура открытых распределенных систем. Модель OSE DCE. Открытые системы, 1993.
34. Липаев В.В., Яшков С.Ф. Эффективность методов организации вычислительного процесса в АСУ. М.: Статистика, 1975.
35. Липаев В.В. Документирование и управление конфигурацией программных средств. Методы и стандарты. СЕРИЯ "Информатизация России на пороге XXI века". М.: СИНТЕГ, 1998.
36. Липаев В.В. Выбор и оценивание характеристик качества программных средств. Методы и стандарты. М.: СИНТЕГ-Г, 2001.
37. Лисянский К. Архитектурные решения и моделирование хранилищ и витрин данных. Директор информационной службы 2002 №3
38. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных//Системы управления базами данных 1997 №3.
39. Маклаков С.В. BPwin и Erwin. CASE-средства разработки информационных систем. М.: ДИАЛОГ-МИФИ. 2001.
40. Мамиконов А.Г., Ашимов А.А., Кульба В.В. и др. Анализ информационных потоков и построение канонической структуры базы данных: (Методические материалы и методика). Алма-Ата. 1984.
41. Мамиконов А.Г., Кульба В.В. Синтез оптимальных модульных систем обработки данных. М.: Наука. 1986.
42. Норенков И.П., Кузьмик П.К. «Информационная поддержка наукоемких изделий. CALS-технология. М.: Изд-во МГТУ им. Баумана. 2002.
43. Олейник И.И., Суворов А.А., Пискунов А.А. Натурная отработка сложных технических комплексов. М. Наука. 1990.
44. Полляк Ю.Г. Вероятностное моделирование на электронных вычислительных машинах. М.: Советское радио. 1971.
45. Ресурс Интернет: http://cals.ru Программа стандартизации в области CALS-технологий.
46. Решения Microsoft, выпуск 7, 1999
47. Ресурс Интернет: http://cals.ru Язык EXPRESS
48. Р 50.1.028-2001. Рекомендации по стандартизации. Информационные технологии поддержки жизненного цикла продукции. Методология функционального моделирования.
49. Саймон А. Стратегические технологии баз данных. Глава 4. Склады данных// Системы управления базами данных 1997 №3.
50. Спирли Э. Корпоративные хранилища данных. Планирование разработки и реализация. Т. 1 . «Вильяме» (2001) ISBN 5-8459-0191-Х.
51. Стандарт IDEF1X, русская версия
52. Стандарт IDEF0, русская версия
53. Федеральная целевая программа ФЦП "Электронная Россия (2002-2010 г.г.)", утвержденная постановлением Правительства Российской Федерации от 28 января 2002 г. № 65
54. Феллер В. Введение в теорию вероятностей и ее приложения. 2-х томах. Т.1. Пер. с англ. М.: Мир, 1984.
55. Феллер В. Введение в теорию вероятностей и ее приложения. 2-х томах. Т.2. Пер. с англ. М.: Мир, 1984.
56. Филинов Е.Н. Выбор и разработка концептуальной модели среды открытых систем. Открытые системы, 1995.
57. Хэпгуд Ф. Интеллектуальные решения. Директор информационной службы. 2002. №3.
58. Штойер Р. Многокритериальная оптимизация. Теория, вычисления и приложения. Пер. с англ. М.: Радио и связь. 1992.
59. Щавелев JI.B. Способы аналитической обработки данных для поддержки принятия решений// Системы управления базами данных 1998 №4-5.
60. Электронное правительство. Рекомендации по внедрению в Российской Федерации, Эко-трендз, М., 2004.
61. Abrial J.R. Data Semantics // J. W. Klimbie and K. L. Koffeman (eds.). Data Base Management. Amsterdam, Netherlands: North-Holland; New York, N.Y.: Elsevier Science, 1974.
62. Adamson C., Venerable V. Data Warehouse Design Solutions John Wiley & Sons, Inc (1998) ISBN 0-471-25195-X.
63. CDM метод разработки информационных систем фирмы Oracle//Oracle Magazine / Russian Edition. № 2, 1997.
64. Chen P.P.-S. The Entity-Relationship Model — Toward a View of Data// ACM TODS. 1976. - 1, № 1.
65. Codd E.F., Codd S.B. Providing OLAP. On-line Analitical Processing to User-Analists: An IT Mandate/ C.T. Salley, E.F.Codd & Associates, 1993
66. Codd E.F. A Relation Model of Data for Large Shared Data Banks CACM.- 1970. 13, №6
67. Codd E.F. Data Models in Databases Management// Proc. Workshop on Data Abstraction, Database and Conceptual Modelling (Michael L. Brodie and Stephen N. Zilles, eds.) Pingree Park, Colo., 1980.
68. Codd E. F. Extending the Database Relational Model to Capture More Meaning // ACM TODS. 1979. - № 4.
69. Devlin B. Data warehouse: from architecture to implementation. Addison Wesley Longman, Inc (1997)ISBN 0-201-96425-2.
70. IBM. "Busines Intelligence Architecture on S/390 Presentation Guide" SG24-5747. IBM Corporation (2000).
71. IBM. " Busines Intelligence Certification Guide" SG24-5747-00. IBM Corporation (2000).
72. IBM. "Data Modellig Techniques for Data Warehousing" SG24-2238-00 IBM Corporation (1998).
73. Inmon W. What is a date warehouse? //White Pager. http//www.billinmon.com//library/whiteps/eariywp/pdf
74. Inmon W. Building the Data Warehouse. New York: John Wiley & Sons, Inc
75. Kimbal R. A Dimensional Modeling Manifesto//DBMS Magazine August 1997.
76. Kimbal R. The Data Warehouse Toolkit. Practical Techniques for Building Dimensional Data Warehouse. John Wiley & Sons, Inc (1996) ISBN 0-471-15337-0.
77. Kimbal R.The Data Warehouse LifecycleToolkit: Expert Methods for Design. Develoying and Deploping Data Warehouses. John Wiley & Sons, Inc (1998) ISBN 0-471-25547-5.
78. McGufF F. Hitchhiker's Guide to Decision Support (http//members.aol/com/fmcguff/dwmodel/)
79. PDM Step Suite. Ресурс Интернет: http://cals.ru
80. Quarterman J.S., Wilhelm S. Unix, Posix and open systems: The open standards puzzle. N.Y., Addison Wesley, 1993.
81. Silverston L., Inmon W., Graziano K. The Data Model Resource Book. A Library of Logical Data Models and Data Warehouse Designs John Wiley & Sons, Inc (1997) ISBN 0-471-15367-2.
82. Teorey T.J. Database Modeling and Design: The Entity-Relationship Approach. San Mateo, Calif.: Morgan Kaufmann, 1990.
83. Winsberg Р/ Modeling the Data Warehouse and Data Mart// InfoDB, 10, №3, 1-10.
-
Похожие работы
- Выбор телекоммуникационных ресурсов информационной системы обеспечения транспортной безопасности
- Автоматизированная информационная система поддержки оперативного категорирования пассажиров
- Односторонняя интеграция информационных систем в территориально распределённых организациях
- Интеграция объектных систем обработки информации и реляционных серверов
- Матрично-реляционная модель данных в организационно-производственных системах мониторинга и управления
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность