автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Хронологическая модель, языки и методы манипулирования информацией в хранилищах данных

кандидата технических наук
Маслов, Дмитрий Владимирович
город
Самара
год
2004
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Хронологическая модель, языки и методы манипулирования информацией в хранилищах данных»

Автореферат диссертации по теме "Хронологическая модель, языки и методы манипулирования информацией в хранилищах данных"

Направахрукописи

МАСЛОВ Дмитрий Владимирович

ХРОНОЛОГИЧЕСКАЯ МОДЕЛЬ, ЯЗЫКИ И МЕТОДЫ МАНИПУЛИРОВАНИЯ ИНФОРМАЦИЕЙ В ХРАНИЛИЩАХ ДАННЫХ

Специальность 05.13.17 - 'Теоретические основы информатики"

Автореферат диссертации на соискание ученой степени кандидата технических наук

Самара - 2004

Работа выполнена в научно-внедренческой фирме ООО "Сенсоры, Модули, Системы" и на кафедре информационных систем и технологий государственного образовательного учреждения высшего профессионального образования "Самарский государственный аэрокосмический университет имени академика СП. Королева"

Научный руководитель:

кандидат технических наук, доцент Сидоров А.А.

Официальные оппоненты:

доктор технических наук, профессор Кораблин М.А.

кандидат технических наук Попов СБ.

Ведущая организация:

проектный институт

ОАО "Волгоэнергопроект - Самара

Защита диссертации состоится 17 декабря 2004 г. в 12 00 на заседании диссертационного совета Д 212.215.07 в Самарском государственном аэрокосмическом университете имени академика СП. Королева по адресу: 443086, Самара, Московское шоссе, 34.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан 16 ноября 2004 г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Базы данных (БД) уже несколько

десятилетий повсеместно используются на самых различных предприятиях. В настоящее время все большее распространение получают особые БД — так называемые хранилища данных (ХД). ХД - это предметно-ориентированная, содержащая исторические данные, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений" (У. Инмон, 1992). Характерными особенностями ХД являются: о интеграция всех видов данных о предприятии; о хранение истории данных;

о агрегирование данных для представления в виде отчетов; о большой объем данных: 50 — 500 гигабайт.

Для ряда предприятий (например, для промышленных, медицинских и других), кроме хранения данных о предприятии в целом, характерны сбор и хранение измерительной и отчетной информации и протоколов различных событий (действия операторов, технологические и аварийные события). Эта информация хранится в виде хронологических последовательностей (ХП). Хранилища данных, содержащие ХП, имеют свою специфику.

Во-первых, для них необходима возможность восстановления отсутствующих данных (например, с помощью интерполяции); восстановленная информация должна учитываться в операциях манипулирования данными.

Во-вторых, метки времени различных ХП могут иметь различные специфические размерности (например, производственные размерности "рабочая смена", "двухчасовка"). При этом зачастую возникает необходимость перехода от одной размерности к другой (например, для формирования сводок за различные отчетные периоды), а также выполнения операций над несколькими ХП в условиях, когда каждая из них имеет метки времени различных размерностей.

В-третьих, необходима возможность формулировки запросов, учитывающих хронологическую упорядоченность данных.

В настоящее время в практике построения ХД доминирует реляционная модель данных. Однако ни одна из перечисленных особенностей ХД, содержащих ХП, не может быть полноценно учтена при ее использовании. Безусловно, ХП представима в реляционной модели. Однако операторы реляционной модели предназначены лишь для манипулирования данными, явно присутствующими в БД, поэтому запрос, учитывающий данные, восстановимые с помощью интерполяции, сформулировать невозможно. Методы эффективного доступа, разработанные для реляционной модели, позволяют осуществлять поиск лишь среди явно хранящейся в БД информации, не учитывая интерполяцию. В реляционной модели отсутствует возможность описания пользовательских размерностей времени и логика их преобразования, и, как следствие, крайне затруднена формулировка запросов, требующих перехода из

»

одной размерности времени в другую. И, наконец, запросы, учитывающие упорядоченность, невозможны в реляционной модели, основной структурный элемент которой — неупорядоченное множество кортежей.

Анализ научной литературы показал целесообразность разработки модели данных для учета особенностей ХД, хранящих ХП, на основе реляционной модели. Проблемами, свойственными таким ХД, занимались многие исследователи. Разработкой моделей и методов доступа, учитывающих временной аспект данных, занимались К.Дж. Дейт, Р. Т. Снодграсс, Дж. Клиффорд, К.С. Дженсен, А. Сиджев, Н.А. Лоренцос и другие. Проблеме описания размерностей времени в БД посвящены работы К. Беттини, КС. Ванта, С. Джажодии, К.Е. Дайрсона. Проблемой формулировки запросов к упорядоченным данным занимались П. Сешадри, Р. Рамакришнан и другие. Отметим вклад российских ученых Л.А. Калиниченко, Б.А. Новикова, М.Г. Манукяна в теорию временных БД, а также работы М.Р. Когаловского, А.И. Гуляева, посвященные хранению временных рядов в БД. Тем не менее, проблемы ХД, содержащих ХП, оказались недостаточно проработаны в силу своей новизны и специфики. В связи с этим разработка модели и методов доступа для них являются актуальными задачами.

Целью работы является разработка модели данных, языков и методов манипулирования для хронологической информации в ХД.

Задачами исследования при этом являются:

1. Анализ существующих моделей данных и методов доступа к данным; оценка их применимости для хронологической информации.

2. Разработка структур данных и набора операций для манипулирования ими, позволяющих формулировать запросы, использующие интерполяцию, специализированные размерности времени и хронологическую упорядоченность.

3. Разработка принципов построения языка описания данных (ЯОД) и языка манипулирования данными (ЯМД).

4. Разработка методов физической организации данных и эффективного выполнения операторов манипулирования данными.

5. Создание программного комплекса на основе разработанных модели и методов.

6. Анализ результатов применения разработанного программного комплекса для построения ХД реально действующего предприятия.

Методы исследования. Построение модели данных в работе базируется на анализе и классификации типичных запросов, используемых в исследуемых ХД. При построении модели использовалась теория реляционных баз данных, теория множеств и теория графов. При разработке методов эффективного доступа к данным использовались численные методы, в частности, численная оптимизация. Разработанные методы были реализованы программно и экспериментально проверены.

Научная новизна. В ходе работы получен ряд новых результатов.

1. Впервые разработана хронологическая модель данных, предназначенная для хронологической информации, содержащейся в хранилищах данных.

2. Разработаны методы описания размерностей, меток и множеств меток времени, на основе которых построен ЯОД. Исследованы свойства размерностей времени, применяемые для оптимизации их преобразования.

3. Разработан новый способ физической организации данных (1СВ-индекс), позволяющий осуществлять быстрый поиск данных с учетом интерполяции.

Практическая ценность и реализация результатов работы. На основе разработанных модели и методов была реализована система архивации параметров технологических процессов, внедренная на Жигулевской ГЭС (г. Жигулевск). Ее использование упростило формулировку запросов и обеспечило высокую скорость выборки данных, что подтверждено актом внедрения.

Публикации и апробация работы. Основные положения диссертации опубликованы в 3 статьях в научных журналах "Промышленные АСУ и контроллеры" (2001, 2003) и "Исследовано в России" (2004), рекомендованных ВАК для публикации содержания диссертаций.

Кроме того, научные и практические результаты, полученные в ходе диссертационного исследования, были представлены на 5 международных и 3 всероссийских конференциях: VII Восточно-Европейской конференции по достижениям в области баз данных и информационных технологий "ADBIS'2003" (Дрезден, 2003), VI Международной конференции по мягким вычислениям и измерениям "SCM-2003" (Санкт-Петербург, 2003), V Международной научно-технической конференции АВИА-2003 (Киев, 2003), XXX Международной конференции "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе" (Ялта, 2003), III Международной научно-практической конференции "Современные технологии

документооборота в бизнесе, производстве и управлении" (Пенза, 2003), VI Всероссийской научно-технической конференции "Новые информационные технологии" (Москва, 2003), IV Всероссийском симпозиуме по прикладной и промышленной математике (Петрозаводск, Сочи, 2003).

Структура и объем работы. Содержание диссертации изложено во введении, 4 главах, заключении и 2 приложениях. Объем основной части работы составляет 218 страниц, приложений - 10 страниц. Работа содержит 39 рисунков и 23 таблицы. В библиографический список вошло 123 источника.

На защиту выносятся: о хронологическая модель данных;

о методы описания размерностей, меток и множеств меток времени; о физическая организация данных, позволяющая осуществлять быстрый поиск

информации с учетом интерполяции (1СВ-индекс); о система архивации параметров технологических процессов, построенная на

базе разработанных модели и методов, и результаты ее применения на Жигулевской ГЭС.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении дается обоснование актуальности темы диссертации, а также приводятся общая характеристика работы, цели и задачи исследования, структура работы и основные положения, выносимые на защиту.

В первой главе рассматривается типичная структура ХД, анализируются виды информации, содержащейся в ХД, и типичные запросы к ней (рисунок 1).

Произвольная связанная информация - реляционная модель

Статическая информация

(напр. данные об оборудовании, отделах, сотрудниках и др.)

Реляционные запросы (напр. "найти всех сотрудников заданных отделов")

Временная информация - временная модель

(факты о предприятии, снабженные интервалом времени, в течение которого они были истинными)

1. Реляционные запросы

2. Временные запросы (запросы, использующие операторы над интервалами и множествами интервалов времени)

Хронологические последовательности

(измерительная информация, протоколы событий)

1. Реляционные запросы

2. Временные запросы

3. Специфические запросы к ХП

Рисунок 1. Виды информации хранилищ данных Для данных, представляющих собой хронологические последовательности, характерно использование специфических запросов следующих видов: о запросы на поиск моментов времени, в которые параметр принимал заданное

значение (с учетом информации, восстановимой с помощью интерполяции); о запросы, использующие взаимосвязи между различными специфическими размерностями времени, свойственными данному предприятию:

• агрегирование по времени с переходом от одной размерности к другой (например, на основе данных за каждую двухчасовку получить данные за каждую рабочую смену);

• выборка данных, относящихся к меткам времени заданного множества, для описания которого необходимо знать взаимосвязи между различными размерностями времени (например, выбрать действия оператора за рабочие смены, в которые происходили аварии);

• выполнение операций над несколькими ХП с метками времени различных размерностей;

о запросы, учитывающие хронологическую упорядоченность (например, выбрать 10 последних действий оператора, предшествующих каждой из аварий).

Перечисленные виды запросов плохо поддерживаются доминирующей на сегодняшний день реляционной моделью данных как на логическом, так и на физическом уровне. Однако отказ от реляционной модели (например, в пользу объектно-ориентированной или объектно-реляционной) был признан

нецелесообразным для ХД по ряду причин, в том числе в связи с гетерогенностью хранимых в них данных (наряду с ХП в них хранятся обычные реляционные и временные данные). В связи с этим был сделан вывод о том, что новую модель данных для учета описанной специфики целесообразно строить на базе реляционной.

Затем в работе анализируются существующие разработки в области БД, посвященные проблемам формулировки и эффективного выполнения запросов при наличии интерполяции, проблеме описания пользовательских размерностей времени и проблеме формулировки запросов к упорядоченным данным. Были выявлены недостатки существующих подходов, и определены наиболее перспективные подходы для построения собственной модели.

Во второй главе описывается разработанная хронологическая модель данных. Хронологическая модель данных - это: 1) структуры данных для представления ХП, меток и размерностей времени; 2) алгебра ХП, предназначенная для манипулирования данными. Также во второй главе рассматриваются язык описания данных и язык манипулирования данными, разработанные для хронологической модели.

Структуры данных. Основным структурным элементом хронологической модели данных является хронологическая последовательность, описываемая следующей тройкой объектов:

где //-размерность времени, Я -заголовок кортежей (т.е. множество пар "Имя атрибуте?:7мл), <р - функция из множества меток времени размерности ¡л в множество всевозможных кортежей с заголовком Н (обозначается Шр(Н)). Таким образом, функция <р некоторым меткам времени размерности /1 ставит в

соответствие набор данных (кортеж), имеющий структуру, описанную заголовком Н. Размерность времени является ограничением целостности ХП, не позволяя добавлять в нее данные с метками времени другой размерности.

Меткой времени будем называть представление времени, к которому относится то или иное хранящееся в ХД событие или значение (формальное определение будет дано позже). Метки времени будем описывать целыми числами с указанием размерности. Неформально можно сказать, что каждая метка времени представляет собой некоторую часть оси времени, например, год, месяц или час. Однако формально метка времени неделима и обрабатывается как единое целое. Так, метка времени (2004, год) обозначает весь 2004 год как единое целое. При этом для описания того факта, что год состоит из месяцев, используется отношение "является частью" из множества значений времени размерности месяц в множество значений времени размерности год. Носителем этого отношения является сама размерность год, т.е. в ее описании имеется информация о связи меток времени этой размерности с метками времени другой, более мелкой размерности.

Формально размерность времени определяется следующим образом. Базовая размерность времени — это интервал целых чисел, конечный или

бесконечный. Производная размерность времени — это тройка объектов:

Р = (ТМ, г], Fr^ft),

где Тм — интервал целых чисел, т] — порождающая размерность, базовая или производная, F,t^/i - отношение "является частью" из Тп в Тм, являющееся монотонной сюръективной функцией:

о Vr,, г2 е Тп: (г, < г2) & (г,, т2 е => F^ (zi) < F^M (г2);

о Vr'e Тм,3те Тч : F^m(t) = т'.

Мешка времени - это пара t= (г, /S), где // — это размерность времени, а г-целое число из интервала Тм, называемое значением времени.

Среди преимуществ выбранной формализации отметим, что метка времени рассматривается как неделимое целое и представляется числом; метки времени одной размерности нумеруются без пропусков, т.е. если (гь р) и (г2, /г) — метки

времени и Зге Z : т\ < г< т2, то (т, //) - метка времени. Это облегчает хранение меток времени и операции над ними по сравнению с формализациями, где метка времени представляется интервалом, или в нумерации имеются пропуски.

Сравнение меток времени. Если р~{Т, J], F^^), то будем говорить, что размерность р. задана через размерность т]. Бели при этом для F^^ множество значений {гь тг, ..., г*} является прообразом значения т, то будем говорить, что (г, //) состоит из множества меток времени {(гь rf), (т2, ?]),... (ц, rf)}, записывая это как (г, //) ~ {(гь 77), (т2, 17), ... (rfo ф}. Если при этом размерность 7 задана через размерность ц и каждая из меток (ъ, rf), i=l...k, состоит из {(r;1,v),(ri2,v),...,то также будем говорить, что (г, /л) состоит из

U ( (r/l> v)> (Ti2> v)> —> (Tik,)v) }> a размерность fi задана (транзитивно) через Ы.Л

размерность v. Факт того, что размерность р задана через размерность rj (напрямую или транзитивно) будем обозначать как 77 —> /л Будем также считать, что всегда имеет место ц р и (г, р) ~ {(г, //)}.

Сравнение меток времени различных размерностей вводится в терминах некоторой третьей, более мелкой размерности. Пусть //и т] - размерности времени, v — такая размерность, что v—»■ ц и v-> j7, и пусть (п,р)~Ми (т2,77) ~ Н, где МнЯ - множества меток времени размерности v. Тогда отношения сравнения меток времени вводятся следующим образом: о А/с Н о (zi, с (г2, 7) ("входит в"); о V(rM, v)eMV(rtf, v)etf: тм <тн<*

<=> (гь ju) < (г2,77) ("предшествует"); о Л/П Л* 0 О (гь overlaps (т2, tj) {"пересекается с").

В работе показано, что результат сравнения не зависит от размерности v, в терминах которой оно производится.

Сравнение меток времени используется при формулировании критериев выборки и соединения данных. Кроме того, важной практической задачей является нахождение всех меток времени заданной размерности, которые входят

в заданную метку времени или пересекаются с ней. Например, если имеется ХП с метками времени размерности час, и на ее базе необходимо сформировать XII со сводной информацией по сменам, то необходимо уметь находить все метки времени размерности час, относящиеся к каждой смене.

Язык описания данных. В работе формулируются принципы построения языка описания данных, предназначенного для описания меток времени, множеств меток времени (календарей) и размерностей времени, специфичных для задач пользователя; а также предназначенного для описания структуры хранилища данных (создания и удаления размерностей времени и ХП).

Описание меток времени. Для описания меток времени используются шкалы - записи вида Mi'fh' — где д, i ~ 1 ...п, — различные размерности с общей базовой размерностью.

Описанием метки времени (т, ц,) по шкале Mi'-th'- — -Рл будем называть запись вида тх\т2:... :rm где г, (/ = 1... л) - следующие целые числа: о =/ь

о T,+i —first( д+ь (/, д) ) + 1, / = 1 ...и-1, где/ =first(ji„ (z; #,)), i = l...n. Используемый здесь оператор first определяется так:

firstin, (г, /л)) = min{г': (г, р) overlaps (г1, ф}.

Если существует описание метки времени (г, ¡i¡) по шкале ¡i\.¡*£. — 'И™ т°. во-первых, оно единственно, а во-вторых, оно однозначно определяет эту метку времени. Кроме того, в работе сформулированы достаточные условия того, чтобы запись вида Т\.х-£.... :tn где т, (/ = 1...и) - целые числа, являлась описанием некоторой метки времени (г, по шкале додо...

В случае т] Ф д, описанием метки времени (г, т]) по шкале рх'.ръ.... будем называть описание метки времени (г1, #,) по этой шкале, если (г', #,) пересекается с (г, tj).

Пример (описание одной и той же метки времени по различным шкалам): "2004:04:06:02" по шкале "годмесяц:день:смена", "2004:15:05" по шкале "год:недеяя:смена", "2004:04:06:08" по шкале "годмесяц:день:час".

Допуская в записи Г[:г2:... :т„ в качестве Г/ (/ = l...n) не только числа, но и множества чисел, с помощью шкал можно описывать размерности времени и множества меток времени.

Описание множеств меток времени (календарей). Множество меток времени одной размерности называется календарем. Средства описания календарей необходимы для формулировки условий выборки и агрегирования данных по времени, а также для описания размерностей времени.

К календарям одной размерности применимы обычные теоретико-множественные операции. Кроме того, вводятся специализированные средства их описания, в том числе следующие.

о Описание с помощью шкал. Запись вида T\.T-£.... :Т„, где 7} с Z (/ = 1...л), вместе со шкалой Ц\.Цг.... описывает множество меток времени, имеющих по этой шкале представление т\лг\... :тт такое, что' т, е T¡

(/' = 1...и). Множества Г/ могут при этом описываться перечислением чисел и интервалов чисел, символом "*" ("все"), обозначением last ("последний"). Пример: пнеделя:день:смена"', "*:{1,3}:{2}" - описание вторых смен по понедельникам и средам, о Оператор получения календаря ХП {calendar). Если R = (ji,H, <р), то

calendar{K) = dom(<p), где dorn - это область определения функции, о Операторы пересечения календарей различных размерностей.

Сх о С2 = {/ е Ci: 3/' в С2,tc. f} (строгое пересечение) С\ Г\ С2 ~ {/ е С\: 31' е t overlaps f) (нестрогое пересечение) о Операторы описания календарей с равноотстоящими метками времени (periodic и all).

periodic{{To, rj), п) = { (г, 1)) : т = ть + i n, i е 1 }

Описание размерностей времени. Для предоставления пользователю возможности описания новых, специфичных для его задач, размерностей времени на основе существующих в работе вводятся два вида специализированных операторов.

Оператор группировки предназначен для описания размерностей времени, каждая метка времени которых состоит из заданного количества последовательных меток времени размерности-операнда. Возможны явное задание количества меток времени, входящих в каждую группу, и указание множества меток времени, являющихся границами группы. Результатом

оператора group/ (?],puP2,—,Pn) является размерность ¡л, у которой метка Тп

времени со значением состоит из pt меток времени размерности tj, начиная с г,, метка времени со значением г^+1 состоит из следующих р2 меток времени размерности 77, и т.д., причем рир2, ■■■,р„ рассматривается как циклический

список. Результатом оператора grouplM (л, С), где С - календарь размерности 77,

Тп

упорядоченный по значению времени, является размерность //, каждая метка которой состоит из меток размерности т\ между соседними элементами С.

Второй оператор для описания размерностей времени базируется на использовании шкал (вводится аналогично описанию календарей). Например, "неделя:сутки"; "*:{2};{3};{5}" - описание размерности, содержащей вторники, среды и пятницы (день Дежурства); "месяц:день_деэкурства"; "*:[!, last]" -размерность, каждая метка времени которой состоит из всех дней дежурства одного месяца.

Кроме того, в работе вводятся средства описания исключений в законах, связывающих две размерности времени. Пусть размерность р задана через размерность ц. Поддерживаются следующие виды исключений в размерности ¡х. о для некоторых меток времени размерности /л сокращение/увеличение числа меток времени размерности tj, являющихся их частью, с соответствующим

сдвигом всех последующих меток времени (например, метки времени размерности месяц, соответствующие февралям високосных лет, увеличиваются на один день, а все последующие месяцы сдвигаются на один день), или без такого сдвига (например, метки времени размерности рабочий день, соответствующие пятницам, могут сокращаться на один час, не затрагивая при этом другие рабочие дни); о добавление/удаление отдельных меток времени размерности (например, для размерности рабочий день это может использоваться для описания праздников и переносов рабочих дней на выходные).

Исключения могут быть периодическими, в этом случае указывается первая метка времени, к которой применяется исключение, и период (например, для високосных лет), в противном случае явно указывается множество меток времени, к которым надо применять исключение. Это множество может быть перечислено (например, для високосных секунд) или описано с помощью шкал и других средств описания календарей.

Описание структуры хранилища данных. Для описания структуры ХД служат операторы создания и удаления размерностей времени и ХП. Оператор создания размерностей времени базируется на разработанных средствах их описания. Оператор создания ХП имеет синтаксис, сходный с оператором создания реляционных таблиц, с дополнительными возможностями назначения размерности времени и календаря для всей ХП и назначения способа интерполяции для отдельных ее атрибутов.

Алгебра хронологических последовательностей. Операции алгебры ХП можно разделить на две группы: аналоги реляционных операций - объединение, пересечение, разность, проекция, соединение по времени и выборка; и дополнительные операции - выборка и агрегирование по календарю, сдвиг, восстановление отсутствующих данных.

Выборка по календарю (а1). Если R = (jt, Н, <р), С - календарь размерности р, то данная операция определяется следующим образом:

(W/), если f е С, / е dom{q>)\ где <p\t) = \

[иначе не определена.

Агрегирование по календарю (у'). Если R = (p,H, ф), С - календарь размерности t], F^ •" 2'"^ -»tup{H) (агрегатная функция), то

t): t overlaps t' & tedom{(p)}),если/'eС; иначе не определена.

Для приведенных операций условие выборки и агрегирования формулируется просто указанием целевого календаря, что при наличии средств описания размерностей и календарей упрощает формулировку запросов.

Операция сдвига (Д). Если R = (jx,H, <р), i е 2, то

Д(Я, 0 = (р, Н, <р'\ где <p\t) = <p(t +Ыепааг{К) г).

Здесь f +с / - это метка времени календаря С, отстоящая в нем от метки t на i элементов. Операция сдвига предназначена для формулировки запросов,

учитывающих хронологическую упорядоченность данных.

Операция восстановления отсутствующих данных дополняет ХП-операнд всеми кортежами, которые могут быть получены с помощью интерполяции. В связи с вероятной громоздкостью результата данная операция используется лишь в связке с последующей выборкой.

На основе алгебры ХП построен язык манипулирования данными, включающий операторы добавления, удаления и извлечения данных, и обладающий рядом преимуществ: компактность - сокращение размеров запросов, использующих специализированные размерности времени и упорядоченность; декларативность — при агрегировании указывается, какую размерность необходимо получить, а не как ее надо получить; инвариантность к изменениям размерностей — при изменении размерностей времени нет необходимости изменять исходный текст запросов, использующих их.

В третьей главе приводятся алгоритмы выполнения операций разработанной модели данных. Вводится понятие преобразования меток времени из одной размерности в другую как процесса нахождения всех меток заданной размерности входящих в заданную метку или

пересекающихся с ней. Такое преобразование требуется для выполнения операции агрегирования по календарю, для представления меток времени по различным шкалам, сравнения меток времени и выполнения операций над календарями. Алгоритм преобразования строится по следующей схеме, о Исследуются свойства операторов описания размерностей времени. о Строятся алгоритмы преобразования меток времени из одной размерности в

другую для случая, когда одна размерность напрямую задана через другую. о Определяется отношение агрегирования на множестве размерностей

времени. Размерность х] агрегируется в размерность р (обозначается г\ < р), если для размерности vтакой, что v-> р и v-> rj, выполнено условие: V(r, р), 3(г„ rj) ~ { (rn, v),(za,v),...,(r,ki, v) }, / = l...k:

(r,p)~ U {(r,x,v),{jl2,v),...,ixlki,v)}. t=\.k

Исследуются свойства этого отношения, о Для общего случая (когда размерность р не задана через размерность ц и наоборот) показывается, что преобразование метки времени (г, р) к размерности rj можно производить по цепочке размерностей р Vi, Vi,..., v„, rj, если выполнено следующее условие:

р > v, > ^ В:... £ Vp-x > vp < Vp*\ < ... < v„ < 77.

Одной из наиболее сложных задач при программной реализации разработанной модели данных является эффективное выполнение поиска

данных с учетом интерполяции. В работе обосновывается неадекватность существующих индексных структур для решения данной задачи и предлагается новая индексная структура (1СВ-индекс).

Пусть XII хранит значения временного ряда (BP) V/(/,), i = \ ...п, и для восстановления значений параметра v(/), представленного этим BP, между отсчетами BP используется непрерывная интерполирующая функция v*(/), склеенная из функций v ,(i), каждая из которых задана на участке интерполяции |Л> 'ml, I = 1...И-1. Пусть В — дисковый блок, содержащий часть файла временного ряда. Пусть [tht^J, / = Л]...и2, - все участки интерполяции, на которых можно построить функции v'î (г), имея отсчеты BP, содержащиеся в данном блоке. Будем обозначать через Дпш и Вщ^ следующие значения:

ßmin = min (v*(0) и Втах = max (v*(f)). ICB-индекс состоит из 'е[/л,,/„2+1] / е , » 2+13

двух частей: основного и дополнительного индекса.

Дополнительный индекс (рисунок 2) строится следующим образом. Пусть Vmin и Vmax - минимальное и максимальное значение, которое может принимать параметр v(t). Разобьем отрезок [v^ v^] на К равных отрезков: [к), к'щ], / = 0...АТ—1. Каждому такому отрезку \k'i,k'^{\, идентифицируемому своей начальной точкой к'/, называемой ключом дополнительного индекса, поставим в соответствие список (в хронологическом порядке) таких дисковых блоков В, что

[k'b *Vl] £ (Дня» Дни]-

Основной индекс (рисунок 2) строится следующим образом. На отрезок [vmm, VbuJ наносятся значения Втй, и Вш,у для всех дисковых блоков, содержащих отсчеты BP. В результате этот отрезок разбивается на отрезки [к,,крЦ, j= 1.../Я-1, каждый из которых характеризуется тем, что все значения внутри него достигаются функцией v*(l) в одном и том же наборе блоков BP. Каждому такому отрезку ставится в соответствие последовательность блоков (в хронологическом порядке), в которых достигаются значения из этого отрезка. Для идентификации отрезка \kj, Л/н] используется его начальная точка kj, называемая ключом основного индекса. При этом из списка блоков, соответствующих ключу kj основного индекса, исключаются все блоки, соответствующие ключу к) дополнительного индекса, если Щ, fy+i] ç [k't, кVi]. Мы можем не указывать эти блоки в основном индексе по следующей причине. Сопоставление блока В ключу kj в основном индексе мы используем для обозначения того факта, что все значения из отрезка \kj, достигаются функцией v*(i) внутри блока В. Однако если блок В уже сопоставлен ключу к) дополнительного индекса, то это означает, что все значения из отрезка [£/, ¿Vi] достигаются функцией v*(i) внутри блока В, а поскольку [кр А,+1] ç [k'i, ¿Vi]> из этого можно сделать вывод, что все значения из отрезка [кр также достигаются внутри этого блока. Поэтому не требуется делать еще одну запись об этом факте в основном индексе.

Бл.6,7,8,9

Бл. 4,5,6,7, 8,9,10,11

Бл. 1,2,3,4, 12,13,14

Бл. 1,14

Бл 5,10 Бл.б Бл.7 Бл 8 Бл.9

9 Бл 5 Бл.

Бл.2,3,12 Бл.4 10 Бл.

6 Бл.2 Бл.З 11 Бл. 12

Бл. 5,10,11 Бл. 1 ---- Бл. 13 Бл. 14

3

Бл.2,3,12 Р ---- ----

Рисунок 2. Построение 1СВ-индекса

При построении дополнительного индекса используется параметр К, влияющий на общий объем 1СВ-индекса (рисунок 3).

Минимизация объема 1СВ-индекса рассматривается как задача численной оптимизации функции Бае{К) (функции объема индекса от параметра К) на отрезке

Р, ^тах-гтш)10р], где р -количество знаков после запятой, используемое при представлении значений индексируемого ВР.

Данная задача решается методом золотого сечения, модифицированным для функций целого аргумента.

3600

Рисунок 3. Зависимость объема 1СВ-индекса (в килобайтах) от параметра К для ВР активной мощности гидроагрегата Жигулевской ГЭС

Затем в работе рассматривается

организация ICB-индекса на диске,

алгоритмы вставки и выборки данных, оценивается их сложность. Показывается, что ICB-индекс занимает значительно меньший объем по сравнению с его существующим аналогом - IP-индексом, что подтверждается экспериментами.

В четвертой главе рассматривается система архивации параметров технологических процессов (САПТП), построенная на базе разработанной модели и алгоритмов. САПТП представляет собой программную надстройку над коммерческой СУБД Sybase. На вход САПТП из SCADA-систем поступает информация о значениях технологических параметров, предназначенных для архивации, в виде временных рядов (в рамках диссертационной работы был разработан интерфейс для получения данных из SCADA-системы WinCC). С помощью программного интерфейса СУБД Sybase эти временные ряды записываются в ХД, для них создаются ICB-индексы. Запросы к ХД могут формулироваться с использованием размерностей времени произвольной сложности, при их исполнении может учитываться интерполяция. Части

запросов, выходящие за рамки стандарта SQL/99, исполняет САПТП, после чего полученные промежуточные результаты вместе с оставшейся частью запросов передаются для исполнения в СУБД Sybase.

В работе анализируются практические результаты применения САПТП для построения хранилища данных Жигулевской ГЭС.

Во-первых, САПТП позволила сократить формулировку запросов, использующих специализированные размерности времени и хронологическую упорядоченность данных, в среднем более чем в 2 раза.

Во-вторых, использование ICB-индекса позволило сократить среднее время поиска данных с учетом интерполяции для 2180 временных рядов различной динамичности, состоящих из 2.5 миллионов отсчетов, в 1.4 - 2.7 раза (более подробные данные приведены в таблице 1). При этом объем ICB-индекса для всех проиндексированных ВР не более чем в 1.5 раза превышал объем, занимаемый индексируемым ВР, в то время как объем его аналога (ЕР-индекса) для этих ВР от 2 до 1000 раз превышал этот объем (что являлось недопустимым для Жигулевской ГЭС).

Группа параметров Кол-во ВРв группе Средний выигрыш по скорости поиска данных за счет использования ГСВ-индекса

Мин. по всем ВР группы Средний по всем ВР группы Макс, по всем ВР группы

Электрические 500 в 2.1 раза в 2.62 раза в 2.7 раза

Гидромеханические 440 в 2.1 раза в 2.58 раза в 2.7 раза

Температурные 1240 в 1.4 раза в 1.55 раза в 1.9 раза

Таблица 1. Ускорение поиска данных с учетом интерполяции за счет использования ICB-индекса (по сравнению с традиционными вторичными индексами) В заключении приводится обзор проделанной работы, основные положения

диссертации, практические результаты, и пути дальнейшего исследования.

В приложениях приводятся доказательства утверждений и копия акта

внедрения.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработана хронологическая модель данных, адекватная специфике ХД, содержащих хронологическую информацию, и позволяющая формулировать запросы, использующие интерполяцию, специализированные размерности времени и хронологическую упорядоченность данных.

2. Разработан новый метод описания размерностей времени, меток времени и множеств меток времени, на базе которого построен язык описания данных.

3. Для хронологической модели разработан ЯМД, обладающий рядом преимуществ перед реляционными языками запросов: компактность, декларативность, инвариантность к изменениям размерностей времени.

4. Разработаны алгоритмы преобразования меток времени к произвольным (описанным пользователем) размерностям, представления меток времени по различным шкалам, сравнения меток времени различных размерностей.

»235 8»

5. Разработан новый способ физической организации данных (1СВ-индекс), позволяющий эффективно выполнять поиск данных с учетом интерполяции. ICB-индекс превосходит традиционные вторичные индексы по времени выборки, а также имеет меньшее время обновления и занимает существенно меньший объем, чем его существующий аналог - IP-индекс.

6. На базе разработанной модели и методов была реализована система архивации параметров технологических процессов.

7. САПТП была использована для организации хранилища данных Жигулевской ГЭС. Ее применение позволило упростить формулировку ряда запросов и увеличить скорость выборки данных с учетом интерполяции.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

1. Сидоров А.А., Маслов Д.В. Хронологическая модель данных для промышленных информационных систем //Электронный журнал "Исследовано в России". — 2004. —

90 — С. 1008-1025. http://zhuraal.)e.relam.n]/articles/2004/090.pdf

2. Маслов Д.В. Модель баз данных для хранения и обработки упорядоченных данных в АСУТП и экономических приложениях //Промышленные АСУ и контроллеры. — 2003.—№12 — С . 42-46.

3. Maslov D.V. A New Data Model for Time Sequences //Local proceedings of the 7th East-European Conference on Advances in Databases and Information Systems ADBIS'2003 — Dresden, 2003, pp. 18-27.

4. Сидоров А.А., Маслов Д.В. Об индексировании баз данных, содержащих интервальные оценки функций //VI Межд. конф. по мягким вычислениям и измерениям "SCM-2003". Сб. докладов. Том 1. — Санкт-Петербург, 2003. — С. 310-313.

5. Маслов Д.В. Новая модель данных для хронологических последовательностей //Инф. -диагн. системы: Материалы V Межд. науч.-техн. конф. АВИА-2003. — К.: НАУ, 2003. — С. 14.69-14.72.

6. Маслов Д.В. Логическая модель баз данных для хранения и обработки хронологических последовательностей //Материалы XXX Юбилейной межд. конф. "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе" — Ялта, 2003. — С. 158-160.

7. Маслов Д.В. Хронологические модели данных //Сб. материалов III Межд. науч.-практ. конф. "Современные технологии документооборота в бизнесе, производстве и управлении". — Пенза, 2003. — С. 76-78.

8. Маслов Д.В. О логическом моделировании последовательных данных //Обозрение прикладной и промышленной математики, 2003, т. 10, вып. 1, "ГУ Всероссийский симпозиум по прикладной и промышленной математике. Тезисы докладов." — М.: ТВП, 2003. — С. 191-192.

9. Сидоров А.А, Маслов Д.В. Реляционно-темпоральная модель данных //Обозрение прикладной и промышленной математики, 2003, т. 10, вып. 3, "IV Всероссийский симпозиум по прикладной и промышленной математике. Тезисы докладов." — М.: ТВП, 2003. — С. 744-745.

10. Маслов Д.В. Об операторах для манипулирования последовательными данными //Новые информационные технологии: Сб. трудов VI Всероссийской науч.-техн. конф. Том 2. — М.: МГАПИ, 2003. — С. 137-142.

11. Маслов Д.В. SCADA WinCC как открытая система. Средство для ведения архивов РВ //Промышленные АСУ и контроллеры. — 2001. — №2 — С. 47-48.

Оглавление автор диссертации — кандидата технических наук Маслов, Дмитрий Владимирович

ВВЕДЕНИЕ

1. СПЕЦИФИКА ХРАНИЛИЩ ДАННЫХ, СОДЕРЖАЩИХ ХРОНОЛОГИЧЕСКУЮ ИНФОРМАЦИЮ. АНАЛИЗ ПРИМЕНИМОСТИ СУЩЕСТВУЮЩИХ МОДЕЛЕЙ ДАННЫХ

ДЛЯ НИХ

1.1. Обобщенная структура хранилища данных. Особенности хранилищ данных, содержащих хронологическую информацию

1.2. Реляционная модель данных

1.2.1. Структурные элементы модели

1.2.2. Реляционная алгебра

1.2.3. Преимущества и недостатки реляционной модели

1.3. Объектные модели данных

1.3.1. Объектно-ориентированная модель данных

1.3.2. Объектно-реляционная модель данных

1.4. Модели данных для временной информации

1.4.1. Специфика временной информации

1.4.1.1. Проблема представления времени

1.4.1.2. Манипулирование временными данными

1.4.1.3. Методы эффективного исполнения запросов к временным данным

1.4.2. Представление временной информации в реляционной модели данных

1.4.3. Хронологические последовательности как особый тип временной информации

1.4.3.1. Поддержка возможности восстановления отсутствующих данных

1.4.3.2. Поддержка различных размерностей времени

1.4.3.3. Поддержка запросов, учитывающих хронологическую упорядоченных данных

1.4.3.4. Применимость коммерческих СУБД для организации хранилищ данных, содержащих хронологические последовательности

Выводы

2. ХРОНОЛОГИЧЕСКАЯ МОДЕЛЬ ДАННЫХ

2.1. Структуры данных

2.1.1. Хронологическая последовательность

2.1.2. Размерность времени и метка времени

2.1.3. Сравнимость размерностей и сравнение меток времени

2.2. Принципы построения языка описания данных

2.2.1. Шкала времени и описание меток времени по шкале

2.2.2. Описание множеств меток времени одной размерности (календарей)

2.2.3. Описание размерностей времени

2.2.4. Описание структуры хранилища данных

2.3. Алгебра хронологических последовательностей

2.3.1. Аналоги реляционных операций

2.3.2. Дополнительные операции

2.4. Язык манипулирования данными

2.4.1. Синтаксис оператора извлечения данных

2.4.2. Преимущества разработанного языка манипулирования данными

Выводы

3. ПРИНЦИПЫ ФИЗИЧЕСКОЙ ОРГАНИЗАЦИИ ДАННЫХ И ЭФФЕКТИВНОГО ВЫПОЛНЕНИЯ ОПЕРАЦИЙ

МАНИПУЛИРОВАНИЯ ДАННЫМИ

3.1. Физическая организация данных для быстрого поиска информации с учетом интерполяции (1СВ-индекс)

3.1.1. Обоснование неадекватности традиционных вторичных индексов

3.1.2. Исследование IP-индекса и анализ его применимости

3.1.3. Построение 1СВ-индекса

3.1.4. Алгоритм и сложность вставки в ICB-индекс

3.1.5. Алгоритм и сложность выборки по 1СВ-индексу

3.2. Алгоритмы преобразования меток времени к заданным размерностям 159 3.2.1. Свойства операторов, исцользуемых для описания размерностей времени

3.2.2. Преобразование меток времени в случае, когда одна размерность напрямую задана через другую

3.2.3. Отношение агрегирования на множестве размерностей времени и его свойства

3.2.4. Преобразование меток времени в общем случае 168 Выводы

4. СИСТЕМА АРХИВАЦИИ ПАРАМЕТРОВ ТЕХНОЛОГИЧЕСКИХ

ПРОЦЕССОВ

4.1. Назначение системы и требования к ней

4.2. Архитектура и реализация системы

4.2.1. Ядро системы

4.2.2. Модуль настройки

4.3. Результаты практического применения системы на Жигулевской ГЭС (г. Жигулевск)

4.3.1. Сокращение размера запросов

4.3.2. Скорость выборки данных с учетом интерполяции с использованием ICB-индексов и объем, занимаемый индексами

Выводы

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Маслов, Дмитрий Владимирович

Актуальность темы диссертационной работы. Базы данных (БД) уже несколько десятилетий повсеместно используются на самых различных предприятиях. В настоящее время постоянно растет интерес к проблемам хранения в БД исторических данных, что вызвано необходимостью принятия решений на основе не только текущей информации, но и информации за предыдущие периоды работы предприятия [37]. Поэтому все большее распространение получают особые БД - так называемые хранилища данных (ХД). ХД - это "предметно-ориентированная, содержащая исторические данные, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений" [67]. Характерными особенностями ХД являются:

• интеграция всех видов данных о предприятии;

• хранение истории данных;

• агрегирование данных для представления в виде отчетов;

• большой объем данных: 50 - 500 Гб.

Для ряда предприятий (например, для промышленных и медицинских предприятий, для бирж, для научно-технических центров и т.д.), кроме хранения данных о предприятии в целом, характерны сбор и хранение измерительной и отчетной информации и протоколов различных событий (действия операторов, технологические и аварийные события и др). Эта информация хранится в виде хронологических последовательностей (ХП). Хранилища данных, содержащие ХП, имеют свою специфику.

Во-первых, для них необходима возможность восстановления отсутствующих данных (например, с помощью интерполяции); восстановленная информация должна учитываться в операциях манипулирования данными.

Во-вторых, метки времени различных ХП могут иметь различные специфические размерности (например, производственные размерности, такие как "рабочая смена" или "двухчасовка"). При этом зачастую возникает необходимость перехода от одной размерности к другой (например, для формирования сводок за различные отчетные периоды), а также выполнения операций над несколькими ХП в условиях, когда каждая из них имеет метки времени различных размерностей.

В-третьих, необходима возможность формулировки запросов, учитывающих хронологическую упорядоченность данных.

В настоящее время в практике построения хранилищ данных доминирует реляционная модель данных. Однако ни одна из перечисленных особенностей хранилищ данных, содержащих хронологические последовательности, не может быть полноценно учтена при ее использовании [32, 91, 108, 116, 119]. Безусловно, ХП представима в реляционной модели. Однако операторы реляционной модели предназначены лишь для манипулирования данными, явно присутствующими в БД, поэтому запрос, учитывающий данные, восстановимые с помощью интерполяции, сформулировать невозможно. Методы эффективного доступа, разработанные для реляционной модели, позволяют осуществлять поиск лишь среди явно хранящейся в БД информации, не учитывая интерполяцию. В реляционной модели отсутствует возможность описания пользовательских размерностей времени и логика их преобразования, и, как следствие, крайне затруднена формулировка запросов, требующих перехода из одной размерности времени в другую. И, наконец, запросы, учитывающие упорядоченность, невозможны в реляционной модели, основной структурный элемент которой - неупорядоченное множество кортежей.

В результате, попытки реализовать логику работы с хронологическими последовательностями на основе реляционной модели данных зачастую приводят к тому, что хранилище данных используется только для хранения информации, а большая часть логики манипулирования данными реализуется в прикладной программе [20, 107]. 'В результате стоимость прикладного программного обеспечения неоправданно повышается (примерами такого программного обеспечения могут служить специализированные промышленные системы, предназначенные для хранения и обработки хронологических последовательностей, такие как Industrial SQL Server [113], PI Data Storage [123] и др). Именно, поэтому на симпозиуме, посвященном обсуждению перспективных направлений исследований в области баз данных на ближайшие 10 лет, прошедшем в 1998 году в Асиломаре, одной из актуальных проблем была признана "поддержка логики приложений в среде базы данных" [3].

Следовательно, актуальной задачей является разработка модели данных, учитывающей специфику хранилищ данных, содержащих хронологическую информацию, а также языков и методов эффективного манипулирования для хронологической информации.

Краткий анализ существующих моделей данных и обоснование выбранного подхода к решению проблемы. В настоящее время альтернативой реляционной модели данных являются объектные (объектно-ориентированная и объектно-реляционная) модели данных (иерархическая и сетевая модели не рассматриваются в связи с тем, что они морально устарели и были полностью вытеснены реляционной моделью [9]). Однако применение этих моделей для построения хранилищ данных, содержащих хронологическую информацию, не решает проблемы учета их специфики, как минимум по двум причинам:

• объектные модели данных не являются моделями данных в полном смысле этого слова, а являются лишь способами разработки моделей данных, т.к. они не предоставляют структур данных и операций для манипулирования ими, а лишь описывают идеологию (инкапсуляция, наследование, полиморфизм [5]), согласно которой эти структуры данных и операции должны разрабатываться (в то время, как данная работа посвящена именно разработке структур данных для представления хронологических последовательностей и размерностей времени, операций для манипулирования ими, и методов эффективного исполнения этих операций);

• хранилищам данных свойственна интеграция реляционных данных и хронологических последовательностей, с возможностью использования данных разной природы в рамках одного запроса, что невозможно (или, как минимум, неудобно), если хронологические последовательности будут представлены в рамках объектной модели данных.

В связи с вышесказанным, отказ от реляционной модели был признан нецелесообразным, и было принято решение о разработке модели данных, предназначенной для хранилищ данных, содержащих хронологическую информацию, на основе реляционной модели.

Существует целый ряд научных работ, посвященных разработке моделей и методов доступа для исторических данных (см. библиографии [97, 100]). Данным вопросом занимались ученые К.Дж. Дейт, Р.Т. Снодграсс, Дж. Клиффорд, К.С. Дженсен, А. Сиджев, Н.А. Лоренцос и др., а также российские ученые Л.А. Калиниченко, Б.А. Новиков, М.Г. Манукян. Однако большинство исследований в этой области ограничивалось разработкой операций над историческими данными, основанных на операторах над интервалами и множествами интервалов времени, и методов исполнения таких операций. При этом оставались плохо проработанными проблемы, связанные с данными, организованными в виде хронологических последовательностей -формулировка и исполнение запросов, учитывающих данные, восстановимые с помощью интерполяции, а также запросов, использующих специфические размерности времени и хронологическую упорядоченность данных.

В то же время задача хранения и предварительной обработки хронологических последовательностей в базах данных признается актуальной для экономических приложений [14, 60, 119], автоматизированных систем управления технологическими процессами (АСУТП) [28, 48, 49, 114], автоматизированных систем научных исследований (АСНИ) [11, 86, 115] др. Поэтому существует большое число научных работ, в которых, хотя и не предлагаются решения всех проблем хранилищ данных, содержащих хронологическую информацию, но рассматриваются подходы к решению некоторых из них.

Так, проблема формулировки и эффективного исполнения запросов на выборку данных с учетом интерполяции рассматривалась в работах [7, 14, 17, 34, 45, 52, 64, 65, 70, 73, 74, 79, 92, 93], ей занимались ученые Дж. Клиффорд, JI. Лин, Т. Риш, М.Р. Когаловский, А.И. Гуляев и др. Однако лишь Л. Лин, Т. Риш в работах [73, 74] предлагают способ физической организации данных (IP-индекс), предназначенный для эффективного поиска данных с учетом интерполяции и исключающий - необходимость полного просмотра хронологической последовательности. Однако, как показывается в данной диссертационной работе, IP-индекс для многих реальных хронологических последовательностей имеет неадекватно большой объем, что делает его практически непригодным для ряда задач. Тем не менее, в диссертационной работе был принят подход, используемый при построении IP-индекса, на базе которого была разработана новая индексная структура, лишена описанного недостатка.

Целый ряд работ ученых К. Беттини, К.С. Ванга, С. Джажодии, К.Е. Дайрсона и др. посвящен проблеме описания специализированных размерностей времени в БД и использования этих размерностей при формулировке запросов [43, 44, 46, 62, 71, 81, 82, 102]. Однако средства описания размерностей времени, предлагаемые в перечисленных работах, ориентированы в основном на экономические приложения, и не позволяют описывать некоторые размерности времени (такие, как "смена"), свойственные промышленным предприятиям. Наиболее перспективной среди перечисленных работ, на наш взгляд является работа [82], основанная на строгой формализации понятия размерности и прелагающая набор алгебраических операций для создания новых размерностей времени на базе существующих. Подход к описанию размерностей времени, используемый в данной диссертационной работе, базируется на работе [82], устраняя присущие ей недостатки.

Проблема формулировки запросов, использующих хронологическую упорядоченность данных, оказалась наиболее подробно изученной из всех проблем манипулирования хронологическими данными. Она рассматривается в работах [14, 53, 59, 70, 88, 89, 92, 93, 94, 95, 118]; наибольший вклад внесли П. Сешадри и Р. Рамакришнан. В данной диссертационной работе анализируются преимущества и недостатки этих работ, и выбирается подход, наиболее перспективный с точки зрения решения проблем рассматриваемых хранилищ данных.

Таким образом, было принято решение строить модель данных для хранилищ данных, содержащих хронологические последовательности, взяв за основу реляционную модель, и используя наиболее перспективные из существующих подходов к описанию размерностей времени в БД и к формулировке и исполнению запросов, использующих интерполяцию и хронологическую упорядоченность данных, развивая эти подходы.

Цели и задачи исследования. Целью исследования является разработка модели данных, языков и методов манипулирования для хронологической информации в хранилищах данных.

Задачами исследования при этом являются:

1. Анализ существующих моделей данных и методов доступа к данным; оценка их применимости для хронологической информации.

2. Разработка структур данных и набора операций для манипулирования ими, позволяющих формулировать запросы, использующие интерполяцию, специализированные размерности времени и хронологическую упорядоченность.

3. Разработка принципов построения языка описания данных и языка манипулирования данными.

4. Разработка методов физической организации данных и эффективного выполнения операторов манипулирования данными.

5. Создание программного комплекса на основе разработанных модели и методов.

6. Анализ результатов применения разработанного программного комплекса для построения ХД реально действующего предприятия.

Структура и краткое содержание диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованных источников, справочно-сопроводительных материалов и приложений.

Заключение диссертация на тему "Хронологическая модель, языки и методы манипулирования информацией в хранилищах данных"

Выводы

1. САПТП является программной реализацией хронологической модели данных, использующей разработанные принципы физической организации данных и методы эффективного^ исполнения операций хронологической модели.

2. САПТП позволяет работать с хронологическими последовательностями в рамках хранилищ данных промышленных предприятий.

3. Результаты применения САПТП при построении хранилища данных Жигулевской ГЭС позволяют сделать выводы об эффективности использования разработанной модели для хранилищ данных, содержащих хронологическую информацию, с целью упрощения формулировки запросов к хронологическим последовательностям, а также об эффективности применения ICB-индекса для , быстрого поиска данных с учетом интерполяции.

ЗАКЛЮЧЕНИЕ

В диссертационной работе решена проблема формулировки и эффективного исполнения запросов к хронологическим последовательностям, содержащимся в хранилищах данных. В ходе работы были проанализированы существующие модели данных, была обоснована их непригодность для рассматриваемых хранилищ данных. Также были проанализированы существующие научные разработки в данной области, выявлены их недостатки, и определены наиболее перспективные из них для построения собственной модели. Была разработана новая модель данных, в рамках которой формализуются понятия размерности времени, метки времени и хронологической последовательности, изучаются их свойства. Были разработаны операции над хронологическими последовательностями, предназначенные для формулировки специфических видов запросов к ним. Для разработанной модели построены язык описания данных и язык манипулирования данными. Разработаны принципы физической организации данных и методы эффективного испрлнения запросов. На базе разработанных модели и методов была построена система архивации параметров технологических процессов, опробованная при построении хранилища данных реально действующего промышленного предприятия - Жигулевской ГЭС.

Среди возможных направлений дальнейшего исследования отметим следующие:

• подробное изучение свойств операций над хронологическими последовательностями, разработка на их основе методов оптимизации запросов на разработанном языке манипулирования данными;

• оптимизация разработанного ДСВ-индекса (например, применение неравномерного разбиения шкалы индексируемого параметра при построении дополнительного индекса и др).

Ниже перечислены основные результаты работы.

1. Разработана хронологическая модель данных, адекватная специфике ХД, содержащих хронологическую информацию, и позволяющая формулировать запросы, использующие интерполяцию, специализированные размерности времени и хронологическую упорядоченность данных.

2. Разработан новый метод описания размерностей времени, меток времени и множеств меток времени, на базе которого построен язык описания данных.

3. Для хронологической модели разработан язык манипулирования данными, обладающий рядом преимуществ перед реляционными языками запросов: компактность, декларативность, инвариантность к изменениям размерностей времени.

4. Разработаны алгоритмы преобразования меток времени к произвольным (описанным пользователем) размерностям, представления меток времени по различным шкалам, сравнения меток времени различных размерностей.

5. Разработан новый способ физической организации данных (ICB-индекс), позволяющий эффективно выполнять поиск данных с учетом интерполяции. ICB-индекс превосходит традиционные вторичные индексы по времени выборки, а также имеет меньшее время обновления и занимает существенно меньший объем, чем его существующий аналог — IP-индекс.

6. На базе разработанной модели и методов была реализована система архивации параметров технологических процессов.

7. САПТП была использована для организации хранилища данных Жигулевской ГЭС. Ее применение позволило упростить формулировку ряда запросов и увеличить скорость выборки данных с учетом интерполяции.

Библиография Маслов, Дмитрий Владимирович, диссертация по теме Теоретические основы информатики

1. Атре Ш. Структурный подход к организации баз данных.: Пер. с англ. — М.: Финансы и статистика, 1983.-— 320 с.

2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. — М.: Наука, 2000. — 622 с.

3. Бернштейн Ф., Броди М., Сери С. и др. Программа исследований в области баз данных на следующее десятилетие. //Открытые системы. — 1999. — №1. — С. 61-68.

4. Большой Российский энциклопедический словарь. — М.: Большая Российская энциклопедия, 2003. — 1888 с.

5. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++. — С.-П.: Бином, 2001. — 560 с.

6. Гарсиа-Молина Г., Ульман Дж.Д., Уидом Дж. Системы баз данных. Полный курс.: Пер. с англ. — М.: Издательский дом "Вильяме", 2003. — 1088 с.

7. Гуляев А.И. Временные ряды в динамических базах данных. — М.: Радио и связь, 1989. — 128 с.

8. Де Бор К. Практическое руководство по сплайнам. — М.: Радио и связь, 1985, — 304 с.

9. Дейт К.Дж. Введение в системы баз данных, 7-е издание: Пер. с англ. — М.: Издательский дом "Вильяме", 2001. — 1072 с.

10. Домбровская Г.Р., Новиков Б.А. Методы индексирования сложных объектов. //Управляющие системы и машины. — 1994. — №6 — С. 89-92.

11. ЖукВ.И., Малашинин И.И. Идентификация объектов в базах данных информационно-измерительных систем автоматизации физических экспериментов. //Прикладная информатика /Под ред. В.М. Савинкова. — Вып. 2. — М.: Финансы и статистика, 1982 — С. 29-48.

12. Калиниченко JI.A., Манукян М.Г. Языковые средства временно-ориентированной модели данных. //Программирование. — 1990. — №5 — С. 73-86.

13. Кириленко Н.А., Маслов Д.В. Подсистема архивации тегов SCADA-системы WinCC версии 6.0. //Промышленные АСУ и контроллеры. — 2004, — №6 — С. 38—41.

14. Когаловский М.Р. Расширение реляционной модели баз данных временных рядов. //Управляющие системы и машины. — 1994. — №6 — С. 24-30.

15. Когаловский М.Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. — С. 57-76.

16. Кузнецов С.Д. Объектно-ориентированные базы данных: основные концепции, организация и управление. Препринт доклада. //V Всесоюзная конференция "Системы баз данных и знаний". — Львов, 1991. — 29 с.

17. Ланкин О.В., Саенко И.Б. Алгоритм выполнения операции соединения произвольных дискретных временных рядов. //Международная конференция по мягким вычислениям и измерениям SCM-2003. Сборник докладов. Том 1. — Санкт-Петербург, 2003. — С. 306-309.

18. Мак-Кракен Д., ДорнУ. Численные методы и программирование на Фортране. — М.:Мир, 1977. — 584 с.

19. Манукян М.Г. Временная модель данных: Автореферат диссертации на соискание ученой степени кандидата физико-математических наук. — Москва: МГУ им. М.В. Ломоносова, 1990. — 15 с.

20. Марков Б.Л. Организация данных в системах мониторинга. //Высокопроизводительные вычислительные системы и микропроцессоры.

21. Сборник научных трудов ИМВС РАН — Москва, 2000.

22. Маслов Д.В. Некоторые вопросы функциональности и производительности WinCC версии 5.1 //Промышленные АСУ и контроллеры. — 2003. — №61. С. 45—46.

23. Маслов Д.В. Логическая модель баз данных для хранения и обработки хронологических последовательностей //Материалы XXX Юбилейной межд. конф. "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе" — Ялта, 2003. — С. 158-160.

24. Маслов Д.В. Модель баз данных для хранения и обработки упорядоченных данных в АСУТП и экономических приложениях //Промышленные АСУ и контроллеры. — 2003. — №12 — С. 42-46.

25. Маслов Д.В. Новая модель данных для хронологических последовательностей //Инф.-диагн. системы: Материалы V Межд. науч,-техн. конф. АВИА-2003. — К.: НАУ, 2003. — С. 14.69-14.72.

26. Маслов Д.В. Об операторах для манипулирования последовательными данными //Новые информационные технологии: Сб. трудов VI Всероссийской науч.-техн. конф. Том 2. — М.: МГАПИ, 2003. — С. 137— 142.

27. Маслов Д.В. О логическом моделировании последовательных данных //Обозрение прикладной и промышленной математики, 2003, т. 10, вып. 1, "IV Всероссийский симпозиум по прикладной и промышленной математике. Тезисы докладов." — М.: ТВП, 2003. — С. 191-192.

28. Маслов Д.В. Хронологические модели данных //Сб. материалов III Межд. науч.-практ. конф. "Современные технологии документооборота в бизнесе, производстве и управлении". — Пенза, 2003. — С. 76-78.

29. Маслов Д.В. SCADA WinCC как открытая система. Средство для ведения архивов РВ. //Промышленные АСУ и контроллеры. — 2001. — №2 — С. 47-48.

30. Новиков Б.А. Индексирование во временных базах данных. //Программирование. — 1995. — №2 — С. 31-36.

31. Ольховский Ю.Б., Новоселов О.Н., Мановцев А.П. Сжатие данных при телеизмерениях. Под ред. В.В. Чернова. — М.: Советское радио, 1971 — 304 с.

32. Оре О. Графы и их применение. — М.: Эдиториал УРСС, 2002 — 172 с.

33. Прохоров А. Использование объектно-реляционных СУБД для хранения и анализа временных рядов. //КомпьютерПресс. — 2001. — №6.

34. Прохоров С.А. Прикладной анализ неэквидистантных временных рядов. — Самара: Самарский государственный аэрокосмический университет, 2001.375 с.

35. Сидоров А.А., Маслов Д.В. Об индексировании баз данных, содержащих интервальные оценки функций //VI Межд. конф. по мягким вычислениям и измерениям "SCM-2003". Сб. докладов. Том 1. — Санкт-Петербург, 2003.1. С. 310-313.

36. Сидоров А.А., Маслов Д.В. Реляционно-темпоральная модель данных //Обозрение прикладной и промышленной математики, 2003, т. 10, вып. 3, "IV Всероссийский симпозиум по прикладной и промышленной математике. Тезисы докладов." — М.: ТВП, 2003. — С. 744-745.

37. Смирнов В. Системы хранения данных тенденции, решения, перспективы. //Корпоративные системы. — 2002. — №3 — С. 24-29.

38. Федечкин С. Хранилище данных: вопросы и ответы. //PCWeek. — 2003. — №31.

39. Шопин А.Г. Использование реляционных баз данных для хранения информации мягкого реального времени. //Второй всероссийский симпозиум по прикладной и промышленной математике. — Самара, 2001.

40. Шопин А.Г. Оценка достоверности устаревающих значений в диспетчерских системах: Диссертация на соискание ученой степени кандидата технических наук. — Самара: Самарский муниципальный университет Наяновой, 2003. — 148 с.

41. Atkinson М., Bancilhon F., DeWitt D., Dittrich K., Zdonik S. The Object-Oriented Database System Manifesto. — Proceedings of the 1st International Conference on Deductive and Object-Oriented Databases, 1989, pp. 40-57.

42. Benthem J.v. The Logic of Time (2nd edition). — Kluwer Academic Publishers, 1991.

43. Bettini C., Dyreson C.E., Evans W.S., Snodgrass R.T., Wang X.S. A Glossary of Time Granularity Concepts. — Temporal Databases: Research and Practice, Eds. Etzion O., Jajodia S., Sripada S., Springer-Verlag, 1998.

44. Bettini C., De Sibi R. Symbolic Representation of User-defined Time Granularities. — Annals of Mathematics and Artificial Intelligence, 2000, Vol. 30, No. 1—4, pp. 53-92.

45. Bettini C., Wang X.S., Bertino E., Jajodia S. Semantic Assumptions and Query Evaluation in Temporal Databases. — Proceedings of ACM SIGMOD International Conference on Management of Data, 1995, pp. 257-268.

46. Bettini C., Wang X.S., Jajodia S. A General Framework for Time Granularity and Its Application to Temporal Reasoning. — Annals of Mathematics and Artificial Intelligence, 1998, Vol. 22, No. 1-2, pp. 29-58.

47. Bohlen M.H., Busatto R., Jensen C.S. Point- Versus Interval-Based Temporal Data Models. — Proceedings of the 14th International Conference on Data Engineering, 1998, pp. 192-200.

48. Bonnet P., Gehrke J., Seshadri P. Towards Sensor Database Systems. — Proceedings of the Second International Conference on Mobile Data Management, 2001, pp. 3-14.

49. Bonnet P., Seshadri P. Device Database Systems. — Proceedings of the 16th International Conference on Data Engineering, 2000, p. 194.

50. Cartel R.G.G. et al. The Object Data Standard: ODMG 3.0. — Morgan Kauffmann Publishers, 2000, 300 pages.

51. Clifford J., CrokerA., Tuzhilin A. On Completeness of Historical Relational Query Languages. — ACM Transactions on Database Systems, 1994, Vol. 19, No. l,pp. 64-116.

52. Clifford J., Warren D.S. Formal Semantics for Time in Databases. — ACM Transactions on Database Systems, 1983, Vol. 8 , No. 2, pp. 214-254.

53. Chandra R., Segev A. Managing Temporal Financial Data in an Extensible Database. — Proceedings of the 19th Conference on Very Large Databases, 1993, pp. 302-313.

54. Codd E.F. A Relational Model of Data for Large Shared Data Banks. — Communications of the ACM, 1970, Vol. 13, No. 6, pp. 377-387.

55. Codd E.F. Derivability, Redundancy, and Consistency of Relations Stored in Large Data Banks. — IBM Research Report RJ599, 1969, No. 19.

56. Darwen H., Date C.J. The Third Manifesto. — SIGMOD Record, 1995, Vol. 24, No. l,pp. 39-49.

57. Date C.J., Darwen H., Lorentzos N. Temporal Data & the Relational Model (1st edition). — Morgan Kaufmann, 2002, 480 pages.

58. Date C.J., Darwen H. Foundation for Future Database Systems: The Third Manifesto (2nd edition). — Addison-Wesley, 2000, 576 pages.

59. DreyerW., Dittrich A.K., Schmidt D. An Object-Oriented Data Model for a Time Series Management Systenl. — Proceedings of the 7th International Working Conference on Scientific and Statistical Database Management, 1994, pp. 186-195.

60. Dreyer W., Dittrich A.K., Schmidt D. Research Perspectives for Time Series Management Systems. — ACM SIGMOD Record, 1994, Vol. 23, No. 1, pp. 1015.

61. DreyerW., Dittrich A.K., Schmidt D. Using the CALANDA Time Series Management System. — Proceedings of ACM SIGMOD International Conference on Management of Data, 1995, p. 489.

62. DyresonC.E., Evans W.S., LinH., Snodgrass R.T. Efficiently Supported Temporal Granularities. — IEEE Transactions on Knowledge and Data Engineering, 2000, Vol. 12, No. 4, pp. 568-587.

63. Faloutsos С., Ranganathan M., Manolopoulos Y. Fast Subsequence Matching in Time-Series Databases. — Proceedings of ACM SIGMOD International Conference on Management of Data, 1994, pp. 419-429.

64. Grumbach S., Rigaux P., Segoufin L. Manipulating Interpolated Data is Easier than You Thought. — Proceedings of 26th International Conference on Very Large Data Bases, 2000, pp. 156-165.

65. Grumbach S., Rigaux P., Segoufin L. Modeling and Querying Interpolated Spatial Data. — Proceedings of 15th "Journees Bases de Donnees Avancees" (BDA), 1999, pp. 469-487.

66. IBM Informix TimeSeries DataBlade Module. User's Guide. Version 4.0 — Informix Software, October 2001.

67. Inmon W.H. Building The Data Warehouse. — New York, N.Y.: Wiley, 1992.

68. ISO/IEC International Standard 9075-2:1999. Database Language SQL — Part 2: Foundation (SQL/Foundation), September 1999.

69. Klein H.K., Hirschheim R.A. A Comparative Framework of Data Modelling Paradigms and Approaches — The Computer Journal, 1987, Vol. 30, No. 1, pp. 8-15.

70. Kogalovsky M.R. Time Series Relation Data Model. — Proceedings of the First International Workshop on Advances in Databases and Information Systems, 1994, pp. 235-242.

71. LebanB., McDonald D., ForsterD. A Representation for Collection of Temporal Intervals. — Proceedings of the AAAI-1986, 5th International Conference on Artificial Intelligence, 1986, pp. 367-371.

72. Lee J.Y., Elmasri R., Won J. Specification of Calendars and Time Series for Temporal Databases. — Proceedings of ER'96, 15th International Conference on Conceptual Modeling, 1996, pp. 341-356.

73. LinL., RischT., Skold M., Badal D. Indexing Values of Time Sequences — Proceedings of the 5th International Conference on Information and Knowledge Management, 1996, pp. 223-232.

74. Lin L., Risch T. Quering Continuous Time Sequences — Proceedings of the 24th International Conference on Very Large Databases, 1998, pp. 170-181.

75. Lorentzos N.A., Mitsopoulos Y.G. SQL Extension for Interval Data — IEEE Transactions on Knowledge and Data Engineering, 1997, Vol. 9, No. 3, pp. 480499.

76. Maslov D.V. A New Data Model for Time Sequences //Local proceedings of the 7th East-European Conference on Advances in Databases and Information Systems ADBIS'2003 — Dresden, 2003, pp. 18-27.

77. McKenzie E., Snodgrass R. Schema Evolution and the Relational Algebra. — Information Systems, 1990, Vol. 15, No. 2, pp. 207-232.

78. Miled Z.B., Li H., Bukhres O., Bern M., Jones R., Oppelt R. Data Compression in a Pharmaceutical Drug Candidate Database. — Informatica, 2003, Vol. 27, No. 2, pp. 213-224.

79. NeugebauerL. Optimization and Evaluation of Database Queries Including Embedded Interpolation Procedures. — Proceedings of ACM SIGMOD International Conference on Management of Data, 1991, pp. 118-127.

80. Ng W.K., Ravishankar C.V. Block-Oriented Compression Techniques for Large Statistical Databases. — Knowledge and Data Engineering, 1997, Vol. 9, No. 2, pp. 314-328.

81. Niezette M., Stevenne J. An Efficient Symbolic Representation of Periodic Time. — Proceedings of the International Conference on Information and Knowledge Management, Lecture Notes in Computer Science, 1993, Vol. 752, pp. 161-168.

82. Ning P., Wang X.S., Jajodia S. An Algebraic Representation of Calendars — Annals of Mathematics and Artificial Intelligence, 2002, Vol. 36, No. 1-2, pp. 5-38.

83. Oracle8 Time Series Cartridge. User's Guide. Release 8.0.4 — Oracle Corporation, November, 1997, Part No. A57501-01.

84. Ozsoyoglu G., Snodgrass R.T. Temporal and Real-Time Databases: A Survey — Knowledge and Data Engineering, 1995, Vol. 7, No. 4, pp. 513-532.

85. Perng C.-S., WangH., Zhang S.R., Parker D.S. Landmarks: A New Model for Similarity-Based Pattern Querying in Time Series Databases. — Proceedings of the 16th International Confirence on Data Engineering, 2000, pp. 33-42.

86. Peryt M., Momal F. Generic Repository and Search Engine for LHC Equipment Test Data. — Proceedings of the 7th International conference on accelerator and large experimental physics control systems, 1999, pp. 493-496.

87. Pratt K.B., Fink E. Search for Patterns in Compressed Time Series. — International Journal of Image and Graphics, 2002, Vol. 2, No. 1, pp. 89-106.

88. Ramakrishnan R., Donjerkovic D., Ranganathan A., Beyer K.S., Krishnaprasad M. SRQL: Sorted Relational Query Language. — Proceedings of the 10th International Conference on Scientific and Statistical Database Management, 1998, pp. 84-95.

89. Richardson J. Supporting Lists in a Data Model (A Timely Approach). — Proceedings of the 18th International Conference on Very Large Databases,1992, pp. 127-138.

90. RothM.A., van Horn S.J. Database compression. — ACM SIGMOD Record,1993, Vol. 22, No. 3,pp. 31-39.

91. Schmidt D., Dittrich K.A., Dreyer W., Marti R. Time Series, a Neglected Issue in Temporal Database Research? — Proceedings of the International Workshop on Temporal Databases, 1995, pp. 214-232.

92. Segev A., Shoshani A. A Temporal Data Model Based on Time Sequences. — Temporal Databases Theory, Design and Implementation, Eds. Tansel A.U. et al., The Benjamin/Cummings Publishing Company, 1993, pp. 248-269.

93. Segev A., Shoshani A. Logical Modeling of Temporal Data. — Proceedings of ACM SIGMOD International Conference on Management of Data, 1987, pp. 454-466.

94. Seshadri P. Management of Sequence Data. — Ph.D. Thesis, University of Wisconsin, Computer Science Department, 1996.

95. Seshadri P., LivnyM., Ramakrishnan R. The Design and Implementation of a Sequence Database System. — Proceedings of the 22th International Conference on Very Large Databases, 1996, pp. 99-110.

96. Shasha D. Tuning Time Series Queries in Finance: Case Studies and Recommendations. — Data Engineering Bulletin, 1999, Vol. 22, No. 2, pp. 4046.

97. Soo M.D. Bibliography on Temporal Databases. — ACM SIGMOD Record, 1991, Vol. 20, No. 1, pp. 14-24.

98. Stonebraker M., Rowe L.A., Lindsay В., Gray J., Carey M., Brodie M., Bernstein P. Third-Generation Data Base System Manifesto. — ACM SIGMOD Record, 1990, Vol. 19, No. 3, pp. 31-44.

99. Tansel A.U. et al. (Eds.) Temporal Databases Theory, Design and Implementation (1st edition). — Addison-Wesley, 1993, 656 pages.

100. Tsotras V.J., Kumar A. Temporal database bibliography update. — ACM SIGMOD Record, 1996, Vol. 25, No. 1, pp. 41-51.

101. Tuzhilin A., Clifford J. A Temporal Relational Algebra as Basis for Temporal Relational Completeness. — Proceedings of the 16th International Conference on Very Large Databases, 1990, pp, 13-23.

102. Wang X.S., Bettini C., BrodskyA., Jajodia S. Logical Design for Temporal Databases with Multiple Granularities. — ACM Transactions on Database Systems, 1997, Vol. 22, No. 2, pp. 115-170.

103. Wolski A., KuhaJ., LuukkanenT., Pesonen A. Design of RapidBase An Active Measurement Database System. — Proceedings of International Database Engineering and Applications Symposium, 2000, pp. 75-82.

104. Zhang D., Tsotras V J. Index Based Processing of Semi-Restrictive Temporal Joins. — Proceedings of 9th International Symposium on Temporal Representation and Reasoning (TIME'02), 2002, pp. 70-77.

105. Zhang D., Tsotras V.J., SeegerB. Efficient Temporal Join Processing Using Indices. — Proceedings of 18th International Conference on Data Engineering, 2002, pp. 103-116.1. Электронные источники

106. Кузнецов С.Д. Три манифеста баз данных: ретроспектива и перспективы. <http://www.citforum.ru/database/articles/manifests/>

107. Марков Б.Л. Проектирование систем регистрации и анализа данных. <http://www.citforum.ru/database/articles/regdata.shtml>

108. Прохоров А. Временной ряд как объект хранения в СУБД. <http://www.citforum.ru/seminars/cbd2001/day25informix.shtml>

109. Сидоров А.А., Маслов Д.В. Хронологическая модель данных для промышленных информационных систем. //Электронный журнал "Исследовано в России". — 2004. — 90 — С. 1008-1025. <http://zhurnal.ape.relarn.ru/articles/2004/090.pdf>

110. DB2 Extenders DB2 Extender Business Partners - IBM Software. <http://www-306.ibm.com/software/data/db2/extenders/partners.html>

111. Choosing a Good Oracle Block Size. <http://www.sap-img.com/oracle-database/choosing-a-good-oracle-block-size.htm>

112. IndustrialSQL Server 8.0. <http://www.wonderware.com/products/historian/insql/>

113. Madden S., Franklin M.J. Fjording the stream: An architecture for queries over streaming sensor data.http://citeseer.nj .nec.com/madden01 fjording.html>

114. Peryt M. LHC Data Archiver Background study and problem statement. June 1999.http://wwwlhc.cern.ch/RPTS/ArchiverProjectNote.PDF>

115. Ramakrishnan R., Cheng M., LivnyM., Seshadri P. What's Next? Sequence Queries.http://citeseer.nj.nec.com/34060.html>

116. Scored-Through Values in the Tag Logging Table Control. <http://www4.ad.siemens.de/WW/news/en/17614082>

117. Seshadri P. SEQ: A Model for Sequence Databases, 1995. <http://citeseer.nj.nec.com/2302.html>

118. Shasha D. Time Series in Finance: the array database approach. <http://www.cs.nyu.edu/cs/faculty/shasha/papers/jagtalk.html>

119. SIMATIC WinCC Version 6. Process visualization and platform for IT & Business Integration.http://www.ad.siemens.de/hmi/html76/products/software/wincc/index.htm>

120. Sybase SQL Anywhere Studio 8.0. <www.interface.ru/sybase/sysql.htm>

121. The Data Warehousing Information Center. <http://www.dwinfocenter.org>

122. The PI System. <http://www.osisoft.com/5267.aspx>

123. ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ СОКРАЩЕНИЙ1. АО акционерное общество

124. АСНИ автоматизированная система научных исследований

125. АСУ автоматизированная система управления

126. АСУТП АСУ технологическим процессом

127. АЦП аналогово-цифровой преобразователь1. БД база данных

128. ВГ вспомогательный генератор1. BP временной ряд1. ГА гидроагрегат1. ГГ главный генератор1. ГЭС гидоэлектростанция

129. МНУ маслонапорная установка

130. ПЛК программируемый логический контроллер

131. ПО программное обеспечение

132. САПТП система архивации параметров технологических процессов

133. СУБД система управления базами данных

134. ТПП территориальное производственное предприятие1. ТЭЦ теплоэлектроцентраль

135. УПН установка подготовки нефт1. ХД хранилище данных

136. ХП хронологическая последовательность

137. ЯМД язык манипулирования данными

138. API Application Programming Interface (программный интерфейс