Специализированные базы данных для статистической обработки информации

Червенчук, Игорь Владимирович

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Специализированные базы данных для статистической обработки информации

кандидата технических наук: Червенчук, Игорь Владимирович
город: Омск
год: 2000
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Специализированные базы данных для статистической обработки информации»

Автореферат диссертации по теме "Специализированные базы данных для статистической обработки информации"

На правах рукописи

ВРВ од

ЧЕРВЕНЧУК ИГОРЬ ВЛАДИМИРОВИЧ

СПЕЦИАЛГОИРОВАННЫЕ БАЗЫ ДАННЫХ ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИИНФОРМАЦИИ

Специальность — 05.13.11 "Математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей"

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск-2000

Работа выполнена на кафедре "Информатика и вычислительная техника" Омского государственного технического университета

Научный руководитель - доктор технических наук,

профессор В .И. Потапов

Официальные оппоненты - доктор технических наук,

профессор Ф. П. Тарасенко

кандидат технических наук, доцент В. А. Воловоденко

Ведущая организация: Научно-производственное объединение

«Автоматика», г.Омск.

Защита состоится "20" декабря 2000 г. в 15 часов на заседании диссертационного совета Д063.80.03 при Томском политехническом университете по адресу: 634034, г. Томск,ул. Советская, 84, ауд. 214.

С диссертацией можно ознакомиться в научной библиотеке Томского политехнического университета.

Автореферат разослан " У." с', ч> 2000г.

Ученый секретарь диссертационного совета

К.Т.Н.

Чудинов И.Л.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Задача статистической обработки структурированных объектов, описываемых системой взаимосвязанных показателей, представляет сложную комплексную задачу.

В рамках задачи построения системы статистической обработки, ориентированной на структурированную информацию, основными проблемами являются: во-первых создание модели, отражающей многоуровневую структуру исходных данных, во-вторых адаптация исходных данных для последующего применения процедур статистического анализа, в-третьих наличие достаточного набора процедур и функций статистического анализа. При всем этом необходимо обеспечить удобства пользователю и простоту диалога с ЭВМ, возможность специалисту в области медицины, экономики, экологии и любому неподготовленному пользователю легко общаться с системой.

Предлагаемая в данной работе специализированная система для статистической обработки информации (ССОИ) решает проблемы эффективной статистической обработки сложноструктурированных данных большого объема, выражаемых системой числовых характеристик. Разработанная в рамках данной работы система является результатом взаимодействия двух направлений информатики: систем управления базами данных и пакетов статистической обработки информации. Такой подход позволяет заметно расширить возможности и повысить эффективность статистической обработки.

Актуальность работы. Тенденция к увеличению объемов и усложнению структуры информации, которую необходимо подвергнуть статистическому анализу, налагает новые требования на создание систем статистической обработки. На первый план выходят проблемы хранения исходных данных и ускоренного доступа к этим данным, обеспечения удобства работы для пользователя. Основываясь на анализе современного состояния проблемы разработки эффективных систем статистической обработки информации можно сделать вывод о том, что актуальность данной темы определяется:

- отсутствием эффективной семантической модели, ориентированной на данные статистической природы, позволяющей неподготовленному пользователю легко представить данные широкого класса предметных областей;

- недостаточной проработанностью методов оценки эффективности иерархического представлеши информации, представляющей семантические описания объектов сложной структуры;

- отсутствием до конца формализованного аппарата, позволяющего манипулировать «сырыми» исходными данными с учетом временной привязки, производить их предварительную обработку и выполнять статистическую обработку;

- отсутствием общей математической модели, позволяющей в полной мере отразить основные особенности статистических данных: структурность, однородность, зависимость от времени, и позволяющей реализовать на ее основе эффективную систему статистической обработки с удобным интерфейсом.

При создании систем статистической обработки на первый план выходят проблемы хранения данных и ускоренного доступа к данным. При этом иерархическое структурирование исходной информации является наиболее перспективным направлением решения этих проблем. Однако, применяемые в настоящее время различные подходы к такому структурированию нуждаются в теоретическом обосновании с применением фундаментальных математических исследований.

Цель и задачи исследования. Целью диссертационной работы является повышение эффективности создания специализированных систем для статистической обработки информации за счет методов иерархического структурирования больших объемов статистических данных и обоснования общих принципов и новых методов построения систем баз данных, предназначенных для хранения статистической информации.

Основными задачами являются:

-всесторонний анализ возможностей, принятой за основу концепции;

- нахождение численных характеристик эффективности структурирования, позволяющих постановку оптимизационных задач;

-выявление наиболее приемлемого набора стандартных структур данных, образующих ядро системы статистической обработки;

- разработка языка с большими возможностями по манипулированию данными и статистической обработке информации, позволяющего создать удобный интерфейс пользователю;

—разработка методов реализации эффективной системы статистической обработки на базе принятой концепции.

Методы исследования. Разработка специализированной базы данных для ССОИ базируется на использовании теории графов, теории множеств, функционального анализа, теории программирования. При разработке методов и процедур статистической обработки используется аппарат математической статистики.

Научная новизна. В отличие от информационной алгебры здесь по иному вводится система координат. Она основана на понятии информационно-поискового пространства (ИП-пространства), имеющего три измерения, и позволяющего адекватно описывать многоуровневые информационные системы в терминах объектов и показателей. Помимо точек в этом пространстве существуют переменные, выборки, временные ряды, совокупности переменных, древовидные структуры значений и т. д. Введена метрика ИП-пространства и доказаны основные его свойства.

Все три измерения ИП-пространства (дерево объектов, дерево показателей,

даты) суть корневые деревья, но с различными свойствами и характеристиками. На основании этих характеристик получены макрохарактеристики всей информационной системы, которые предложены в качестве количественных оценок ее быстродействия, компактности и сложности.

Дана оценка сложности иерархического структурирования показателей, предложен критерий оптимальности для структур показателей, выделен класс оптимальных структур.

Дана новая трактовка выборки, введены операции над выборками, построена алгебра выборок, определены основные операции, что послужило основой создания своеобразного языка манипулирования данными.

Предложены и использованы новые научные идеи, позволяющие заполнить пропуски в исходной информации наиболее вероятными значениями. Введены понятия полного и квазиполного ИП-пространства.

Практическая ценность работы. На базе предложенной концепции и разработанных в диссертации принципах структурирования создано математическое обеспечение интерфейса, позволяющее широкому кругу пользователей осуществлять на компьютере иерархическое структурирование больших объектов информации и эффективно эксплуатировать получаемую при этом специализированную базу данных. На базе предложенных числовых характеристик выработаны рекомендации по структурированию системы показателей.

Разработанные математическая модель и принципы организации позволили создать эффективную систему статистической обработки, позволяющую специалисту в предметной области производить статистический анализ большого объема исходной информации, имеющей многоуровневую структуру. Предоставляемые пользователю гибкие средства манипулирования данными, формирования запросов, автоматическое сопоставление данных для статистического анализа, настройка режимов работы, дружественный интерфейс вызова статистических процедур и средств визуализации данных позволяют пользователю производить статистическую обработку легко и эффективно.

Основные положения, выносимые на защиту:

1. Предлагаемая концепция моделирования иерархических систем на базе ИП-пространства, дерева объектов и дерева показателей.

2. Разработанная математическая модель представления данных, построенная на основе ИП-пространства.

3. Предложенный аппарат числовых характеристик, позволяющий оценить компактность и быстродействие иерархических структур и систем, сформулировать и решить задачи оптимизации.

4. Разработанная логическая модель исходных данных ССОИ, построенная на основе реляционной платформы.

5. Предлагаемый математический аппарат над выборками, позволяющий построить на его основе мощный и удобный язык манипулирования данными.

6. Методы организации системы статистического анализа, основанные на применении БСХ, множественных индексов позволяющие повысить эффективность системы статистического анализа в условиях большого объема структурированной информации.

7. Методы заполнения пропусков в исходной матрице данных с использованием распределения главных компонент.

Внедрения. Имеются акты о внедрении результатов диссертационной работы в научно-практическую деятельность Госкомэкологии Омской области для статистического анализа экологических данных и в научно-исследовательскую деятельность и учебный процесс на кафедре "Эпидемиологии" Омской государственной медицинской академии для проведения ретроспективного и оперативного эпидемиологического анализа с использованием статистических методов.

Апробации работы. Основные результаты работы докладывались и обсуждались на: всероссийской научной конференции студентов и аспирантов "Новые информационные технологии. Информационное, программное и аппаратное обеспечение" (Таганрог, 1995); международной научно-технической конференции "Динамика систем, механизмов, машин" (Омск, 1995); молодежной научной конференции "XXI Гагаринские чтения" (МГАТУ, М., 1996); международном научном симпозиуме "Природа и человек: взаимодействие и безопасность жизнедеятельности" проходившего в рамках международного конгресса студентов, аспирантов, молодых ученых "Молодежь и наука - третье тысячелетие" ( Таганрог: ТРТУ, 1996); семинаре "Теоретико-вероятностные и статистические методы отдела вероятностных моделей ИИТПМ СО РАН и кафедры математического анализа ОмГУ ( 25 февраля 1997 г., Омск); XXXV Международной студенческой конференции "Студент и научно-технический прогресс" (Новосибирск, 1997); II международной научно-технической конференции "Динамика систем, механизмов, машин" (Омск, 1997); региональной научно-методической конференции «Новые технологии в интенсификации учебного процесса (Омск: ОГМА, 1998). Диссертация в целом докладывалась в Омском государственном техническом университете (1998 г.).

Публикации. По теме диссертационной работы опубликовано 9 работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 100 наименований, двух актов внедрения, приложений с текстами программ и примеров работы системы. Работа содержит 228 страниц печатного текста, в том числе 191 страницу основного текста,

работа содержит 27 иллюстраций.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулирована ее цель и основные положения, выносимые на защиту, показывается научная новизна и

практическая значимость результатов.

Предлагается новая концептуальная модель, которая отражает присущую природе статистической информации систему связей: «объект-объект», «объект-свойство» и «свойство-свойство». Для этого вводятся абстрактные понятия: объект, показатель (характеристика объекта), дата, значение показателя. Даются базовые определения:

Определение 1. Специализированной базой данных для статистической обработки информации будем называть базу, которая задает следующее соответствие

Ч = (ХхУхВ,г,<}>, (1)

где Хх Ух Э -область отправления соответствия,^, Х-множество показателей, У- множество объектов, О- множество моментов времени, в которые определялись значения показателей;

Ъ- область прибытия соответствия q (множество значений показателей);

(ЗсХхУхОх2 - закон соответствия q, т. е. это множество четверок показатель, объект, дата, значение>, определяющих содержание базы данных. Данная база содержит исходную статистическую информацию, содержащую первичные данные, которые впоследствии можно подвергнуть статистической обработке.

Определение 2. Область отправления соответствия (1), т. е. множество Хх Ух О, будем называть информационно - поисковым пространством баз данных или ИП-пространством (I).

В предложенной модели объекты и показатели имеют иерархическую структуру.

Математическая модель иерархической системы - это корневое дерево (прадерево) вида

Т = (Р,У>, V с Р2 (2)

Определение 3. Вершину прадерева Т будем называть описателем, а путь от корня для любой вершины полным описанием этой вершины.

Семантику показателей из множества X можно представить в виде прадерева Т, каждая висячая вершина которого будет иметь полное описание (смысловое определение) сущности какого-либо показателя из X, т.е. X с Р.

Определение 4. Деревом показателей будем называть прадерево

Тх=<Рх.^>, УхсРх2 (3)

вершины которого (элементы подмножества Р ) суть описатели или, что то же, пункты иерархического меню, обеспечивающего идентификацию любого показателя из множества X; дуги (элементы множества Ух) задают ориентированные маршруты от корня до висячей вершины прадерева (или его ветви); причем полное описание каждой из висячих вершин задает семантику какого-либо показателя.

Определение 5. Деревом объектов будем называть прадерево

Ту=(У,Уу>, Уу СУ2, (4)

вершины которого (элементы из У) представлены объектами системы, а дуги -(элементы из Уу ), имеющие началом объекты ¡-го уровня иерархии, имеют своими концами объекты (¡+1)-го уровня, которые являются составными частями данного объекта ¡-го уровня.

Таким образом, предлагается новая концептуальная модель представления данных на основе введенных понятий дерева объектов, дерева показателей, ИП-пространства, позволяющая обеспечить семантическое описание предметной области и создать удобный интерфейс доступа к данным. Здесь иерархическая структура является как математической моделью (дерево) так и средством внешнего представления информации (система иерархических меню), переход от одного к другому тривиален. Далее производится постановка теоретических задач на всестороннее исследование предложенной модели, конкретизируются задачи реализации некоторой системы статистической обработки на базе предложенной модели представления данных. В данной главе определяется концептуальная и математическая модель ССОИ.

Определение 6. Дерево объектов будем называть абсолютно полным, если множество потомков любой его внутренней вершины и корня содержит в себе совокупность составных частей, из которых состоит объект, определяемый данной вершиной.

В случае абсолютно полного дерева объектов допустима операция обобщения, позволяющая по данным показателя всех дочерних объектов находить значение этого показателя для объекта - родителя. В простейшем случае обобщение сводится к суммированию.

Определение 7. Показатель х е X будем называть всюду определенным для некоторого фиксированного момента с! е О, если для любого объекта у е У его значение либо задано, либо может быть вычислено с помощью операции обобщения.

Доказано, что для того, чтобы показатель х е X был всюду определен для некоторого фиксированного момента с1, достаточно задать его значения в момент с! только для тех объектов, которые являются висячими вершинами абсолютно полного дерева объектов.

Определяются понятия абсолютно полного ИП-простанства (в любой его точке<х,у,с!) е I имеется значение ъ&Ъ либо это значение определяется с помощью операций обобщения) и квазиполного ИП-пространства (в любой его точке (х, у, (1) е I имеется значение г е Ъ либо это значение определяется с помощью операций восстановления и обобщения), где под восстановлением подразумевается восстановление пропущенных данных наиболее вероятными значениями.

Доказано, что специализированные базы данных задают всюду определенную функцию от трех аргументов тогда и только тогда, когда ее ИП-пространство является квазиполным. Доказательство приводится в диссертации.

Из ИП-пространства можно выделить упорядоченное по времени множество значений г„22,...г„ (для всех моментов времени) показателя х на объекте у. Данную совокупность значений будем называть выборкой показателя х для объекта у.

Квазиполное ИП-пространство специализированных баз данных задает однозначное отображение

ХхУ-»^0-1, (5)

где О - множество дат для всех известных значений показателя х на объекте у

ху

(вся хронология этого показателя для у).

Определение 10. Любую пару из множества пар X х У, т.е. пару вида (показатель, объект) далее будем называть переменной ИП-пространства или просто переменной.

Т.к. каждой переменной в квазиполном ИП-пространстве соответствует единственная выборка, а для каждой выборки по формулам математической статистики можно вычислить оценки т-математического ожидания, а-среднеквадратического отклонения, Р,- асимметрии, Р,- эксцесса, то в таком пространстве можно считать заданной всюду определенную вектор-функцию

Сх(х,у) = (п,ш,а,Р1,Р2,1погш> (6)

где п - объем выборки для пары <х,у) е Хх У ,

{true - если распределение нормальное ;

Г I

taise - если нет

Данные статистические характеристики присущи одной переменной. При сопоставлении двух и более переменных аналогично получаются оценки других статистических характеристик (например, коэффициенты корреляции, ковариационные матрицы), которые являются показателями зависимости одной переменной от другой, одной переменной от ряда других переменных.

Далее определяется метрика ИП-пространства, в котором расстояние между любыми двумя его точками равно количеству шагов пользователя, которые он производит на компьютере, чтобы перейти от редактирования одной точки ИП-пространства к редактированию другой. ИП- пространство рассматривается как непротиворечивая аксиоматическая модель, аксиомы которой задаются соответствиями некоторой точки ИП-пространства определенному значению.

Вводятся числовые характеристики, позволяющие оценить эффективность применения иерархии для семантического описания структурированных объектов, устанавливаются зависимости между ними.

Характеристика компактности дерева показателей Т определяется как:

/ОУ + п

Л(1х)--> (7)

m+n

где п = |Х| -число показателей (висячих вершин дерева Т ), m - число внутренних вершин дерева Т ,

/(Тх) - общая длина описания дерева Т , определяется как суммарная длина ветвей дерева Т .

Компактность дерева показателей показывает во сколько раз сокращаются затраты компьютерной памяти при описании семантики показателей системы за счет иерархического структурирования этого описания.

Характеристика априорного быстродействия поиска показателя в Тх определяется как:

Tfr,)-fl^//crx) (8)

Данная характеристика показывает во сколько раз улучшается быстродействие поиска показателя за счет структурирования.

Найдены границы разброса характеристик /(Тх) = /(Тх)/п (средней длины

дерева показателей), ЦТх),т(Тх) их взаимосвязи.

Характеристика / (Тх) является характеристикой быстродействия поиска при

равновероятном доступе к показателям, вводится характеристика средней эффективной длины дерева показателей L(TX), учитывающая вероятности доступа к показателям, предлагается способ ее оценки.

На базе двух критериев X (Тх) и т(Тх) ставится задача двухкритериальной оптимизации по нахождению эффективных структур показателей, понимая под эффективными структурами оптимальные по Парето структуры по критериям ЦТХ) и т(т„).

При невозможности варьирования пит задача решается тривиально (любая структура эффективна в указанном смысле), при заданном k = m + n = const и свободно варьируемыми пит задача нахождения эффективной структуры Р(Тх,к) представляет определенный интерес.

Для решения данной задачи вводится некоторый класс деревьев (подкласс корневых деревьев), которые названы СТ-деревьямн - деревьями со стволом, формулируется необходимый и достаточный признак принадлежности к эффективным структурам.

На базе полученных результатов предлагается система неравенств, позволяющая легко определить принадлежность некоторой структуры к классу эффективных и при необходимости построить алгоритм генерации данных структур.

Ввиду особенности строения, использование эффективных структур на практике ограниченно, однако они, являясь теоретическим результатом, представляют собой некоторые предельные структуры в смысле оптимизации по критериям компактности и быстродействия и могут служить отправной точкой (эталоном для сравнения) при оценке произвольных структур показателей по критериям компактности и быстродействия.

В силу сказанного вводится некоторая обобщенная характеристика, учитывающая как быстродействие, так и компактность, обосновывается свертка критериев компактности и быстродействия имеющая вид:

J(Tx) = MTx)t(Tx)/k (9)

Используя данную свертку, рассматривается ряд примеров типовых структур, где среди прочих рассматриваются и эффективные структуры Р(ТХ, к), при этом в каждом случае определяется lim J(TX), величина не зависящая от к. На базе

к-»со

рассмотренных примеров делаются выводы, даются обоснованные рекомендации по иерархическому структурированию системы показателей.

Аналогично вводятся также характеристики для дерева объектов: средняя длина описания дерева объектов p(TY)( компактность дерева объектов (п( Гу))> априорное быстродействие дерева объектовфопределяются их границы изменения, вводится критерий эффективности дерева объектов.

Предлагается процедура сбора статистической информации о числе обращений пользователей системы к данным с помощью таблицы частот обращений к объектам и показателям, вводятся соответствующие характеристики.

Основу механизма доступа к данным в модели ССОИ составляют дерево показателей и дерево объектов. На базе показателя сложности дерева по М.В. Арапову вводятся характеристики сложности дерева показателей - А(ТХ) и сложности дерева объектов - А(ТУ ), определяется показатель сложности всей системы как:

АХ=А(ТХ)+А(ТУ) (10)

На базе введенных характеристик определяются обобщенные характеристики: компактность описания системы

ЦТх)А(Тх) + т1(Ту)А(Ту) А(ТХ) + А(ТУ)

XV =

и быстродействие поиска данного, т.е. пары <х,,у;)

_ т(Тх)А(ТХ )+у(Ту ) А(ТУ)

А(ТХ) + А(ТУ) • V2)

В главе 3 на базе принятой математической модели разработана пригодная для реализации концетуальная модель исходных данных, которая может быть представлена посредством трех сегментов данных: сегмента объектов, сегмента показателей и сегмента значений. Далее была обоснована логическая модель данных, содержащая оптимальный набор реляционных отношений, определяющий ядро системы статистической обработки.

Для создания систем статистической обработки предложен подход, основанный на использовании скрытой для пользователя базы оценок статистических характеристик (БСХ), позволяющий значительно ускорить процесс статистической обработки; данный подход обоснован системой показателей. Решены проблемы актуализации вторичных данных в БСХ при пополнении базы исходной информацией.

В следующем разделе конкретизировано понятие выборки как упорядоченного множества (отсортированной по возрастанию дат последовательности) данных, где данное представляется парой <дата, значение> для определенного объекта и показателя. Таким образом, в данном контексте выборка может быть представлена таблицей из двух столбцов, содержащей значения и соответствующие даты.

Для выборок введены операции сложения по объединению и сложения по пересечению, при сложении данных с соответствующими датами значения усредняются. На базе этих операций построены алгебры А+ и А'+, рассматриваются их свойства, отмечается отсутствие ассоциативности. Отмечается ряд недостатков подобного аппарата над выборками и предлагается концепция расширенной выборки, позволяющая преодолеть данные недостатки.

Вводится понятие расширенного данного как тройки <дата, значение, степень_усреднения> (или <d, val, g> ). Степень усреднения показывает, сколько данных участвовало в получении значения данного, изначально для всех данных выборки степень усреднения равна 1. Таким образом, расширенная выборка -это упорядоченное множество (отсортированная по возрастанию дат последовательность) расширенных данных. В данном контексте выборка может быть представлена таблицей из трех столбцов вида рис. 1.

DATE VAL G

1.01.1996 12.1 1

1.01.1997 13.2 2

1.01.1998 11.7 1

1.01.1999 11.2 1

Рис. 1. Пример расширенной выборки

На расширенных выборках введены операции суммирования и разности по объединению и пересечению, при этом использование атрибута g позволяет получить в результате значение, усредненное по соответствующей дате.

На расширенных выборках допустимы ЖЛХ-данные (пропуски), причем >Ш1Х-данные имеют четкую интерпретацию.

Аналогично вводятся операции по объединению, при этом в результат включаются только данные по датам^присутствующвд в обеих выборках.

Данные со степенью усреднения <0 называются фиктивными.

Определена алгебра А+/ (с операциями по объединению), являющаяся абе-левой группой, и А'+/(с операциями по пересечению) являющаяся коммутативной полугруппой. Рассмотрены свойства алгебры А+/ и ее определяющее значение в построении иерархической системы объектов.

Над выборками определена операция факторизации. При этом от полного множества дат Б осуществляется переход к некоторому его фактормножеству (где - некоторая эквивалентность, определенная на Э), в котором даты с! е [с!], [<1] е Э/ \у не различимы с точностью до эквивалентности \у. При

этом, в одной выборке окажется несколько данных с неразличимыми датами, т. е. теряется однозначность представления данных в таком ИП-пространстве, чтобы

устранить эту неоднозначность, для всех данных с датами с! е [с1], [<1] е Э / \у находится среднее по значению (найдем сумму таких данных с учетом степени усреднения) и заменим этим усредненным данным всю совокупность данных д е [<3].

При факторизации расширенных выборок степень усреднения каждого данного будет показывать, сколько данных с <1 е [сЗ] присутствовало в исходной выборке.

Факторизация позволяет от выборки перейти к временному ряду, поскольку факторизованная выборка (не что иное, как временной ряд) содержит данные по датам, отстоящие на равные промежутки времени. Во временном ряду даты могут быть заменены числами из натурального ряда чисел.

Далее над выборками были выделены основополагающие операции сопоставления и совмещения, позволяющие представить весь спектр статистических вычислений и послужившие основой создания своеобразного языка манипулирования данными.

Сопоставления производят переход от одномерных выборок к многомерным, которые могут быть представлены таблицей с кортежами вида <Дата, Значение_1, Степень_усреднения_1, Значение_2, Степень_усреднения_2, ..., Значение_п, Степень_усреднения_п> с уникальными датами.

Совмещения подразделяются на горизонтальные и вертикальные. Горизонтальные совмещения позволяют с помощью «горизонтальных» вычислений (без изменения соответственных дат) над многомерной выборкой получить резуль-' тируюшую одномерную выборку. Вертикальные совмещения определены над одномерными выборками и включают операции над датами, что позволяет выразить операции факторизации выборки и сдвига временных рядов.

В диссертации указывается особая роль горизонтальных совмещений над двумерной выборкой (образующие класс Г2) и вертикальных совмещений степени два (В'2).

Предложен оригинальный подход организации иерархических систем на физическом уровне, основанный на использовании системы связанных множественных индексов, обеспечивающий ускоренный доступ к многоуровневым данным.

В конце главы приводится общая структура программы управляющей оболочки ССОИ, показаны пути взаимодействия основных программных модулей системы с файлами баз данных. Выделяются шесть основных программных модулей:

- модуль основных установок (режимов);

- программа меню объектов;

-программа меню показателей;

-программа меню переменных;

- программа редактирования данных;

-программы статистического анализа и визуализации.

В комплексе решены проблемы взаимодействия между процедурами редактирования, базой исходных данных, базой статистических характеристик и процедурами статистического анализа, что позволило интегрировать данные элементы в эффективную систему статистической обработки.

Четвертая глава посвящена разработке комплекса процедур статистического анализа, интегрированных в систему статистических баз данных. Для обеспечения возможностей системы по проведению статистического анализа автором разработан комплекс программ, адаптирующих в разработанную систему стандартный набор методов статистической обработки, включающий одномерный анализ, исследование зависимостей, временные ряды. Предложено расширить язык манипулирования данными ССОИ, основанный на операциях над выборками, операциями над статистическими матрицами на базе соответствующих статистических функций (т.е. построить некоторую многоосновную алгебру Ап ), что позволило создать удобный язык статистических исследований. Для создания систем статистической обработки рекомендован подход многоуровневого вызова статистических процедур, позволяющий увеличить глубину исследования и обеспечить удобство работы с системой; для обеспечения данного подхода были, в частности, решены подзадачи вычисления обобщенного коэффициента корреляции по данным матрицы частных коэффициентов корреляции и нахождения коэффициентов обобщенной модели, учитывающей тенденцию и автокорреляционные зависимости.

Для статистического анализа с использованием главных компонент разработаны процедуры :

-расчета заданного числа главных компонент; -восстановления исходных показателей по главным компонентам; -расчета критериев потери информативности;

- заполнения пропусков в исходной матрице данных с использованием главных компонент.

Чтобы обеспечить операцию "восстановления" данных в работе предложены фи метода заполнения пропусков (МЛХ-данных), основанных на минимизации функционалов, учитывающих распределение главных компонент. Программы анализа с использованием главных компонент имеют встроенные функции эперативного редактирования и осуществляют доступ к БСХ для получения ковариационной матрицы.

При заполнении пропусков в исходной матрице данных для получения оценок

"лавных компонент г-1' в известном методе минимизируется функционал

Е (хГ-ЬРЧ0)2 п„

(13)

■де N. - множество известных показателей (х['>), с,(,) - коэффициенты для гахождения главных компонент (координаты собственных векторов, находятся ю ковариационной матрице).

Непосредственная минимизация данного функционала нередко приводит к значениям , явно выходящими за рамки ожидаемых, поэтому логично в функционал включить информацию, учитывающую распределение главных компонент, т.е.

32 = I (х|°-Ес^®)2 = I, + 8^, (14)

где дополнительный функционал (нелинейная чаоть), учитывающий распределение и имеющий наименьшее значение при наиболее вероятных значениях главных компонент. Считая, что г-й распределены нормально с математическим ожиданием 0 и дисперсией предлагаются следующие дополнительные функционалы:

1)8^=1®^/^), (15)

2)М2 (16)

2 — (г^)212Х-

где Г(7.р) = — е. ' ^ (принятая плотность вероятности главных

компанент);

3) 8Гз=-1пП^гР). (17)

Для нахождения минимума с использованием функционала (15) и (16) применяется стандартный метод сопряженных направлений. Минимум функционала (17) соответствует максимуму произведения плотностей вероятностей главных компонент (знак "минус" перед произведением), для нахождения главных компонент решается система линейных уравнений, причем матрица, используемая для решения данной системы, получается из матрицы системы линейных уравнений известного метода с поправкой диагональных элементов на дисперсии главных компонент.

Масштабные исследования показали, что метод (17) дает наиболее надежные результаты, в то же время, оценки отдельных показателей, полученные методами (15) и (16) в некоторых случаях дают наиболее близкие к реальным оценки, но и чаще приводят к "промахам". В заключение следует сказать, что при достаточ-

ном количестве исходной информации и при условии достаточной зависимости между показателями все методы дают примерно одинаковые результаты близкие к истинным.

Многие программы автоматически производят доступ к БСХ

В заключении приводятся основные результаты работы.

Ввиду большого объема весь текст программы управляющей оболочки статистических баз данных не приводится.

В приложениях приводятся структуры баз данных, тексты ряда процедур, гекст головного модуля программы управляющей оболочки статистических баз данных, экранные формы, иллюстрирующие работу системы, копии актов внедрения.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Разработаны и научно обоснованы методы построения систем статистической обработки на базе ПЭВМ, реализованные при создании специализи-эованных баз данных для статистической обработки информации (ССОИ), по-¡воляющих эффективно и удобно широкому кругу пользователей производить ггатистическую обработку многоуровневых данных, при этом решен комплекс ¡адач:

- Разработана концепция моделирования иерархически структурированных информационных систем. На основе исходных абстрактных понятий: показатель, объект, значение показателя •1 получена математическая модель таких систем, исследованы свойства данной модели.

- Разработана теоретическая основа для обеспечения диалога с пользователи посредством системы иерархических меню, представляющей внешний пользовательский) уровень представления информации в ССОИ.

- Разработан аппарат числовых характеристик, позволяющий оценить эффективность результатов иерархического структурирования информации. Предло-кены критерии эффективности структур объектов и показателей, позволившие юставить и решить задачи оптимизации. Определен класс эффективных струк-ур показателей, даны рекомендации пользователю по структурированию сис-емы показателей.

- На базе принятой концептуальной и математической модели разработана югическая модель исходных данных ССОИ, построенная на базе реляционной глатформы. Для создания систем статистической обработки предложены и обо-нованы методы, позволяющие значительно ускорить процессы доступа к дан-[ым и статистической обработки.

- Для создания систем статистической обработки предложен подход, осно-анный на использовании базы оценок статистических характеристик (БСХ), по-воляющий значительно ускорить процесс статистической обработки; данный юдход обоснован системой показателей.

- Разработан математический аппарат операций над выборками, выделены основополагающие операции сопоставления и совмещения, позволяющие представить весь спектр статистических вычислений и послужившие основой создания языка манипулирования данными ССОИ.

- Создана большая библиотека процедур статистической обработки, позволяющая производить первичную обработку данных, корреляционный, регрессионный анализ, анализ с использованием главных компонент, анализ временных рядов, модернизированы методы заполнения пропусков с использованием главных компонент. При этом все операции надданными в ССОИ представляются в виде многоосновной алгебры Ап, объектами (сортами) которой являются выборки, действительные числа, булевы константы, векторы, статистические матрицы. Данная алгебра послужила основой создания языка статистических исследований ССОИ.

- Усовершенствован метод заполнения пропусков данных с использованием главных компонент, позволяющий повысить надежность восстановления данных.

- Решены подзадачи вычисления обобщенного коэффициента корреляции по данным матрицы частных коэффициентов корреляции и нахождения коэффициентов обобщенной модели, учитывающей тенденцию и автокорреляционные зависимости, позволяющие, в частности, реализовать принцип многоуровневого вызова статистических процедур. Реализация данного принципа позволила увеличить глубину исследования и обеспечить удобство работы с системой.

Параллельно были решены проблемы создания удобного интерфейса пользователя.

Разработанные специализированные базы данных (система статистической обработки информации) позволяют специалисту в предметной области производить статистический анализ большого объема исходной информации, имеющей многоуровневую структуру. Объединение в одну интегрированную систему средств статистического анализа и средств манипулирования данными дает возможность резко увеличить объемы обрабатываемой информации.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОТРАЖЕНО В СЛЕДУЮЩИХ РАБОТАХ

1. Червенчук И. В. Специализированные базы данных для иерархически ложных объектов.//Новые информационные технологии. Информа ционное, рограммное и аппаратное обеспечение: Тез. докл. всерос. науч. конф. студентов [ аспирантов -ТаганропТРТУ, 1995.-С.98 - 99.

2. Червенчук И. В. Информационное моделирование динамических систем использованием специализированных баз данных. // Динамика систем,

1еханизмов, машин: Тез. докл. международн. науч. тех. конф. -. Омск, 1995. - кн. ..- С. 78.

3. Червенчук И. В. Разработка специализированных баз данных для татистической обработки информации. // XXI Гагаринские чтения: молодежи, иуч.конф. (МГАТУ, апрель 1996 г).-М.:МГАТУ, 1996.-Ч. 5.-С. 122-123.

4. Червенчук И. В. Информационная система для хранения и обработки кологической информации.//Молодежь и наука - третье тысячелетие. /Природа [ человек: взаимодействие и безопасность жизнеде-ятельности: материалы [сждународн. науч. симпозиума. Конгресс студентов, аспирантов, молодых ченых.-ТаганропТРТУ, 1996,С. 164.

5. Потапов В. И., Червенчук И. В. Информационная система статистической бработки экологической информации. // Экология и жизнь (наука, образование, ультура): Международн. сб. статей. - вып. 1.- Новгород, 1996 - С. 45 - 54.

6. Червенчук И. В. Оптимизация специализированных баз данных для ранения иерархически сложной информации путем снижения размерности ¡оказателей с помощью метода главных компонент. // Студент и научно-ехнический прогресс: Тез. докл. XXXV международн. студ. конф. - Новосибирск, 997.-С. 123-124.

7. Потапов В. И., Червенчук И. В. Статистическая обработка при наличии допущенных наблюдений с использованием главных компонент.// (ыч целительная техника и новые информационные технологии: межвуз. сб. татей, - Уфа, 1997 -С. 99- 105.

8. Червенчук И.В. Стасенко В.Л. Применение специализированных баз анных для статистической обработки информации в ретроспективном пидемиологическом анализе.//Новые технологии в интенсификации учебного роцесса: Тез. докл. рег. науч.-мет. конф. - Омск: ОГМА, 1998 — С. 106-107.

9. Потапов В. И., Червенчук И. В. Использование главных компонент для нижения размерности исходных показателей. // Вычислительная техника и новые нформационные технологии: межвуз. сб. статей. - вып. 2. - Уфа, 1999, С. 22 -9.

Оглавление автор диссертации — кандидата технических наук Червенчук, Игорь Владимирович

Введение

1 Модели представления информации в системах статистического анализа.

1.1 Семантические модели представления данных

1.2 Концепция информационной модели ССОИ

1.2.1 Показатели, объекты, ИП-пространство

1.2.2 Иерархическое меню. Дерево показателей

1.2.3 Дерево объектов.

1.3 Основные задачи исследования информационной модели ССОИ и ее реализации.

1.4 Итоги первой главы.

2 Математическая модель ССОИ й ее исследование

2.1 Свойства информационно-поискового пространства

2.1.1 Свойства дерева объектов.

2.1.2 Выборки и временные ряды в ИП-пространстве

2.1.3 Ковариационные матрицы.

2.1.4 Метрика ИП-пространства.

2.1.5 ИП-ггространство как аксиоматическая модель

2.2 Числовые характеристики иерархической информации

2.2.1 Вес и компактность дерева показателей

2.2.2 Вес или компактность дерева объектов

2.2.3 Характеристики быстродействия поиска показателей.

2.2.4 Характеристика эффективности структуры показателей.

2.2.5 Характеристика быстродействия поиска объекта.

2.2.6 Оценка сложности иерархической информации . 95 2.3 Основные итоги второй главы.

3 Методы построения эффективной системы статистического анализа в условиях большого объема структурированной информации.

3.1 Анализ различных СУБД.

3.2 Структуры хранения исходной информации.

3.3 Структуры хранения оценок статистических характеристик.

3.4 Оценка временных затрат на вычисление статистических характеристик.

3.5 Автоматическая актуализация вторичных данных в БСХ

3.6 Манипуляция данными. Организация статистических расчетов.

3.6.1 Выборки. Сложение выборок. Алгебра А+

3.6.2 Расширенные выборки. Алгебра А+/.

3.6.3 Сопоставления, совмещения, многомерные выборки.

3.7 Повышение скорости доступа к данным в условиях большого объема исходной информации.

3.8 Общая структура реализованной специализированной системы статистической обработки информации

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Червенчук, Игорь Владимирович

Развивается общество, увеличивается его информационная насыщенность, все сложнее становятся исследуемые информационные объекты, все большее количество показателей требуется для их описания. В данных условиях возрастает роль статистических методов обработки информации, зачастую не имеющих альтернативы при исследовании некоторых сложных систем. Типичным примером подобной системы может служить экологический мониторинг города Омска.

В рамках задачи построения системы для статистической обработки структурированной информации, в частности экологической, основными проблемами являются: во-первых создание модели, отражающей многоуровневую структуру исходных данных, во-вторых адаптация исходных данных для последующего применения процедур статистического анализа, в-третьих наличие достаточного набора процедур и функций для статистического анализа. При всем этом необходимо обеспечить удобство пользователю и простоту диалога с ЭВМ, возможность специалисту в области медицины, экономики, экологии легко общаться с системой.

Примечательно, что заложенные еще в конце 70-ых - начале 80-ых годов нормативы создания статистического программного обеспечения [96], уделяют большое внимание средствам манипуляции и представления исходных данных при статистическом анализе. Однако реализованные на сегодняшний день пакеты статистической обработки при всем многообразии возможностей статистического анализа имеют лишь минимальный набор средств манипуляции и представления данных,

Современные пакеты статистической обработки имеют большой арсенал процедур для статистического анализа, позволяющий специалисту провести более или менее полное исследование. Однако, как правило, исходные данные представляются в виде простых таблиц, т. е. пользователю необходимо осуществлять предварительную подготовку данных (или писать достаточно сложные программы доступа к данным, как в системе STATISTICA [13]). Особенно сложно осуществлять подобную подготовку при исследовании многомерных показателей (multivariate analysis) в условиях большого массива исходной информации, в этом случае на плечи пользователя ложится задача сопоставления нескольких показателей (например, по времени), причем часто приходится проделывать эту процедуру многократно, например чтобы выявить предикторы (причинные переменные) для некоторого процесса или показателя.

Исходными данными для пакетов статистической обработки являются таблицы наблюдений (случаев) по одной или нескольким переменным, однако их получение из исходного материала (первичных данных) остается, как правило, за пределами возможности пакетов. То есть проблема предварительной подготовки данных для статистического анализа (т. е. преобразование информации из первоначального вида в форму, пригодную для последующего статистического анализа) остается нерешенной.

В рамках решения выше перечисленных проблем перспективы использования СУБД для создания систем статистического анализа очевидны. Относительно недавно появилось направление статистических баз данных, обладающих рядом особенностей [43]. Изначально, с распространением персональных компьютеров появился ряд небольших систем статистической обработки баз данных, среди которых можно назвать систему "PROSTO" [39], подсистему "СТАТИСТИКА", работающую в рамках системы "ИСПОЛНИТЕЛЬ" [40], Специализированные базы данных [30] и т.д. В задачу подобных разработок входило создание специализированных баз данных, приспособленных к эффективному реагированию на разного рода запросы пользователя, выполнению функций агрегирования данных. Вся статистическая обработка сводилась к построению отчетов по информации, содержащихся в БД (например, в форме таблиц, содержащей сведения о количестве тех или иных фактографических знаний в БД [39] ), не используя функций вычислений статистических характеристик и процедур статистического анализа как такового.

Описанный в [11] пакет программ по прикладной статистике (1111С) обладает большими возможностями статистического анализа, имеет встроенные программы дескриптивного анализа, регрессионного анализа, статистического прогнозирования и проч. Данная система примечательна тем, что содержит модуль "База данных и графический редактор", позволяющим осуществлять хранение и обработку экспериментальных данных и справочно-учетную информацию к ним, однако данные в этой системе имеют простую структуру.

С появлением развитых систем управления базами данных значительно облегчилась обработка больших массивов информации и стали появляться системы, генерирующие статистические отчеты на основе информации, содержащейся в БД. Примером подобной системы может служить система STAT (Италия. Рим), выполненная с использованием dBase ПТ+ [94]. Данная система позволяет генерировать отчеты по содержащейся в БД информации и представлять их в наглядной форме. По сути здесь на новом уровне (с использованием СУБД) решаются задачи, подобные которым ставились при разработке систем типа "PROSTO" [30, 39, 40] , причем решение этих задач происходит со значительном перекрытием и. со значительно меньшими затратами (в f94] даже приводится весь текст программы).

В последствии стали появляться системы с более развитым набором статистических процедур. Остановимся на система Flexibles statistik

Paket (Германия), выполненная в dBase IV, [92]. Диалог с пользователем производится с помощью меню. Имеются встроенные функции нахождения среднего арифметического, среднего геометрического, среднего гармонического» медианы, минимального и максимального значения (как видим, набор статистических процедур сильно ограничен). Статистической обработке подвергается информация в БД, соответствующая заданным пользователем условиям, потом осуществляется филырация исходной БД, Обработка сложноструктурированных данных в подобной системе затруднена и требует создания специальных дополнительных полей.

Растущая популярность систем, ориентированных на хранение больших объемов информации, стимулирует разработчиков программных средств разрабатывать на их базе системы, поддерживающие многоуровневую структуру. Примеров подобной системы может служить система Oracle Express [551, созданная на базе СУБД Oracle 7, позволяющая производить доступ к многоуровневым данным. Система Oracle Express имеет диалог применения формул, позволяющий производить некоторые процедуры статистической обработки данных, система предоставляет удобный и достаточно понятный интерфейс с пользователем, Развитие подобных систем, поддерживающих OLAP технологию, имеет большие перспективы для организации обработки многомерных данных в распределенных системах.

Проблематика статистических баз данных (СБД) привлекает внимание специалистов ряда крупных научных центров в разных странах. Ей посвящена специальная регулярно проводимая конференция - International Working Conference on Statistical and Scientific Database Management. В рамках этого направления были созданы специализированные статистические СУБД SUBJECT [93] и RAPIDJIOO],

Разработанная в рамках данной работы система статистической обработки информации (ССОИ) является результатом взаимодействия двух направлений информатики: систем управления базами данных и пакетов статистической обработки информации, и вписывается в концепцию СЕД. Такой подход позволяет заметно расширить возможности и повысить эффективность статистической обработки. В данной работе рассматривается комплекс проблем, возникающих при статистической обработке сложно структурирозанной информации, при этом одной из главных задач ставилось обеспечить максимально удобный интерфейс доступа к исходным данным. Данные принципы были использованы при реализации системы специализированных баз данных для статистической обработки экологических данных г. Омска, внедренной Госкомэкологии Омской области в сентябре 1997 г. Однако разработанная система универсальна и может с успехом применяться и в других сходных по виду исследуемых данных отраслях наук: медицине, социологии, экономике. Данная система, будем называть ее "Специализированные базы данных для статистической обработки информации" (ССОИ), нашла свое применение также при эпидемиологических исследованиях, внедрена в Омской государственной медицинской академии & октябре 1997 г.

Предлагаемая в данной работе специализированная система для статистической обработки информации решает проблемы эффективной статистической обработки структурированных данных большого объема, выражаемых системой числовых характеристик.

Актуальность работы.

Тенденция к увеличению объемов и усложнению структуры информации, которую необходимо подвергнуть статистическому анализу, налагает новые требования на создание систем статистической обработки. На первый план выходят проблемы хранения исходных данных и обеспечения удобства работы для пользователя. Основываясь на анализе современного состояния проблемы разработки эффективных систем статистической обработки информации можно сделать вывод о том, что актуальность данной темы определяется:

- недостаточной проработанностью методов оценки эффективности иерархического представления информации, представляющей семантические описания объектов сложной структуры;

B основу новой научной концепции иерархического структурирования информационных систем больших объемов, которая предложена в данной работе, положены некоторые идеи информационной алгебры, разработанной группой комитета CODASYL.

В частности, информационная алгебра оперирует понятиями «сущность» и «свойство». Сущности - это физически существующие объекты, элементы реальной системы, имеющей сложную иерархическую структуру, а их свойства суть логические и числовые характеристики, которыми они обладают. Поскольку настоящая работа начиналась с разработки экологического мониторинга г. Омска, то понятие «сущность» здесь трансформировалось в понятие «объект», а понятие «свойство» в показатель. Мир объектов - это частный случай мира сущностей, мир показателей - специфика мира свойств.

Иерархическое структурирование здесь основано на заданной иерархии объектов, на основе которой с учетом семантики описания проектируется классификация показателей, и статистических данных (значений показателей). Данная концепция помимо очевидной практической выгоды, получаемой при разработке специализированных систем для статистической обработки информации, представляет собой еще и немаловажный научный интерес. Подробное теоретическое исследование модели, построенной на данной концепции, приводится ниже.

Иерархия может также служить средством обеспечения интерфейса пользователя. Предложенная в рамках данной работы система иерархических меню позволяет построить удобный интерфейс.

Предложенная модель позволяет пользователю легко описать предметную область или сложный объект в терминах объектов и показателей, то есть легко перейти с сохранением семантики от описания предметной области на неформальном языке данной предметной области непосредственно к формальному описанию в ИП-пространстве, автоматически переводящегося на язык описания в БД ССОИ,

Пель и задачи исследования. Целью диссертационной работы является повышение эффективности создания специализированных систем для статистической обработки информации за счет методов иерархического структурирования больших объемов статистических данных и обоснования общих принципов и новых методов построения систем баз данных, предназначенных для хранения статистической информации.

Основными задачами являются:

- всесторонний анализ возможностей, принятой за основу концепции;

- выявление наиболее приемлемого набора стандартных структур данных, образующих ядро системы статистической обработки;

- разработка методов реализации эффективной системы статистической обработки на базе принятой концепции.

Научная новизна. В отличие от информационной алгебры здесь по иному вводится система координат. Она основана на понятии информационно-поискового пространства (ИП-пространства), имеющего три измерения, и позволяющего адекватно описывать многоуровневые информационные системы в терминах объектов и показателей. Помимо точек в этом пространстве существуют переменные, временные ряды, совокупности переменных, древовидные структуры значений и т. д. Введена метрика ИП-пространства и доказаны основные его свойства.

Все три измерения ИП-пространства (дерево объектов, дерево показателей, даты) суть корневые деревья, но с различными свойствами и характеристиками. На основании этих характеристик получены макрохарактеристики всей информационной системы, которые предложены в качестве количественных оценок ее быстродействия, компактности и сложности.

Практическая ценность работы. На базе предложенной концепции и разработанных в диссертации принципах структурирования создано математическое обеспечение интерфейса, позволяющее широкому кругу пользователей осуществлять на компьютере иерархическое структурирование больших объектов информации и эффективно эксплуатировать получаемую при этом специализированную базу данных. На базе предлощ^щы* числовых характеристик выработаны рекомендации по структурированию сидт^мы показателей.

Имеются акты о внедрении результатов диссертационной работы в научно-практическую деятельность Госкомэкологии Омской области для статистического анализа экологических данных и в научно-исследовательскую деятельность и учебный процесс на кафедре "Эпидемиологии" Омской государственной медицинской академии для проведения ретроспективного и оперативного эпидемиологического анализа с использованием статистических методов.

Основные положения, выносимые на защиту:

2. Разработанная математическая модель представления данных, построенная на основе ИП-пространства.

4. Разработанная логическая модель исходных данных ССОИ, построенная на основе реляционной платформы.

7. Методы заполнения пропусков в исходной матрице данных с использованием распределения главных компонент.

В главе 1 дается критический анализ концептуальных моделей представления данных применительно к созданию систем статистической обработки. В результате анализа дается обоснование необходимости разработки новой модели для создания специализированных систем для статистической обработки сложноструктурированной информации большого объема. Предлагается новая концептуальная модель представления данных на основе введенных понятий дерева объектов, дерева показателей, ИП-пространства, позволяющая обеспечить семантическое описание предметной области и создать удобный интерфейс доступа к данным. Производится постановка теоретических задач на всестороннее исследование предложенной модели, конкретизируются задачи реализации некоторой системы статистической обработки на базе предложенной модели представления данных. В данной главе определяется концептуальная и математическая модель ССОИ.

В главе 2 разрабатывается концепция математического моделирования иерархически структурированных информационных систем (производится разработка математической модели ССОИ). На основе исходных абстрактных понятий: показатель, объект, значение показателя - получена математическая модель таких систем. Исследованы свойства введенного в главе 1 ИТТ-пространства. Введены числовые характеристики, позволяющие оценить эффективность результатов иерархического структурирования информации. Предложен критерий оптимальности структур показателей, выделен класс эффективных структур, обоснованы рекомендации по структурированию системы показателей.

В главе 3 на базе принятой концептуальной модели разработана информационная структура исходных данных. Для создания систем статистической обработки предложены и обоснованы подходы, позволяющие значительно ускорить процессы доступа к данным и статистической обработки. С точки зрения теории построения баз данных в данной главе определяется логическая и физическая модель ССОИ как БД. Дается трактовка выборки как математического объекта, построена некоторая алгебра над выборками, определены основные операции над выборками, позволяющие создать мощный и удобный язык манипулирования данными.

В главе 4 рассматривается арсенал статистических процедур, включенных в систему. Усовершенствован метод заполнения пропусков данных с использованием главных компонент, позволяющий повысить надежность восстановления данных, разработано программное обеспечение, включающее программы статистической обработки на основе усовершенствованного автором метода, позволяющие снизить размерность исходных показателей с минимальными потерями информативности, произвести расчеты критериев потери информативности, заполнить пропуски в матрице исходной информации.

Предлагается расширить язык манипулирования данными, основанный на операциях над выборками, операциями над статистическими матрицами на базе соответствующих статистических функций, что позволило создать удобный язык статистических исследований. Для создания систем статистической обработки рекомендован подход многоуровневого вызова статистических процедур, позволяющий увеличить глубину исследования и обеспечить удобство работы с системой; для обеспечения данного подхода были, в частности, решены подзадачи вычисления обобщенного коэффициента корреляции по данным матрицы частных коэффициентов корреляции и нахождения коэффициентов обобщенной модели, учитывающей тенденцию и автокорреляционные зависимости.

В заключении приводятся основные результаты работы.

В приложениях приводятся примеры структур данных, тексты программ разработанных статистических процедур (некоторых из тех, которые основаны на новых принципах), текст головного модуля программы, примеры работы программы, акты внедрения.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 100 наименований, двух актов внедрения, приложений со структурами баз данных, текстами программ и примеров работы системы. Работа содержит 228 страниц печатного текста, в том числе 191 страницу основного текста, работа содержит 27 иллюстраций.

Заключение диссертация на тему "Специализированные базы данных для статистической обработки информации"

4.5 Основные выводы к главе 4

1. Для обеспечения возможностей системы по проведению статистического анализа автором разработан комплекс программ, адаптирующих в разработанную систему стандартный набор методов статистической обработки. Все операции над данными в ССОИ удобно представить в виде многоосновной алгебры AQ, объектами (сортами) которой являются выборки, действительные числа, булевы константы, векторы, статистические матрицы.

2. Усовершенствован метод заполнения пропусков данных с использованием главных компонент, позволяющий повысить надежность восстановления данных, разработано программное обеспечение, включающее программы статистической оработки на основе усовершенствованного автором метода, позволяющие снизить размерность исходных показателей с минимальными потерями информативности, произвести расчеты критериев потери информативности, заполнить пропуски в матрице исходной информации.

3. На базе известных методов статистической обработки и предложенных алгоритмов в алгебру АЛ введены операции над статистическими матрицами, позволяющие создать удобный интерфейс пользователю для статистических исследований с помощью статистических матриц. Для создания систем статистической обработки рекомендован подход многоуровневого вызова статистических процедур, позволяющий увеличить глубину исследования и обеспечить удобство работы с системой; для обеспечения данного подхода были, в частности, решены подзадачи вычисления обобщенного коэффициента корреляции по данным матрицы частных коэффициентов корреляции и нахождения коэффициентов обобщенной модели, учитывающей тенденцию и автокорреляционные зависимости.

ЗАКЛЮЧЕНИЕ

Разработаны и научно обоснованы методы построения систем статистической обработки на базе ПЭВМ, реализованные при создании специализированных баз данных для статистической обработки информации (ССОИ), позволяющих эффективно и удобно широкому кругу пользователей производить статистическую обработку многоуровневых данных, при этом решен комплекс задач:

- Разработана концепция моделирования иерархически структурированных информационных систем. На основе исходных абстрактных понятий: показатель, объект, значение показателя -получена математическая модель таких систем, исследованы свойства данной модели.

- Разработана теоретическая основа для обеспечения диалога с пользователем посредством системы иерархических меню, представляющей внешний (пользовательский) уровень представления информации в ССОИ.

- Разработан аппарат числовых характеристик, позволяющий оценить эффективность результатов иерархического структурирования информации. Предложены критерии эффективности структур объектов и показателей, позволившие поставить и решить задачи оптимизации. Определен класс эффективных структур показателей, даны рекомендации пользователю по структурированию системы показателей.

На базе принятой концептуальной и математической модели разработана логическая модель исходных данных ССОИ, построенная на базе реляционной платформы. Для создания систем статистической обработки предложены и обоснованы методы, позволяющие значительно ускорить процессы доступа к данным и статистической обработки. Для создания систем статистической обработки предложен подход, основанный на использовании базы оценок статистических характеристик (БСХ), позволяющий значительно ускорить процесс статистической обработки; данный подход обоснован системой показателей.

Разработан математический аппарат операций над выборками, выделены основополагающие операции сопоставления и совмещения, позволяющие представить весь спектр статистических вычислений и послужившие основой создания языка манипулирования данными ССОИ.

Создана большая библиотека процедур статистической обработки, позволяющая производить первичную обработку данных, корреляционный, регрессионный анализ, анализ с использованием главных компонент, анализ временных рядов, модернизированы методы заполнения пропусков с использованием главных компонент. При этом все операции над данными в ССОИ представляются в виде многоосновной алгебры AQ, объектами (сортами) которой являются выборки, действительные числа, булевы константы, векторы, статистические матрицы. Данная алгебра послужила основой создания языка статистических исследований ССОИ.

Усовершенствован метод заполнения пропусков данных с использованием главных компонент, позволяющий повысить надежность восстановления данных.

Созданная система внедрена в практику. Имеются акты о внедрении результатов диссертационной работы в нучно-исследовательскую деятельность Госкомэкологии Омской области для статистического анализа экологических данных и в научно-исследовательскую деятельность и учебный процесс на кафедре "Эпидемиологии" Омской государственной медицинской академии для проведения ретроспективного и оперативного эпидемиологического анализа с использованием статистических методов. В приложении 10 приводятся копии актов внедрения.

Библиография Червенчук, Игорь Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Абилов Б.Г. , Зинченко Н.И. Tiirbo и Arity: два подхода к логическому программированию // - Мир ПК - 1990 - №3 - С 3142.

2. Айвазян С.А. , Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.- 471 с.

3. Айвазян С.А., Енюков И. С. , Мешалкин Л. Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.- 487 с.

4. Айвазян С.А., Бухштабер В. М., Енюков И. С. , Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности.-М.: Финансы и статистика, 1989.- 607 с.

5. Айвазян С.А. Статистическое исследование зависимостей. М., Металлургия 1968. 227 с.

6. Анализ авторегрессий: Сб. статей. Пер. с англ. М. Наука, 1977. -223с.

7. Андерсон Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963. 500 с.

8. Афифи А., Эйзен С. Статистический анализ, подход с использованием ЭВМ. Пер. с англ. М. Мир, 1982. - 486 с.

9. Бахвалов Н.С. , Жидков Н. П., Кобельков Г.М. Численные методы. М.: Наука, 1987. -208 с.

10. Белов В.А. Работаем в dBase III Plus. Пользователь ПК 3. М.:1. Воким, 1990,- 80 с.

11. Берестижевский С.И., Колосова Т.В., Мартыненко О.Н. Пакет программ по прикладной статистике для персональных ЭВМ // Микропроцессорные средства и системы. 1987. - № 4.

12. Бокс Дж., Дженкинс Г. Анализ временных рядов: прогноз и управление'. М. Мир, 1974. - вып. 1. - 406 с.; вып. 2 - 224 с.

13. Боровиков В.П. Популярное введение в программу STATISTIC А. -М.: КомпьютерПресс, 1998. 267 с.

14. Брябрин В.М. Программное обеспечение персональных ЭВМ. М.: Наука. Гл. ред. физ. мат. лит., 1988. -272 с.

15. Большев Л. Н. , Смирнов Н.В. Таблицы математическойстатистики. М., Наука, 1983. 416 с.

16. Вальд А. Последовательный анализ, М., Физматгиз. 1960.

17. Венецкий И. Г. Венецкая В. И. Основные математико-статистические понятия и формулы в экономическом анализе: Справочник. 2-е изд., перераб. и доп. - М. Статистика, 1979. - 447 с. ил. — (Мат. Статистика для экономистов).

18. Венецкий И. Г. , Кильдищев Г. С. Основы теории вероятностей и математической статистики. Изд. 2-е. М., "Статистика", 1968.- 308с.

19. Вирт. Н. Алгоритмы + структуры данных = программы: Пер. с англ. М. Мир, 1985. - 406 с.

20. Воеводин Г. В. Вычислительные основы линейной алгебры. М Наука, 1977.-304 с.

21. Вучков И., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ. М.: Финансы и статистика, 1987. -287 с.

22. Гирко В. Л. Случайные матрицы. Киев : Радяньска школа, 1975. -488 с.

23. Гренджер К., Хатанака М. Спектральный анализ временных рядов в экономике. М.: Статистика, 1972. - 312 с.

24. Гмурман В. Е. Теория вероятности и математическая статистика. Изд. 4-е, доп. Учеб. пособие для вузов. М.: "Высшая школа", 1972. -368 с.

25. Дайитбегов Д.М. Калмыкова О.В. Черепанов А. И. Программное обеспечение статистической обработки данных. М, Финансы и статистика, 1984. - 305 с.

26. Дейт К. Дж. Введение в системы баз данных, 6-е издание: Пер. с англ. К.; М; СПб.: Издательский дом «Вильяме», 1999 - 848 с.

27. Деннинг В., Эссиг Г., Маас С. Диалоговые системы «человек -ЭВМ». Адаптация к требованиям пользователя: Пер. с англ. М. Мир, 1984. 112 с.

28. Демиденко Е.З. Линейная и нелинейная регрессии. М. Финансы истатистика, 1981. 302 с.

29. Драйпер Н. Смит Г. Прикладной регрессионный анализ. Пер. с англ. В 2-х кн. 2-е изд. - М.: Финансы и статистика, 1987. - 392 с.

30. Дружинин А.В., Крапивин А.В., Кукарцев О.В., Трифонов К.И. Специализированные базы данных на персональных ЭВМ. Математические методы обработки информации и управления: Межвед. сб./ МФТИ М. 1998, с. 154 158.

31. Дубровский С. А. Прикладной многомерный статистический анализ. М.: Финансы и статистика, 1982. - 216 с.

32. Дунаев С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования. М.:

33. ДИАЛОГ МИФИ, 1999-416 с. 33 Дьяконов В.П. Справочник по алгоритмам и программам на языке бейсик для персональных ЭВМ: Справочник. - М. Наука Гл. Ред.

34. Физ. Мат. Лит., 1987.-240 с. 34. Зангвилл У. И. Нелинейное программирование / Пер. с англ. М.1. Сов. радио, 1973. -312 с.

35. Евстигнеев В.А. В.Н. Касьянов В.Н. Алгоритмы на деревьях. -Новосибирск: ВЦ СО АН СССР, 1989. 311 с.

36. Евстигнеев В.А. В.Н. Касьянов В.Н. Алгоритмы обработки деревьев. Новосибирск: ВЦ СО АН СССР, 1990. - 208 с

37. Елисеева И.И., Руковишников В.О. Логика прикладного статистического анализа. М.: Финансы и статистика, 1982. - 316 с.

38. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа: Пакет ППСА. М. Финансы и статистика, 1986. - 232 с.

39. Ершов A.M. , Мельникова О.Г. Пащенко Е.А. Сычев П.П. Процессор статистической обработки для СУБД с инвертированными файлами // Сообщения объединенного института ядерных исследований. Дубна, 1990. 8 с.

40. Ефимов А. В. Статистическая обработка реляционных баз данных. Практика автоматизированного управления в машиностроении. Ежегодн. сб. научн. тр. / АН СССР ПО ЗИЛ по пробл. САПР в машиностроении. М, 1989.- №1 - С. 24-28

41. Канатников А.Н., Ткачев С.Б. Программирование в среде Clipper. Версия 5.0 и особенности версии 5.01. М.: Финансы и статистика, 1993. - 240 с.

42. Кендалл М. Дж., Стюарт А. Статистические выводы и связи. Пер. с англ. -М.: Наука, 1973. 899 с.

43. Кендалл М. Дж., Стюарт А. Многомерный статистический анализ и временные ряды. Пер. с англ. М.: Наука, 1976. -736 с.

44. Кендалл М. ранговые корреляции. М.: Статистика, 1975. - 214 с.

45. Кини Р.Л., Райфа X. Принятие решений при многих критериях: предпочтения и замещения: Пер. с англ./ Под ред. И.Ф. Шахнова-М.: Радио и связь, 1981.-560 с.

46. Кнут. Д. Искусство программирования для ЭВМ, т. 2 : Полученныеалгоритмы. М. Мир, 1977. 440 с.

47. Когаловский М.Р. Статистические базы данных //Программирование. 1995.- №2,- С. 37- 47.

48. Кодд Э. Расширение реляционной модели для лучшего отражениясемантики // СУБД. 1996. - №5-6.

49. Костылев А.А., Миляев П.В., Дорский Ю.Д. и др. Статистическая обработка результатов экспериментов на микро-ЭВМ и программируемых калькуляторах : Л. Энергоатомиздат. Ленингр.отделение, 1991.-304 с.

50. Крамер Г., Математические методы статистики. 2-е издание . М.,1. Мир, 1975.-648 с.

51. Куликов М. Я. Червенчук В.Д. Об оптимизации таблиц решений.

52. Кибернетика, 1984. -№ 2, С. 29-34.

53. Липский В. Комбинаторика для программистов: Пер. с польск-М Мир, 1988.-213 с.

54. Лаусон. Ч., Хенсон Р. Численное решение задач метода наименьших квадратов / Пер. с англ. М.: Наука, 1986. - 719 с.

55. Маленво Э. Статистические методы в эконометрии. Перевод с франц. М.: Статистика, 1976, вып. 2, 325 с.

56. Мартин Дж Организация баз данных в вычислительных системах М. Мир. 1980-662 с.

57. Мартынов Г.В. Вычисление предельного распределения статистиккритериев нормальности типа а>2. П Теория вероятностей и ее применение, 1976-т. 21-вып. 1-С. 3 -15.

58. Мартынов Г.В. Вычисление функций нормального распределения. // Итоги науки и техники. Теория вероятностей. Математическая статистика. Теоретическая кибернетика. М., ВНИТИ, 1980, т. 17, С. 57-84.

59. Мартынов Г.В. Критерии омега-квадрат. М. Наука, 1978. 79 с.

60. Менинтгер. Д. Проектирование многомерной базы данных для OLAP.// ORACLE MAGAZINE / RUSSIAN EDITION Лето 1996.

61. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. М., Финансы и статистика, 1982., вып. 1 224 с.

62. Подиновский В.В., Ногин В. Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982.-256 с.

63. Поллард. Дж. Справочник по вычислительным методам статистики. М.: Финансы и статистика, 1982. - 384 с.

64. Потапов В. И. , Червенчук И. В. Информационная система статистической обработки экологической информации. // Экология и жизнь (наука, образование, культура ): Международн. сб. статей, -вып. 1.- Новгород, 1996-С. 45-54.

65. Потапов В. И. , Червенчук И. В. Использование главных компонент для снижения размерности исходных показателей. // Вычислительная техника и новые информационные технологии: межвуз. сб. статей. вып. 2. - Уфа, 1999, С. 22 - 29.

66. Потапов В. И. , Червенчук И. В. Статистическая обработка при наличии пропущенных наблюдений с использованием главных компонент.// Вычислительная техника и новые информационные технологии: межвуз. сб. статей. Уфа, 1997 -С. 99 - 105.

67. Пржияловский В.В. Абстракции в проектировании баз данных. // СУБД. 1998. - №1-2,- С. 90-97.

68. Проничева Л. Серверы баз данных. // Мир ПК. 1991.- №11- С. 6371.

69. Романов Б.А. , Кушнеренко А.С. dBase IV. Назначение, функции, применение. М.: Радио и связь, 1991 .-384 с.

70. Саймон А.Р. Стратегические технологии баз данных: менеджмент на 2000 год: Пер. с англ. / Под ред. и с предисл. М.Р. Когаловского. М.: Финансы и статистика, 1999.-479 с.

71. Себер Дж. Линейный регрессионный анализ. М.: Мир 1980 -337с.

72. Сильвестров. Д.С. Программное обеспечение прикладной статистики: Обзор состояния. Тенденции развития. М.: Финансы и статистика, 1988. - 240 с. - (Мат. обеспечение прикладной статистики).

73. Смит Дж, Смит Д. Принципы концептуального проектирования баз данных. // В сб. «Требования и спецификации в разработке программ». М. Мир, 1984.

74. Смит Дж, Смит Д. Абстракции баз данных: Агрегация и обобщение. // СУБД. 1996.-№2 -С.141-160.

75. Смородинский А.В. , Ривкин М.Н. Базы данных: тенденции развития.// Мир ПК. 1990.- №5 - С. 30-36.

76. Статистические методы для ЭВМ. Под ред. К. Эйслейна, Э. Рэлтсона ., Г.С. Уилфа; Пер. с англ. М.: Наука, 1986. - 460 с.

77. Ульман Дж. Основы систем баз данных / Пер. с англ. М.: Финансы и статистика, 1983. - 334 с.

78. Ульман Дж., Уидом Дж. Введение в системы баз данных. М. Издательство «Лори», 2000.

79. Ферстер. Э., Ренц. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983. - 356 с.

80. Форсайт Дж., Малькольм М., Моулер К. Машинные методы математических вычислений. М.: Мир, 1980. - 280 с.

81. Френкель А.А. Математические методы анализа динамики и прогнозирования производительности труда. М. Экономика, 1972. -190 с.

82. Хан-Магаметов Д. , Ранев К, Зотов А. Парадоксален ли Paradox ? -Компьютер пресс 1991-№11, с. 58-62.

83. Хансен Г., Хансен Д. Базы данных: разработка и управление.: пер. с англ. М. ЗАО «Издательство Бином», 1999. - 704 с.: ил.

84. Хенинен А .Я., Павлов Ю.А. "Статистик-консультант" или еще один довод в пользу неизбежного.// Мир ПК,- 1994.- № 5.

85. Химмельблау Д Прикладное нелинейное программирование. Пер.с англ. М. Мир, 1975. -534 с.

86. Цаленко М. Ш. Моделирование семантики в базах данных- М. Наука. Гл. ред. физ-мат. лит., 1989.-288 с.

87. Чень П. Модель «Сущность-связь» шаг к единому представлению данных. СУБД.-1995.-№3.

88. Червенчук В.Д. Логические функции, таблицы решений и аксиоматическое моделирование: Учебное пособие. Омск: Изд. ОмПИ, 1989.-80 с.

89. Шрейдер Ю. Равенство, сходство, порядок. М.: Наука, 1971. -256с.

90. Экологическая обстановка в Омской области: бюллетень Омского областного комитета по охране природы- Вып. за 1988 1996годы.

91. Эппггейн В.Л., Сенечкин В.И. Языковые средства архитектуры АСУ. М.: Энергоиздат, 1982. -200 с.

92. Achim von Michel. Michel Stief. Fle^ibles statistik-Paket fur dBase IV // Computer PersOtlM. Ausabe 2.- vom 8.1.92.-P. И1-113; Ausabe 3. - vom 22. i .92- S. 89-91.

93. Chen P Shoshani A.SUBJECT: A Directory Driven System for Organizing md Accessing Large Statistical Data Bases. Proc. of the 7th Intern Copf. on У1ЛЖ Cannes, France. September 1981. PP.533-563.94 di Ezio №$■ STAT-1 I M£P COMPUTER .- 96. Rome.

94. Fagin R., Mendelzon A.O., Ullman J.D. A Simplified Universal Relation Assumption and its Propirties // ACM Trans. On Database Systems. -1982. V. 7, №3. - P.343-360.

95. Tansel A. et al., Temporal Databases: Theory, Design, and Implementation (Redwood City, CA: The Benjamin / Cummings Publishing Company, 1993).

96. Turner M.J., Hammond R., Cotton P.A. DBMS for large statistical databases. Proc. of the Fifth Intern. Conf. on VLDB. Rio de Janeiro, 1979. PP.319-327.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00