автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка архитектуры объектно-характеристической базы данных для работы с системами большой размерности

кандидата технических наук
Сорочинский, Анатолий Анатольевич
город
Москва
год
2011
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка архитектуры объектно-характеристической базы данных для работы с системами большой размерности»

Автореферат диссертации по теме "Разработка архитектуры объектно-характеристической базы данных для работы с системами большой размерности"

4857558

На правах рукописи

Сорочинский Анатолий Анатольевич

РАЗРАБОТКА АРХИТЕКТУРЫ ОБЪЕКТНО-ХАРАКТЕРИСТИЧЕСКОЙ БАЗЫ ДАННЫХ ДЛЯ РАБОТЫ С СИСТЕМАМИ БОЛЬШОЙ РАЗМЕРНОСТИ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 О ОКТ 2011

МОСКВА 2011

4857558

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования "Московский государственный технический университет радиотехники, электроники и автоматики" на кафедре математического обеспечения вычислительных систем.

Научный руководитель - доктор технических наук, профессор

Ткаченко Владимир Максимович

Официальные оппоненты: доктор технических наук, профессор

Грущанский Василий Аркадьевич

кандидат технических наук, старший научный сотрудник Каргин Владимир Николаевич

Ведущая организация - ОАО "Институт электронных управляющих машин им. И.С.Брука"

Защита состоится 9 ноября 2011г. в 15:00 на заседании диссертационного совета Д 212.131.05 при Московском государственном техническом университете радиотехники, электроники и автоматики по адресу: 119454 г. Москва, проспект Вернадского, дом 78.

С диссертацией можно ознакомиться в библиотеке Московского государственного технического университета радиотехники, электроники и автоматики.

Автореферат разослан" у " октября 2011 года.

Ученый секретарь диссертационного совета кандидат технических наук, доцент

Е.Г. Андрианова

Общая характеристика работы

Актуальность темы. В последние несколько лет все острее становится проблема решения задач моделирования систем большой размерности (СБР). Главной отличительной чертой данных систем является необходимость работать с разными уровнями (масштабами) описания систем.

Данную проблему можно проиллюстрировать следующим примером. При исследовании какого-либо молекулярного процесса и проектировании соответствующей модели системы мы сталкиваемся с необходимостью создания нескольких уровней описаний. Т.е. на более высоком уровне мы имеем молекулярные процессы, а на более низком -межатомные взаимодействия. Данные уровни будут иметь как различные временные режимы, так и разные точности измерений отдельных переменных в физических системах. То есть масштабы относятся и к времени, и к самим физическим величинам, которые приходится измерять.

Основная задача описания СБР — связать эти уровни в единой модели и сделать возможным взаимодействие специалистов, работающих с разными уровнями описаний. Естественно, что каждый специалист в меру человеческих способностей не может охватить всю систему целиком, а может работать с частью системы и взаимодействовать со специалистами на других уровнях, и со специалистами на своем уровне.

В течение продолжительного периода времени в лаборатории языков и методов моделирования систем большой размерности при институте проблем управления РАН было выполнено множество работ, направленных на решение данной проблемы. Воронцов И.Н., Келдыш Н.В., Дыбо A.B. и Старостин С.А. в ряде публикаций рассматривают особенности данных задач и пути их решение. Также в работах Воронцова И.Н. и Грешилова М.М. описана спроектированная система моделирования систем большой размерности с собственным языком.

На сегодняшний день стоит задача организации хранения описаний разной общности, от конкретных феноменологических результатов, связанных с непосредственными измерениями, до сколь угодно общих описаний различных сфер знаний. Необходимо определить, каким образом располагать результаты измерений и хранить их в базах данных, каким образом должны взаимодействовать люди при использовании данных.

Поэтому возникла необходимость выбора архитектуры базы данных способной эффективно хранить описания систем на различных семантических уровнях, результаты экспериментов и статистических данных, предоставляющей удобные средства для работы с информацией специалистам в различных областях.

В диссертационной работе рассмотрены особенности проектирования баз данных, возможность создания новой архитектуры БД и языка запросов для работы с многоуровневой информацией.

Объектом исследования являются системы большой размерности.

Предметом исследования являются математические модели описания баз данных; принципы построения систем управления базами данных; технологии реализации баз данных и языков запросов к базам данных.

Целью диссертационной работы является проектирование и разработка эффективного средства хранения и обработки информации для систем большой размерности.

Для достижения поставленной цели были сформулированы следующие задачи:

1. Проанализировать задачи описания систем большой размерности, определить особенности данных, используемых для построения моделей сложных систем.

2. Рассмотреть способы организации хранения информации, особенности доступа к данным, возможность применения при

решении задач большой размерности.

4

3. Разработать архитектуру базы данных для работы с экспертами в определенной предметной области, разработать методы доступа к описаниям и экспериментальным данным, максимально доступные специалисту, не относящемуся к области ИТ.

4. На основе проведенных исследований реализовать компьютерное средство хранения и обработки данных, позволяющее использовать методы сжатия и интерполяции данных, а также осуществлять доступ к данным с использованием конструкций естественного языка.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

• Предложен новый метод обработки информации в объектно-характеристической базы данных (ОХБД), позволяющий на больших массивах экспериментальных данных сократить объем хранимой информации.

• Предложен новый метод подбора коэффициентов для функций принадлежности на основе семантических отношений в базе данных.

• Разработана архитектура локальной гибридной объектно-характеристической базы данных для решения задач большой размерности.

• Спроектирован язык запросов для ОХБД, основанный на нечеткой логике.

Практическая значимость подтверждается возможностью работы

специалистов с разными уровнями описания модели системы хранимой в

ОХБД. Использование предложенного метода обработки информации в

ОХБД позволяет интерпретировать результаты экспериментов в виде

математических формул, и следовательно получать методом

интерполяции/экстраполяции недостающие данные на уровне БД.

Получены результаты эксперимента, показывающего повышение

5

результативности тестирования знаний на 10% при использовании метода формирования тестов с использованием нечеткой логики. Разработанный метод подбора коэффициентов для функций принадлежности сократить до 13% временных затрат на ввод исходных данных о системе.

Научная значимость результатов исследования:

• разработан алгоритм для предложенного метода обработки информации в ОХБД и уменьшения объема хранимых данных;

• разработан алгоритм для предложенного метода подбора коэффициентов функций принадлежности;

• разработанный язык запросов для ОХБД с возможностью использования нечетких отношений позволяет облегчить и ускорить работу специалиста при формировании семантической основы базы данных, а также при работе с экспериментальными данными.

Апробация работы. Основные научные выводы и результаты работы докладывались на следующих конференциях: «Научно-техническая конференция МИРЭА» 56, 57 и 58 и Международной научно-технической конференции Шегтайс-2009. Материалы работы были опубликованы в 5-ти печатных работах (тезисы и материалы международных и российских конференций), а так же в 3 журналах, входящих в перечень рекомендованных ВАК. Также имеется два акта внедрения результатов диссертационного исследования в учебный процесс кафедры МОВС МИРЭА и в работу ООО «Форинтранс».

Структура и объем работы: Диссертация, объемом в 131 страницу, состоит из введения, трех глав, заключения, списка использованной литературы из 109 наименования.

Содержание работы

В первой главе содержится обзор проблем создания моделей систем большой размерности. Среди основных, определяющих решение проблем управления системами большой размерности, выделяются трудности, связанные со следующими особенностями:

• несвязностью тезаурусов в системе научных знаний -предметного и общеметодического характера;

• семантическими проблемами;

• необходимостью интеграции сведений различных предметных дисциплин;

Определяются пути решения сложившихся трудностей. Предложен новый подход к преодолению возникающих трудностей с применением методов синтеза и исследования моделей сложных явлений, выявления и решения возникающих проблем - уменьшение размерности подлежащих анализу моделей:

¡.декомпозицией описания модели, представленной на одном семантическом уровне;

2. введением динамического переопределения модели системы, представления ее в виде иерархии подсистем на разных семантических уровнях.

Рассматриваются архитектуры баз данных и возможность их применения для решения задач большой размерности. Приведены достоинства и недостатки как ранних, так и современных типов баз данных. Формулируются требования к базе данных для системы синтеза и исследования описаний сложных явлений:

1. Работать с узкоспециализированной справочной информацией. Отметим, что область справочной информации должна не просто полностью охватывать тематику исследования специалиста, но и содержать некоторое количество смежной информации. При этом

7

количество смежной информации должно быть достаточно малым, для обеспечения комфортной работы с основным материалом; и достаточно полно удовлетворять потребность исследователя в справочном материале.

2. Хранить естественно-языковую и числовую информацию в тесной связи. Это означает, что архитектура хранилища должна позволять сохранять и обрабатывать и сетевую структуру описаний, и конкретные числовые значения.

3. Обеспечивать хранение информации об исследовании на локальном компьютере пользователя.

4. Обеспечивать конвертацию и сохранение информации локальной БД в сетевое хранилище (ЛБД и ООБД системы).

5. Обеспечивать выборку необходимой информации из сетевого хранилища.

Описание системы большой размерности организовано при помощи семантической сети. Каждый же специалист работает только с частью этого описания. Формирование определенной области знаний происходит следующим образом:

• специалист выбирает из семантической сети понятие или несколько понятий (лексем), необходимых для работы;

• система, исходя из отношений между лексемами, заданных в семантической сети, отбирает некоторый набор лексем, относящихся, например, к одной предметной области, состоящих в иерархических отношениях подчинения или являющихся связными терминами;

• также выбираются лексемы, являющиеся характеристиками отобранных лексем, если таковые имеются;

• глубина отбора лексем может изменяться специалистом.

Исходя и данных, полученных описанным выше способом,

формируется предварительная версия ОХБД. Если в полученной БД

недостает каких-либо понятий - специалист может их добавить из семантической сети или создать новые необходимые ему лексемы. Когда работа по формированию закончена, полученная БД сохраняется и служит в качестве рабочей базы для данного специалиста. В этой БД хранятся результаты работы специалиста (например, экспериментальные данные), которые впоследствии переносятся в семантическую сеть.

Во второй главе излагаются основные сведения из теории нечетких множеств, рассматривается возможность проектирования языка запросов для разрабатываемой БД с использованием нечеткой логики.

Адаптирован метод интерпретации деления нечетких отношений в терминах порогов (например, чем больше значение параметра А удовлетворяет запросу, тем более строгие требования выполняются для параметра В в нечетком запросе) и в терминах важности (например, чем больше значение параметра А удовлетворяет запросу, тем важнее учет параметра В в нечетком запросе) для работы с ОХБД.

Представлена архитектура СБР, и рассмотрена объектно-характеристичекая база данных, как промежуточный вариант хранения экспериментальных данных системы большой размерности.

ОХБД является частью системы большой размерности. Архитектура системы представлены на рисунке I.

В серверной части СБР хранится:

1. Корпусы текстов по изучаемой тематике;

2. Лингвистическая база данных — специальная структура данных, которая служит для хранения и эффективного использования исходной, промежуточной и конечной информации о естественно- языковых объектах и их отношениях;

3. Объектно-ориентированная база данных, в которой хранится не естественно-языковая информация (числовая, графическая и т.д.).

На локальном компьютере находится объектно-характеристическая база данных, в которой хранится естественно-языковая и числовая информация, нужная пользователю для работы.

ОХБД непосредственно соприкасается только с лингвистической базой данных, в которой хранятся карточки понятий и ссылки на естественно-языковые описания и статьи в корпусах текстов; и ссылки на числовые значения и объекты объектно-ориентированной базы данных. Для работы с лингвистической базой данных используется язык запросов SQL. Помимо проектирования архитектуры ОХБД одной из основных задач исследования является разработка языка запросов к базе данных, позволяющего использовать для работы нечеткую логику.

Уровень Уровень Уровень Уровень

ММЯВЯЯ1-

Уровень Уровень Уровень Уоовень Уровень

ООБД

Рис. 1. Архитектура СБР

В третьей главе описывается структура спроектированной БД. ОХБД представляет собой гибрид реляционной и сетевой архитектур и является расширение объектно-характеристической таблицы, предложенной Криницким.

ОХБД состоит из трех связанных между собой областей (рис.2):

• область объектов;

• область характеристик;

• матрица значений.

Области объектов и характеристик представлены в виде древовидных иерархических структур с дополнительными связями между элементами, определяющими отношения между ними (рис.3). Поэтому, в общем случае мы имеем не дерево, а сеть. Однако при формировании этих структур особое внимание уделяется именно отношениям подчинения, что позволяет сохранить вид иерархии.

Характеристики

Значения

Рис.2 Архитектура ОХБД

Элементы этих структур представляют собой понятия, необходимые для описания предметной области, Между собой они могут состоять в определенных семантических отношениях. Ниже перечислены наиболее важные виды семантических отношений: антонимия, ассоциативные отношения, причино-следственные отношения, отношения положения, меронимия, пассивное отношение, владение, синонимия и др.

11

Рис.3 Пример области объектов ОХБД

В отдельных областях постоянно выявляются новые виды семантических отношений (например, в медицине идентифицировано более 30 семантических отношений), поэтому, при необходимости, данный список отношений может быть расширен специалистом.

Как и в случае с объектно-характеристическими таблицами, области объектов и характеристик связаны между собой при помощи матрицы значений.

Матрица значений представляет собой несколько связных списков, в которых каждый элемент помимо значения имеет ссылки на один или несколько объектов и характеристик, тем самым определяя некоторые значения характеристик для объекта. Точно также объекты и характеристики имеют ссылки на элементы матрицы. В качестве значений элементы матрицы могут принимать числа, строки, формулы, а также определенные пользователем структуры данных.

Такая структура позволяет специалисту формировать интересующие его части описанной системы по отдельным объектам

12

(характеристикам) или на основании некоторых значений из матрицы. Кроме того возможно получение данных по некоторому семантически близкому окружению объектов и характеристик.

Рассмотрим структуру прохождения запроса пользователя на формирование ОХБД, представленную на рисунке 4. Прохождение запроса делится на следующие этапы:

• Преобразование нечеткого запроса в запрос на языке SQL.

• Передача запроса в лингвистическую базу данных. В общем случае запрос содержит указания на имена лексем или сами имена интересующих пользователя лексем и критерии выбора ареала лексем (информационное расстояние).

• В лингвистической базе данных формируется список идентификаторов объектов ООБД, на которые у выбранных лексем есть ссылки. И формируется запрос для ООБД.

• Передача SQL-запроса объектно-ориентированной базе данных.

• ООБД формирует ответ.

• Передача объектов лингвистической базе данных.

• Формирование ответа на запрос. На этом этапе формируется структура, состоящая из лексем, отношений между лексемами, определения лексем, ссылок на тексты и конкретных числовых значений лексем.

Рис. 4. Структура прохождения запроса пользователя на формирование объектно-характеристической базы данных.

Метод сжатия данных в ОХБД

Наряду со стандартными методами архивации данных предложенная архитектура БД позволяет использовать метод интерполяции данных как средство сжатия числовых значений.

Суть предлагаемого метода состоит в замещении ряда значений, относящихся к одной смысловой группе (например, результаты измерений одной величины в различные промежутки времени) на соответствующее уравнение, описывающее данную последовательность значений. Для интерполяции могут использоваться следующие математические функции: линейная, параболическая, гиперболическая, логарифмическая, экспоненциальная, полином п-ой степени.

Помимо уменьшения объема хранимых данных этот метод играет важную роль при организации работы специалистов на разных уровнях описания системы. В случае работы с результатами какого-либо эксперимента одному специалисту будут требоваться точные данные,

14

другому же (работающему на более высоком уровне) будут необходимы только общие принципы и закономерности в изучаемой системе. При этом ему будет удобнее наблюдать результаты в виде математических описаний, нежели в виде набора цифр.

Естественно, в случае работы специалистов разных уровней с одной БД, будет требовать хранение обоих представлений данных (и числовых значений и математических выражений), а значит, описанный метод не будет использоваться как «сжимающий» данные, но позволит эффективнее организовать совместную работу специалистов.

Описание основных семантических конструкций разработанного языка запросов

Оператор SELECT

Оператор SELECT позволяет производить выборки данных из БД и преобразовывать к нужному виду полученные результаты. Он способен выполнять действия, эквивалентные операторам реляционной алгебры. <оператор_выборки> ::= SELECT(*\ [<тип_объекта>]} [\...п] FROM<гшя_блока> [,...п]

[WHERE <условия_поиска> [<нечеткие_условия_поиска>]]

Оператор SELECT определяет поля, которые будут входить в результат выполнения запроса. В списке они разделяются запятыми и приводятся в такой очередности, в какой должны быть представлены в результате запроса. Если используется имя поля, содержащее пробелы или разделители, его следует заключить в квадратные скобки. Символом * можно выбрать все поля. <тип_объекта> определяет семантические особенности выбираемых объектов, может содержать несколько значений.

Параметр <имя_блока> оператора FROM определяет, в какой части ОХБД будет производиться выборка (объекты, характеристики или матрица) полей, перечисленных в операторе SELECT.

Обработка элементов оператора SELECT выполняется в следующей последовательности:

FROM - определяются имена используемых блоков ОХБД;

WHERE - выполняется фильтрация объектов в соответствии с заданными условиями;

SELECT - устанавливается, какие объекты должны присутствовать в выходных данных;

С помощью WHERE-параметра пользователь определяет, какие блоки данных появятся в результате запроса. За ключевым словом WHERE следует перечень условий поиска, определяющих те объекты, которые должны быть выбраны при выполнении запроса.

Для реализации возможности использования нечетких запросов в операторе WHERE основных типов условий поиска внесен дополнительный:

• Нечеткое соответствие (~): проверяется, принадлежит ли результат запроса (слева от «~») указанным в условии значениям лингвистической переменной (справа от «~»).

Оператор INSERT

Оператор INSERT применяется для добавления записей в БД. <оператор_вставки> ::= INSERT INTO <ш!яблока> VAL UES(значен ие[, ...п])

ЬШК(<имя_родственника> <тип_связи>)[,...п]

Параметр <имя_блока> представляет собой область, в которую будет занесено значение (объекты, характеристики, матрица).

Оператор LINK задает связи между созданным объектом и существующими объектами в ОХБД. Строка <имя_родственника> задает имя объекта в БД, а <тип_связи> определяет, в каком отношении находятся объекты (является частью, является уточнением, отношение подчинения и др.)

Оператор DELETE

Оператор DELETE предназначен для удаления группы объектов из

БД.

<оператор_удаления> ::= DELETE FROM <имя_блока>[WHERE <условиг_отбора>]

Параметр <имя_блока> представляет собой область, из которой будут удалены данные (объекты, характеристики, матрица).

Если предложение WHERE присутствует, удаляются записи из области, удовлетворяющие условию отбора. Если опустить предложение WHERE, из области будут удалены все данные.

Оператор UPDATE

Оператор UPDATE применяется для изменения значений в группе записей или в одной записи.

<оператор_изменения> ::— UPDATE <имя блока> SET<идентификатор> = <еыражение> [,...п] [WHERE <услоеие_отбора>]

Метод подбора коэффициентов для функций принадлежности на основе семантических отношений в базе данных.

Наиболее трудоемкой задачей при внесении информации в БД, где будет использоваться язык запросов на основе нечеткой логики, является определение для каждого понятия самих нечетких множеств и функций принадлежности (ФП). При этом необходимо отметить, что от адекватности построения ФП зависит адекватность нечетких моделей. Поэтому возникает вопрос: «Можно ли полностью или частично автоматизировать данный процесс?»

Мы попытались решить данную проблему, опираясь на особенности архитектуры ОХБД. Поскольку в базе данных объекты и характеристики находятся в отдельных блоках, мы можем анализировать

отдельные объекты для определения граничных значений, что в дальнейшем потребуется для уточнения параметров ФП. Наличие семантических отношений в ОХБД позволяет использовать уже существующие понятия для описания ФП нового понятия, вносимого в БД.

Данный алгоритм представляет собой следующую последовательность шагов:

1. ввод «нового» понятия в БД (или выбор существующего, для которого необходимо определить ФП);

2. на основании семантических отношений найти в БД одно или несколько понятий (с указанными ФП), состоящих в отношениях подобия с «новым»;

3. в зависимости от дальности (расстояние на графе) найденного понятия задать коэффициент подобия (например, если найден синоним к синониму «нового» понятия);

4. проанализировать характеристики «нового» и найденных понятий, отобрать общие;

5. на основании полученных данных, а также опираясь на коэффициент подобия задать значения параметров ФП «нового» понятия

В случае, когда найденные ФП в базе не достаточно точно подходят (большое расстояние на графе или понятия найдены по отношениям меронимии) для «нового» понятия, параметры ФП будут расширены (например, границы определяющие область «мало» расширятся в сторону области «средне» и наоборот).

В случае, когда объем данных достаточно велик (более 1000

понятий), количество понятий, состоящих в семантически близких

отношениях, может составлять до 13% от общего объема данных.

Следовательно, использование данного метода позволит сократить

временные затраты при внесении описаний системы. Данный метод

позволяет частично автоматизировать процесс ввода функция

18

принадлежности для объектов базы данных и требует наличия определенного объема изначально указанных функций принадлежности в БД.

Экспериментальные данные

В качестве исходных данных мы используем вопросы для тестирования знаний по дисциплине Сети ЭВМ, используемые в автоматизированной системе учета текущей успеваемости на кафедре математического обеспечения вычислительных систем МИРЭА.

Как видно из таблицы 1, основным недостатком данного тестирования является одинаковое время на ответ для всех вопросов. Естественно, что при таких исходных данным тест не может быть адаптирован по сложности, в зависимости от успеваемости учащихся.

Таблица I. Фрагмент вопросов для

тестирования знаний по дисциплине Сети ЭВМ

Вопрос Время Ответы

В сети с методом доступа CSMA/CD компьютер, которому нужно передать данные, следует заранее заданному протоколу, обеспечивающему отсутствие конфликтов в сетевых коммуникациях. 25 -Да +Нет

Каждый цилиндрический соединитель улучшает качество сигнала. 25 -Да +Нет

Толстая и тонкая Ethernet часто комбинируются: тонкий кабель покрывает большие расстояния между сегментами на толстом кабеле, а толстый кабель используется для подключения компьютеров к магистральной сети на тонком кабеле. Это позволяет объединить в одной сети преимущества обоих типов Ethernet 25 -Да +Нет

100BaseT - это вид Ethernet, в котором для устранения характерной для нее проблемы конфликтов применяется более сложный метод, чем CSMA/CD. 25 -Да +Нет

При увеличении размера сети и добавлении к ней рабочих станций производительность Ethernet может значительно снизиться. 25 +Да -Нет

Для решения данной проблемы мы решили использовать нечеткие

множества для формирования тестов и определения времени на ответы.

19

Для этого мы воспользуемся отношениями в базе данных, чтобы составить таблицу синонимов для вопросов по данной дисциплине (Таблица 2). Как видно из таблицы 2, помимо синонимов мы использовали расшифровки аббревиатур и определения исходных понятий. Помимо синонимов мы указали сложность слов в диапазоне [0, 10], где специализированные терминь1 имеют большую сложность, чем слова используемые в обычной речи.

Таблица 2. Фрагмент синонимов для вопросов из таблицы 1.

Слово Синонимы

ATM Asynchronous Transfer Mode

сегмент часть, участок

маршрутизатор роутер

коммутируемый соединяемый

коммутатор свитч

сегментация разбиение, деление

CSMA / CD множественный доступ с контролем несущей и обнаружением коллизий

Для определения сложности слова мы используем лингвистическую переменную, основанную на трех трапециевидных функциях принадлежности с параметрами [0, 0, 3,4], [2,3.5, 7, 9], [6, 8, 10, 10]

Рис. 4. Лингвистическая переменная "Сложность слова" Далее мы производим анализ слов, содержащихся в вопросах и определяем их сложность. В данном анализе будем считать, что предлоги, союзы и местоимения не влияют на сложность восприятия вопроса и примем их сложность равной нулю. Как и в случае с синонимами,

специализированные слова, используемые в какой-либо предметной области, имеют самую высокую сложность.

На основании полученных данных мы можем использовать нечеткие запросы для формирования вопросов для тестирования (Таблица 3). При этом мы можем указывать сложность для формируемого теста. Исходя из данных о сложности слов, используемых в вопросах, будет формироваться время ответа на вопрос, что позволяет автоматически создавать более гибкие тесты. В случае, когда нам необходимо адаптировать тест, например, для отстающих студентов, может быть использован словарь синонимов для замены сложных слов на их более понятные синонимы.

Таблица 3. Фрагмент полученного теста из таблицы 1.

Вопрос Время Ответы

В сети с методом доступа CSMA/CD компьютер, которому нужно передать данные, следует заранее заданному протоколу, обеспечивающему отсутствие конфликтов в сетевых коммуникациях. 25 -Да +Нет

Каждый цилиндрический соединитель улучшает качество сигнала. 10 -Да +Нет

Толстая и тонкая Ethernet часто комбинируются: тонкий кабель покрывает большие расстояния между сегментами на толстом кабеле, а толстый кабель используется для подключения компьютеров к магистральной сети на тонком кабеле. Это позволяет объединить в одной сети преимущества обоих типов Ethernet 35 -Да +Нет

100BaseT - это вид Ethernet, в котором для устранения характерной для нее проблемы конфликтов применяется более сложный метод, чем CSMA/CD. 29 -Да +Нет

При увеличении размера сети и добавлении к ней рабочих станций производительность Ethernet может значительно снизиться. 18 +Да -Нет

Был проведен эксперимент со студентами вечернего отделения кафедры МОВС МИРЭА. Студенты проходили тест по сетям ЭВМ в

рамках дисциплины "параллельное программирование". Результаты тестирования показали, что использование гибкой системы формирования тестов способствует лучшему усвоению знаний. Было отмечено, что применение данного метода приводит к улучшению показателей результативности тестирования в среднем на 10%. Данный факт говорит о возможности использования данного метода не только применительно к тестированию знаний системы учета текущей успеваемости, но и для дистанционного обучения.

В заключении приводится список основных результатов диссертации, выносимых на защиту.

Основные результаты работы

1. На основании изучения теоретических исследований по системам большой размерности сформулированы требования к локальной базе данных программного комплекса для работы с системами большой размерности:

• возможность хранить описания систем на различных семантических уровнях;

• хранить результаты экспериментов и статистических данных;

• предоставлять средства для работы с информацией специалистам в различных областях.

2. Спроектирована новая гибридная архитектура базы данных, построенная на основе принципиальной модели объектно-характеристической таблицы и современных подходов и методов проектирования сетевых и реляционных баз данных.

3. Для объектно-характеристической базы данных, разработан метод замещения ряда значений на соответствующее уравнение, описывающее данную последовательность значений, позволяющий

уменьшать объем хранимой информации, а также организовать работу специалистов на разных уровнях описания системы.

4. Был разработан язык запросов для объектно-характеристической базы данных, имеющий инструменты для обработки нечетких запросов пользователей.

5. Разработан метод подбора коэффициентов для функций принадлежности на основе семантических отношений и уже указанных функций принадлежности в базе данных.

6. Был разработан интерфейс межмашинного взаимодействия между объектно-характеристической базой данных и сетевой лингвистической базой данных. Для этого был разработан интерпретатор, переводящий команды с языка нечетких запросов ОХБД на стандартный язык SQL-запросов.

Основные публикации по теме диссертации

Публикации в изданиях, рекомендованных ВАК

1. Сорочинский A.A. Использование нечетких запросов к объектно-характеристической базе данных. Наукоемкие технологии №6, т. 11, Москва 2010. с.55-59

2. Сорочинская Н.К., Сорочинский A.A. Нечеткий язык запросов для объектно-характеристической базы данных. Естественные и технические науки № 5, Москва 2010.

3. Сорочинская Н.К., Сорочинский A.A., Ткаченко В. М. Решение задач идентификации и реконструкции на неполных наборах данных в программном комплексе "система большой размерности". Труды ИСА РАН 2010. Т. 49 (1). с. 224-235

Публикации в других изданиях

1. Д.Э.Федотова, В.М.Ткаченко, А.А.Сорочинский. Анализ и способы

реализации объектно-ориентированных баз данных. Сборник трудов 58-й НТК МИРЭА. М.: МИРЭА, 2009;

2. ДЭ.Федотова, В.М.Ткаченко, А.А.Сорочинский. Перспективы внедрения языка Ruby в педагогическую практику. Сборник трудов IX региональной научно-практической конференции «Профессиональная ориентация о методики преподавания с системе «школа-вуз» в условиях перехода к единой форме государственной аттестации выпускников общеобразовательных учреждений». М.: МИРЭА, 2009;

3. Сорочинский A.A. Объектно-характеристическая база данных, как промежуточный этап хранения информации в системе большой размерности. Материалы Международной научно-технической конференции «Фундаментальные проблемы радиоэлектронного приборостроения». М.: Энергоатомиздат, 2009;

4. Сорочинский A.A. Объектно-характеристическая база данных. Объединенный научный журнал. Выпуск 10 (288), М.: АНП, 2009.

Отпечатано в ООО «Компания Спутник+» ПД № 1-00007 от 25.09.2000 г. Подписано в печать 03.05.2011 Тираж 100 экз. Усл. п.л. 1,5 Печать авторефератов (495)730-47-74,778-45-60

Оглавление автор диссертации — кандидата технических наук Сорочинский, Анатолий Анатольевич

ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ.

Введение.

ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ ПРОЕКТИРОВАНИЯ БАЗ ДАННЫХ.

1.1. Сложные системы и системы большой размерности.

1.1.1. Развитие сложных систем.

1.1.2. Подход к преодолению трудностей при описании систем большой размерности.

1.1.3. Автоматизация процессов создания управляемых семантических сетей.

1.2. Особенности существующих типов баз данных.

1.2.1. Ранние типы баз данных.

1.2.2. Основные особенности систем, основанных на инвертированных списках.

1.2.3. Иерархические системы.

1.2.4. Сетевые системы.

1.2.5. Достоинства и недостатки ранних СУБД.

1.2.6. Реляционный подход к организации БД.

1.2.7. Объектно-ориентированные базы данных (ООБД).

1.3. Достоинства и недостатки баз данных.

Г.4. Задача поиска в базах данных.

1.5. Использование нечеткой логики.

1.6. Объектно-характеристическая база данных.

1.6.1. Описание объектно-характеристической таблицы (ОХТ).

1.6.2. Задачи прямого и обратного поиска в ОХТ.

1.6.3. Особенности задач, решаемых с использованием ОХТ.

1.7. Объектно-характеристическая база данных для задач моделирования структурированных систем.

1.8 Использование объектно-характеристической базы данных для задач большой размерности.

Выводы по главе.

ГЛАВА 2. МЕТОДЫ И АЛГОРИТМЫ, ПРИМЕНЯЕМЫЕ В ИССЛЕДОВАНИИ.

Определения и обозначения, используемые в главе.

2.1. Описание комплекса системы большой размерности.

2.2. Определение операции деления в нечетких отношениях.

2.3. Определение операций четкой логики.

2.4. Формализация нечеткости.

2.5. Расширение операций для нечетких отношений.

2.5.1. Нормы.

2.5.2. Нечеткие значения.

2.6. Применение деления к нечетким отношениям.

2.6.1. Обзор предыдущих работ.

2.6.2. Интерпретация в терминах порогов.

2.6.3. Интерпретация в терминах важности.

2.7. Расширение операции деления.

2.8. Выражение деления нечетких отношений в

Выводы по главе.

ГЛАВА 3. РАЗРАБОТКА ОБЪЕКТНО-ХАРАКТЕРИСТИЧЕСКОЙ БАЗЫ ДАННЫХ ДЛЯ СИСТЕМ БОЛЬШОЙ РАЗМЕРНОСТИ.

3.1. Актуальность создания локальной объектно-характеристической базы данных.

3.2. Архитектура локальной объектно-характеристической базы данных.

3.3. Интерфейс межмашинного взаимодействия локальной гибридной базы данных и сетевого хранилища системы большой размерности.

3.4. Метод сжатия данных в ОХБД.

3.5. Разработка языка запросов.

3.5.1. Описание основных семантических конструкций.

3.5.2. Функции принадлежности и операции нечеткой логики, используемые в языке запросов.

3.5.3. Проектирование анализатора запросов.

3.5.4. Основные команды, поддерживаемые анализатором.

3.5.5. Типы лексем.

3.5.6. Описание функций БС^Ь-анализатора:.

3.6. Экспериментальные данные.

3.7. Пример использования языка запросов.

3.8. Метод подбора коэффициентов для функций принадлежности на основе семантических отношений в базе данных.

Выводы по главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Сорочинский, Анатолий Анатольевич

Актуальность темы. В последние несколько лет все острее становится проблема решения задач моделирования систем большой размерности (СБР). Главной отличительной чертой данных систем является необходимость работать с разными уровнями (масштабами) описания систем.

Данную проблему можно проиллюстрировать следующим примером. При исследовании какого-либо молекулярного процесса (например, химической реакции) и проектировании соответствующей модели системы мы сталкиваемся с необходимостью создания нескольких уровней описаний. Т.е. на более высоком уровне мы имеем молекулярные процессы, а на более низком - межатомные взаимодействия. Данные уровни будут иметь как различные временные режимы, так и разные точности измерений отдельных переменных в физических системах. То есть масштабы относятся! и к времени, и к самим физическим величинам, которые приходится измерять. Специалистам приходится осмысливать это и при взаимодействии на межатомном уровне, и при взаимодействии на молекулярном уровне, когда крупные атомные образования взаимодействуют между собой.

Основная задача описания СБР — связать эти уровни в единой модели и сделать возможным взаимодействие специалистов, работающих с разными уровнями описаний. Естественно, что каждый специалист в меру человеческих способностей не может охватить всю систему целиком, а может работать с частью системы и взаимодействовать со специалистами на других уровнях, и со специалистами на своем уровне. Для координации действий специалистов нужно подняться на верхний уровень и посадить специалиста, который будет заниматься координацией действий этих специалистов. Если порождается более высокий уровень, появляется необходимость создавать описания на более высоком уровне. Нужно ввести способы описания при интегрировании. Точно также, когда мы имеем некоторое интегрированное описание - нужно его декомпозировать и посмотреть, как это связано с.более низкими уровнями.

Bi течение продолжительного периода времени в лаборатории^ языков5« и методов моделирования систем? большой'размерности при институте проблем управления РАН; было'! выполнено множество работ, направленных наг решение данной проблемы. Воронцов И.Н., Келдыш: I I.B., Дыбо A.B. и; Ста- : ростин G.A. в ряде публикаций рассматривают особенности данных задач и пути их решение ([1— 5]). Также в работах Воронцова И.Н. и Греши лова М.М1. описана спроектированная система; моделирования; систем^ большой размерности с собственным языком ([6— 11]).-.

На- сегодняшний день стоит задача организации хранения описаний разной общности, от конкретных феноменологических результатов; связанных с неиосредствениыми; измерениями- до сколь угодно - общих описаний различных сфер знаний. Необходимо определить, каким образом располагать результаты измерений* и хранить их в базах данных, каким-, образом должны взаимодействовать отдельные автоматизированные процедуры.и каким образом должны; взаимодействовать людишршиспользованишданных.,,

Поэтому возникла необходимость выбора архитектуры базы; данных , способной эффективно хранить описания систем на различных семантических уровнях, результаты экспериментов и статистических данных, предоставляющей удобные средства для работы с информацией специалистам в различных областях.

В диссертационной-работе рассмотрены особенности проектирования' баз данных, возможность, создания; новой архитектуры БД и языка запросов; для работы с многоуровневой информацией.

Объектом-исследования являются системы большой размерности.

Предметом исследования являются математические модели описания баз данных; принципы построения систем управления: базами, данных; технологии реализации баз данных и языков запросов^к базам данных.

Целью диссертационной работы является проектирование и разработка эффективного средства хранения и обработки информации для систем большой размерности.

Для достижения поставленной цели были сформулированы следующие задачи:

1. Проанализировать задачи описания систем большой размерности, определить особенности данных, используемых для построения моделей сложных систем:

2. Рассмотреть способы организации хранения информации, особенности доступа к данным, возможность применения при решении задач большой размерности.

3. Разработать архитектуру базы данных для работы с экспертами в определенной предметной области, разработать- язык запросов с применением4 нечеткой логики- для доступа к описаниям и экспериментальным данным.

4. На основе проведенных исследований реализовать компьютерное средство хранения и обработки данных, позволяющее использовать методы сжатия и4интерполяции.данных, а также осуществлять доступ к данным с использованием конструкций естественного языка.

Основными теоретическими результатами» работы, выносимыми^ на защиту и определяющими научную новизну работы, являются:

• Предложен новый метод обработки информации в ОХБД, позволяющий на больших массивах экспериментальных данных сократить объем хранимой информации:

• Предложен новый метод подбора коэффициентов для функций принадлежности на основе семантических отношений в базе данных.

• Разработана архитектура локальной гибридной объектно-характеристической базы данных для решения задач большой размерности.

• Спроектирован язык запросов для объектно-характеристической базы данных, основанный на нечеткой логике.

Практическая значимость подтверждается возможностью работы специалистов с разными уровнями описания модели системы хранимой в ОХБД. Использование предложенного метода обработки информации в ОХБД позволяет интерпретировать результаты экспериментов в виде математических формул, и следовательно получать методом интерполяции/экстраполяции недостающие данные на уровне БД. Получены результаты эксперимента, показывающего повышение результативности тестирования знаний на 10% при использовании метода формирования тестов с использованием нечеткой логики. Разработанный метод подбора коэффициентов для функций принадлежности позволит сократить до 13% временных затрат на ввод исходных данных о системе.

Научная значимость результатов исследования:

• разработан алгоритм для предложенного метода обработки информации в ОХБД и уменьшения объема хранимых данных;

• разработан алгоритм для предложенного метода подбора коэффициентов функций принадлежности;

• разработанный язык запросов для объектно-характеристической базы данных с возможностью использования, нечетких отношений позволяет облегчить и ускорить работу специалиста при формировании семантической основы базы данных, а также при работе с экспериментальными данными.

Апробация работы. Основные научные выводы и результаты работы докладывались на следующих конференциях: «Научно-техническая конференция МИРЭА» 56, 57 и 58 и Международной научно-технической конференции 1п1егта11с-2009. Материалы работы были опубликованы в 5-ти печатных работах (тезисы и материалы международных и российских конференций) [12 - 15], а также в 3 журналах, входящих в перечень рекомендованных ВАК [16 - 18]. Также имеется два акта внедрения результатов диссертационного исследования в учебный процесс кафедры МОВС МИРЭА и в работу ООО «Форинтранс».

Структура и объем работы: Диссертация, объемом в 131 страницу, состоит из введения, трех глав, заключения, списка использованной литературы из 109 наименований.

Заключение диссертация на тему "Разработка архитектуры объектно-характеристической базы данных для работы с системами большой размерности"

Выводы по главе

1. Показана актуальность создания базы данных на- локальном компьютере при хранении большого количества разнородной информации; Определены основные компоненты в программном комплексе системы большой размерности:;

• две базы, данных,, хранящихся в серверной части комплекса (лингвистическая база данных и объектно-ориентированная . .". база данных); г ■'. . • локальная объектно-характеристическая база данных.

2. Разработана архитектура;локальной объектно-характеристической базы данных (ОХБД), которая представляет собой гибрид реляционной и сетевой архитектур. Выделены основные: области (объекты, характеристики и матрица значений) и типы семантических отношений между элементами БД.

3. Предложен, интерфейс; межмашинного взаимодействия- локальной ОХБД и сетевого хранилища» системы; большой размерности. Описан алгоритм прохождения запроса пользователя на формирование ОХБД.

41 Разработан метод, позволяющий уменьшить объем хранимой в базе данных информации и обеспечить организацию работы специалистов на разных семантических уровнях описания системы.

5. Разработан язык запросов для ОХБД, основанный на нечеткой логике. Определены, основные операции нечеткой логики, используемые в языке запросов. Описаны основные семантические конструкции языка-запросов.

6. Разработан интерпретатор- языка запросов для ОХБД и описаны его основные функции;

7. Приведены экспериментальные данные по обработке вопросов для тестирования знаний с применением нечетких множеств.

8. Приведен пример использования разработанного языка запросов с применением нечетких множеств, показывающий возможность увеличения полноты информации, получаемой при запросе к базе данных.

9. Предложен метод подбора коэффициентов для функций принадлежности и формирования нечетких множеств на основе семантических отношений в базе данных, позволяющий уменьшить трудоемкость внесения информации в ОХБД.

ЗАКЛЮЧЕНИЕ

В диссертационном исследовании, на основании изучения-программного комплекса СБР и теоретических исследований* по сложным системам, нами сформулированы требования к локальной базе- данных программного комплекса системы большой размерности. Среди основных требований были определены следующие:

• возможность хранить описания систем на различных семантических уровнях;

• хранить результаты экспериментов и статистических данных;

• предоставлять средства для работы с информацией специалистам в различных областях.

Основываясь на сформулированных требованиях, нами была спроектирована новая гибридная архитектура базы данных, построенная на основе принципиальной модели объектно-характеристической таблицы, предложенной Криницким [58] и современных подходов и. методов проектирования сетевых и реляционных баз данных. Основными особенностями спроектированной объектно-характеристической базы данных следует считать разбиение базы на три связанных между собой области:

• область объектов;

• область характеристик;

• матрица значений.

Внутри областей объекты и характеристики, помимо-установленной иерархии, связаны ;между собой семантическими отношениями.

Для ОХБД разработан метод замещения ряда значений на соответствующее уравнение, описывающее данную последовательность значений. Предложенный метод в случаях больших объемов экспериментальных данных позволяет уменьшать объем хранимой информации, а также позволяет организовать работу специалистов на разных уровнях описания-системы, когда; например, одному специалисту будут требоваться точные данные, а другому только общие принципы« и закономерности в изучаемой системе.

Была- создана действующая программная модель объектно-характеристической базы данных.

Нами были проанализированы работы, посвященные нечетким множествам и их использованию в языках запросов БД: На основании изученных материалов г был ; разработан язык: запросов для • объектно-характеристической базы данных, имеющий- инструменты для4 обработки нечетких запросов: пользователей. В работе также рассмотрен математический аппарат, лежащий в основе этого языка запросов.

Для уменьшения трудоемкости при внесении информации .в ОХБД нами1 был, разработан- метод- подбора коэффициентов для, функций; принадлежности на основе семантических , отношений и уже: указанных функций принадлежности в базе данных. В случае; когда .объем, данных? велик (более 10001 понятий);.,количество понятий; состоящих в семантически? близких отношениях, может составлять до 13% от общего объема.данных и, следовательно; обосновано использование, предложенного метода;

Был разработан интерфейс межмашинного- взаимодействия- между объектно-характеристической базой данных и сетевой лингвистической-базой данных. Для; этого был разработан- интерпретатор, переводящий: команды с языка нечетких запросов ОХБД на стандартный язык 8С>Е-запросов.

Библиография Сорочинский, Анатолий Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Воронцов И.Н. О создании Международного центра проблем управления и междисциплинарных исследований. Доклад Ученому совету ИПУ РАН 29 июня 2006 г., Письмо в Президиум РАН, 4 стр.

2. Vorontsov I.N. Control problems and interdisciplinary research and development. Pr. of the International Conference SICPRO "System Identifiction and Control Problems". Institute of Control Sciences, Moscow, January, 2007

3. И.Н.Воронцов, М.М.Грешилов. Система математических методов машинного моделирования "Взаимодействия". Язык системы. (Машинная реализация, версия ВМ-3). Библиотека операторов ипроцедур (сообщение 1). Институт проблем управления, Москва, 1979 (37 стр.).

4. Языки и модели в управлении большими системами. Разработка концептуального базиса языка описания и анализа сложных систем. Институт проблем управления им. В.А. Трапезникова. Отчет по теме № 303-04/03/28. Москва, 2004 г.

5. И.Н.Воронцов, М.М.Грешилов. Система математических методов машинного моделирования "Взаимодействия". Язык системы. (Машинная реализация, версия ВМ-3). Институт проблем управления, Москва, 1979 (75 стр.).

6. И.Н.Воронцов, М.М.Грешилов. Система математических методов машинного моделирования "Взаимодействия". Язык теории и язык системы. Институт проблем управления, Москва, 1979 (47 стр.).

7. И.Н.Воронцов. Система математических методов машинного моделирования "Взаимодействия". Элементы теории. Институт проблем управления, Москва, 1979 (59 стр.).

8. Д.Э.Федотова, В.М.Ткаченко, А.А.Сорочинский. Анализ и способы реализации объектно-ориентированных баз данных. Сборник трудов 58-й НТК МИРЭА. М.: МИРЭА, 2009;

9. Сорочинский А.А. Объектно-характеристическая база данных. Объединенный научный журнал. Выпуск 10 (288), М.: АНП, 2009.

10. Сорочинский А.А. Использование нечетких запросов к объектнохарактеристической базе данных. Наукоемкие технологии №6, т.11, Москва 2010. с.55-59

11. Сорочинская Н.К., Сорочинский А.А. Нечеткий язык запросов для объектно-характеристической базы данных. Естественные и технические науки № 5, Москва 2010.

12. Сорочинская Н.К., Сорочинский А.А., Ткаченко В. М. Решение задач идентификации и реконструкции на неполных наборах данных в программном комплексе "система большой^ размерности". Труды ИСА РАН 2010. Т. 49 (1). с. 224-235

13. Воронцов И.Н., Келдыш Н.В., Дыбо А.В., Базлев М.С., Базлева Е.А. Отчет о научно-исследовательской работе «Автоматизация синтеза и исследования моделей социально-экономических систем», Институт проблем управления РАН, Москва 2009 г.

14. Кнут Д; Искусство программирования для ЭВМ:М;: Мир, 1978.Т. 3: Сортировка и поиск.

15. Кудрявцев В. Б. Функциональные системы. М.:Изд-во Моск. ун-та, 1982.

16. Ли Д., Препарата Ф. Вычислительная геометрия. Обзор // Кибернет. сб. 1987. Вып. 24. С. 5—96.

17. Мартин Дж. Организация: баз данных в вычислительных системах.М.: Мир, 1980.

18. Ньюмен У. М., Спруэлл Р. Ф. Основы интерактивной машинной графики.М.: Мир, 1976.

19. Препарата Ф., Шеймос Ml Вычислительная геометрия: Введением.: Мир; 1989;

20. Решетников В. Н. Алгебраическая теория информационного поиска //Программирование Л 979.№ З.С. 68-—74.

21. Селтон F. Автоматическая обработка, хранение и поиск информации//М.: Советское радио, 1973 .

22. Ben-Or М. Lower bounds for algebraic computation trees // Proc. 15th ACM Ann. Symp. Theory Comput. (April 1983).P. 80—86.33,34,35