автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников
Автореферат диссертации по теме "Исследование и разработка системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников"
□03408287
ВОЛОШИН СЕРГЕЙ БОРИСОВИЧ
ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ СБОРА, ХРАНЕНИЯ, АНАЛИЗА И ВИЗУАЛИЗАЦИИ МАССИВОВ ДАННЫХ, ПОСТУПАЮЩИХ С ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫХ ИСТОЧНИКОВ
Специальность 05.13.01 - «Системный анализ, управление и обработка информации (промышленность)»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 о ДЕК 2009
Владикавказ - 2009
003488287
Работа выполнена в Северо-Кавказском горно-металлургическом институте (государственном технологическом университете)
Научный руководитель: Официальные оппоненты:
кандидат технических наук, доцент Мамонтов Д. В.
доктор технических наук, профессор Алкацев М. И.;
доктор технических наук, профессор Музаев И. Д.
Ведущая организация: Кабардино-Балкарский ордена Дружбы народов
государственный университет им. X. М. Бербекова, г. Нальчик
Защита диссертации состоится « 28 » декабря 2009 г. в 15— на заседании диссертационного совета Д212.246.01 при Северо-Кавказском горнометаллургическом институте (государственном технологическом университете) по адресу: 362021, РСО-Алания, г. Владикавказ, ул. Николаева, 44, СКГМИ(ГТУ). Факс: (8672) 407-203. E-mail: info@skgmi-gtu.ru
С диссертацией можно ознакомиться в Научно-технической библиотеке СКГМИ (ГТУ).
Автореферат разослан « 27 » ноября 2009 г.
Учёный секретарь диссертационного совета Д212.246.01, к.т.н., доц.
Аликов А. Ю.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время деятельность любой организации (будь то промышленное предприятие, государственная структура, учебная организация и т.д.) сопровождается регистрацией и записью в электронном виде всех подробностей ее работы. Для промышленного производства это могут быть значения технологических параметров, данные о продажах продукции, рынках сбыта и многое другое. Как правило, это массивы неупорядоченных разнородных данных, источники которых находятся на расстоянии друг от друга. Анализ таких данных является неотъемлемой составляющей их эффективного использования.
Специфика современных требований к анализу в общем виде может быть описана следующим образом:
1. Данные имеют значительный, изначально неизвестный объем.
2. Данные являются разнородными (количественными, качественными, текстовыми, мультимедийными).
3. Результаты анализа должны быть конкретны и понятны, т. е. требовать как можно меньше затрат на дальнейшую обработку.
4. Инструменты для обработки данных должны быть просты в использовании и работать на персональных компьютерах с различными техническими характеристиками.
Удобство использования инструмента анализа - очень важное качество. Прежде всего, это связано с тем, что коммерческие приложения для анализа данных, предлагаемые на рынке программного обеспечения, как правило, являются универсальными системами, реализующими многочисленную функциональность. И если для научных исследований это скорее преимущество, то использование подобных систем в повседневной деятельности специалиста, например, технолога цеха на металлургическом предприятии, будет затруднено в связи с перегруженностью интерфейса пользователя, затратой времени на ввод, последующую перепроверку исходных данных и выводом результатов анализа. Кроме того, избыточная функциональность увеличивает цену продукта и стоимость его владения (вызванную затратами на приобретение высокопроизводительной компьютерной техники и выделением средств на обучение персонала).
Своевременность и актуальность решаемых в настоящей работе проблем заключается, прежде всего, в том, что в ней поставлена и решена задача исследования и разработки современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, с возможностью использования предлагаемой системы в различных сферах деятельности путем внедрения так называемых отраслевых модификаций.
Целью диссертационной работы является исследование и разработка системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
Поставленная цель потребовала решения следующих задач:
1. Анализ основных проблем, принципов и методов проектирования со-
временной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. Создание методики разработки модулей анализа данных для предлагаемой системы.
3. Разработка методики защиты системы от нелегального использования.
4. Разработка отраслевых модификаций системы с целью демонстрации применимости используемой архитектуры предлагаемой системы в различных отраслях жизнедеятельности человека.
5. Оценка эффективности работы отраслевых модификаций системы.
Методы исследования. Проводимые исследования базировались на положениях технической кибернетики, методах и приемах исследования сложных процессов: системный анализ, имитационное моделирование, математическое моделирование, регрессионный анализ. Использовались методы математической статистики, искусственного интеллекта.
Научная новизна работы:
1. Предложена система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, как комплексного инструмента системного анализа промышленных, социальных и иных объектов исследования.
2. Предложены внутреннее устройство и методика разработки модулей анализа данных для предлагаемой системы.
3. С использованием предложенной системы разработаны математическая модель, описывающая зависимость температуры кипящего слоя в печи для обжига сульфидных цинковых концентратов от некоторых технологических параметров и математическая модель, описывающая зависимость оценки знаний обучающихся от нескольких факторов.
Обоснованность и достоверность научных положений, выводов и рекомендаций подтверждается соответствием результатов теоретических и экспериментальных исследований, результатами внедрения разработанных программных комплексов в ряде организаций.
Практическая значимость работы:
1. Разработана система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. Предложена методика разработки модулей анализа данных для предлагаемой системы.
3. Разработана отраслевая модификация ("КгпАпа^сзБуз") системы, применяемая при реализации мероприятий по вычислению оптимальных параметров работы печи кипящего слоя для обжига сульфидных цинковых концентратов в условиях ОАО "Электроцинк".
4. В рамках работы над отраслевой модификацией "^пАпа^свБуз" разработаны и реализованы машинно-ориентированные алгоритмы, позволяющие проводить моделирование процесса обжига сульфидных цинковых концентратов в печах кипящего слоя в промышленных условиях.
5. С использованием отраслевой модификации "К2пАпа1у1к88у5" разработана и идентифицирована математическая модель, описывающая зависимость температуры кипящего слоя в печи для обжига сульфидных цинковых
концентратов от некоторых технологических параметров и состоящая из материальных и тепловых балансов, а также термохимических и многофакторных регрессионных уравнений.
6. Разработана отраслевая модификация ("TestGen") системы, применяемая в качестве автоматизированной системы оценки качества знаний Министерством образования и науки Республики Северная Осетия-Алания.
7. С использованием отраслевой модификации "TestGen" разработана и идентифицирована математическая модель, описывающая зависимость оценки школьников от таких факторов как тип дошкольного образования и категория учителя.
8. Отраслевые модификации системы в форме отдельных программных комплексов "RZnAnalyticsSys" и "TestGen" используются в учебном и научно-исследовательском процессе в Северо-Кавказском горнометаллургическом института (государственном технологическом университете).
Апробация работы. Основные результаты проведенных в диссертации исследований были представлены и обсуждены: на III межрегиональной научной конференции "Студенческая наука - экономике России", г. Ставрополь, 2002 г. (работа заняла 3-е место); на VI межрегиональной научной конференции "Студенческая наука - экономике России", г. Ставрополь. 2005 г.; на Всероссийской научной конференции студентов, аспирантов и молодых ученых - "Перспектива - 2005", г. Нальчик, 2007 г.; на Всероссийской конференции-конкурсе студентов выпускного курса ВУЗов минерально-сырьевого комплекса России, г. Санкт-Петербург, 2006 г. (работа заняла 1-е место); на Международном конгрессе студентов, аспирантов и молодых ученых - "Перспектива - 2007", г. Нальчик, 2007 г.; на Международной конференции "Научный потенциал студенчества - будущему России", г. Ставрополь, 2007 г.; на IV Международной конференции "Инновационные технологии для устойчивого развития горных территорий", г. Владикавказ, 2007 г.
Личный вклад автора. Оценочный вклад автора составляет 70 %.
Публикации. Основные результаты диссертационной работы опубликованы в 15 работах, из них 1 в издании, рекомендованном ВАК, и 3 свидетельства об официальной регистрации программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и девяти приложений. Общий объем диссертационной работы составляет 213 страниц машинописного текста, в том числе 46 рисунков, 8 таблиц и список литературы из 135 наименований.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи исследования.
В первой главе проведен системный анализ основных проблем, принципов и методов проектирования современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников. На основе анализа тенденций развития и функциональных возможностей почти двух десятков систем, были сделаны следующие выводы:
1. Для использования в качестве систем анализа существующих универсальных математических пакетов (типа, Mathcad или Maple), необходимо знать и уметь вводить алгоритмы анализа. Большинство методов анализа необходимо самостоятельно программировать встроенными, весьма ограниченными и несовершенными инструментами.
2. Практически все рассмотренные пакеты программ разрабатываются иностранными компаниями. Исходный код программных продуктов закрыт, что делает невозможным с точки зрения безопасности использование этих решений в оборонных, аэрокосмических и высококонкурентных отраслях экономики нашей страны.
3. Ни один из рассмотренных продуктов не обладает универсальностью с точки зрения использования в различных отраслях (например, металлургии, экологии и т.д.). Комплексные решения (такие как, PASW или SAS) разработаны в первую очередь для анализа экономических, а не технологических данных. Как следствие, эти продукты не обладают встроенными средствами коммуникации с промышленным оборудованием или со SCADA-системами.
4. Большинство пакетов анализа обладают сложным, перегруженным элементами управления (меню, кнопками и т. д.) графическим интерфейсом пользователя.
5. Существующие системы хранения и визуализации данных хоть и обладают определенными функциями анализа, но не обеспечивают их удобное постоянное применение. Однако интеграция проверенных решений в разрабатываемые продукты как специализированных подсистем, позволит существенно уменьшить стоимость создания и использования всего решения в целом.
С учетом проведенного анализа были сформулированы цели и задачи исследования.
Во второй главе рассмотрена предлагаемая система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников. Система позволяет выполнять следующие функции:
1. Сбор разнородных данных с территориально удаленных источников посредством локальной вычислительной сети или глобальной сети Интернет.
2. Хранение собранных массивов данных и дополнительных данных в централизованном хранилище.
3. Анализ данных с помощью различных алгоритмов обработки информации.
4. Визуализация результатов анализа и передача их в другие программные продукты.
В общем виде функциональные возможности системы и порядок работы представлены на рисунке 1.
Разработанную систему отличает возможность использования в различных отраслях деятельности путем внедрения так называемых отраслевых модификаций системы.
Также возможно интегрирование предлагаемой системы в существующую информационную систему организации (например, АСУ промышленного предприятия) в качестве специализированной подсистемы, выполняющей анализ данных и передающей результаты в другие подсистемы.
Рисунок 1 - Функциональные возможности предлагаемой системы.
Структурно система представляет собой конструкцию из связанных модулей. При разработке системы возник круг задач, которые необходимо было решить. А именно:
1. При реализации на языке программирования высокого уровня не допустить смешивания кода доступа к данным с кодом бизнес-логики, кодом подсистемы ввода/вывода и кодом представления данных (кодом пользовательского интерфейса).
2. Спроектировать изолированную архитектуру доступа к данным так, чтобы она могла поддерживать различные хранилища данных, не требуя внесения изменений на уровне бизнес-объектов. Подобным образом внесение изменений в объекты бизнес-логики тоже должно быть возможным без изменения остальных уровней.
3. Спроектировать архитектуру бизнес-объектов так, чтобы обеспечить отображение реляционных данных на классы.
4. Обработать и зарегистрировать все возможные исключения и другие важные события, например, добавление или удаление данных, чтобы упростить диагностику проблем в случае сбоя в работе системы и обеспечить наличие данных аудита.
5. Сохранить конфигурационные настройки системы и используемых внешних подсистем (например, модулей анализа) в таком месте, из которого их будет легко считывать и в котором в них будет легко вносить изменения, а также создать вспомогательные классы, чтобы упростить доступ к этим параметрам.
6. Обеспечить удаленный контроль и управление системой с помощью провайдера терминального доступа.
7. Спроектировать архитектуру таким образом, чтобы с максимальной эффективностью использовать модульность системы, с точки зрения использования параллельных вычислений, для повышения производительности анализа и увеличения отказоустойчивости.
Все эти задачи были решены с помощью технологии многоуровневого проектирования сложных информационных систем. Исходя из специфики, было принято решение о разделении системы на 5 уровней.
- Уровень "Хранилище данных". Место, где находятся сами данные. Это может быть реляционная база данных (Microsoft SQL Server, MySQL и др.) или файл структурированного формата (например, XML).
- Уровень "Доступ к данным". Алгоритмы, необходимые для извлечения и манипулирования данными, хранящимися в этом хранилище данных. Для работы используются различные специализированные библиотеки (провайдеры) взаимодействия с БД.
- Уровень "Бизнес-логика". Алгоритмы, которые берут данные, извлекаемые на уровне "Доступ к данным" и предоставляют их клиенту (через уровень "Ввод-вывод") в более абстрактном и понятном виде, скрывая низкоуровневые детали типа системы хранилища данных и добавляя всю необходимую верификационную логику, гарантирующую безопасность и согласованность входных данных.
- Уровень "Ввод-вывод". Алгоритмы, которые помогают обеспечить прием необработанных удаленных массивов данных и передачу результатов анализа в уровень "Представление".
- Уровень "Представление". Алгоритмы, которые определяют, что именно пользователь должен видеть на экране, включая форматированные данные и навигационные меню системы. Этот уровень может быть спроектирован для работы внутри Web-браузера, либо как часть SCADA-системы, или для работы под управлением операционной системы как самостоятельное приложение.
Структурная схема отношений между уровнями системы представлена на рисунке 2. Из данного рисунка видно, что поступающие данные перед помещением в хранилище проходят уровень "Бизнес-логика", который и определяет каким именно образом данные будут располагаться в хранилище.
Массивы данных из территориально распределенных источников по локальной сети или сети Интернет поступают на вход службы приема-передачи данных в подсистему приема массивов данных. Далее массивы под управлением ядра системы и с помощью провайдера данных помещаются в базу(ы) централизованного хранения анализируемых данных.
Рисунок 2 - Структурная схема отношений между уровнями системы.
Если помимо анализируемых данных необходимо хранить специальные дополнительные (служебные) данные, то они размещаются в базе централизованного хранения дополнительных данных. Доступ к ним осуществляется под управлением ядра системы с помощью двух провайдеров: провайдера специализированных данных и провайдера баз данных.
Настройки системы хранятся в специальном конфигурационном файле, доступ к которому может осуществляться удаленно, одновременно несколькими экземплярами системы.
Все алгоритмы анализа хранятся в специальных библиотеках анализа данных. В автоматическом режиме (например, по таймеру) или при запросе оператора, система начинает проводить анализ данных. Контроль над выполнением анализа данных проводится с помощью системы управления. В стандартной конфигурации система управления состоит из трех подсистем: подсистемы контроля и управления процессом анализа, подсистемы определения спецификаций хранимых и анализируемых данных (первые две подсистемы взаимодействуют с ядром системы посредством провайдера терминального доступа), а также подсистемы визуализации результатов анализа (взаимодействует в одностороннем порядке с ядром системы с помощью службы приема-передачи данных, а конкретно - подсистемы передачи результатов анализа). Базовая структура предлагаемой системы сбора, хранения, анализа и визуализации массивов данных представлена на рисунке 3.
В случае когда анализируемые массивы данных представляют собой наборы численных значений, система управления может быть представлена в минимальной конфигурации и состоять только из двух модулей (подсистемы визуализации результатов анализа и подсистемы контроля и управления процессом анализа), программно объединенных в одно приложение.
На уровне "Хранилище данных" располагаются базы централизованного хранения анализируемых данных и централизованного хранения дополнительных данных (например, база данных химических свойств веществ).
Источник ! Источник
данных 1 данных 2
Источник
данных к
1 Массивы анализируемых данных.
Провайдер дополнительных данных
Спужба приема-передачи дамиы*
Подсистема приема массивов данных
Подсистема передачи результатов анализа
Результаты анализа, передаваемые в другие подсистемы
Система упрмдоиия
Настройки системы
Источник дополнительных данных
Потребитель дополнительных данных
Ядро системы
База централизованного хранения дополнительных данных
База централизованного хранения анализируемых данных
> Провайдеры баз данных
Провайдер терминального доступа
Подсистема визуализации резулыагов анализа
Подсистема контроля
и управления процессом анализа
Подсистема определении спецификации хранимых и анализируемых данных
Метод анализа 1
Метод анализа 2
Метод анализа п
Библиотеки анализа данных
Рисунок 3 - Базовая структура системы сбора, хранения, анализа и визуализации массивов
данных.
На уровне "Доступ к данным" располагается специализированное программное обеспечение (поставщики данных), отвечающее за взаимодействие ядра (уровень "Бизнес-логика") и баз данных (уровень "Хранилище данных").
Для каждого типа базы данных предназначен свой поставщик (провайдер) данных - коннектор. Программные компоненты, расположенные на этом уровне, в основном, представляют собой библиотеки и специализированные программные методы для управления и администрирования автономных объектов и баз данных.
На уровне "Бизнес-логика" располагается центральный компонент системы - ядро. Ядро системы является связывающим звеном всех остальных компонентов. Оно связывается с остальными компонентами посредством вызова событий.
Модули анализа данных функционально находятся на уровне "Бизнес-логика" и напрямую взаимодействуют с ядром системы посредством открытого интерфейса прикладного программирования (Application Programming Interface, API). Модульность системы и открытый API позволяет при необходимости создавать неограниченное количество разнообразных библиотек анализа и подключать их к работающей системе. В базовой комплектации предлагаемая система снабжена модулями анализа данных:
1. Модуль суммарных статистик.
2. Модуль регрессионного анализа.
3. Модуль дискриминантного анализа.
Для удобства навигации по модулям анализа был разработан специализи-
рованный класс, реализующий структуру каталогизации и группировки модулей анализа.
В общем виде схему процесса обработки массива данных можно представить как последовательное выполнение операций (см. рисунок 4).
Где пунктирными прямоугольниками показаны массивы данных, а сплошными прямоугольниками - выполняемые над данными операции.
Операция "Очистка от шума" предназначена для выявления и удаления элементов массива, представляющих редкие особые ситуации, либо содержащих ошибочные или очень неточные значения, т.е. способных оказать существенное негативное влияние на результаты анализа. В рамках этой операции также может выполняться нормализация данных. Для этого используется преобразование: XI - х
где Xi - z'-й элемент массива, х - среднее значение элементов массива, S2 -дисперсия элементов.
Необходимо отметить, что очистка от шума необязательная операция. О необходимости ее применения решает аналитик, проводящий анализ. Как следствие, у каждого модуля есть изменяемый параметр "Убрать шум", принимающий значения True или False.
У модулей нет своего графического интерфейса. Все настройки модулей определены в виде отдельного класса. При работе с модулем все открытые свойства класса доступны для редактирования с помощью автоматически генерируемого в слое "Представление" интерфейса пользователя.
На уровне "Ввод-Вывод" размещены специализированные классы, отвечающие за работу с потоками данных.
Так как массивы данных передаются, как правило, по открытым каналам связи (сеть Интернет, локальная вычислительная сеть предприятия), то возникает необходимость обеспечения защиты передаваемой информации. Конфиденциальность данных достигается применением криптографических алгоритмов AES и RSA с помощью классов, входящих в пространство имен Sys-tem.Security.Cryptography и класса CryptoStream.
Схема передачи данных показана на рисунке 5.
Данный механизм передачи данных обладает достаточной секретностью и быстродействием для того, что бы конфиденциально передавать массивы данных объемом от нескольких килобайт до нескольких десятков гигабайт.
На уровне "Представление" располагается графический пользовательский интерфейс. Интерфейс формируется динамически, исходя из потребностей в отображении тех или иных данных.
Г Результаты I [____анализа___|
Рисунок 4 - Схема обработки массива
КАНАЛ ПРРГЛАЧИ ДАННЫХ
Рисунок 5 - Схема передачи данных.
Разработанная система может работать в двух базовых режимах:
1. Режим приема и обработки одного большого массива данных, поступающих с территориально распределенных источников. Данный режим работы используется при анализе массивов связанных данных (в совокупности рассматриваемых как единый большой массив), получаемых от нескольких территориально распределенных источников. При этом система функционирует следующим образом:
- несколько массивов данных поступают на ХУеЬ-серверы №1-№п;
- данные объединяются на одном из серверов хранения;
- после получения всех массивов, объединенные данные с сервера-хранения реплицируются на все остальные сервера хранения (таким образом, на всех серверах хранения имеется объединенный массив);
- сервер управления дает команду серверам анализа начинать обрабатывать данные (при этом на каждом сервере может использоваться свой алгоритм анализа, либо при применении технологий распараллеливания - один алгоритм);
- после проведения анализа результаты отправляются получателю с помощью одного из \¥еЬ-серверов.
Схема работы системы в режиме приема и обработки одного большого массива данных показана на рисунке 6.
В минимальной конфигурации в качестве ШеЬ-сервера, сервера анализа, сервера хранения данных и терминала управления может быть использован один персональный компьютер. Однако, такое решение приведет к падению производительности анализа данных. Падение производительности особенно будет заметно при обработке больших массивов разнородных данных.
2. Режим приема и обработки нескольких небольших независимых массивов данных, поступающих с территориально распределенных источников. Данный режим работы используется при анализе нескольких несвязанных между собой массивов данных. При таком режиме каждый из серверов кластера работает независимо, а количество серверов в каждом кластере равно между собой. Например, массив данных №1 принимается ХУеЬ-сервером №1, хранится на сервере хранения №1, анализируется на сервере анализа №1 и
результаты анализа передаются получателю тоже с помощью \УеЬ-сервера №1. Однако управление (контроль) процессом анализа всех массивов может осуществляться централизованно, с одного терминала управления. Схема работы системы в режиме приема и обработки нескольких небольших независимых массивов данных представлена на рисунке 7.
Рисунок 6 - Схема работы системы в режиме приема и обработки одного большого массива
данных.
Массив данных от источника 1 Кластер из У/оЬ~сервероа Кластер из серверов анализа Кластер из серверов хранения денных
ШеЬ-служба приема-передачи данных из МлЬ-саоюре 1 Сервер анализа 1 Свркер «ранения длимы» 1
Функция приема массивов
данных >
1-----| Получатель результатов ■ анализа 1 | Массив данных от источника 2 Функция передачи результатов
анализа
№еЬ-служба приема-передачи денных на МеЬ-серйере 2 Сервер ачалмэ 2 Сореер хранения данных 2
Функция приема массивов
данных * *
1------| Получатель результатов I янатмг Функция передачи результатов
анализа
Массив данных от источника л УУоЬ-службя приема-городами л дни»« на \Л/еЬ-с<»»М)ре Г1 Орвер анализе п Сервер хранения данных п
Функция приема массивов
1------| Получатель результатов 1 анализа п | данных ч
Функция передачи результатов
анализа
Терминалы управ/адния
Рисунок 7 - Схема работы системы в режиме приема и обработки нескольких небольших независимых массивов данных.
Кластеризация \УеЬ-серверов относится к технологии создания отказоустойчивых Интернет-ресурсов. Можно использовать кластер, состоящий из серверов количеством до 32 единиц. При таком подходе увеличивается пропускная способность системы и повышается ее отказоустойчивость. Для клиентов взаимодействие с кластером абсолютно прозрачно.
Кластеризация серверов анализа может применяться для увеличения производительности анализа путем распараллеливания вычислительных процессов. Распараллеливание особенно актуально при наличии мощной вычислительной техники (многопроцессорные многоядерные конфигурации) и больших массивов данных. Для оценки эффективности качества распараллеливания применяются следующие критерии: 1. Ускорение
где Тр — время исполнения распараллеленной программы на р процессорах, Т] — время исполнения исходной программы. В идеальном случае (отсутствие накладных расходов на организацию параллелизма) равна количеству процессоров.
2. Загруженность
V ртР'
показывает долю использования процессоров. Загруженность в идеальном случае равна 1, или 100%. Эта величина зачастую гораздо более наглядно характеризует эффективность параллелизма в серии испытаний при разных р, чем
Кластеризация серверов хранения данных применяется для увеличения производительности операций чтения/записи при доступе к данным и повышения надежности (безотказности) подсистемы хранения.
Система защищена от нелегального использования. Обобщенная схема работы алгоритма защиты показана на рисунке 8.
Рисунок 8 - Обобщенная схема работы алгоритма защиты.
Каждый дистрибутив снабжается ключевым файлом. Ключевой файл подтверждает легальность установленного программного продукта и может служить для идентификации пользователя, ограничения времени работы с системой и т.д. Ключевой файл состоит из трех блоков данных: информации о пользователе в открытом виде, информации о пользователе в зашифрованном виде и расшифровывающего ключа ассиметричного алгоритма шифрования.
В третьей главе описаны методы и результаты разработки отраслевой модификации системы сбора, хранения, анализа и визуализации массивов данных под названием "К2пАпа1уйс58у5". Разработанную систему предлагается рассматривать как важную часть (подсистему) концепции интеллектуальной автоматизированной системы управления технологическим процессом обжига сульфидных цинковых концентратов в печах кипящего слоя. Основное предназначение подсистемы "К^пАпа^^БуБ" - своевременная помощь оператору (сменному мастеру, технологу) в принятии технологических решений, влияющих на ход всего процесса обжига сульфидных цинковых концентратов в печах кипящего слоя.
Схема работы подсистемы "К2пАпа]уйс58уз" и ее взаимодействия с системой управления показана на рисунке 9.
Массивы технологических данных (параметров) от имитационной модели процесса и БСАОА-системы поступают службе приема-передачи данных (в подсистему приема). Под управлением ядра системы данные помещаются в базу централизованного хранения. При необходимости (в случае команды оператора или при возникновении внештатной ситуации) с помощью подсистемы контроля и управления процессом анализа и с учетом заданных спецификаций данные извлекаются из базы и анализируются. Тип анализа, выборку данных и другие необходимые параметры задаются с помощью подсистемы определения спецификации хранимых и анализируемых данных. Методы анализа выбираются из имеющихся в библиотеке анализа данных. Результаты анализа визуализируются и передаются в подсистему поддержки принятия решений (для генерации рекомендаций).
Необходимо отметить, что все механизмы управления подсистемой "КЕпАпа^ИсББуБ" и инструменты визуализации результатов сосредоточены в ЗСЛБА-системе (т.е. являются ее частью). Взаимодействие БСАБА-системы и ядра подсистемы "К2пАпа1уйс55у8" осуществляется посредством провайдера терминального доступа.
Для моделирования работы обжиговой печи была создана имитационная модель процесса обжига. Основное предназначение данной модели - генерация массивов технологических параметров, так как если бы данные бы предоставила ЗСАОА-система.
Термохимические расчёты, являющиеся основой модели процесса обжига цинковых концентратов, получены на основе фундаментальных законов термодинамики, а также законов, открытых такими учёными как: Авогадро, Гей-Люссак и Бойль-Мариогг, Кирхгоф и др. Эти законы были в разное время получены и сформулированы путём анализа экспериментальных или природных статистических данных.
Имитационная модель процесса
5СА0А-сисг«мя
Настройки системы
Данные, полученные в | Реальные параметры результате работы П технологического ' у-мичационио^ модели процесса [| процесса ' Массивы данных
Слу*<л пр»№м*-г»врод*« ДЛИИШ
Подсистема приема массивов данных
Подсистема передачи результатов анализа
База централизованного ».ранения анализируемых данных
Провайдеры баз данных
Ядро системы
Метод анализа 1 Метод анализа 2
Метод анализа п
библиотеки анализа данных
Провайдер терминального доступа
Подсистема поддержки принятия решений
Подсистеме визуализации
результатов анализа
Подсистема контроля и управления провеса аиапта
Подсхема определения спецификации хранимы* и анализируемых данных
Рисунок 9 - Схема работы подсистемы {^пАпа^сзВуэ и ее взаимодействия с системой
управления.
Средние теплоемкости компонентов концентрата, огарка, газов и пыли (кДж/(кг.К)) рассчитывали для заданного диапазона температур с помощью формулы:
— 1 7
Сп,.=—-— \{а + ЬТ + сГ2 + с1Т2)(1Т-р1 Т - 298 2{8
Изменение энтальпии рассчитывали по формуле Кирхгофа:
г
дя;=д н°ш+1 дс;,</г>
298
где дя;98 - изменение энтальпии при стандартной температуре (298 К); ДСЛ
- изменение теплоемкостей компонентов шихты.
При этом теплотой превращений исходных и конечных продуктов при обжиге пренебрегли в связи с их малостью. Уравнения, связывающие зависимость теплового эффекта реакций обжига с температурой, приведены в программе в общепринятом в химии виде.
Во всех уравнениях температура выражена в градусах Кельвина, а тепловой эффект - в кДж/кг.
Например, для реакции окисления сульфида цинка: гп8+1,502 =гп0+802
0(гпв) = 4555 + 0,035 - Г - 2,191 • 10"5 - Г2 -
Для расчёта рабочей скорости дутья, которая определяет производитель-
ность печи, использовали следующую формулу, полученную методом анализа размерностей:
\с13р
ш = 0,376 —, Рг
где ш - рабочая скорость дутья в печи, м/с; с/, - эквивалентный диаметр частиц огарка, м; рг- плотность газа в кипящем слое, как функция состава и температуры, кг/м3; р - плотность твердых частиц, кг/м3.
Моделирование процесса происходит по следующей схеме:
Пользователем задаются
1. Исходные данные процесса (химический и гранулометрический состав концентрата, температура и давление окружающей среды, параметры печи и другого оборудования).
2. Верхние и нижние ограничения параметров технологического процесса (такие как влажность концентрата, содержание кислорода в дутье и т.д.).
Последовательно вычисляются
3. Рациональный состав концентрата.
4. Рациональный состав огарка.
5. Параметры дутья.
6. Материальные балансы процесса.
7. Тепловые балансы процесса.
Результаты работы модели
8. Заносятся в базу данных
В процессе работы имитационная модель использует следующие базы данных:
- параметров применяемого промышленного оборудования (печи, системы пылеулавливания и т.д.);
- химических свойств веществ;
- температур и давлений.
Подсистема "112пАпа1у^с58у5" позволяет автоматически создавать и идентифицировать математическую модель процесса обжига сульфидных цинковых концентратов в печах кипящего слоя. Данная функциональность полезна для экономии времени вычислений при неизменном сырье, но периодически изменяющихся технологических параметрах процесса (например, производительности).
В качестве примера была создана линейная модель, в которой зависимая переменная является функцией нескольких переменных:
У = f{a,K,02,W),
где а - коэффициент избытка дутья (к стехиометрическому количеству), доли ед.; К - поправочный коэффициент к массе обжигаемого концентрата при стабилизированном расходе дутья; 02 - концентрация кислорода в дутье, об. %; - влажность концентрата, %.
С помощью "К2пАпа1уйс58уз" проводилось исследование зависимости параметров печи кипящего слоя от коэффициента избытка дутья, производительности по концентрату, содержания кислорода в дутье и влажности концентрата. Исследование проводилось с помощью метода имитационного пла-
нируемого эксперимента, применяя матрицу дробного факторного эксперимента с полурепликой 25"1 (см. таблицу 1).
Таблица 1 - Матрица планирования и результаты имитационного эксперимента.
№ X, хг Хз X. а к Ог, % \У, % т,°с Р, т/ч м3/т коиц &о2, %
1 -1 -1 -1 -1 1,1 0,95 21 6 951 10,268 1973,644 13,122
2 +1 -1 -1 -1 1,3 0,95 21 6 768 8,742 2332,489 11,078
3 -1 +1 -1 -1 1,1 1,05 21 6 1070 10,268 1973,644 13,122
4 +1 +1 -1 -1 1.3 1,05 21 6 883 8,742 2332,489 11,078
5 -1 -1 + 1 -1 1,1 0,95 23 6 1056 11,190 1802,023 14,392
6 +1 -1 + 1 -1 1,3 0,95 23 6 865 9,532 2129,664 12,147
7 -1 +1 + 1 -1 1,1 1,05 23 6 1175 11,190 1802,023 14,392
8 +1 +1 + 1 -1 1,3 1,05 23 6 981 9,532 2129,664 12,147
9 -1 -1 -1 +1 1,1 0,95 21 8 922 10,133 1973,644 12,900
10 +1 -1 -1 +1 1.3 0,95 21 8 744 8,644 2332,489 10,919
11 -1 +1 -1 +1 1,1 1,05 21 8 1037 10,133 1973,644 12,900
12 +1 +1 -1 +1 1,3 1,05 21 8 857 8,644 2332,489 10,919
13 -1 -1 + 1 +1 1,1 0,95 23 8 1023 11,029 1802,023 14,126
14 +1 -1 + 1 +1 1,3 0,95 23 8 838 9,415 2129,664 11,957
15 -1 +1 + 1 +1 1,1 1,05 23 8 1139 11,029 1802,023 14,126
16 +1 +1 + 1 +1 1,3 1,05 23 8 952 9,415 2129,664 11,957
Диапазоны значений, принимаемые независимыми переменными, варьировались следующим образом: в размерном масштабе:
0,95 < К < 1,05; 1,1 < а < 1,3; 21,0 < 02 < 23,0; 6,0 <\У < 8,0 в безразмерном масштабе:
_К- 1 _ а —1,2 _ 02 -22 _ Ж - 7
Хг~~ол~; Хз~~~хо~' *4~То~
Обработка выданных имитационной моделью данных методом наименьших квадратов позволила получить линейные уравнения регрессии для следующих зависимых переменных:
- температуры кипящего слоя (Т),°С;
- часовой производительности печи по концентрату (Р), т/ч;
- удельного расхода дутья (Ууд), м3/т концентрата;
- концентрации 502 в отходящих газах (802), %. В общем виде
У = В0 + В1-Х1+В2-Х2+В3-Х3+В4-Х4 (1)
С независимыми переменными в безразмерном масштабе: Т = 953 - 92,813 • Х1 + 57,938 • Х2 + 49,813 • Х3 - 14,813 • Х4 (2) (Г= 1451,155; 15; п = 2,719;
Р = 9,807 - 0,723 • Хг - 0,063 • Х2 + 0,360 • Хъ - 0Д26 • Х4 (3)
(Г= 12,423; Ро 05,15; п = 2,719;
УуД = 2059,455 + 171,622 • Хг - 93,611 • Хъ (4)
^ = 461,263; ^о,05,,5;п = 2,719;
БОг = 12,576 - 1,051 • Хг - 0,004 • Х2 + 0,571 • Х3 - 0,101 • Х4 (5) (Г = 456,081;^,о5,15,п = 2,719;
где И - расчетное значение Б-статистики, /'0,о5,15, п - табличное значение кри-
терия Фишера - Снедекора.
С независимыми переменными в размерном масштабе: Т = -83,375 - 928,125 • а + 1158,75 • К + 49,813 • 02 - 14,813 • W Р = 12,705 - 7,234 • а - 1,25 • К + 0,360 • 02 - 0,126 • W Куд = 2059,455 -I-1716,215 • а - 93,611 • Ог S02 = 13,399 - 10,509 • а - 0,079 • К + 0,571 • 02 - 0,101 • W
Расчетное значение /-"-статистики находилось по следующей формуле
F=S2(Y)ßiA,
где Y - среднее арифметическое значение зависимой переменной по всем данным (N = 16); 52(?) - дисперсия зависимой переменной; 5а2д - дисперсия адекватности уравнения регрессии экспериментальным данным.
В связи с тем, что F > Fo.oy, n-i; N-k > уравнения (2) - (5) признаны адекватными экспериментальным данным.
Из уравнений следует, что независимые переменные по степени влияния на зависимые параметры с учетом принятых граничных условий можно ранжировать (по абсолютной величине коэффициентов регрессии) следующим образом:
т X, (а) > Х2 (К) > X5 m > Х4 (W)
р X, (а) > Х3 (Ог) > Х4 (W) > Х2 (К)
V« Х,(а)>Х3(01)
so2 X, (а) > Х3 m >X4(W)> Х2 (К)
Видно, что на температуру наибольшее влияние оказывает коэффициент избытка дутья, а наименьшее - влажность шихты; на часовую производительность печи и содержание 802 в отходящих газах наибольшее влияние оказывает коэффициент избытка дутья, а наименьшее - поправочный коэффициент к массе обжигаемого концентрата; на удельный расход дутья наибольшее влияние оказывает коэффициент избытка дутья, наименьшее - содержание кислорода в дутье, а остальные независимые переменные с допустимой погрешностью не влияют на зависимую переменную.
Доверительные интервалы для коэффициентов регрессии уравнений (2) -(5) рассчитывались по формуле:
Д5 =
где 7 - табличное значение критерия Стьюдента для уровня значимости 0,05 и числа степеней свободы Л-А; С, , - диагональные элементы обращенной информационной матрицы (ХТХ)~1.
Зависимости от различных факторов представлены на графиках (рисунки 10-13). Графики построены на основе следующих частных уравнений:
Для рисунка 10. Тг = 953 - 92,813 • Хг, Т2 = 953 + 57,938 • Х2, Г3 = 953 + 49,813 • Хъ, Г4 = 953 - 14,813 •
Для рисунка 11. Р1 = 9,807 - 0,723 • Хъ Р2 = 9,807 - 0,063 • Хг,
Р3 = 9,807 + 0,360 • Х3, Р4 = 9,807 - 0,126 • Х4.
Для рисунка 12.
КуД1 = 2059,455 + 171,622 • Хъ КуДз = 2059,455 - 93,611 •
Для рисунка 13. 5021 = 12,576 - 1,051 • Хг, $Ог2 = 12,576 - 0,004 • Хг, 502з = 12,576 + 0,571 • Х3, 5024 = 12,576 - 0,101 • Х4.
Идентификацию полученной математической модели проводили в два этапа:
1. Адекватностью модели расчётным машинным (ЭВМ) данным.
2. Сходимостью расчётных данных с производственными данными.
При идентификации были использованы как литературные источники, так и практические данные работы завода "Электроцинк". Максимальное отклонение расчётных значений температуры кипящего слоя от производственных составило ± 20 °С, а относительная ошибка - не более 3 %. Сравнение расчётных данных, полученных на основе предложенной системы и известного программного продукта "СМокитри Нес", показало, что расхождения между ними в части расчёта энтальпий реакций не превышает также 3 %.
Система "К2пАпа1уйсз5у8" применяется при реализации мероприятий по вычислению параметров процесса обжига сульфидных цинковых концентратов в печах кипящего слоя на ОАО "Электроцинк". Ожидаемый экономический эффект составит 145 тыс. р. / месяц для одной печи КС.
Рисунок 10 - Частные зависимости температуры кипящего слоя (Г, °С) от коэффициента избытка дутья (1), коэффициента производительности печи по концентрату (2), концентрации кислорода в дутье (3) и влажности шихты (4).
Рисунок 11 - Частные зависимости удельной производительности печи по концентрату (Р, т/ч) кипящего слоя от коэффициента избытка дутья (1), коэффициента производительности печи по концентрату (2), концентрации кислорода в дутье (3) и влажности шихты (4).
Vvi, M.Vr Koiiiicinpaia 2300
2200
2100
2000
1900
1800
N
-0,5
0,5
Л';
Рисунок 12 - Частные зависимости удельного расхода дутья (Уу0, м3/т от коэффициента избытка дутья (1) и концентрации кислорода в дутье (3).
Рисунок 13 - Частные зависимости содержания SO; в отходящих газах {SO}, %) кипящего слоя от коэффициента избытка дутья (1), коэффициента производительности печи по концентрату (2), концентрации кислорода в дутье (3) и влажности шихты (4).
В четвертой главе описаны методы и результаты разработки отраслевой модификации системы сбора, хранения, анализа и визуализации массивов данных под названием "TestGen" (зарегистрированное коммерческое название продукта в России - "Генератор тестов"). Основное предназначение системы "TestGen" - своевременная помощь в принятии решения по повышению качества знаний путем определения степени влияния различных факторов на успеваемость. Система лишена многих недостатков, присущих другим тестирующим системам, и позволяет не только создавать тесты, проводить тестирование, но и анализировать полученные результаты, находя зависимости полученных оценок от других параметров, таких как: личные данные тестируемого; личные и профессиональные данные преподавателей; данные, о применяющихся для обучения тестируемого методиках и учебных материалах.
Отраслевая модификация состоит из 5 программных модулей, оформленных в виде отдельных приложений (ЕХЕ), нескольких динамических библиотек (DLL), ряда Web-приложений и служб.Архитектура системы "TestGen" представлена на рисунке 14.
В качестве примера был проведен анализ влияния таких факторов, как Тип дошкольного образования и Категория учителя на успеваемость по математике учеников пятых классов средней общеобразовательной школы. Исследование проводилось с помощью метода имитационного планируемого эксперимента, применяя матрицу дробного факторного эксперимента с полурепликой 24"'+1 (таблица 2). При этом средняя оценка М для группы из п тестируемых с одинаковыми значениями переменных К и Д определялась следующим образом:
М = м-
п
Зависимость средней оценки Мот значений Д и К можно представить как:
м=тк),
где М - средняя оценка тестируемых, баллов; Д - тип дошкольного образования; К - категория учителя.
Импорт дэнны* из других приложений
Подсистема визуализации результате» тестирования (ЯеэиМеч^ег}
Результаты тестирования
Подсистема проведения тестирования (Тея^еа<1ег)
Тестовые
задания
('колеистом« ыкдо дт •>•*■> домин» тле тируемы* персоиалвмых
дхмкк смл»ний об «Лучаюкшх лрогрвима«) и
пбММИИОИМИ рО 1уП>.Г»ГОН (1р*ТКнр<УТ<У)
Результаты I тестирован««
I Массивы данных
Личные || профессиональные I Данные о данные II данные I методах тестируемых 1! преподавателей обучения
Подсистема создания и редактирования тестевых заданий (Те$1Макег)
Провайдер релозитария система «втялогмзации и индексации наборов тестовых заданий
Служба приема-леродачи ¿доимх
Подсистема приема массивов данных
Подсистема передачи результатов анализа
Ядро системы
<—►
База централизовяннопз «ранения тестовых заданий
База централизованного хранения анализируемых данных
Провайдеры баз данных
Настройки системы
Провайдер терминального доступа
Подсистема поддержки принятия решений
Подгнет «мл визуализации результатов анализа
Подсистема контроля и управления процесса анализа
Подсистема определения спецификации хранимых и анализируемых данных
Метод анализа 1
Метод анализа 2
Метод анализа п
Библиотеки анализа данных
Рисунок 14 - Архитектура системы "Те51Сеп".
Таблица 2 - Матрица планирования и результаты анализа тестов по математике школьников 5-х классов Алагирского района Республики Северная Осетия - Алания.
№ XI х2 х? х! X] .х2 д К А/, баллов
1 -1 -1 +1 +1 +1 1 1 11.75
2 +1 -1 +1 +1 -1 3 1 8,00
3 -1 +1 +1 +1 -1 1 3 12,44
4 +1 +1 +1 +1 +1 3 3 16.33
5 -1 0 +1 0 0 1 2 11,36
6 +1 0 +1 0 0 3 2 11,77
7 0 -1 0 +1 0 2 1 10.62
8 0 +1 0 +1 0 2 3 13,06
9 0 0 0 0 0 2 2 11,74
Диапазоны значений, принимаемые независимыми переменными, варьировались следующим образом в размерном масштабе:
1<Д<3; 1 < К <3, в безразмерном масштабе:
_Д-2 _ ЛГ — 2
Обработка системой собранных данных методом наименьших квадратов позволила получить следующее нелинейное квадратичное уравнение регрессии:
В общем виде:
У — Вц + В-1 • Кх + ¡¡2 • + Вц ■ + В22 ' ^12 ' ' (6)
С независимыми переменными в безразмерном масштабе, без учета коэффициента уровня значимости: М = 11,533 + 0,092 • Хг + 1,91 • Х2 + 0,135 • XI + +0,41 •*! + 1,91 ■Х1-Х2 (7)
С независимыми переменными в безразмерном масштабе, с учетом коэффициента уровня значимости:
М = 11,533 + 1,91 • Х2 + 1,91 ■Х1-Х2 (8)
(Г= 9,23; 9; 6 = 8,845;,
где F - расчетное значение Р-статистики, Г0,о5,9,6 - табличное значение критерия Фишера - Снедекора.
В связи с тем, что Р > уравнение (7) признано адекватным
имитационным экспериментальным данным. Из уравнения следует, что независимые переменные по степени влияния на зависимый параметр (оценку) можно ранжировать следующим образом:
Х2 > Х1 ■ Х2 > > Х2 С учетом доверительного интервала статистически значимые независимые переменные по степени влияния на зависимый параметр можно ранжировать следующим образом:
1. Категория учителя (Х2).
2. Тип дошкольного образования учеников в парном произведении с категорией учителя (Х1 ■ Х2).
На основе вышеприведенных вычислений система "ТеБЮеп" сделала вывод о том, что наибольшее влияние на оценку по математике школьников 5-х классов оказывает параметр категория учителя, а параметр тип дошкольного образования существенно на оценку не влияет.
Система "Те51Сеп" регулярно применяется для мониторинга качества знаний школьников РСО-Алания. С 2007 по 2009 годы было проведено четыре республиканских мониторинга по таким предметам, как математика, русский язык, осетинский язык и естествознание. В общей сложности, в мониторинге приняли участие более 20000 человек. Экономический эффект составляет 66 тыс. р. и 1378 человеко-часов при проведении одного общереспубликанского тестирования по одному предмету
ЗАКЛЮЧЕНИЕ
В результате проведенных в работе теоретических и экспериментальных исследований получены следующие основные результаты:
1. Проведен системный анализ основных проблем, принципов и методов проектирования современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. На основе результатов проведенных исследований предложена система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, как комплексного инструмента системного анализа промышленных, социальных и иных объектов исследования.
3. Представлена методика разработки модулей анализа данных для предлагаемой системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников. Детально рассмотрены некоторые статистические методы, на которых может базироваться модуль анализа данных.
4. Приведен пример использования предлагаемой системы сбора, хранения, анализа и визуализации массивов технологических параметров как части концепции интеллектуальной системы управления процессом обжига сульфидных цинковых концентратов в печах кипящего слоя.
5. Разработаны и реализованы машинно-ориентированные алгоритмы, позволяющие проводить моделирование процесса обжига сульфидных цинковых концентратов в печах кипящего слоя в промышленных условиях.
6. С использованием методов компьютерного моделирования и планирования эксперимента с помощью системы "КХпАпа^сББуБ" разработана математическая модель процесса обжига цинковых сульфидных концентратов в печах кипящего слоя, состоящая из материальных и тепловых балансов, а также термохимических и многофакторных регрессионных уравнений. Проведена идентификация математической модели, позволившая установить её адекватность показателям работы производственных обжиговых печей. Проведен анализ полученных уравнений регрессии, позволяющий установить, что независимые переменные можно ранжировать по степени влияния на температуру кипящего слоя (по убыванию) следующим образом: коэффициент избытка дутья, коэффициент избытка (недостатка) концентрата при постоянном расходе дутья, содержание кислорода в дутье и влажность концентрата.
7. Приведен пример использования предлагаемой системы сбора, хранения, анализа и визуализации массивов данных как автоматизированной системы оценки качества знаний. Предложено законченное решение, покрывающее весь цикл от создания тестов до анализа результатов тестирования с выявлением зависимостей успеваемости от различных факторов.
8. На основе методов компьютерного моделирования и планирования эксперимента с помощью системы "ТеБЮеп" проведен анализ зависимости оценки школьников 5-х классов по математике от таких факторов, как тип
дошкольного образования и категория преподавателя. Проведен анализ полученных уравнений регрессии, позволяющий установить, что независимые переменные можно ранжировать по степени влияния на оценку (по убыванию) следующим образом: категория преподавателя, тип дошкольного образования учеников в парном произведении с категорией учителя.
9. Результаты проведенных исследований в форме программных комплексов "RZnAnalyticsSys" и "TestGen" применяются ОАО "Электроцинк", Министерством образования и науки РСО-Алания и используются в учебном процессе в СКГМИ (ГТУ).
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ:
Работы в ведущих рецензируемых журналах, рекомендованных ВАК РФ:
1. Мамонтов Д. В., Волошин С. Б. Современный подход к созданию автоматизированной системы контроля знаний. // Вестник РУДН. Серия "Информатизация образования". - 2008. - №2.
Работы в других рецензируемых журналах:
2. Волошин С. Б. Концепция современной автоматизированной системы управления технологическим процессом обжига сульфидных цинковых концентратов в печи кипящего слоя. // Труды молодых ученых, РАН РФ-2009,-№2.
3. Волошин С. Б. Использование интегрированных в язык запросов (LINQ) при обработке массива данных в Microsoft Visual Basic 2008. // Труды молодых ученых, РАН РФ - 2008. - №1.
4. Волошин С. Б. Некоторые особенности конструкции и работы АСУТП обжига сульфидных концентратов в печах кипящего слоя. // Труды молодых ученых, РАН РФ - 2007. - №2.
5. Волошин С. Б. Некоторые особенности реализации алгоритма защиты программного обеспечения от нелегального использования (на примере программы "Генератор тестов 2.0"). // Труды молодых ученых, РАН РФ-2007,-№4.
Материалы конференций и конгрессов
6. Волошин С. Б., Карлов В. И., Мамонтов Д. В. Программы расчета обжига свинцовых и цинковых концентратов. // III межрегиональная научная конференция "Студенческая наука - экономике России", г. Ставрополь, 2002.
7. Волошин С. Б., Дергачева М. А. Библиотека расчета технологических параметров печи кипящего слоя и газоходной системы как часть математической модели для АСУТП обжига сульфидных цинковых концентратов. // Материалы Международного конгресса студентов, аспирантов и молодых ученых - "Перспектива - 2007", Т. 11, г. Нальчик, 2007.
8. Волошин С. Б., Мамонтов Д. В. Структура задач подсистемы компьютерной поддержки принятия решений АСУТП обжига цинкового концентрата в печи КС. // Материалы Всероссийской научной студенческой конференции "Научный потенциал - будущему России", г. Ставрополь, 2006.
9. Волошин С. Б., Мамонтов Д. В. Пакет программ для создания и проведения тестов "Тестовый генератор 1.0". // VI межрегиональная научная конференция "Студенческая наука - экономике России", г. Ставрополь, 2005.
10. Писаренко Н. В., Волошин С. Б. Снижение пылевыноса при обжиге низкосортных сульфидных цинковых концентратах в печах кипящего слоя // Материалы Международной конференции "Научный потенциал студенчества - будущему России". Т. I, г. Ставрополь, 2007.
11. Волошин С. Б. Некоторые проблемы обжига низкосортных сульфидных цинковых концентратов в печах кипящего слоя. // Материалы IV Международной конференции "Инновационные технологии для устойчивого развития горных территорий", г. Владикавказ, 2007.
12. Волошин С. Б., Мамонтов Д. В. Машинно-ориентированный алгоритм анализа содержимого узлов N-нарного полного дерева, представленного в виде матрицы. // Материалы Всероссийской научной конференции студентов, аспирантов и молодых ученых - "Перспектива -2005", Т. II, г. Нальчик, 2005.
Свидетельства о государственной регистрации программ для ЭВМ:
13. Мамонтов Д. В., Волошин С. Б., Никколов К. С. Генератор тестов. Версия 1.5.1. // Официальная регистрация программы для ЭВМ №2007612180 от 25 мая 2007 года.
14. Мамонтов Д. В., Волошин С. Б. Генератор тестов. Версия 2. // Официальная регистрация программы для ЭВМ №2007615065 от 5 декабря 2007 года.
15. Мамонтов Д. В., Волошин С. Б. MWSoft Chrontotg 1.0 // Официальная регистрация программы для ЭВМ №2009616040 от 30 октября 2009 года.
Подписано в печать 20.11.2009. Формат бумаги 60x84 '/16. Бум. офсетная. Гарнитура «Тайме». Тираж 100 экз. Объем 1,3 усл. п.л. Заказ №361.
Подразделение оперативной полиграфии СКГМИ (ГТУ). 362021, Владикавказ, ул. Николаева 44.
Оглавление автор диссертации — кандидата технических наук Волошин, Сергей Борисович
ВВЕДЕНИЕ.1.
ГЛАВА 1. АНАЛИЗ ОСНОВНЫХ ОСОБЕННОСТЕЙ СИСТЕМ СБОРА, ХРАНЕНИЯ, АНАЛИЗА И ВИЗУАЛИЗАЦИИ МАССИВОВ ДАННЫХ.
1.1. Введение.
1.2. Функциональные возможности систем сбора, хранения, анализа и визуализации массивов данных.
1.3. Анализ особенностей приложений сбора, хранения, анализа и визуализации массивов данных.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Волошин, Сергей Борисович
Актуальность работы. В настоящее время деятельность любой организации (будь то промышленное предприятие, государственная структура, учебная организация и т.д.) сопровождается регистрацией и записью в электронном виде всех подробностей ее работы. Для промышленного производства это могут быть значения технологических параметров, данные о продажах продукции, рынках сбыта и многое другое. Как правило, это массивы неупорядоченных разнородных данных, источники которых находятся на расстоянии друг от друга. Анализ таких данных является неотъемлемой составляющей их эффективного использования.
Специфика современных требований к анализу в общем виде может быть описана следующим образом:
1. Данные имеют значительный, изначально неизвестный объем.
2. Данные являются разнородными (количественными, качественными, текстовыми, мультимедийными).
3. Результаты анализа должны быть конкретны и понятны, т. е. требовать как можно меньше затрат на дальнейшую обработку.
4. Инструменты для обработки данных должны быть просты в использовании и работать на персональных компьютерах с различными техническими характеристиками.
Удобство использования инструмента анализа - очень важное качество. Прежде всего, это связано с тем, что коммерческие приложения для анализа данных, предлагаемые на рынке программного обеспечения, как правило, являются универсальными системами, реализующими многочисленную функциональность. И если для научных исследований это скорее преимущество, то использование подобных систем в повседневной деятельности специалиста, например, технолога цеха на металлургическом предприятии, будет затруднено в связи с перегруженностью интерфейса пользователя, затратой времени на ввод, последующую перепроверку исходных данных и выводом результатов анализа. Кроме того, избыточная функциональность увеличивает цену продукта и стоимость его владения (вызванную затратами на приобретение высокопроизводительной компьютерной техники и выделением средств на обучение персонала).
Своевременность и актуальность решаемых в настоящей работе проблем заключается, прежде всего, в том, что в ней поставлена и решена задача исследования и разработки современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, с возможностью использования предлагаемой системы в различных сферах деятельности путем внедрения так называемых отраслевых модификаций.
Целью диссертационной работы является исследование и разработка методов и алгоритмов технологического процесса обработки массивов данных, поступающих с территориально распределенных источников. Поставленная цель потребовала решения следующих задач:
1. Анализ основных проблем, принципов и методов проектирования современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. Создание методики разработки модулей анализа данных для предлагаемой системы.
3. Разработка методики защиты системы от нелегального использования.
4. Разработка отраслевых модификаций системы с целью демонстрации применимости используемой архитектуры предлагаемой системы в различных отраслях жизнедеятельности человека.
5. Оценка эффективности работы отраслевых модификаций системы. Методы исследования. Проводимые исследования базировались на положениях технической кибернетики, методах и приемах исследования сложных процессов: системный анализ, имитационное моделирование, математическое моделирование, регрессионный анализ. Использовались методы математической статистики, искусственного интеллекта.
Научная новизна работы:
1. Предложена система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, как комплексного инструмента системного анализа промышленных, социальных и иных объектов исследования.
2. Предложены внутреннее устройство и методика разработки модулей анализа данных для предлагаемой системы.
3. Предложены процедуры построения математических моделей с применением разработанного инструментария. Эффективность процедур и универсальность инструментария показаны на примере технологического процесса обжига сульфидных цинковых концентратов в печи кипящего слоя и процесса оценки знаний обучающихся от нескольких факторов.
Обоснованность и достоверность научных положений, выводов и рекомендаций подтверждается соответствием результатов теоретических и экспериментальных исследований, результатами внедрения разработанных программных комплексов в ряде организаций. Практическая значимость работы:
1. Разработана система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. Предложена методика разработки модулей анализа данных для предлагаемой системы.
3. Разработана отраслевая модификация ("RZnAnalyticsSys") системы, применяемая при реализации мероприятий по вычислению оптимальных параметров работы печи кипящего слоя для обжига сульфидных цинковых концентратов в условиях ОАО "Электроцинк".
4. В рамках работы над отраслевой модификацией "RZnAnalyticsSys" разработаны и реализованы машинно-ориентированные алгоритмы, позволяющие проводить моделирование процесса обжига сульфидных цинковых концентратов в печах кипящего слоя в промышленных условиях.
5. С использованием отраслевой модификации "RZnAnalyticsSys" разработана и идентифицирована математическая модель, описывающая зависимость температуры кипящего слоя в печи для обжига сульфидных цинковых концентратов от некоторых технологических параметров и состоящая из материальных и тепловых балансов, а также термохимических и многофакторных регрессионных уравнений.
6. Разработана отраслевая модификация ("TestGen") системы, применяемая в качестве автоматизированной системы оценки качества знаний Министерством образования и науки Республики Северная Осетия-Алания.
7. С использованием отраслевой модификации "TestGen" разработана и идентифицирована математическая модель, описывающая зависимость оценки школьников от таких факторов как тип дошкольного образования и категория учителя.
8. Отраслевые модификации системы в форме отдельных программных комплексов "RZnAnalyticsSys" и "TestGen" используются в учебном и научно-исследовательском процессе в Северо-Кавказском горнометаллургическом института (государственном технологическом университете).
Апробация работы. Основные результаты проведенных в диссертации исследований были представлены и обсуждены: на III межрегиональной научной конференции "Студенческая наука - экономике России", г. Ставрополь, 2002 г. (работа заняла 3-е место); на VI межрегиональной научной конференции "Студенческая наука - экономике России", г. Ставрополь. 2005 г.; на Всероссийской научной конференции студентов, аспирантов и молодых ученых - "Перспектива - 2005", г. Нальчик, 2007 г.; на Всероссийской конференции-конкурсе студентов выпускного курса ВУЗов минерально-сырьевого комплекса России, г. Санкт-Петербург, 2006 г. (работа заняла 1-е место); на Международном конгрессе студентов, аспирантов и молодых ученых - "Перспектива - 2007", г. Нальчик, 2007 г.; на Международной конференции "Научный потенциал студенчества — будущему России", г. Ставрополь, 2007 г.; на IV Международной конференции "Инновационные технологии для устойчивого развития горных территорий", г. Владикавказ, 2007 г.
Личный вклад автора. Оценочный вклад автора составляет 70 %.
Публикации. Основные результаты диссертационной работы опубликованы в 15 работах, из них 1 в издании, рекомендованном ВАК, и 3 свидетельства об официальной регистрации программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и девяти приложений. Общий объем диссертационной работы составляет 213 страниц машинописного текста, в том числе 46 рисунков, 8 таблиц и список литературы из 135 наименований.
Заключение диссертация на тему "Исследование и разработка системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников"
4.15. Выводы по главе
1. С целью демонстрации применимости используемой архитектуры в образовательной деятельности, разработана отраслевая модификация предлагаемой системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. Предложено законченное решения, покрывающее весь цикл от создания тестов до анализа результатов тестирования с выявлением зависимостей успеваемости от различных факторов.
3. Предложено использование в системе "TestGen" Rich Content Elements и мультимедийных материалов (аудио, видео), позволяющих расширить круг ее применения.
4. Предложено использование отраслевой модификации "TestGen" не только 'для оценки качества знаний, но и для проведения социологических опросов, викторин, олимпиад, голосования.
5. С использованием методов компьютерного моделирования и планирования эксперимента с помощью системы "TestGen" проведен анализ зависимости оценки школьников 5-х классов по математике от факторов: тип дошкольного образования, категория учителя.
6. Проведен анализ полученных уравнений регрессии, позволяющий установить, что независимые переменные можно ранжировать по степени влияния на оценку (по убыванию) следующим образом: категория учителя, тип дошкольного образования учеников в парном произведении с категорией учителя.
7. Предложена методика оценки эффективности работы отраслевой модификации "TestGen". Показано, что применение предложенной автоматизированной системы контроля знаний сокращает время на проверку работ, позволяет легко анализировать ответы как одного тестируемого, так и группы в целом, что значительно снижает материальные и трудовые затраты.
ЗАКЛЮЧЕНИЕ
В результате проведенных в работе теоретических и экспериментальных исследований получены следующие основные результаты:
1. Проведен системный анализ основных проблем, принципов и методов проектирования современной системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников.
2. На основе результатов проведенных исследований предложена система сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников, как комплексного инструмента системного анализа промышленных, социальных и иных объектов исследования.
3. Представлена методика разработки модулей анализа данных для предлагаемой системы сбора, хранения, анализа и визуализации массивов данных, поступающих с территориально распределенных источников. Детально рассмотрены некоторые статистические методы, на которых может базироваться модуль анализа данных.
4. Приведен пример использования предлагаемой системы сбора, хранения, анализа и визуализации массивов технологических параметров как части концепции интеллектуальной системы управления процессом обжига сульфидных цинковых концентратов в печах кипящего слоя.
5. Разработаны и реализованы машинно-ориентированные алгоритмы, позволяющие проводить моделирование процесса обжига сульфидных цинковых концентратов в печах кипящего слоя в промышленных условиях.
6. С использованием методов компьютерного моделирования и планирования эксперимента с помощью системы "RZnAnalyticsSys" разработана математическая модель процесса обжига цинковых сульфидных концентратов в печах кипящего слоя, состоящая из материальных и тепловых балансов, а также термохимических и многофакторных регрессионных уравнений. Проведена идентификация математической модели, позволившая установить её адекватность показателям работы производственных обжиговых печей. Проведен анализ полученных уравнений регрессии, позволяющий установить, что независимые переменные можно ранжировать по степени влияния на температуру кипящего слоя (по убыванию) следующим образом: коэффициент избытка дутья, коэффициент избытка (недостатка) концентрата при постоянном расходе дутья, содержание кислорода в дутье и влажность концентрата.
7. Приведен пример использования предлагаемой системы сбора, хранения, анализа и визуализации массивов данных как автоматизированной системы оценки качества знаний. Предложено законченное решение, покрывающее весь цикл от создания тестов до анализа результатов тестирования с выявлением зависимостей успеваемости от различных факторов.
8. На основе методов компьютерного моделирования и планирования эксперимента с помощью системы "TestGen" проведен анализ зависимости оценки школьников 5-х классов по математике от таких факторов, как тип дошкольного образования и категория преподавателя. Проведен анализ полученных уравнений регрессии, позволяющий установить, что независимые переменные можно ранжировать по степени влияния на оценку (по убыванию) следующим образом: категория преподавателя, тип дошкольного образования учеников в парном произведении с категорией учителя.
9. Результаты проведенных исследований в форме программных комплексов "RZnAnalyticsSys" и "TestGen" применяются ОАО "Электроцинк", Министерством образования и науки РСО-Алания и используются в учебном процессе в СКГМИ (ГТУ).
Библиография Волошин, Сергей Борисович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. - М.: Инфра-М, 2003.
2. Джарратано Д., Райли Г. Экспертные системы: принципы разработки и программирование, 4-е издание. — М.: Издательский дом "Вильяме", 2007.
3. Черноруцкий И. Г. Методы принятия решений. — СПб.: БХВ-Петербург, 2005.
4. Управляющие вычислительные комплексы. / Под редакцией Н. JI. Прохорова. М.: Финансы и статистика, 2003.
5. Баталин Г., Васютинский В. Создание распределенных систем сбора данных на основе стандарта ОРС. // Современные технологии автоматизации. 2005. - №2. - с. 84-87.
6. Швецов Д. Новые технологии работы с данными ОРС. // Современные технологии автоматизации. — 2007. — №1. с. 66-69.
7. Microsoft SQL Server 2005. Реализация и обслуживание. — М.: Русская редакция, 2007.
8. Дж. Гласс, Дж. Стенли. Статистические методы в педагогики и психологии. -М.: Прогресс, 1976.
9. Брандт 3. Анализ данных. Статистические и вычислительные методы для научных работников и инженеров. М.: Мир, 2003.
10. Гайдышев И. Анализ и обработка данных: специальный справочник. -СПб.: Питер, 2001.
11. Дюк В. А. Обработка данных на ПК в примерах. СПб: Питер, 1997.
12. Дюк В. А., Самойленко A. Data Mining: учебный курс. СПб.: Питер, 2001.
13. Рутковская Д., Пилинъский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия - Телеком, 2007.
14. Рассел С., Норвиг 77. Искусственный интеллект: современный подход. М.: Издательский дом "Вильяме", 2006.
15. Ясницкий Л. Н. Введение в искусственный интеллект. — М.: Академия, 2005.
16. Малик С. Microsoft ADO.NET 2.0 для профессионалов. — М.: Издательский дом "Вильяме", 2006.
17. Маклаков С. В., Матвеев Д. В. Анализ данных. Генератор отчетов Crystal Reports. СПб.: БХВ-Петербург, 2003.
18. Поршнев С. В. MATLAB 7. Основы работы и программирования. — М.: Бином, 2006.
19. Дьяконов В. И, Круглое В. В. MATLAB 6.5 SP1/7/7 SP1/7 SP2+Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики. М.: COJIOH-Пресс, 2006.
20. Аладъев В. 3., Шишаков М. Л. MAPLE 6: Решение математических, статистических, инженерно-физических задач. — М.: Бином, 2002.
21. Поршнев С. В. Численные методы на базе Mathcad. — СПб.: БХВ-Петербург, 2005.
22. Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах Mathcad 12, MATLAB 7, Maple 9. М.: НТ-Пресс, 2006.
23. Ивановский Р. И. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad. СПб.: БХВ-Петебург, 2008.
24. Пирогов В. Ю. SQL Server 2005: программирование клиент-серверных приложений. — СПб.: БХВ-Петербург, 2006.
25. Станек Уильям P. Microsoft SQL Server. Справочник администратора. М.: Русская редакция, 2006.
26. ZhaoHui Tang, Jamie MacLennan. Data Mining with SQL Server 2005. — Indianapolis: Wiley Publishing, 2005. Англ.27.
-
Похожие работы
- Разработка методического аппарата системного анализа при использовании хронологической информации
- Инструментальная среда разработки геоинформационных систем поддержки принятия решений по управлению урбанизированными территориями
- Автоматическое районирование многомерных данных в векторных ГИС
- Разработка методов и устройств контроля основных параметров массивов памяти систем спутниковой связи
- Исследование и разработка методов и программных средств визуализации результатов научных вычислений для массивно-параллельных вычислительных систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность