автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Системный анализ информационных потоков состояний биотехнологических систем и разработка алгоритмов классификации

кандидата технических наук
Саввина, Екатерина Андреевна
город
Воронеж
год
2013
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Системный анализ информационных потоков состояний биотехнологических систем и разработка алгоритмов классификации»

Автореферат диссертации по теме "Системный анализ информационных потоков состояний биотехнологических систем и разработка алгоритмов классификации"

На правах рукописи

САВВИНА Екатерина Андреевна

СИСТЕМНЫ И АНАЛИЗ ИНФОРМАЦИОННЫХ ПОТОКОВ СОСТОЯНИЙ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ И РАЗРАБОТКА АЛГОРИТМОВ КЛАССИФИКАЦИИ (НА ПРИМЕРЕ МУКОМОЛЬНОГО

ПРОИЗВОДСТВА)

05.13.01- Системный анализ, управление и обработка информации (в пищевой и химической промышленности)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

? 4 ОКТ 2013

Воронеж-2013 005535512

005535512

Работа выполнена в ФГБОУ ВПО «Воронежский государственный университет инженерных технологий»

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

Заслуженный деятель науки РФ, доктор технических наук, профессор Битюков Виталий Ксенофонтович (ФГБОУ ВПО «Воронежский государственный университет инженерных технологий»)

Абрамов Геннадий Владимирович

доктор технических наук, профессор (ФГБОУ ВПО «Воронежский государственный университет», профессор кафедры математического и прикладного анализа, г. Воронеж) Курицын Владимир Алексеевич кандидат технических наук

(Заместитель директора по АСУТП ЗАО «НПП Центравтоматика», г. Воронеж) ФГБОУ ВПО «Московский государственный университет пищевых производств»

Защита состоится «7» ноября 2013г. в 15 час. 30 мин. на заседании диссертационного совета Д 212.035.02 при ФГБОУ ВПО «Воронежский государственный университет инженерных технологий» по адресу. 394036, г. Воронеж, проспект Революции, д. 19 (конференц-зал).

Отзывы на автореферат (в двух экземплярах), заверенные гербовой печатью учреждения, просим направлять в адрес совета университета.

Текст автореферата и объявление о защите размещены в сети интернет на сайте Минобрнауки РФ http://vak.ed.gov.ru и на сайте ФГБОУ ВПО «Воронежского государственного университета инженерных технологий» «4» октября 2013 года.

С диссертацией можно ознакомиться в научной библиотеке ФГБОУ ВПО «Воронежского государственного университета инженерных технологий».

Автореферат разослан «4» октября 2013 г.

Ученый секретарь диссертационного совета ..

Кандидат технических наук, доцент в

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Альтернативным феноменологическому анализу биотехнологических систем, который не учитывает флуктуации характерных параметров, является статистический подход, позволяющий использовать первичные экспериментальные данные в виде нестационарных информационных потоков для выявления новых закономерностей их функционирования.

Разработка и реализация такого подхода, на примере мукомольного производства, позволяет синтезировать не только новые методы обработки информации, отвечающие потребностям предметной области, но и предложить новую классификацию критериев для контроля и диагностики состояний биотехнологических систем.

Работа основана на достижениях: Триона Р., Жамбю М., Дюрана Б., Оделла П., Орлова А.И., Олденфендера М.С., Блэшфилда Р.К., Хайкина С. и др.

Применение классических схем анализа информационных потоков в биотехнологических системах (иерархический кластерный и кластерный к-средних анализ, аппарат нечетких множеств, нейронные сети, дискриминантный метод и др.) без учета особенностей предметной области, как правило, приводит к результатам, не коррелирующим с получаемыми экспериментальными данными. В этом случае, требуется модификация этих подходов, заключающаяся в их ранжировании при обработке информационных потоков.

Диссертация выполнена в соответствии с планом научно-исследовательских работ ФГБОУ ВПО ВГУИТ в рамках госбюджетной НИР «Разработка и совершенствование математических моделей, алгоритмов регулирования, средств и систем автоматического управления технологическими процессами» (№ г.р. 01960007315).

Цель: Разработка и теоретическое обоснование алгоритмов анализа информационных потоков и их классификация, инвариантная в пространстве состояний биотехнологических систем (на примере мукомольного производства).

Для достижения указанной цели поставлены задачи:

1) разработка информационной модели биотехнологической системы для управления качеством муки;

2) синтез информационной системы наиболее информативных признаков, характеризующих биотехнологическую систему;

3) оценка точности классификации качества муки;

4) разработка инженерной методики классификации биотехнологической системы;

5) экспериментальная верификация алгоритма диагностики состояния системы по определению качества муки;

6) оценка возможности инвариантного использования предложенных методов для диагностики различных биотехнологических систем.

Методы исследования. Основные результаты диссертационной работы получены на основе методов теории информатики, математической статистики, а также с помощью экспериментов, проведенных на пилотной установке мельницы.

Научная новизна заключается в формировании информационного подхода к выбору и организации характеризующих систему признаков, позволяющих осуществлять классификацию систем различной природы по степени их сложности, в оценке правильности и точности диагностики состояния системы, а также в исследовании применения методов классификации (двухэтапного кластерного, дискриминантного и нейросетевого анализа) биотехнологических систем на примере диагностики качества мукомольной продукции.

Научная новизна определяется следующими наиболее существенными результатами, полученными автором в ходе диссертационного исследования и выносимыми на защиту:

- разработана оптимальная по критерию минимума ошибок диагностическая система признаков, необходимая для классификации качества муки, отличающаяся минимальным составом признаков, соответствующих стоимостному критерию затратности;

- введены критерии оценки диагностики состояния биотехнологических систем по точности классификации по каждому классу качества;

- предложена методика формализации признаков, характеризующих систему, отличающаяся разбиением их диапазона вариации на поддиапазоны;

- синтезирована методика классификации биотехнологических систем (на примере качества муки), отличающаяся тем, что на первом этапе происходит отбор специфических признаков каждого класса качества методом корреляционного анализа, на втором - классификация методами двухэтапного кластерного, дискриминантного и нейросетевого анализа;

- разработан графический интерфейс полученных классов качества, отличающийся возможностью предоставления информации о сформированных классах (ошибки классификации, центры классов).

Объекты исследования. Массивы данных по качеству муки, полученные в ОАО «Верхнехавский элеватор», а также на экспериментальной установке дисковой мельнице.

Практическая значимость работы. Результаты исследований могут быть положены в основу диагностики состояний биотехнологических систем различной природы и сложности:

- разработана информационная модель обработки статистических данных;

- информационная модель качества выпускаемой продукции, а также алгоритм диагностики состояния прошли успешную апробацию в ОАО «Верхнехавский элеватор» и ОАО «Воронежский мукомольный комбинат»;

- создана база данных для информационной модели, предназначенная для диагностики состояния биотехнологических систем;

- сформирована обучающая выборка по качеству муки, полученной с экспериментальной установки дезинтегратора.

Апробация работы. Разработанные теоретические и методические положения автором докладывались на научно-практических конференциях различного уровня (XXV Международной научной конференции «Математические методы в технике и технологиях-ММТТ-25», г. Саратов, 2012г.; XXVI Международной научной конференции «Математические методы в технике и технологиях-ММТТ-26», г. Нижний Новгород, 2013г.; XXII

Международном научно-практическом семинаре «Современные технологии в задачах управления, автоматики и обработки информации», г. Алушта, 2013г.).

Публикации. Основные положения, результаты и выводы диссертации опубликованы автором в 12 научных работах, в том числе в 4 статьях из списка, рекомендованного ВАК, общим объемом 5,5 п.л., из них авторский вклад составляет 2,9 п.л.

Структура и объем работы. Диссертационная работа состоит из введения, 4 глав, заключения, библиографического списка и приложений, изложена на 135 листах основного текста, включает 61 рисунок и 10 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснован выбор темы диссертации и раскрыта ее актуальность, сформулирована цель и поставлены задачи исследования, определены объекты исследования, изложена научная новизна и практическая значимость полученных результатов, дана краткая аннотация работы по главам.

Первая глава посвящена определению биотехнологических систем. Проведен обзор методик классификации состояний биотехнологических систем различного предметного назначения. Выявлено, что недостатком приведенных выше методов является их строгая применимость в исследуемой задаче и невозможность использования для инвариантных состояний биотехнологических систем. Поэтому поставлена задача разработки новой методики, использующей метод корреляционного анализа для выявления специфических признаков и методы двухэтапного кластерного, дискриминантного и нейросетевого анализа, как современные инструменты для классификации объектов.

Расчет дисперсий в кластерах для метода двухэтапного кластерного анализа, производится по формуле:

1 С'

а(?д=-}(хк-хд2, (1)

С[ /—I

к=1

где сг - / кластер, V; - центр г кластера, хк - значение признака в выборке, хк - среднее значение признака.

Отделимость кластеров друг от друга определяется следующим образом:

71

<т(х)=-У(Хк-Ч)г. (2)

П

к=1

где о(х) - дисперсия множества, п - число кластеров.

Откуда, уровень разброса кластеров:

5 = (3)

1=1

Расчет кластерного ядра рассчитывается по формуле:

К,- = п + л/2 * ои (4)

где гг среднее расстояние между центром кластера и кластерными элементами, - среднеквадратическое отклонение величины.

Для дискриминантного метода расчет канонических дис-криминантных функций производится по формуле:

/кт =Щ + ЩХгкт + «2*2*771 + •" + ЩХцст> (5)

где /кт - значение канонической дискриминантной функции для т-го объекта в группе к\ Х1кт - значение дискриминантной переменной для т-го объекта в группе к; щ - коэффициенты функций (константы).

Отделимость классов друг от друга определяется с помощью расстояния Махаланобиса:

п п

о2(х\ск) = ("-5)2,2," ~ (6) ¿=1;=1

где 02(Х|Ск) - квадрат расстояния от точки X (данный объект) до центроида класса к, п - общее число наблюдений, g - число классов, ау - элемент матрицы, обратной к внутригрупповой матрице сумм попарных произведений.

Модель нейронной сети строится автоматически, согласно математическому представлению функционирования нейронов:

= ^Г мгцхь (7)

Ук = <Р(ик + Ьк), (8)

где х!,х2,...,хт - входные сигналы, м>и, ■■■Л^'ы - синаптические веса нейрона к, соответствующие связям между данным компо-

нентом и остальными, щ — линейная комбинация входных сигналов, (р - функция активации, )'к - выходной сигнал нейрона, который соответствует оценочной производительности данного компонента (вычислитель, узел обработки).

Разработка методики позволит контролировать качество биотехнологической продукции, (например, муки) на ранних стадиях технологического процесса, а также осуществлять диагностику качества продукции с целью оперативного управления технологическим процессом.

Во второй главе представлена структура диагностической системы, которая обеспечивает:

- использование базы данных по качеству продукции;

- методику диагностики качества муки;

- графическое представление объединенных групп для классов качества;

- представление исходного набора признаков в виде формализованного управляющего сообщения;

- информационную организацию системы информативных признаков, характеризующих биотехнологическую систему.

Рассмотрен информационный подход к поиску и организации специфических признаков из общего множества признаков:

*£ = х2> С9)

где каждый элемент х£ принимает значение, полученное при измерении или обработке.

Выявлено, что неинформативные и избыточные признаки не только бесполезны, но и снижают эффективность классификации. Поэтому они могут быть исключены из исходного множества признаков посредством фильтрующего критерия - коэффициента корреляции.

В результате использования указанного критерия для общего набора количественных (влажность муки, активная и титруемая кислотность, массовая доля и качество клейковины, газообразующая способность, число падения, массовая доля белка, золы, жира, клетчатки, белизна, содержание водорастворимых углеводов) и бинарных (цвет муки, запах, зараженность вредителями, наличие хруста, металлопримесей) признаков отобраны наиболее информативные, позволяющие получить приемлемую точность

классификации. Для уменьшения ошибок классификации была предложена методика, основанная на разбиении значений признака на поддиапазоны, которые могут быть однозначно сопоставлены с классом качества продукции.

Методика формализации признаков синтезирована с методами двухэтапного кластерного, дискриминантного и нейросете-вого анализа для проверки точности классификации и состоит из двух этапов: на первом - выявляются специфические признаки посредством корреляционного анализа, на втором - классификация различными методами.

Рис.1. Структура разработанной методики классификации состояний биотехнологических систем

Вся совокупность качества муки разбивается на 4 класса качества: высшее, хорошее, плохое, очень плохое (рис. 2, второй

Рис.2. Общая структура классификации качества муки Установлено, что для частных целей в хлебопекарной промышленности возможно укрупнение: высшее и хорошее объеди-

няются в группу хорошего качества, плохое и очень плохое - в группу плохого качества (рис. 1, первый уровень схемы). Общая структура классификации муки представлена на рис.2.

Автором установлено, что разработанный алгоритм позволит определить качество продукции на раннем этапе, на основании экспериментальных данных и получить возможность управления технологическим процессом для повышения качества выходного продукта.

Другим путем управления качеством мукомольной продукции является изменение самого принципа помола. Поэтому, предложено апробировать разработанную методику на мукомольной продукции, полученной методом дезинтеграционно-волнового помола на пилотной установке дисковой мельницы.

Третья глава посвящена основным результатам диссертационного исследования. Сформирована классификационная система признаков, состоящая из общего исходного числа органолептиче-ских и физико-химических показателей. Методом корреляционного анализа отобраны специфические признаки для каждого класса качества. Затем проведена классификация различными методами. Результат классификации представлен в таблице 1.

Таблица 1

Анализ точности классификации различными методами

Методы анализа Точность метода Класс качества * муки

1 класс 2 класс 3 класс 4 класс

1. Число наблюдений в классах качества 595 (100%) 140 (23,5%) 195 (32,8%) 140 (23,5%) 120 (20,2%)

2. Метод двухэтапного кластерного анализа . 554 , " (93.9%) 140 (100%) 163 (83,6%) 133 (93,5%) 118 (98,3%)

3. Метод дискрими-нантного анализа 576 (98.02%) 140 (100%) 194 (99,5%) 124 (94,3%) 118 (98,3%)

4. Нейросетевой анализ 146 (99,73%) 68 (100%) 23 (99,4%) 32 (100%) 23 (100%)

* Класс качества - 1 класс (высшее качество), 2 класс (хорошее качество), 3 класс (плохое качество), 4 класс (очень плохое качество).

Выявлено, что наибольшее число наблюдений было правильно классифицировано методом нейронных сетей. Графически распределение в кластерах различными методами представлено на рис. 3-6.

Рис.3. Кластеры по специфическому признаку титруемая кислотность

Рис.4. Кластеры по признаку газообразующая способность

а 02

а 1 о Г ? о » л

! ■100°о о ад > О > •

-10 -5 0 5 10 15

Рис. 5. Канонические дискриминантные функции и классы качества

2 класс

3 класс

1 класс

100%

100%

ЛЛК>РАТОРНЫК ФИЗИКО-ХЙМ1№СкИЕ __ (Х1хХ17, Х[8,Х28)__

<)|>| ЛпОЛЫИКЧ! < К1'.!;(Х!-ХМ,

Рис.6. Модель нейронной сети прямого распространения для классификации качества муки Однако, система признаков, отобранная на первом этапе методом корреляционного анализа, содержит в себе признаки, определение которых является дорогостоящей процедурой. Поэтому дальнейшей задачей автора являлось формирование системы признаков, не только необходимой и достаточной для определения качества муки с минимумом ошибок, но и менее затратной на определение значений признаков.

Формирование оптимальной по критерию минимума ошибок системы признаков представлено графически на рис. 7.

:ОРГ АНОЛЕПТИЧЕСКИЕ ПРИЗНАКИ (XI-

Отбор специфических признаков

Метод Класс

Двухэтапный кластерный

Дискриминант-ный

Нейросетевой

Точность метода

Класс качества муки

4 класс

63,5%

94,1%

XI, ХЗ, Х2, Х8, Х4

Метод Класс Точность Класс качества муки

метода 1 класс 2 класс 3 класс 4 класс

1. Двухэтапный кластерный 540 (90,7%) 100% 86,2% 76,7% 100%

2. Дискриминант-ный 524 (88,1%) 98,6%, 95,1% 84,1% 73,9%

3. Нейросетевой 84 (96,9%) 100% 97,4% 97,4% 91,8%

ГГ

ДАЕ ФИЗИКО-ХИМИЧЕСКИЕ (Х15, Х17, Х1в,.

хгосхзэ^хад

()Р1'ДИ0ЛСШИЧиСКИК(Х1-Х)4)

Метод Класс

Двухэтапный кластерный

тг

Точность метода

485 (85,9%)

Класс качества муки

1 класс 2 класс 3 класс 4 класс

100%

Дискриминант-ный

97,1%

Нейросетевой

590 I (94,1%) 1 р 166 ] 100% (95 7%)

зх

80,1%

92,3% 100%

100%

93,5%

63,5%

94,1%

97.8% 99,2%

X1, ХЗ, .Х2,Х4, Х8, X17, X18, X19, Х23, Х24

Х17, Х18, Х19

Х23, Х24

Рис. 7. Формирование оптимальной по критерию минимума ошибок диагностической системы признаков Таким образом, в первом классе было выявлено шесть специфических признаков: цвет муки белый - Г/, титруемая кислотность 3,0 - У7, массовая доля клейковины 32,0+33,0 - Уц, качество клейковины 66,0+75,0 - У!5, зольность 0,45+0,54 - Уц , белизна 46,0+54,0 - У25', коэффициент корреляции которых находится в диапазоне от 0,899 до 1, то есть теснота связи сильная. Для второго класса также было выявлено шесть специфических признаков: цвет муки с желтоватым оттенком - У2, титруемая кислотность - 2,5У$, массовая доля клейковины 30,0+31,0 - Уд, качество клейковины 55,0+65,0 - У/& зольность 0,55+0,73 - У22 , белизна 36,0+45,0 - У26, значение коэффициента корреляции также нахо-

дится в диапазоне от 0,9 до 1 по модулю. Для третьего класса было выявлено пять специфических признаков: титруемая кислотность 2,0 - 7р, массовая доля клейковины 28,0+29,0 - Уд, качество клейковины 35,0+50,0 - Y¡9, зольность 0,7+30,90 - Y23 , белизна 12,0+35,0 - Y г?, коэффициент корреляции которых варьируется от 0,736 до 1. Четвертый класс имеет тесную связь с четырьмя признаками: массовая доля клейковины 28,0 и меньше Yi4, качество клейковины 105,0 и более -Y¡7, зольность 0,91 и более - Y24 , белизна 54,0 и более - Y2n\ коэффициент корреляции которых варьируется от 0,756 до 1 по модулю, то есть теснота связи сильная.

Затем, оптимальная по критерию минимума ошибок классификационная система была формализована по разработанной методике. Методом корреляционного анализа отобраны специфические признаки.

Результат классификации представлен в таблице 2.

Таблица 2

Анализ точности классификации различными методами

Показатели Точность метода Класс качества муки

1 класс 2 класс | 3 класс 4 класс

1. Число наблюдений в классах качества 595 (100,0%) 140 (23,5%) 195 (32,8%) 140 (23,5%) 120 (20,2%)

2. Метод двухэтапного кластерного анализа 595 (100,0%) 140 (23,5%) 195 (32,8%) 140 (23,5%) 120 (20,2%)

3. Метод дискрими-нантного анализа 525 (84,3%) 140 (100%) 171 (99,5%) 132 (94,3%) 82 (68,3%)

4. Нейросетевой анализ 201 (100,0%) 48 (23,5%) 65 (32,8%) 47 (23,5%) 41 (20,2%)

Выявлено, что предложенный алгоритм позволяет точно классифицировать качество продукции методами двухэтапного кластерного и нейросетевого анализа за счет большого количества специфических признаков.

В четвертой главе приведен алгоритм разработанной методики классификации, представленный на рис. 8.

Автором доказана возможность применения методики на примере классификации качества муки, полученной на пилотной установке дисковой мельницы. С ее помощью были получены образцы муки, создана база данных, не вошедшая в обучающую выборку. При проведении диагностики автором установлено, что

данная методика работает с высокой точностью на различных выборках данных, даже малой мощности.

Начало

Х1=(х1,..„ хЛ

3 _

Формализация X признаков

Ввод значений признаков Х1 в систему классификации, где х, - значение признака, п - количество признаков.

Разбиение диапазона варьирования значений X, признаков на поддиапазоны

- 4 -, Расчет коэффициента корреляции

^^^^ 5 г>0,75

Расчет коэффициента корреляции

6 п

X], Х2, ..., х„

7 -л

Нейросетевои метод

т

Формирование системы информативных признаков, имеющих сильную корреляцию с классом

Классификация нейросете-вым методом

Конец

Рис. 8. Алгоритм разработанной методики ВЫВОДЫ

1. Теоретически обоснована и разработана методика классификации качества мукомольной продукции, как биотехнологической системы, которая позволяет определять ее состояние для оперативного управления технологическим процессом на любой

стадии с целью достижения требуемого качества готовой продукции.

2. Предложена информационная модель организации основных признаков, характеризующих биотехнологическую систему, отличающаяся минимальным по затратам составом. Выявлено, что для определения качества муки необходима и достаточна следующая классификационная система: цвет муки белый, цвет муки с желтоватым оттенком, цвет муки серый, вкус свойственный, вкус горький, титруемая кислотность, массовая доля клейковины, качество клейковины, зольность, белизна.

3. Предложена формализация системы признаков, заключающаяся в разбиении значения признака на поддиапазоны, характерные для каждого класса состояния систем, и, тем самым, увеличивающая точность классификации.

4. Установлено, что формализация признаков позволяет уменьшить количество ошибок классификации различными методами: 595 (100,0%), 525 (88,2%) и 185 (100%) двухэтапным кластерным, дискриминантным и нейросетевым соответственно.

5. Разработанная методика проверена на массиве данных по качеству муки, полученному с экспериментальной установки мельницы. Была достигнута высокая точность классификации 20 (100%), 15 (83,4%) и 20(100%). Таким образом, разработанная методика может быть применена для выборок других биотехнологических систем, даже малой мощности.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ Публикации в рецензируемых научных изданиях и журналах

1. Балашова, Е.А Исследование свойств муки, полученной валковым и дезинтеграционно-волновым помолом [Текст]/Е.А. Балашова, Е.А. Журавлева, Д.И. Ребриков//Вестник ВГТА. - 2011. -№2. - С.33-37.

2. Балашова, Е.А. Сравнительный анализ методов классификации при прогнозировании качества хлеба [Текст]/Е.А. Балашова, В.К. Битюков, Е.А. Саввина// Вестник ВГУИТ. - 2013. - №1. - С.57-62.

3. Саввина, Е.А. Влияние типа данных на результат классификации объектов [Текст] /Е.А. Саввина// Вестник ВГУИТ. - 2013.-№1. - С.68-72.

4. Саввина, Е.А. Использование методов дискриминантного анализа для классификации качества муки [Текст]/Е.А. Саввина, Е.А. Балашова, В.К. Битюков//Финансы.Экономика.Стратегия. - 2013. - №3. - С. 20-23.

Публикации в специальных журналах, сборниках международных научно-практических конференций

5. Балашова, Е.А. Выделение набора информативных признаков на основе корреляционного анализа для классификации объектов [Текст]/ Е.А. Балашова, В.К. Битюков, Е.А. Саввина//1 Межд. научн,- практ. конф. «Моделирование энергоинформационных процессов». - Воронеж: ВГУИТ, 2012. -Т.1. - С. 96-101.

6. Балашова, Е.А. Классификация качества хлеба методом двух-этапного кластерного анализа [Текст] /Е.А. Балашова, В.К. Битюков, Е.А. Журавлева// XXV Межд. науч. конф. «Математические методы в технике и технологиях - ММТТ-25». -Волгоград: Вол-гогр. гос. тех. универ.,2012. — Т.8.- С. 176-179.

7. Балашова, Е.А. Методика классификации проб муки, пригодной для хлебопечения [Текст]/Е.А. Балашова, В.К. Битюков, Е.А. Саввина, Е.И. Пономарева //IX Межд. науч.-практ. конф. «Новейшие научные достижения». - София: Бял ГРАД-БГ ООД, 2013. - Т.23. -С. 62-67.

8. Балашова, Е.А. Формирование системы информативных признаков для прогнозирования качества муки [Текст]/Е.А. Балашова, В.К. Битюков, Е.А. Саввина и [др.]//Ш Межд. научн.-практ. конф. «Ключевые вопросы в современной науке». -София: Бял ГРАД-БГ ООД, 2013. - Т.36.-С. 74-77.

9. Саввина, Е.А. Построение методики диагностики состояния биотехнологических систем (на примере классификации муки) [Текст]/Е.А. Саввина, В.К. Битюков//ХХП Межд. науч.-практ. семинар «Современные технологии в задачах управления, автоматики и обработки информации». - Алушта, 2013. -С. 31-32.

10. Саввина, Е.А. Методы классификации систем различной природы и сложности [Текст]/Е.А. Саввина//1Х Межд. практ. конф. «Прикладные научные разработки. Технологии». - Прага, 2013. -Т.14.-С. 90-92.

11. Sawina, Е.А. A général method of diagnostics of invariant information flows [Текст] /Е.А. Savvina/IX Межд. практ.конф. «При-

кладные научные разработки. Технологии». - Прага, 2013. -Т.14.-С. 85-89.

12. Саввина, Е.А. Диагностика инвариантных состояний систем методом кластерного анализа в мукомольном производстве [Текст]/Е.А. Саввина/ЛХМежд. практ. конф. «Прикладные научные разработки. Технологии». - Прага, 2013. - Т.Н. -С. 81-85.

ФГБОУВПО «Воронежский государственный университет инженерных технологий»

Подписано в печать 04.10.2013.Формат 60x84 1/16 Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 170

(ФГБОУВПО «ВГУИТ») Отдел полиграфии ФГБОУВПО «ВГУИТ» Адрес университета и отдела полиграфии: 394036, Воронеж, пр. Революции, 19

Текст работы Саввина, Екатерина Андреевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ

На правах рукописи

04201364767

САВВИНА ЕКАТЕРИНА АНДРЕЕВНА

СИСТЕМНЫЙ АНАЛИЗ ИНФОРМАЦИОННЫХ ПОТОКОВ СОСТОЯНИЙ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ И РАЗРАБОТКА АЛГОРИТМОВ КЛАССИФИКАЦИИ (НА ПРИМЕРЕ МУКОМОЛЬНОГО ПРОИЗВОДСТВА)

05.13.01 - Системный анализ, управление и обработка информации (в пищевой и химической промышленности)

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

НАУЧНЫЙ РУКОВОДИТЕЛЬ:

Заслуженный деятель науки РФ, доктор технических наук, профессор Битюков Виталий Ксенофонтович

А

ВОРОНЕЖ 2013 год

СОДЕРЖАНИЕ

ВВЕДЕНИЕ..............................................................................................................................................5

ГЛАВА 1. ОПИСАНИЕ И КЛАССИФИКАЦИЯ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ

1.1. Определение и классификация биотехнологических систем......................10

1.2. Анализ существующих методов классификации состояний биотехнологических систем......................................................................................................................11

1.3. Методы классификации объектов биотехнологических систем............16

1.3.1. Метод двухэтапного кластерного анализа..........................................17

1.3.2. Метод дискриминантного анализа..............................................................23

1.3.3. Нейросетевой метод..................................................................................................28

1.4. Постановка задачи классификации биотехнологических систем..........33

ГЛАВА 2. ОБЪЕКТЫ ИССЛЕДОВАНИЯ И РАЗРАБОТКА МЕТОДИКИ КЛАССИФИКАЦИИ СОСТОЯНИЙ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ

2.1. Разработка общей методики классификации биотехнологических

систем.............................................................................. 36

2.1.1. Информационный подход к организации признаков, характеризующих биотехнологическую систему и влияющих на результат классификации................................. 37

2.1.2. Описание методики классификации биотехнологических систем.................................................................. 40

2.2. Описание объекта исследования.................... ......................... 42

2.3. Описание установки дисковой мельницы.................................. 48

2.4. Выводы и рекомендации....................................................... 52

ГЛАВА 3. КЛАССИФИКАЦИЯ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ

НА ПРИМЕРЕ МУКОМОЛЬНОГО ПРОИЗВОДСТВА

3.1. Формирование классификационной системы признаков методом

корреляционного анализа..................................................... 54

3.2. Формирование оптимальной классификационной системы признаков и экспериментальные результаты распознавания состояний

биотехнологической системы различными методами................... 67

3.2.1. Анализ результатов классификации различными методами с использованием системы признаков, включающей органолептические показатели качества муки................ 67

3.2.2. Результаты классификации состояний биотехнологической системы, с использованием органолептических и лабораторных физико-химических показателей качества муки.................................................................... 80

3.2.3. Результаты классификации различными методами при добавлении сложных физико-химических показателей качества муки......................................................... 90

3.2.4. Описание сформированной оптимальной по критерию минимума ошибок классификации системы признаков..... 96

3.3. Сравнительный анализ классификации на основе формализованных и неформализованных признаков...................................... 103

3 А. Выводы и рекомендации...................................................... 110

ГЛАВА 4. ПРИМЕНЕНИЕ РАЗРАБОТАННОЙ МЕТОДИКИ КЛАССИФИКАЦИИ СОСТОЯНИЙ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ

4.1. Алгоритм разработанной методики для классификации состояний биотехнологических систем................................................... 112

4.2. Возможности применения разработанной методики классификации состояний инвариантных биотехнологических систем.............. 114

4.3. Выводы и рекомендации....................................................... 120

ВЫВОДЫ ПО ДИССЕРТАЦИОННОМУ ИССЛЕДОВАНИЮ................ 121

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ..................................... 122

ПРИЛОЖЕНИЯ

Приложение 1. Классификация и расчет ошибок различными методами, на основе системы признаков, отобранной методом

корреляционного анализа....................................... 137

Приложение 2. Классификация и расчет ошибок различными методами, на основе системы признаков, включающей орга-

нолептические показатели....................................... 141

Приложение 3. Классификация и расчет ошибок различными методами, на основе системы признаков, включающей орга-

нолептические и физико-химические показатели.......... 149

Приложение 4. Результаты классификации различными методами, на

основании системы признаков, состоящей из органо-лептических и сложных физико-химических

показателей........................................................ 156

Приложение 5. Классификация и расчет ошибок различными методами, на основе оптимальной по критерию минимума

ошибок системы признаков..................................... 162

Приложение 6. Классификация и расчет ошибок различными методами на основании формализованных признаков............ 167

ВВЕДЕНИЕ

Актуальность темы. Наиболее распространенным для информационного описания биотехнологических процессов является феноменологический подход, заключающийся в построении приближенных моделей, справедливых в определенных пределах изменения параметров процесса и не учитывающий закономерностей развития поведения биотехнологических систем в действительности. Поэтому описание и классификация состояний таких систем осуществляется с помощью эвристических параметров (признаков), которые характеризуют систему с различных сторон. Однако такие эвристические методы имеют недостатки в виде перебора признаков и невысокой степени точности.

Альтернативным феноменологическому анализу биотехнологических систем, который не учитывает флуктуации характерных параметров, является статистический подход, позволяющий более адекватно использовать первичные экспериментальные данные в виде нестационарных информационных потоков для выявления новых закономерностей их функционирования.

Разработка и реализация такого подхода, на примере мукомольного производства, позволяет синтезировать не только новые методы обработки информации, отвечающие потребностям предметной области, но и предложить новую классификацию критериев для контроля и диагностики состояний биотехнологических систем.

Цель диссертационной работы. Разработка и теоретическое обоснование алгоритмов системного анализа информационных потоков и их классификация, инвариантная в пространстве состояний биотехнологических систем (на примере мукомольного производства).

В связи с чем, в работе решаются следующие задачи:

1) синтез информационной системы основных признаков, характеризующих биотехнологическую систему;

2) разработка информационной модели классификации состояний биотехнологических систем для управления качеством выходного продукта;

3) оценка точности классификации качества муки как биотехнологической системы;

4) разработка инженерной методики классификации биотехнологической системы;

5) экспериментальная верификация алгоритма классификации состояний системы по определению качества муки, полученной на пилотной установке дисковой мельницы;

6) оценка возможности инвариантного использования предложенных методов для диагностики различных биотехнологических систем.

Методы исследования. Основные результаты диссертационной работы получены на основе теории информатики, математической статистики, а также с помощью экспериментов, проведенных на пилотной установке дисковой мельнице (дезинтеграторе).

Объектом исследования являются массивы данных по качеству муки, полученные в ОАО «Верхнехавский элеватор», а также на экспериментальной установке дисковой мельницы.

Научная новизна заключается в обосновании информационного подхода к выбору и организации признаков, характеризующих биотехнологическую систему и позволяющих осуществлять классификацию систем различной природы по степени их сложности, в оценке правильности и точности диагностики состояния системы, а также в применении методов классификации биотехнологических систем на примере диагностики качества мукомольной продукции.

Научная новизна определяется следующими наиболее существенными результатами, полученными в ходе диссертационного исследования:

- разработана оптимальная по критерию минимума ошибок диагностическая система признаков, необходимая для классификации качества муки, отличающаяся минимальным составом признаков, соответствующих стоимостному критерию затратности;

- введены критерии оценки диагностики состояния биотехнологических систем по точности классификационной системы по каждому классу качества;

- предложена методика формализации признаков, характеризующих систему, отличающихся разбиением их диапазона вариации на поддиапазоны;

- синтезирована методика классификации биотехнологических систем (на примере качества муки), отличающаяся тем, что на первом этапе происходит отбор специфических признаков каждого класса качества методом корреляционного анализа, на втором - классификация методами двухэтапного кластерного, дис-криминантного и нейросетевого анализа;

- разработан графический интерфейс полученных классов качества, отличающийся возможностью предоставления информации о сформированных классах (ошибки классификации, центры классов).

Практическая ценность работы заключается в следующем:

- результаты исследований могут быть положены в основу диагностики состояния биотехнологических систем различной природы и сложности;

- информационная модель качества выпускаемой продукции, а также алгоритм диагностики состояния прошли успешную апробацию в ОАО «Верхнехавский элеватор» и ОАО Мукомольный комбинат «Воронежский»;

- создана база данных для информационной модели, предназначенная для диагностики состояния биотехнологических систем, на примере качества мукомольной продукции;

- сформирована обучающая выборка по качеству муки, полученной с экспериментальной установки дезинтегратора, с последующим использованием ее в образовательном процессе ВГУИТ и переподготовки кадров.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на конференциях разного уровня (XXV Международной научной конференции «Математические методы в технике и технологиях ММТТ-25», г. Саратов, 2012г.; Международной научно-практической интернет -конференции «Моделирование энергоинформационных процессов И-12», г. Воронеж, 2012г.; XXVI Международной научной конференции «Математические методы в технике и технологиях ММТТ-26», г. Нижний Новгород, 2013г.; на отчетных конференциях ХЫХ - Ы ВГУИТ за 2011-2013 г.г.; Международном на-

учно-практическом семинаре «Современные технологии в задачах управления, автоматики и обработки информации», г. Алушта).

Публикации. По результатам проведенных исследований и практических разработок опубликовано 12 печатных работ, включая 4 работы в научных изданиях и журналах, рекомендованных ВАК, общим объемом 5,5 п. л., из них авторский вклад составляет 2,9 п. л.

Структура и объем работы. Диссертационная работа изложена на 135 листах основного текста, включает 61 рисунок и 10 таблиц. Состоит из введения, 4 глав, заключения, списка литературы и 6 приложений.

Содержание работы. Во введении обоснован выбор темы диссертации и раскрыта ее актуальность, сформулирована цель и поставлены задачи исследования, определены объекты исследования, изложена научная новизна и практическая значимость полученных результатов, дана краткая аннотация работы по главам.

Первая глава посвящена определению биотехнологических систем. Проведен обзор методов и алгоритмов классификации систем различного предметного назначения. Выявлено, что недостатком приведенных выше методов является их строгая применимость в исследуемой задаче и невозможность использования для инвариантных состояний биотехнологических систем различного предметного назначения. Поэтому поставлена задача в разработке альтернативного подхода, основанного на статистическом анализе информационного потока, характеризующего состояние биотехнологической системы. Разработка такого подхода позволит контролировать качество биотехнологической продукции, (например, муки) на ранних стадиях технологического процесса, а также осуществлять диагностику качества продукции с целью оперативного управления технологическим процессом. В этой связи, автором выбраны методы корреляционного, двухэтап-ного кластерного, дискриминантного и нейросетевого анализа, как современные инструменты для классификации объектов.

Во второй главе рассмотрен информационный подход к поиску и организации специфических признаков, так как неинформативные и избыточные при-

знаки не только бесполезны, но и снижают эффективность классификации. Предложено формализовать исходный набор количественных признаков в категориальные для увеличения точности классификации. Предложена методика классификации, сущность которой состоит в следующем: на первом этапе - выявляются специфические для каждого класса признаки, на втором - классификация методами двухэтапного кластерного, нейросетевого и дискриминантного анализа. Дано описание объекта исследования (база данных по качеству муки) и пилотной установки дезинтегратора.

Третья глава посвящена основным результатам диссертационного исследования. Сформирована классификационная система признаков методом корреляционного анализа, на основании которой проведена классификация различными методами (двухэтапным кластерным, нейросетевым и дискриминантным). Сформирована оптимальная по критерию минимума ошибок диагностическая система признаков, необходимая для классификации, отличающаяся минимальным по затратам составом признаков. Затем, признаки оптимальной по критерию минимума ошибок классификационной системы, были формализованы и проведена классификация по разработанной методике. Проведен сравнительный анализ точности классификации на основании формализованной и неформализованной диагностической системы признаков.

В четвертой главе представлен алгоритм разработанной методики классификации, отличающийся набором формализованных признаков, когда на первом этапе проводится отбор специфических признаков методом корреляционного анализа, на втором - классификация методами двухэтапного кластерного, дискриминантного и нейросетевого анализа. Показана эффективность применения диагностической методики на примере классификации качества муки, полученной на пилотной установке дисковой мельницы.

В заключении изложены основные результаты проведенных исследований, сделаны выводы и даны рекомендации.

ГЛАВА 1

ОПИСАНИЕ И КЛАССИФИКАЦИЯ БИОТЕХНОЛОГИЧЕСКИХ СИСТЕМ

1.1. Определение и классификация биотехнологических систем

Термин «биотехнология» был впервые применен инженером Карлом Эреки [49]. Люди выступали в роли биотехнологов тысячи лет: пекли хлеб, варили пиво, делали сыр, другие молочнокислые продукты. Древнейшим биотехнологическим процессом было брожение, а также виноделие, хлебопечение и получение молочнокислых продуктов. В традиционном понимании биотехнология - это наука о методах и технологиях производства различных веществ и продуктов с использованием природных биологических объектов и процессов [30].

К различным видам биотехнологии относят:

- биоинженерию, которая направлена на применение технических подходов для решения медицинских проблем в целях улучшения охраны здоровья. Основным направлением биоинженерных исследований является, например, применение методов компьютерного моделирования для создания белков с новыми свойствами;

- биомедицину как раздел медицины, изучающий с теоретических позиций организм человека, его строение и функцию в норме и патологиях, а также патологические состояния, методы их диагностики, коррекции и лечения [122];

- биоинформатику, как совокупность методов и подходов [135], включающих в себя математические методы компьютерного анализа, разработки алгоритмов и программ для предсказания пространственной структуры систем (структурная биоинформатика), исследования стратегий, соответствующих вычислительных методологий.

Главным звеном биотехнологического процесса, определяющим всю его сущность, является биологический объект, способный осуществлять определен-

и

ную технологию переработки исходного сырья и образовывать необходимый качественный продукт. В качестве таких объектов биотехнологии могут выступать, например, клетки микроорганизмов. Таким образом, биотехнологическая система - это совокупность процессов, инструментов и материалов для получения качественного выходного продукта.

Биотехнологическая система схематично представлена на рисунке 1.1.

Биотехнологическая система, согласно определению, предполагает сложную организацию взаимодействия ее отде�