Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии

Тверетин, Алексей Александрович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии

кандидата технических наук: Тверетин, Алексей Александрович
город: Самара
год: 2010
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии»

Автореферат диссертации по теме "Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии"

Тверетнн Алексей Александрович

ОБРАБОТКА ИНФОРМАЦИИ НА ОСНОВЕ СПЕКТРАЛЬНОГО ИМПУЛЬСНОГО ПРЕОБРАЗОВАНИЯ ДЛЯ СРАВНЕНИЯ И КЛАССИФИКАЦИИ ДИСКРЕТНЫХ ДАННЫХ, ЦИРКУЛИРУЮЩИХ В ПРОМЫШЛЕННОМ ПРЕДПРИЯТИИ

Специальность: 05.13.01.- Системный анализ, управление и обработка информации (промышленность)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 ЗЛЕН 2010

Самара-2010

004618828

Работа выполнена на кафедре «Электронные системы и информационная безопасность» Государственного образовательного учреждения высшего профессионального образования «Самарский государственный технический университет»

Научный руководитель кандидат технических наук, доцент,

Буканов Федор Федорович

Официальные оппоненты доктор технических наук, профессор

Батищев Виталий Иванович

кандидат технических наук, доцент, Крыжановский Анатолий Владиславович

Ведущая организация ЗАО «НПЦ Инфотранс», г. Самара.

Защита состоится «28» декабря 2010 г., в 11 час. 00 мин. на заседании диссертационного совета Д 212.217.03 ГОУ ВПО Самарский государственный технический университет (СамГТУ) по адресу: г. Самара, ул. Первомайская, 18, 1 корпус, ауд. №4 (Учебный центр СамГТУ, Электрощит).

С диссертацией можно ознакомиться в библиотеке Самарского государственного технического университета по адресу: г. Самара, ул. Первомайская, 18

Отзывы по данной работе в двух экземплярах, заверенные печатью, просим направлять по адресу: 443100, г. Самара, Молодогвардейская ул. 244, СамГТУ, главный корпус, ученому секретарю диссертационного совета Д 212.217.03; факс: (846) 278-44-00; e-mail: D21221703@list.ru

Автореферат разослан 26 ноября 2010 г.

Ученый секретарь диссертационного совета Д 212.217.03

Губанов Н.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время продолжается вторичная автоматизация промышленных предприятий, которая заключается в интеграции применяемого программного обеспечения с целью получения единого хранилища данных, циркулирующих внутри предприятия. Помимо сложностей, связанных с разными платформами и программными средами, в которых функционируют различные средства автоматизации, существуют сложности, связанные с разнородностью структуры данных. В свете современной рыночной ситуации от оперативности работы и осведомленности управленческого персонала зависит порой эффективность работы всего предприятия.

Не смотря на то, что активно внедряемые системы ERP (enterprise resource planning, корпоративное планирование ресурсов), предназначенные для интеграции данных о функционировании предприятия, обладают богатыми возможностями, анализ оперативных данных о функционировании предприятия в них затруднен из-за реляционной модели данных.

Рутинной операцией при анализе данных является сравнительный ее анализ. Он сводится обычно к сравнению агрегированных суммовых показателей за период, обычно месяц, что не позволяет судить об изменении показателей внутри периода. Таким образом, сравнительный анализ, и в частности, идентификация по фактическим данным одного из запланированных сценариев развития событий, оказывается затруднительным, так как при схожих трендах математического ожидания показателей на определенном периоде, могут наблюдаться различные варианты распределения данного параметра внутри периода.

Другим важным видом анализа, является ретроспективный анализ изменения показателей, характеризующих определенные аспекты функционирования предприятия, когда требуется идентифицировать функциональный класс принадлежности вариаций показателя на данном интервале. Введение конечного количества классов, позволяет сильно облегчить анализ процессов на предприятии для управляющего персонала предприятия.

Вышеописанные задачи сводятся к классификации дискретных данных, а именно к классификации изменения того или иного показателя во времени на определенном интервале. Вообще говоря, задача классификации дискретных данных актуальна при контроле любых производственно-экономических показателей во времени характеризующих какой-либо процесс, описывающий состояние предприятия или отдельных его частей.

На данный момент широкое распространение получили системы интеллектуального анализа (data mining), которые решают задачи классификации, регрессии и ряд других задач. Эти программные средства на данный момент повсеместно применяются на практике для работы с используемыми на предприятиях СУБД (системами управления базами данных) и фактически не имеют альтернатив.

небольшим количеством фиксированных признаков, что не позволяет решить поставленную задачу классификации, так как количество анализируемых признаков может быть большим. Кроме того, количество признаков может меняться в зависимости от характера данных. Также, ограничения на применение данных средств накладывает природа анализируемых данных, которая заключаются в присутствии небольших искажений последовательности и неопределенном положении начальной фазы.

Таким образом, актуальной задачей является разработка методов и алгоритмов, которые позволяют без увеличения затрат на более сложные аналитические средства, достигать решения таких сложных задач, как классификация и сравнение дискретных данных, используя стандартные и хорошо апробированные системы интеллектуального анализа данных.

Целью диссертационного исследования является разработка методов и алгоритмов обработки информации на основе сжатия дискретных данных, циркулирующих в промышленном предприятии, для их сравнения и классификации с использованием систем интеллектуального анализа данных. В ходе достижения цеди решались следующие задачи:

1. анализ проблем, возникающих при исследовании дискретных данных, циркулирующих в промышленном предприятии с целью определения наиболее перспективных методов преобразования для облегчения их сравнения и классификации;

2. разработка метода сжатия дискретных данных с помощью спектрального импульсного преобразования;

3. разработка алгоритма сравнения дискретных данных;

4. разработка алгоритма классификации дискретных данных с использованием сжатия и метода наивного байеса;

5. оценка трудоемкости метода сжатия дискретных данных и его сравнение с широко используемыми методами;

6. проведение численных экспериментов с целью изучения свойств разработанных алгоритмов;

7. разработка программного обеспечения, реализующего разработанные методы и алгоритмы для решения задач сравнительного анализа бюджетов и ретроспективного анализа финансовых показателей предприятия.

Методы исследования базируются на комплексном применении системного анализа, теории реляционных баз данных, теории вероятностей, теории спектрального представления данных, методах интеллектуального анализа данных.

Научная новизна и значимость работы заключается в следующих полученных результатах:

¡.разработан метод сжатия дискретных данных на основе спектрального импульсного преобразования, который в отличие от других методов инвариантен к положению начальной фазы дискретной последовательности данных, и малочувствителен к незначительным изменениям данных; 2. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния между значениями гармоник спектра, полученных в результате предварительного сжатия данных, и который в отличие от других

алгоритмов позволяет сравнивать дискретные последовательности с неопределенным положением начальной фазы; 3. разработан алгоритм классификации дискретных данных, использующий в качестве признаков значения гармоник спектра, полученного в результате предварительного сжатия данных, который за счет уменьшения признаков имеет меньшую трудоемкость в отличие от других алгоритмов, а так же позволяет проводить классификацию дискретных последовательностей с разным положением начальной фазы.

Практическую значимость работы составляют следующие положения:

1. разработанный метод сжатия дискретных данных на основе спектрального импульсного преобразования, а также алгоритмы сравнения и классификации могут использоваться для построения информационно-аналитических систем на базе промышленных СУБД с использованием стандартной функциональности;

2. разработан комплекс прикладных программ, автоматизирующий процесс сравнительного анализа бюджетов, а также ретроспективного анализа изменения финансовых коэффициентов;

3. разработанные методы и алгоритмы могут служить основой для создания информационно-аналитических систем для анализа произвольных дискретных данных, характеризующих процессы, описывающие состояние предприятия.

Внедрение результатов работы. Разработанная информационно-аналитическая система, в части разработанных методов и алгоритмов внедрена в ЗАО «УР БО», ЗАО «Тюменский судостроительный завод», ООО «Парус-Самара», ООО «Системы управления бизнесом» и используются в практической деятельности, что подтверждено актами о внедрении.

Апробация работы. Основные результаты работы докладывались и обсуждались на всероссийских научно-технических конференциях «Наука. Технологии. Инновации» (г.Новосибирск, 2005г.), «Приоритетные направления развития науки, технологий и техники» (г.Москва, 2008 г.).

Публикации. Основное содержание диссертации изложено в 11 публикациях, в том числе в 2 статьях в журналах рекомендованных ВАК.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы. Она изложена на 154 страницах, содержит 57 рисунков, 14 таблиц и библиографический список из 110 наименований.

На защиту выносятся следующие основные научные положения:

1. метод сжатия дискретных данных на основе спектрального импульсного преобразования;

2. алгоритм сравнения дискретных данных, основанный на анализе евклидова расстояния спектральных значений, полученных при предварительном сжатии;

3. алгоритм классификации дискретных данных на основе спектрального импульсного преобразования и метода наивного байеса.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Введение содержит общую характеристику работы, определены цели и задачи исследования. Сформулированы научная новизна и практическая ценность, а также

основные научные положения, выносимые на защиту. Приведены сведения о внедрении результатов, публикациях, структуре и объеме работы.

Первая глава посвящена проблеме представления и анализа дискретных данных. Проведено исследование проблем сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии, сформулированы требования для решения этих проблем. Произведенные исследования позволили сделать вывод о необходимости совершенствования методов анализа дискретных данных, с возможностью реализации методов анализа на уровне применяемых в промышленности систем управления базами данных. Проведен анализ лингвистических, статистических методов анализа данных, а так же методов линейных преобразований данных. Приведены достоинства и недостатки данных методов.

Примером дискретных данных в системах общественных процессов, являются данные, характеризующие различные финансовые показатели и представляющие собой последовательность дельта-функций, показывающих значение того или иного показателя во времени. Различные варианты таких последовательностей можно наблюдать в ERP-системах, SFA (sales forcé automation systems, системы автоматизации продаж), SCM (supply chain management, системы управления цепями поставок), CRM (customer relationship management system, система управления взаимодействием с клиентами) и многих подобных им системах.

Исследование показало, что большинство методов анализа дискретных данных сформировались на основе решений задач, связанных с системами передачи данных и представляют такие данные в виде дискретных сигналов. Технически, методы преобразования и фильтрации таких данных реализованы в виде программно-аппаратных систем, которые обычно совмещают в себе устройства регистрации и обработки данных с помощью узкого набора алгоритмов. Данные систем более сложной организации принципиально не могут иметь такую структуру, так как непосредственно регистрация данных в таких системах возложена на человека.

Данные о процессах, протекающих в системах можно представить как сигнал х(пТ). Причем, такой сигнал является случайным, то есть каждый отсчет х(пТ) принимает некоторые значения с определенной вероятностью. Сигнал является данными о случайном процессе, и получаемая последовательность отсчетов будет зависеть от конкретной реализации случайного процесса. Реализация такого сигнала может быть записана как х(пТ) - A cos(e>„nT + <р(пТ)), где А - амплитуда, а0- частота, (?(пТ) - случайная начальная фаза, кратная периоду дискретизации отсчетов. Нужно отметить, что использования времени г весьма условно, и вместо него могут использоваться другие характеристики сигнала. Кроме того, такие сигналы являются финитными. Важным свойством сигналов является то, что сигнал изначально имеет цифровой характер, то есть он квантован по частоте и по уровню. Основной сложностью при анализе таких данных является характер этой зависимости. Условие эргодичности и стационарности сигналов в системах сложной организации обычно не соблюдается, то есть характеристики, полученные усреднением по ансамблю выборок и по времени не совпадают. Это связано с тем,

I что случайный характер имеют не только значения каждого отсчета х(пТ), но и его | начальная фаза <р{пТ), кроме того характер распределения шумовой составляющей 1 не удается однозначно установить. На рисунке 1 такие данные изображены на примере разреза производственного бюджета затрат в суммовом выражении, 1 который представлен двумя реализациями, плановой и фактической, с разной ' начальной фазой, при этом качественная характеристика реализаций одна и та же.

Рисунок 1 - Значения показателей бюджета

В общем случае, бюджет предприятия можно изобразить в виде куба, изображенного на рисунке 2. Данный куб имеет несколько основных измерений, на пересечении которых извлекается целевое значение, представляющее собой ту или иную информацию о деятельности предприятия обычно в суммовом или

количественном виде. Кроме того, основное измерение «Статья» может иметь несколько подизмерений для ее детализации.

Лавинообразное увеличение данных о процессах, протекающих в различных системах в последние десятилетия, привело к созданию систем управления базами данных (СУБД). Для автоматизации процесса

бюджетирования (управления бюджетом) были разработаны специальные программные средства, входящие, как правило, в состав ERP-систем. Но, не смотря на

СТАТЬЯ

ВРЕМЯ /

ВЕРСИЯ

Рисунок 2 - Основные измерения бюджета

автоматизацию части процессов, анализ бюджетов по-прежнему осложнен, главным образом из-за большого объема данных. На рисунке 3 изображен типичный

Бюджет, 2005-43? Й.07;г00б1 БРасх;

.76 204 535,97

Д Бюджет, 2006-44, 20.07.2006 БРасх _05_

О Бюджет, 200б-4бТ22^07■20061 БРасх 16 _

Ябюджёт, 2006-45, 22.07.2006 ¡БРасх ~Тоб

3«Л01]. расходы.

Фактический

Фактический Фактический

Покупные полуфабрикаты

«аямавв

I "+"(плос) I 65 043 028,12

Зарплата

Отчисления

езсюшг.к

"+"(плюс)

"т"(п/!ЮС)

1 447 915,74

417 398,59

Амортизация ПР

Ч"(плюс)

169 481,27

°+"(плюс)

58647,18 110 834,09

Амортизация оборудования и транспортных средств

"+"(плюс)

°+"(плюс) и+"(плюс)

11 161 507,85 414 330,83

Ч"(плюс)

586 556,87

+-и(плюс)

"+"(плюс)

744 583,77

"+"(плюс) *+в(плюс)

6 926 149,84

122 179,16

Амортизация зданий и сооружений

Общие расходы

Содержание АУЛ

Содержание прочего цехового персонала

Прочие расходы_ ______

Охрана труда

Ремонт оборудования

Текущий ремонт оборудования

Капитальный ремонт оборудования

I I

Рисунок 3 - Интерфейс модуля «Бюджетирование» ЕКР-систсмы «Парус-8» I интерфейс подобного модуля.

Как видно из рисунка 3, в рамках реляционной модели сложно представить ' такой большой объем данных, особенно для их анализа. Типичной задачей при 1 анализе бюджетов является сравнительный анализ, когда на основе фактических данных за период времени определяется наиболее похожая плановая версия, т.е. | осуществляется решение задачи классификации без учителя. Данный вид анализа позволяет быстро оценить эффективность работы предприятия. Но из-за I недостатков интерфейсного представления таких систем, данный вид анализа I превращается в последовательность рутинных операций. Анализ осложняется тем, I что для удобства, измерение «Время» укрупняется до месяцев и кварталов, но при этом у различных плановых измерений средние значения показателей могут быть близки. Очевидно, что задача может быть решена с помощью методов сравнения дискретных данных, которые позволят решать задачу в автоматическом режиме.

Другой важной задачей является ретроспективный анализ показателей, I например некоторых финансовых коэффициентов, определенных разрезов бюджета или ключевых показателей эффективности, когда по определенной 1

последовательности показателей требуется отнести ее к какому-либо классу на основе прошлых значений показателя. Классы могут определяться на основании значений других параметров, таким образом, можно отследить их взаимосвязь.

Несмотря на высокую техническую оснащенность современных СУБД, существующих уже четыре десятка лет, активное развитие систем анализа данных, происходит лишь в последнее десятилетие. Такие системы получили название систем интеллектуального анализа данных (data mining). Системы интеллектуального анализа данных решают такие задачи как классификация, регрессия, поиск ассоциативных правил и других. Данные системы состоят из набора прикладных средств фильтрации и представления данных и набора алгоритмов, который осуществляет непосредственно анализ данных. Однако современные системы интеллектуального анализа данных используют простые алгоритмы и методы, что осложняет их применение для анализа дискретных данных, главным образом из-за сложности работы с большим количеством признаков. Очевидно, что для использования алгоритмов классификации, в том числе в системах интеллектуального анализа данных, возникает задача уменьшения количества признаков. Поэтому первостепенной задачей является разработка метода обработки данных, который ввиду сжатия уменьшал бы количество признаков анализируемых данных и при этом обладал бы инвариантностью к сдвигам и небольшим изменениям сигнала. Кроме того, разрабатываемые методы и методики должны обладать малой трудоемкостью, что актуально при анализе большого объема данных в реальном времени, а так же иметь возможность работы с последовательностями качественных значений, что актуально при работе, например с ключевыми показателями эффективности.

Проведен обзор известных методов обработки данных для решения поставленной задачи. Результаты их сравнительного анааиза представлены в таблице 1. Обзор показал, что все из них обладают определенными преимуществами и недостатками. Особенностью данных методов является то, что каждый из них решает узкий круг задач, но в целом они удачно дополняют друг друга. Недостатком является то, что перенос данных методов в другую область является труднодостижимым.

На основе произведенного анализа можно сделать вывод, что наиболее перспективным подходом являются спектральные методы преобразования, так как они хорошо апробированы на анализе сигналов и имеют простой математический аппарат, хорошо реализуемый программно.

Во второй главе разработан метод сжатия дискретных данных на основе спектрального импульсного преобразования, осуществляющий сжатие информации. Разработанный метод обладает свойством инвариантности к положению начальной фазы сигналов и малой чувствительностью к незначительным изменениям сигнала. На основе разработанного алгоритма предложен метод сравнения данных, который заключается в оценке евклидова расстояния между полученными в результате сжатия значениями спектра. Разработан алгоритм классификации данных использующий метод наивного байеса с предварительным сжатием информации.

Как известно, идея спектрального анализа сигналов сводится к их

представлению в виде обобщенного ряда Фурье: /(г) = £5(£)77,(0,где пЛО - к-я

Таблица 1 - Сравнительные характеристики методов преобразования

Наименование Достоинства Недостатки

Методы попарного выравнивания и К И Высокая эффективность при выявлении связи между зашумленными сигналами Высокая сложность программной реализации, высокая вычислительная трудоемкость. Сложность реализации для анализа количественных данных.

Метода нечетких дубликатов о ¡г к н о 03 4 Низкая сложность программной реализации, высокая эффективность при выявлении связи между зашумлепными сигналами на примере естественных текстов Сложность реализации для анализа числовых данных, жесткое ориентирование на естественные тексты.

Метод поиска максимального правдоподобия Высокая эффективность, легкая интерпретация результатов Сложность использования большого числа признаков а так же, ориентация на качественные признаки

Метод весовой матрицы ё 2 0 й> £ 1 2 Низкая вычислительная сложность, высокая эффективность при выявлении связи между зашумленными сигналами Сложность реализации для анализа числовых данных, возрастающая сложность при возрастании количества элементов алфавита, низкая чувствительность при разной размерности данных

Метод марковских цепей и Высокая эффективность при выявлении связи между зашумленными сигналами, шикая вычислительная сложность Сложность интерпретации при анализе числовых данных, необходимость наличия большого количества данных разных реализаций

Метод дискретного преобразования Фурье Простота программной реализации, легкость интерпретации при анализе числовых данных Большая вычислительная сложность, большое количество выходных признаков

Метод быстрого преобразования Фурье о § Низкая вычислительная сложность, простота программной реализации, легкость шперпретации при анализе числовых данных Большое количество выходных признаков, при уменьшении которых теряется информация о резких всплесках сигнала

Метод дискретного косинус-преобразования 5 ^ с о Простота реализации, легкость интерпретации при анализе числовых данных Большая вычислительная сложность из-за вычисления тригонометрических функций

Метод преобразования Уолша Низкая вычислительная сложность Зависимость от начальной фазы сигнала

Метод вейвлет -преобразования Простота программной реализации, легкость интерпретации при анализе числовых данных Большая вычислительная сложность

базисная функция, S(k) - весовой коэффициент, л+1 - число членов ряда. Базис 77,(0 является фиксированной системой функций. Простейшая система базисных функций - прямоугольные импульсы единичной амплитуды длительностью д t-TIN, где N - число импульсов. Но по системе прямоугольных импульсов можно разложить лишь сигнал ступенчатой формы. Чтобы привести данную систему к полной, для произвольного непрерывного сигнала необходимо перейти к пределу при д/-»0. При этом, можно перейти от прямоугольных импульсов к единичным импульсам S(i - г), положение которых определяется сдвигом во времени на величину r = jAt. Система единичных импульсов S(i - г) является полной ортогональной системой, на любом интервале времени. Кроме того, из-за бесконечно малой ширины единичного импульса S(t- т), он хорошо подходит для локализации минимальных изменений сигнала. При использовании базисных

функций = ——-)> где номер импульса, спектр сигнала можно

Д/

определить как: S(k) - —-1- J /(/>(' ~ ~ )dt. Полученный спектр зависит Рк Г _Г/2 ^

только от сдвига одиночного импульса и частотная информация отсутствует.

С другой стороны, в теории спектрального анализа используется комплексная экспоненциальная система базисных функций:

ikant -i2ant -ia>nt ia{.t i2ant .—

{e v } = {...,e u ,e u ,l,e u ,e u ,...}, где / = V-1; к- номер базисной

функции; 0O- угловая частота соа-2х/т. Данная система функций также является полной ортогональной системой на интервале [-я-,л-]. Если рассматривать сигнал как периодический и несинусоидальный и отвечающий условиям Дирихле, то его можно представить рядом Фурье как суперпозицию конечного или бесконечного числа базисных экспоненциальных функций. Тогда спектральный состав разложения характеризуется дискретной спектральной функцией:

TI2 ¡fco] l

S(keja)= I f(t)c 0 dt. Если 'Г --> да , то Дй>0 -»0, спектр можно записать как:

-772

F(ß)= \fiß)e'Mdt. Для дискретных сигналов данное соотношение преобразуется в

/=о

лм 2ж

F(u) = V/(i)exp(-i—ик), где 0<и<Л'-¡. Важным для экспоненциальной системы ы! N

базисных функций является свойство инвариантности к сдвигам сигнала. Переход в частотную область дает множество преимуществ для анализа сигналов. Но данный подход имеет ряд недостатков, а именно отсутствие в явном виде структурной информации о сигнале. Из-за интегральности взаимной энергии между сигналом /(О и к-й базисной функцией значения соответствующих взаимных энергий могут быть одинаковыми для сигналов различной формы. То есть, при использовании экспоненциального базиса отсутствует информация о локальных особенностях сигнала, например о резких всплесках. Следует отметить также, что преобразования в экспоненциальном базисе обладают высокой трудоемкостью вычислений. Эта

проблема приобретает особую актуальность при обработке больших массивов цифровых данных.

Для достижения компромисса между двумя подходами предложено использовать базисную комплексную систему импульсных функций, которая определяется на множестве Z = ¡0,1,2,..„2"-1}, и имеет вид QJ(t) = cJ(t)-isJ(t), где

/ = 0,1.....и-1 - номер гармоники анализируемого сигнала. Функции c,(t) и s,(t)

определяются как: co(/) = l,i0(i) = 0,/6Z для нулевой гармоники / = 0. В случае, если / * 0 и изменяется от 0 до 2" -1 с шагом 2"~м, функции можно записать как:

р-0 рм! (м * Р

При практической реализации метода, предложено вместо вычисления тригонометрических функций синуса и косинуса использовать матрицу заранее вычисленных значений. Для выражения (cos(2'"яр)) такая матрица записывается как:

Со.Ро) Со. Pi) СсРз)

С„Ро) Ci »Л) (/„Л)

Ог.Ро) Ci.P.) Иг. Pi)

(UРо) С„-,.Р,) С„.„/>2)

Со

С,,Р2.-,)

с2,р2.,)

(Li.P,.-.)

Для выражения (sin(2''"^j)) матрица записывается как:

"Со.Ро) Co.Pi) Co.PJ) - Со > Р2«-> )

С„Ро) (A. Pi) Ci.PJ) • С2.Р0) С2.Р1) С2.Р2) •

Сл-i.Po) C-i.P,) С„-,.Р2) •

С„р2.-,) Сг>Р2-0

Таким образом, импульсные функции запишутся как: сДО = ¿,(0 =

/."О /7=0

Реализация данного подхода позволяет отказаться от вычисления значений тригонометрических функций, что значительно ускоряет процедуру вычисления. Для каждой гармоники множество 2 делится на 2' интервалов, в каждом из которых происходит сдвиг импульсных функций на V подинтервалов. Сдвигаемые

импульсные функции формируются на основе вспомогательных функций с/(/) и

5/(1), их можно записать как: с,(!) и 5/(7). Количество сдвигов можно определить как

у = - I, где q - позиция первого подинтервала, с которого начинается сдвиг.

Формирование обобщенного амплитудно-частотного спектра анализируемого I сигнала /(/) осуществляется в соответствии с выражением и, = 'Уи', ,

где / = 0,1,2,3,-.На рисунке 4 изображены значения вектора и, для показателей бюджета, представленных на рисунке 1.

Выражение и, представляет собой суперпозицию значений: и/ = ^(,х*)2 +{у]')г, где:

х] = #(*)» у* = ¿/ОрКС), /и,)- значение анализируемого сигнала в точке

I 1р, где 1р=2"~'Ар. То есть, на каждой гармонике спектр представляет собой | суперпозицию значений сигнала умноженного на значения опорных импульсных функций, которые подвергаются сдвигу на значение V подинтервалов внутри каждого интервала. Использованное понятие гармоники не имеет отношения к гармоническому спектру. В работе под гармоникой формируемого обобщенного | спектра понимается номер подинтервала ! = 0,1,2:3,...,п~], значениями которого I являются и,. С учетом произведенных изменений спектр О, запишем как:

Учитывая преимущества предложенного метода, предложено использовать его при

сравнении данных. Алгоритм сравнения состоит из четырех этапов, изображенных

р —

на рисунке 5. Здесь под расстоянием подразумевается выражение П - (£/,'* - )' ,

где и* и и'' вектора спектров двух последовательностей, описывающих реализации

Рисунок 4 - Значения вектора и,

Кодирование качественных значений сигнала

Дополнение нулями до значения

гп

X и У анализируемого сигнала соответственно, » - номер гармоники, который соответствует измерению вектора.

В инструментах интеллектуального анализа данных для решения задачи классификации широкое распространение получили классификационные правила,

главным образом из-за наглядности получаемых результатов.

Классификационные правша состоят из двух частей: условия и заключения: если (условие) то (заключение). Условием является проверка одной или нескольких независимых переменных. Заключением является значение независимой переменной или распределение ее вероятностей по классам. Идея алгоритмов классификации на основе классификационных правил состоит в том, что для любого возможного значения независимой переменной формируется правило, которое классифицирует объекты из обучающей выборки. При этом в заключающей части правила указывается значение зависимой переменной, которое наиболее часто встречается у объектов с выбранным значением независимой Наиболее широкое

Вычисление значений векторов Uj для сравниваемых сигналов

Вычисление расстояния D для сравниваемых сигналов

Рисунок 5 - Разработанный алгоритм сравнения

переменной, распространение для решения задачи классификации на практике получил метод наивного байеса (naive bayes). Он позволяет выполнить задачу классификации с помощью расчета вероятности формулой байеса.

Суть разработанного алгоритма классификации в том, что в качестве признака для классификации используется длина D0 вектора U,, то есть расстояние между вектором U, и началом координат. На основе полученных значений Д, производится классификация методом наивного байеса. Алгоритм классификации состоит из пяти этапов, изображенных на рисунке 6.

В третьей главе изучаются свойства разработатшого метода и алгоритмов. Разработана программная реализация предложенных метода и алгоритмов. Произведена оценка трудоемкости метода сжатия дискретных данных. В качестве объекта анализа предложены база данных операционного бюджета производственных затрат промышленного машиностроительного предприятия

Кодирование качественных значений сигнала

Дополнение пулями до

значения 2" *

Вычисление признака классификации в виде

значения Д

Формирование классификационных правил

Вычисление условной вероятности правила

Рисунок 6 - Разработанный алгоритм классификации

в натуральном выражении. Исследованы результаты использования разработанных алгоритмов. Принимая во внимание, что умножения значений анализируемого сигнала на значения Ф^ и тривиальны и эквивалентны смене знака, то трудоемкость алгоритма близка к 0(N\ogN), что выше, чем у импульсного линейного преобразования Уолша и ему подобных, но меньше, чем у дискретного преобразования Фурье и вейвлет-преобразования и находится на уровне трудоемкости быстрого преобразования Фурье.

Для проведения численных экспериментов было разработано программное обеспечение, состоящее из нескольких блоков. Исходные данные для анализа содержатся в реляционном виде в СУБД Oracle. Блоки метода представления данных и сравнения данных реализован в виде набора хранимых процедур и функций на языке PL/SQL. Для разработки блока классификации был использован пакет интеллектуального анализа данных Oracle Data Mining, который входит в состав СУБД Oracle. Этапы вычислительного эксперимента, используемые программные средства и результаты, а так же исходные, выходные и промежуточные данные схематично представлены на рисунке 7.

Первый этап эксперимента состоял в исследовании разработанного алгоритма сравнения. Было использовано 30 реализаций двух баз экспериментальных данных. Базы данных представляют собой базу данных значений бюджета затрат на производство в натуральном выражении, характеризующих запланированный выпуск определенного вида продукции.

Рисунок 7 - Схема обработки экспериментальных данных

Все исследованные реализации случайных сигналов имеют одно и то же функциональное назначение, определенное методом экспертной оценки и различаются особенностями, которые выражаются в незначительных изменениях

начальной фазы и амплитуды сигналов, что связано с изменением внешней среды, т.е. при сравнении таких данных должна наблюдаться высокая связь. Была произведена оценка 435 взаимных сочетаний исследуемых реализаций, которое

равно где « = 30- количество исследуемых реализаций. На рисунке 8

изображены значения векторов первой базы данных для / = 0..5. На рисунке 9 изображены значения расстояния О для всех сочетаний реализаций 2500 п

012345678 9 1011121314151617181920212223242526272829 Номер реализации

Рисунок 8 - Значения векторов и для первой базы данных, I = 0..5

первой базы данных, I = 0..5. На рисунке 1 представлен вектор с близким к среднему значением. При более похожей форме сигналов, расстояние пропорционально уменьшается.

700

600 -

Номер сочетания стзениваемых реализаций

Рисунок 9 - Значения О для пепвой базы данных. I -0..5

На рисунке 10 представлены значения расстояний и? -и/ по каждому измерению, где I - номер измерения. Видно, что на последних гармониках наблюдается больший разброс значений.

Номер сочетания «следуемых реализаций

Рисунок 10 - Значения расстояний U? ~Uj, i = 0..5 для первой базы данных

Второй этап эксперимента состоял в оценке эффективности разработанного алгоритма классификации.

С помощью метода экспертной оценки был выделен класс «Не норма» ! аномальных конфигураций значений, приводящих к ненормативному выпуску j продукции и класс «Норма», характеризующийся нормальным протеканием процесса производства.

С помощью разработанного алгоритма классификации был построен байесовский классификатор для значения D0. Значения для выделенных интервалов представлены в таблице 2.

С помощью полученного классификатора проведен анализ 100 реализаций случайного сигнала каждого класса. На рисунке 11 представлены значения длин векторов D0. Под средним значением подразумевается арифметическое среднее значений класса «Норма». Матрицу потерь L можно записать как: а, а,

[, = &>, ( 0 Где в,, (у, - гипотезы о принадлежности к соответствующим

шг (д, 0 )

классам, а а,, а. - решения о принадлежности к соответствующим классам. Функцию потерь можно определить как L,. = 1 - 5: j, где

Таблица 2 - Данные байесовского классификатора

Класс Интервал Отношение длины Всего Всего реализаций Вероятность

значений интервала к обшен длине реализаций класса попадания в

»о интервалов интервал

1438-2364 0,283267 63 33 0,52381

Норма 2365-2459 0,028755 41 34 0,829268

2460-2780 0,097889 48 32 0,666667

2781-4707 0,589171 48 1 0,020833

1438-2377 0,287244 67 32 0,477612

Не корма 2378-2579 0,061487 67 11 0,164179

2580-3814 0,377485 38 29 0,763158

3815-4707 0,272866 28 28 | 1

0, если И вч П 6-1

\,есди Ц. п£л

Другими словами ошибочное решение принимается, если отклонение от среднего значения больше среднего отклонения от среднего значения соответствующего класса. Для исследуемых реализаций матрица потерь принимает значение

/, ^ 'р | ■ Видно, что ошибка отнесения класса «Норма» к классу «Не норма» наблюдалась 14 раз. Обратная ситуация наблюдалась 97 раз, что можно объяснить

О ШСЮ гооо 3000 «ООО 5000 6000 7000 «300

Рисунок !! - Значения €>,. реализаций исследуемых классов

отсутствием устойчивого кластера для второго класса.

Четвертая глава содержит описание проектирования системы. Разработана

архитектура информационно-аналитической системы сравнительного анализа и

ретроспективного анализа финансовых показателей. Определены основные

требования к компонентам системы, проведен анализ существующих программных

решений и платформ, произведен выбор платформы в соответствии со

сформулированными требованиями. Разработана архитектура построения модуля

сравнительного анализа, а так же требования к струюуре входных и выходных

данных. Схематично структура модуля изображена на рисунке 12. Разработан

интерфейс пользователя с помощью программной среды Oracle Application Express.

Фрагмент формы интерфейса

приведен на рисунке 13. Разработана

программная реализация модуля

преобразования последовательностей на

базе разработанного алгоритма с помощью

хранимых процедур и функций СУБД

Oracle. Разработанная струюура модуля

ретроспективного анализа финансовых

показателей изображена на рисунке 14. На

рисунке 14, блок преобразования

последовательностей выполнен в виде

хранимой PL/SQL процедуры.

Формирование классификатора и

процедура классификации реализована с

помощью хранимых PL/SQL пакетов

_ системы Oracle Data Mining. Интерфейс Рисунок 12 - Структура модуля

_ пользователя разработан с помощью

сравнительного анализа бюджета „ „ . . .. ..

v программной среды Oracle Application

Express. Фрагмент формы интерфейса

приведен на рисунке 15.

Элементы разработанной информационно-аналитической системы, а так же разработанные алгоритм и методики внедрены в ЗАО «УР БО», ЗАО «Тюменский судостроительный завод», ООО «Парус-Самара», ООО «Системы управления бизнесом» и используются в практической деятельности.

В заключении перечислены основные результаты, полученные в диссертационной работе:

1. проанализированы проблемы анализа дискретных данных, циркулирующих в промышленном предприятии, возникающие при их сравнении и классификации, в качестве наиболее перспективных предложено считать спектральные методы представления информации;

2. разработан метод сжатия дискретных данных на основе спектрального импульсного преобразования, который инвариантен к сдвигу сигнала и нечувствителен к незначительным изменениям сигнала, не влияющим на его функциональные характеристики;

^Растоды

СКТПЛМСТИЧКиЙ Уиероиный Негативней

Оасснаалишша 1024488.71 1707853.78 1564796,87 1232498.78

П<7ГпчЬэ5о|<каты соСствениого поркмолтва 108250827.14 110871981.11 100898675.98 97898564,78

Умеренный маггвв/зпы 6405.71 6539,12 8385.09 6218,9

Уиереюьм Основные мзгепиалы 1465903.21 1552452,17 1430452,21 1209786.8

Ошмнисшчиый ^¿йьа 160128.87 163160,56 161919.75 115516,32

График и*менеиий пгрылетра

Рисунок 13 - Фрагмент пользовательского интерфейса модуля сравнительного анализа бюджета

Рисунок 14 - Структура модуля ретроспективного анализа показателей

выбор показателя

Алгоритм определения классо« Параметры области аиалим

ЕШпсавзатеття (Коэффициенты оценки пиквидностй^Д Покадт№|коэффнциеьпаРсол»тной ликвидности

¡¡¡Алгоритм 1

агата |дьое-2ооэ

□а

График ишенения параметра

0,1000

о.оссо 0,0400

в / —•

S S S S S л S & 8 • $ I & I I I i 1 1 t t % Iii £ 1

Параметры исходной последовательности

Ночодьчая ката |05-Q6-09

Кснецчая дата |l 8-06-09

Оценка класса

Класс Вероятность

■ Огстмитпицеский сценарий .239

Умеренный сценарии .546

негативный сценарии ,215 11

Рисунок 15 - Фрагмент пользовательского интерфейса модуля ретроспективного анализа показателей

3. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния векторов спектров, полученных в результате предварительного сжатия данных;

4. разработан алгоритм классификации дискретных данных, который использует в качестве признаков значения гармоник спектра, полученного в результате предварительного сжатия, что позволяет применять такие простые алгоритмы интеллектуального анализа данных, как метод наивного байеса;

5. проведена оценка трудоемкости разработанного метода сжатия дискретных данных, которая близка к трудоемкости БПФ

6. проведены численные эксперименты для изучения свойств разработанных алгоритмов, которые показали, что использование евклидова расстояния векторов спектров, полученных в результате предварительного сжатия данных, целесообразно использовать в качестве признака классификации и меры сравнения;

7. разработано программное обеспечение, использующее разработанные методы и алгоритмы для решения задач сравнительного анализа бюджетов и ретроспективного анализа финансовых показателей предприятия.

Список опубликованных работ по теме диссертации

1. Тверетин A.A. Методы представления генетической информации [Текст] / JI.C.

Бекасов, A.A. Тверетин // Научно-информационный межвузовский журнал

«Вестник Самар. гос. техн. ун-та. Сер. Физико-математические науки». -Самара, 2007.-№1 (14).-С. 129-134.

2. Тверетин A.A. Исследование идентификации информационных компонент генов методом спектрального и временного анализа [Текст] / JI.C. Бекасов, A.A. Тверетин, Ф.Ф. Буканов // Научно-информационный межвузовский журнал «Вестник Самар. гос. ун-та. Сер. Технические науки». - Самара, 2008. -№3. - С. 324-330.

3. Тверетин A.A. Метод формализации нуклеотидной последовательности в молекуле ДНК [Текст] / A.A. Тверетин // Тез. Докл. VII Всероссийской научно-практической конференции «Наука. Технологии. Инновации». - Новосибирск, 2006.-С. 87-88.

4. Тверетин A.A. Аналоговое представление элементарных звеньев ДНК [Текст] / В.М. Подолян, A.A. Тверетин // Успехи современного естествознания. - Москва, 2008.-№4.-С. 127-128.

5. Тверетин A.A. Оценка корреляции генетических текстов с помощью их спектральных характеристик [Текст] / A.A. Тверетин // Современные наукоемкие технологии. -Москва, 2008. - №6. - С. 96-97.

6. Тверетин A.A. Сравнение конкатенированных данных на основе их спектральных характеристик [Текст] / Л.С. Бекасов, A.A. Тверетин // Современные наукоемкие технологии. - Москва, 2008. - №6. - С. 34-39.

7. Тверетин A.A. Сравнение массивов дискретных данных на основе сжатия информации [Текст] / A.A. Тверетин // Журнал научных публикаций аспирантов и докторантов. - Курск, 2010. - №7. - С. 110-112.

8. Тверетин A.A. Методика классификации массивов дискретных данных большой длины [Текст] / A.A. Тверетин // Журнал научных публикаций аспирантов и докторантов. - Курск, 2010. - №8. - С. 115-117.

9. Тверетин A.A. Методика сравнения дискетных данных на основе сжатия информации [Текст] / A.A. Тверетин // Молодой ученый. - Чита, 2010. - №8(19). -С. 133-136.

10.Тверетин A.A. Разработка системы сравнения бюджетов на основе информационного сжатия дискретных данных [Текст] / A.A. Тверетин // Актуальные проблемы гуманитарных и естественных наук. - Москва, 2010. -№8.-С. 83-85.

11.Тверетин A.A. Разработка методики классификации дискретных последовательностей на основе сжатия информации и ее применение в системах глубинного анализа данных [Текст] / A.A. Тверетин // Информационные технологии моделирования и управления. - Воронеж, 2010. - №4(63). - С. 497504.

Разрешено к печати диссертационным советом Д 212.217.03. _Протокол № 15 от 22 ноября 2010 г._

Заказ Ка 99. Формат 60x84 1/16. Бумага тип. №1. Печать офсетная. Уч.-изд. л. 1,0. Тираж 110 экз.

Самарский государственный технический университет. Типография СамГТУ. 443100, г. Самара, Молодогвардейская ул. 244, Главный корпус

Оглавление автор диссертации — кандидата технических наук Тверетин, Алексей Александрович

ВВЕДЕНИЕ.

1. ИССЛЕДОВАНИЕ ПРОБЛЕМ СРАВНЕНИЯ И КЛАССИФИКАЦИИ ДИСКРЕТНЫХ ДАННЫХ.

1.1. Базы данных как объект системного анализа.

1.2. Классификация промышленных информационных систем и данных, характеризующих эти системы.

1.2.1. Данные систем неживой природы, используемые в промышленности.

1.2.2. Данные систем живой природы, используемые в промышленности.

1.2.3. Данные систем общественных процессов, используемые в промышленности.

1.3. Анализ показателей управленческого учета и финансовых показателей предприятия.

1.4. Использование интеллектуального анализа данных в системах хранения информации.

1.5. Задачи классификации и кластеризации.

1.6. Проблемы сравнения, классификации дискретных данных.

1.7. Лингвистические методы анализа.

1.7.1. Методы выравнивания.

1.7.1.1. Методы попарного выравнивания.

1.7.1.2. Метод /-граммного разложения.

1.7.1.3. Методы выравнивания FASTA и BLAST.

1.7.2. Метод нахождения нечетких дубликатов.

I 1.8. Статистические методы представления.

1.8.1. Метод весовой матрицы.

1.8.2. Методы поиска закономерностей на основе вероятностных реляционных моделей.

1.8.3. Метод скрытых марковских моделей.

1.8.4. Метод к-плетов.

1.8.5. Метод дерева суффиксов.

1.8.6. Метод WINNOWER.:.

1.8.7. ЕМ и MEME методы.

1.9. Методы линейных преобразований.

1.9.1. Метод преобразования Фурье.

1.9.2. Метод быстрого преобразования Фурье.

1.9.3. Метод дискретного косинус-преобразования.

1.9.4. Метод преобразования Уолша.

1.9.5. Метод вейвлетного преобразования.

1.10. Выводы.

2. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ.

2.1. Разработка метода сжатия дискретных данных на основе импульсного линейного преобразования.

2.2. Разработка алгоритма сравнения дискретных данных.

2.3. Разработка алгоритма классификации дискретных данных.

2.4. Выводы.

3. ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ.

3.1. Оценка трудоемкости разработанного метода сжатия дискретных данных.

3.2. Разработка программного обеспечения для вычислительного эксперимента.

3.3. Исследование алгоритма сравнения числовых последовательностей.

3.4. Оценка эффективности классификации.

3.5. Выводы.

4. РАЗРАБОТКА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ НА ОСНОВЕ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ.

4.1. Определение задач, решаемых информационно-аналитической системой.

4.2. Формирование требований и выбор системы интеллектуального анализа данных для построения информационно-аналитической системы.

4.3. Разработка структуры данных для анализа

4.4. Разработка процедуры предварительной обработки данных.

4.5. Разработка структуры модуля сравнительного анализа бюджета.

4.6. Разработка структуры модуля ретроспективного анализа показателей бюджета.

4.7. Разработка пользовательского интерфейса системы.

4.8. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Тверетин, Алексей Александрович

Актуальность работы. В настоящее время продолжается вторичная автоматизация промышленных предприятий, которая заключается в интеграции применяемого программного обеспечения с целью получения единого хранилища данных, циркулирующих внутри предприятия. Помимо сложностей, связанных с разными платформами и программными средами, в которых функционируют различные средства автоматизации, существуют сложности, связанные с разнородностью структуры данных. В CBeie современной рыночной ситуации от оперативности работы и осведомленности управленческого персонала зависит порой эффективность работы всего предприятия.

Рутинной операцией при анализе данных является сравнительный ее анализ. Он сводится обычно к сравнению агрегированных суммовых показателей за период, обычно месяц, что не позволяет судить об изменении показателей внутри периода. Таким образом, сравнительный анализ, и в частности, идентификация по фактическим данным одного из запланированных сценариев развития 1 событий, оказывается затруднительным, так как при схожих трендах математического ожидания показателей на определенном i периоде, могут наблюдаться различные варианты распределения данного параметра внутри периода.

На данный момент широкое распространение получили системы интеллектуального анализа (data mining), которые решают задачи классификации, регрессии и ряд других задач. Эти программные средства на данный момент повсеместно применяются на практике для работы с используемыми на предприятиях СУБД (системами управления базами , данных) и фактически не имеют альтернатив.

Широко распространенные и доступные системы интеллектуального анализа данных обычно содержат набор достаточно примитивных алгоритмов (метод ближайших соседей, метод наивного байеса и других), которые работают с небольшим количеством фиксированных признаков, что не позволяет решить поставленную задачу классификации, так как I количество анализируемых признаков может быть большим. Кроме того, количество признаков может меняться в зависимости от характера данных. Также, ограничения на применение данных средств накладывает природа анализируемых данных, которая заключаются в присутствии небольших искажений последовательности и неопределенном положении начальной фазы.

Целью работы разработка методов и алгоритмов обработки I информации на основе сжатия дискретных данных, циркулирующих в промышленном предприятии, для их сравнения и классификации с использованием систем интеллектуального анализа данных.

Основные задачи. Для достижения поставленной цели в диссертационной работе решаются следующие задачи исследования:

2. разработка метода сжатия дискретных данных с помощью спектрального импульсного преобразования;

3. разработка алгоритма сравнения дискретных данных;

4. разработка алгоритма классификации дискретных данных с использованием сжатия и метода наивного байеса;

5. оценка трудоемкости метода сжатия дискретных данных и его сравнение с широко используемыми методами;

6. проведение численных экспериментов с целью изучения свойств разработанных алгоритмов;

Научная новизна и значимость работы заключается в следующих полученных результатах: 1

1. разработан метод сжатия дискретных данных на основе спектрального импульсного преобразования, который в отличие от других методов инвариантен к положению начальной фазы дискретной последовательности данных, и малочувствителен к незначительным изменениям данных;

2. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния между значениями гармоник спектра, полученных в результате предварительного сжатия данных, и который в отличие от других алгоритмов позволяет сравнивать дискретные последовательности с неопределенным положением начальной фазы;

3. разработан алгоритм классификации дискретных данных, использующий в качестве признаков значения гармоник спектра, полученного в результате предварительного сжатия данных, который за счет уменьшения признаков имеет меньшую трудоемкость в отличие от других алгоритмов, а так же позволяет проводить классификацию дискретных последовательностей с разным положением начальной фазы.

Практическая полезность работы: ,

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы. Она изложена на 154 страницах, содержит 57 рисунков, 14 таблиц и библиографический список из 110 наименований.

Заключение диссертация на тему "Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии"

4.8 Выводы

Обобщая вышеизложенное, можно сделать следующие выводы:

1. для построения информационно-аналитической системы ввиду сокращения трудозатрат, наиболее целесообразно использовать готовые программные продукты класса систем глубинного анализа данных;

2. сформированные требования к системе глубинного анализа данных позволяют сделать оптимальный выбор при построении информационно-аналитической системы;

3. сформированным требованиям больше всего удовлетворяет система Oracle Data Mining, главными преимуществами которой являются минимальная нагрузка на аппаратные средства и максимальное удобство работы с данными;

4. для построения информационно-аналитической системы решен ряд задач (определение источника данных для анализа, разработка процедур предварительной обработки данных, разработка алгоритма функционирования системы, настройки используемой системы глубинного анализа данных и др.);

5. разработанная программная 1 реализация методики сравнения последовательностей позволяет решать задачу сравнительного анализа I бюджета без значительных трудозатрат на модификацию используемой учетной системы;

6. разработанная информационно-аналитическая система ретроспективного анализа финансовых показателей позволяет на основе исторических данных осуществлять классификацию последовательностей показателей, что позволяет быстро получать информацию о качественных характеристиках;

7. разработанная информационно-аналитическая система при минимальных изменениях в части замены источника данных позволяет проводить классификацию данных, характеризующих любые производственные либо финансовые процессы на предприятии, в том числе и для решения задач прогнозирования.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационной работы автором были получены следующие основные результаты:

1. проанализированы принципы хранения данных, циркулирующих в промышленном предприятии, которые состоят в применении СУБД клиент-серверной архитектуры;

2. рассмотрены данные, которые необходимы для формирования управляющих воздействий в виде принятия решений персоналом предприятий;

3. произведен анализ подходов для интеллектуального анализа данных, которые состоят в применении специализированных программных продуктов, осуществляющих интеллектуальный анализ данных;

4. проанализированы проблемы, существующие при распознавании дискретных данных, характеризующих процессы, протекающие на предприятии, приведены принципы классификации данных;

5. проведен обзор методов преобразования данных, который показал, что наиболее перспективными являются методы спектральных преобразований, которые оперируют с реализациями случайного дискретного сигнала, приведены достоинства и недостатки методов;

6. разработан метод сжатия дискретных данных на основе спекфального импульсного преобразования, который инвариантен к сдвигу и обладает чувствительностью к небольшим изменениям сигнала, не влияющим на функциональные характеристики;

7. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния спектральных значений, полученных в результате предварительного сжатия;

8. разработан алгоритм классификации дискретных данных, который использует в качестве признаков спектральные значения, полученные в результате предварительного сжатия, что позволяет применять стандартные средства интеллектуального анализа данных;

9. произведена оценка трудоемкости метода сжатия дискретных данных, которая близка к трудоемкости БПФ;

10. произведены исследования разработанного алгоритма сравнения, которые показали, что значения векторов спектров хорошо характеризуют сигналы с идентичными функциональными характеристиками, в том числе сдвинутые относительно друг друга;

11. произведенные исследования разработанного алгоритма сравнения показали, что при значительной деформации сигнала информативность расстояний между векторами падает с увеличением номера измерения, расстояние же между векторами целесообразно использовать в качестве меры связи;

-I

12. произведены исследования разработанного алгоритма классификации, которые показали, что расстояние между вектором и началом координат целесообразно использовать в качестве характеристики для классификации' последовательностей;

13. произведенные исследования разработанного алгоритма классификации, показали, что использование расстояния между вектором и началом координат в качестве характеристики для классификации последовательностей дает малые значения потерь даже при близких математических ожиданиях сигналов;

14. сформированы требования к системе интеллектуального анализа данных для построения информационно-аналитических систем для анализа дискретных данных;

15. разработана информационно-аналитическая система сравнительного анализа бюджета, позволяющая определить наиболее близкий плановый вариант, а также позволяющая осуществлять ретроспективный анализ финансовых показателей, решен ряд задач для построения системы;

16. разработанная информационно-аналитическая система при минимальных изменениях в части замены источника данных позволяет проводить классификацию данных, характеризующих любые производственные либо финансовые процессы на предприятии, в том числе и для решения задач прогнозирования.

Библиография Тверетин, Алексей Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айфичер Э.С. Цифровая обработка сигналов: практический подход, 2-е издание.: Пер. с англ. / Э.С. Айфичер. М: Издательский дом «Вильяме», 2004. — С. 171-173.

2. Баронов В. В. Автоматизация управления предприятием / В. В. Баронов. М: ИНФРА-М, 2000. — С. 127-128.

3. Барсегян А. А. Методы и модели анализа данных: OLAP и Data Mining / А. А. Баргесян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб: БХВ-Петербург, 2004. — С. 67-128.

4. Бахрушин А.П. Спектральный анализ электрокардиограмм на основе комплексной системы импульсных функций / А.П. Бахрушин, Г.И. Бахрушина C.B. Сай, Е.В. Храмова // Телекомуникации: Наука и технологии, Москва, 2001. - С.43-48.

5. Белов- В. С. Информационно-аналитические системы. Основы проектирования и применения: учебное пособие, руководство,-практикум / В. С. Белов. М: Московский государственный университет экономики, статистики и информатики, 2000. - С. 85-86.

6. Бочаров Е.П. Интегрированные корпоративные информационные системы: Принципы построения. Лабораторный практикум на базе системы «Галактика»: Учеб. Пособие / Е.П. Бочаров, А.И. Колдина. -М.: Финансы и статистика, 2005. С. 34-39.

7. Бурнаев Е.В. Мера близости для временных рядов на основе вейвлет коэффициентов / Е.В. Бурнаев , H.H. Оленев // Тр. XLVIII научн. конф. МФТИ. Долгопрудный: ФУПМ, Москва, 2005. - С. 108ii

8. Виткалова А.П. Бюджетирование и. контроль затрат организации / А.П. Виткалова, Д.П. Миллер -М.: Альфа-Пресс, 2006. 104 с.

9. Витяев Е.Е. Обнаружение закономерностей (методология, метод,программная система SINTEZ). 1. Методология / Е.Е. Витяев //139

10. Методологические проблемы науки (Вычислительные системы). — Новосибирск, 1991. № 138. - С. 26-60.

11. Ю.Витяев Е.Е. Введение в теорию открытий. Программная система DISCOVERY / Е.Е. Витяев, А.А. Москвитин // Логические методы в информатике. Вычислительные системы. Новосибирск, 1993. - № 148. -С. 117-163.

12. П.Гаврилов Д. А. Управление производством на базе стандарта MRP II / Д. А. Гаврилов. СПб: Питер, 2002. — 320 с.

13. Гасанов Э.Э. Теория хранения и поиска информации / Э.Э. Гасанов, В.Б. Кудрявцев. -М.: ФИЗМАТЛИТ, 2002. С. 13-15.

14. Гасфилд Д. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология / Д. Гасфилд. СПб.: Невский Диалект, 2003. - 654 с.

15. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс / Н.А. Гайдамакин. М.: Гелиос АРВ, 2002. - С.204-205.

16. Гольденберг Л.М. Цифровая обработка сигналов: Учеб. Пособие для вузов / Л.М. Гольденберг, Б.Д. Матюшкин, М.Н. Поляк М.: Радио и связь, 1990.-С. 123-143.

17. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс -М.: Техносфера, 2005. С.231-232.

18. Дейт К. Введение в системы баз данных, 7-е издание.: Пер. с англ. / К. Дэйт. — М.: Издательский дом «Вильяме», 2001. С.37-38.

19. Духонин Е.Ю. Управление эффективностью бизнеса. Концепция Business Performance Management / Е.Ю. Духонин, Д.В. Исаев, Е.Л. Мостовой и др. ; Под ред. Г.В. Генса. — М. : Альпина Бизнес Букс, 2005. 269 с .

20. Елашкин M. SAP Business One. Строим эффективный бизнес / М. Елашкин. М.: КУДИЦ-ПРЕСС, 2007. - С. 105-109.

21. Елиферов В.Г. Бизнес-процессы: Регламентация и управление: Учебник / В.Г. Елиферов, В.В. Репин М.: ИНФРА-М, 2005. - С.5-6.

22. Емельянова Н. 3. Основы построения автоматизированных информационных систем: Учебное пособие / Н.З. Емельянова, T.J1. Патырка, И.И. Попов. М.: ФОРУМ: ИНФРА-М, 2007. - С.12-16.

23. Карминский'A.M. Информационные системы в экономике: В 2-х ч. 4.1. Методология создания: Учеб. Пособие. / A.M. Карминский, Б.В. Черников М.: Финансы и статистика, 2006. — 336 с.

24. Карминский A.M. Информационные системы в экономике: В 2-х ч. 4.2. Практика использования: Учеб. Пособие. / A.M. Карминский, Б.В. Черников М.: Финансы и статистика, 2006. — 240 с.

25. Ковалев В.В. Финансовый анализ: Управление капиталом. Выбор инвестиций. Анализ отчетности / В.В. Ковалев. — М.: Финансы и статистика, 1997. С. 493 - 502.

26. Конноли Т. Проектирование, реализация и сопровождение. Теория и практика. 3-е издание. : Пер. с англ. / Т. Конноли, К. Бегг. М.: Издательский дом «Вильяме», 2003. — 1440 с.

27. Крёнке Д. Теория и практика построения баз данных. 8-е изд. / Д. Крёнке. СПб.: Питер, 2003. - С.647 - 648.

28. Курникова E.JI. Основы статистики / E.JI. Курникова, JI.B. Тарлецкая -М.: МГИМО, 2008. 144 с.

29. Лобзин В.В. Порядок и1 корреляции в геномных последовательностях ДНК. Спектральный подход / В.В. Лобзин, В.Р. Чечеткин // Успехи физических наук. 2000. - Т. 170, № 1. - С.57-81.

30. Макеев В.Ю. Статистика периодических закономерностей в последовательностях нитронов человека / В.Ю. Макеев, Г.К. Франк, В.Г. Туманян // Биофизика. 1996. - Т. 41, № 1. - С. 241-246.

31. Моисеев H.H. Человек, среда, общество / H.H. Моисеев. М.: Наука, 1982.-С. 30-33.

32. Нестеров A.Jl. Проектирование АСУТП. Методическое пособие. Книга 1 / А.Л. Нестеров. СПб.: Издательство ДЕАН, 2006. - С. 61-62.

33. Новиков Л.В. Основы вейвлет-анализа сигналов. Учебное пособие / Л.В. Новиков. СПб: МОДУС+, 1999. — С. 140-142.

34. Новосельцев В.И. Теоретические основы системного анализа / В.И. Новосельцев и др.; под ред. В.И. Новосельцева. М.: Майор, 2006. -С. 46-47.

35. Рыбников А.И. Система управления предприятием типа ERP / А.И. Рыбников. М.: Азроконсалт, 1999. - 214 с.

36. Рыбников А.И. Система управления предприятием типа MRP II / А.И. Рыбников. М.: Азроконсалт, 1999. - 134 с.

37. Сергиенко А.Б. Цифровая обработка сигналов / А.Б. Сергиенко. — СПб.: Питер, 2003.-604 с.

38. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB / Н.К. Смоленцев. М.: ДМК Пресс, 2005. - С. 36-37.

39. Соломенцев Ю.М. Информационно-вычислительные системы в машиностроении CALS-технологии / Ю.М. Соломенцев, В.В. Павлов, A.B. Рыбаков. М.: Наука, 2003. - С.35 - 51.

40. Теплова Т.В. Планирование в финансовом менеджменте / Т.В. Теплова. М.: ГУ ВШЭ, 1998. - С.85 - 91.

41. Ту Д. Принципы распознавания образов.: Пер. с англ. / Д. Ту, Р. Гонсалес. М.: Мир, 1978. - С.290 - 294.

42. Фитцджеральд Г. Информационные системы для руководителей / Г. Фитцджеральд // Информационные технологии в бизнесе. — СПб.: Питер, 2002. С.841 - 853.

43. Фролов A.B. Базы данных в Интернете: практическое руководство по созданию Web-приложений с базами данных. Изд. 2-ое, испр / A.B. Фролов, Г.В. Фролов - М.: Издательско-торговый дом «Русская Редакция», 2000. - С. XX-XXI.

44. Ярославский Л.П. Введение в цифровую обработку изображений / Л.П. Ярославский. М.: Сов. радио, 1979. - С. 134-139.

45. Altschul S.F., Basic local alignment search tool7 S.F. Altschul, W. Gish, W. Miller, E.W. Myers, D.J. Lipman // J. Mol. Biol. 1990. - Vol. 215. - P. 403-410;

46. Bailey T.L. Unsupervised learning of multiple motifs in biopolymers using expectation maximization / T.L. Bailey, C. Elkan. // Machine Learning.1995.-Vol. 21.-P. 51-80.

47. Broder A. Syntactic clustering of the Web. / A. Broder, S. Glassman, M. Manasse, G. Zweig // Proc of the 6th International World Wide Web Conference. 1997. -P.391-404.

48. Broder A. On the resemblance and containment of documents / A. Broder // Compression and Complexity of Sequences. 1998. - P. 21-29.

49. Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences / P. Bucher // J.Mol.Biol. 1990. - Vol. 212. - P. 563-578.

50. Charikar M. Min-wise independent permutations / A. Broder, M. Charikar et al. // Proceedings of the thirtieth annual ACM symposium on Theory of computing. 1998. -P.327-336.

51. Chen W. A fast computational algorithm for the discrete cosine transform / W. Chen, C.H. Smith, S.C. Fialick // IEEE Trans. Communications. 1977. -Vol. 25.-P. 1004-1009.

52. Chowdhury A. Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Grossman, M. McCabe // ACM Transactions on Information Systems. 2002. - Vol. 20, №2. -P.171-191.

53. Codd E.F. A relational model of .data for large shared data banks / E.F. Codd // Comm.ACM. 1970. Vol. 13(6). - P.377-387.

54. Cooley J.W. An algorithm for the machine calculation of complex Fourier series / J.W. Cooley, J.W. Tukey // Mathematics Computation. 1965. Vol. 19.-P. 297-301.

55. Collins A. Likelihood ratios for DNA identification / A. Collins, N. Morton // Proc Natl Acad Sci USA.- 1994. Vol. 91 (13). - P. 6007 - 6011.

56. Cooper M.C. Supply Chain Management: More Than a New Name for1.gistics // M.C. Cooper , D.M. Lambert, J. Pagh // The Internationali

57. Journal of Logistics Management. 1997. - Vol 8, Iss 1. - P. 1-14

58. Daniell H. Multigene engineering: dawn of an exciting new era in biotechnology / H. Daniell, A. Dhingra // Curr Opin Biotechnol. 2002. -Vol. 13 (2).-P. 136- 141.

59. Dempster A.P. Maximum likelihood from incomplete data via the EM algorithm / A.P. Dempster, N.M. Laird D.B. Rubin // J. R. Stat. Soc. Series B.- 1977.-Vol.39.-P. 1-38.

60. Durbin R. Biological sequence analysis / R. Durbin, S.R. Eddy, A. Krogh, G. Mitchson. Cambridge: Cambridge University Press, 1998. - 356 p.

61. Fetterly D. A Large-Scale Study of the Evolution of Web Pages / D. Fetterly, M. Manasse, M. Najork // WWW2003. 2003. - P.669-678.

62. Feuerstein S. Oracle PL/SQL Programming, Fifth Edition / S. Feuerstein, B. Priby. Sebastopol: O'Reilly Media, Inc. - 2007. - P. 172 - 173.

63. Friedman N. Learning Probabilistic Relational Models / N. Friedman, L. Getoor, D. Koller, A. Pfeffer // Proceedings of the Sbdeenth International Joint Conference on Artificial Intelligence. 1999. - Stockholm. P. 13001307.

64. Gentleman W.M. Fast Fourier transforms for fun and profit / W.M. Gentleman, G. Sande // Fall Joint Computing Conf., AFIPS Proc. 1966. -Vol.29.-P.563-578.

65. Glen S.P. High-Impact Sales Force Automation: A Strategic Perspective / S.P. Glen. Saint Lucie.: Taylor & Francis, 1997. - 277 p.

66. Gusfield D. Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology / D. Gusfield. Cambridge: Cambridge University Press, 1997. - 530 p.

67. Heintze N. Scalable document fingerprinting / N. Heintze // In Proc. of thei2nd USENIX Workshop on Electronic Commerce 1996. - P.l-10.

68. Henikoff S. Embedding strategies for effective use of information from multiple sequence aligimients / S. Henikoff, J.G. Henikkof // Protein Sci. -1997. Vol.6.-P. 698-705.

69. Jeffreys A. Individual-specific 'fingerprints' of human DNA // A. Jeffreys, V. Wilson, S. Thein // Nature. 1992. - Vol. 316 (6023). P. 76 -79.

70. Job D. Plant biotechnology in agriculture / D. Job // Biochimie. 2002. -Vol. 84 (11).-P. 1105-1110.

71. Karlin M. New approaches for computer analysis of nucleic acid sequences / M. Karlin, G. Ghandour, F. Ost, S. Tavare, L.J. Korn // Proc Natl Acad Sci USA. 1983. - Vol. 80. - P. 5660-5664.

72. Karlin S. Applications and statistics for multiple high-scoring segments in molecular sequences / S. Karlin, S.F. Altschul // Proc Natl Acad Sci USA.1997. Vol. 90. - P. 5873-5877.i

73. Kielbasa S.M. Combining frequency and positional information to predict transcription factor binding sites / J.O. Korbel, D. Beule, J. Schuchhardt, H. Herzel // Bioinformatics. 2001. - Vol. 17. - P. 1019-1026.

74. Kovalerchuk B. Data Mining in finance: Advances in Relational and Hybrid Methods. / B. Kovalerchuk, E. Vityaev. Massachusetts: Kluwer Acadcmic Publishers 2000. - 308 p.

75. Krantz D.H. Foundations of measurement. Vol. 1,2,3 / D.H. Krantz, R.D. Luce, P. Suppes, A. Tversky. London: Acad, press, 1971. - 577 p., 1989. -493 p., 1990.-356 p.

76. Kurtz S. REPuter: fast computation of maximal repeats in complete genomes / S. Kurtz, C. Schleieraiacher // Bioinformatics. 1999. - Vol. 15, №5. - P. 426-427.

77. Lawrence C.E. An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences / C.E. Lawrence, A.A. Reilly // Proteins. 1990. - Vol.7. - P. 4151.

78. Lukashin A.V. GeneMark.lmmi: new solutions for gene finding / A.V. Lukashin, M. Borodovsky // Nucleic Acids Res. 1998. - Vol. 26, №4. - P. 1107-15.

79. Makeev V.Ju. Search of periodicities in primary structure of biopolymers: a general Fourier approach / V.Ju. Makeev, V.G. Tumanyan // Comput Appl Biosci. 1996. - Vol. 12, №1. - P. 49-54

80. Manber U. Finding Similar Files in a Large File System / U. Manber // Winter USENIX Technical Conference. 1994. - P. 1-10.

81. Marsan L. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification / L. Marsan, M.F. Sagot // J'Comput Biol. 2000. - Vol.7. - P.345-362.

82. Martinez H.M. An efficient method for finding repeats in molecular sequence / H.M. Martinez // Nucl Acids Res. 1983. - Vol. 11. - P. 46294634.

83. Mount D.W. Bioinformatics. Sequence and genome analysis / D.W. Mount. -New York: CSHL Press, 2001. 564p.

84. Narasinka M.J. On the computation of the discrete cosine transform / M.J. Narasinka, A.M.Petersen //IEEE Trans. Communications. 1978. - Vol. 26. - P.934-936.

85. Needleman S.B. A general method applicable to the search for similarities in the amino acid sequence of two proteins / S.B. Needleman, C.D. Wimsch // JmolBiol. 1970. - Vol. 48, №3. - P. 443-553.

86. Palle E.T. Analysis and probability Wavelets, Signals, Fractals / E.T. Palle. -Berkeley: Springer Science + Business Media, LLC, 2006. 279 p.

87. Pavesi G. An algorithm for findmg signals of unknown length in DNA sequences. / G. Pavesi, G. Mauri, G. Pesole // Bioinformatics. 2001. -Vol.17.-P.207-214.

88. Pearson W.R. Improved tools for biological sequence comparison / W.R. Pearson, D.J. Lipman // Proc Nat Acad Sci USA. 1988. - Vol. 85. - P. 2444-2448.

89. Pesole G. PatSearch: a pattern matcher software that finds functional elements in nucleotide arid protein sequences and assesses their, statistical significance / G. Pesole, Si Liuni M. Dsouza // Bioinformatics: 2000. -Vol.16. -P.439-450.

90. Pevzner P.A. Combinatorial approaches to finding subtle signals in DNA sequences / P.A. Pevzner, S.H. Sze // Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology. 2000. - P.269-278.

91. Rackovsky S. "Hidden" sequence periodicities and protein architecture / S. Rackovsky // Proc Natl Acad Sci USA. 1998. - Vol. 95, №15. - P. 85808584. '

92. Stormo G.D: DNA binding sites: representationvand discovery / G.D: Stormo //Bioinformatics. 2000. - Vol: 16: '- P.16-23.

93. Stuckle E.E. Statistical analysis of nucleotide sequences / E.E. Stuckle, C. Emmrich, U. Grob, P.J. Nielsen // Nucleic Acids Research. -1990. Vol. 18. - P. 6641-6647.

94. Tatusov R.L. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks / R.L. Tatusov, S.F. Altschul, E.V. Koonin // Proc Natl Acad Sci USA. 1994*. - Vol. 91. - P. 12091-12095;

95. Tatusova T.A. BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences / T.A. Tatusova, T.L. Madden // FEMS Microbiol Let. 1999. - Vol. 174. - P. 247-250.

96. Tiwari S. Prediction of probable genes by Fourier analysis of genomic sequences / S. Tiwari, S. Ramachandran, A. Bhattacharya, S. Bhattacharya, R. Ramaswamy // ComputAppl Biosci. 1997. - Vol. 13, №3. - P. 263-270.

97. Viterbi A.J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm / A.J. Viterbi // IEEE Trans. Informat Theory. 1967. Vol. 1T-13. - P. 260-269.

98. Wallin E. Fast Needleman-Wunsch scanning of sequence databanks on a massively parallel computer / E. Wallin, C. Wettergren, F. Hedman, G. von Heijne // Comput Appl Biosci. 1993. - Vol. 9, №1. - P.l 17-8.

99. Weiner P. Linear pattern matching algorithm / P. Weiner // Proc. Of the 14th IEEE Symp. On Switching and Automata Theory. 1973. - P.l-11.

100. Zhang M.Q. Promoter analysis of co-regulated genes in the yeast genome / M.Q. Zhang // Comp. & Chem. 1999. - Vol. 23. - P.233-250.

101. Zhu J. Cluster, function and promoter: analysis of yeast expression array / J.Zhu, M.Q. Zhang // Proceedings of Pacific Symposium on Biocomputing. 2000. - Vol.5. - P. 476-487.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00