автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Методы и средства построения информационных хранилищ при автоматизированном проектировании
Автореферат диссертации по теме "Методы и средства построения информационных хранилищ при автоматизированном проектировании"
На правах рукописи
Вельмисов Александр Петрович
Методы и средства построения информационных хранилищ при автоматизированном проектировании
Специальность 05.13.12 - «Системы автоматизированного
проектирования (промышленность)» Специальность 05.13.18 - «Математическое моделирование, численные методы и комплексы программ»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Ульяновск - 2006
Работа выполнена на кафедре «Информационные системы» Ульяновского государственного технического университета.
Научный руководитель: доктор технических наук, профессор
Н.ГЛрушкина.
Официальные оппоненты: доктор технических наук, профессор
В.Р.Крашенинников,
кандидат технических наук, консультант по программным продуктам ЗАО "РДТЕХ", г. Москва Е.А, Горбоконенко.
Ведущая организация: Федеральный научно-производственный центр ОАО «НПО МАРС", г. Ульяновск
Защита состоится 23 ноября 2006 г. в 12.00 на заседании диссертационного совета Д212.277.01 при Ульяновском государственном техническом университете по адресу: 432027, Ульяновск, ул. Северный Венец, 32, ауд. 211.
С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета.
Автореферат разослан октября 2006 года.
Ученый секретарь М.К. Казаков
диссертационного совета, доктор технических наук, профессор
<£-€?<£Общая характеристика работы
Актуальность проблемы
Проектирование сложных технических изделий выполняется в наши дни распределенным коллективом проектировщиков, использующих информационные технологии и работающих в условиях развитой корпоративной сети. В результате работы разрозненных коллективов проектировщиков появляется информационное хранилище, содержащее архивы старых проектных решений, текущие проекты, электронные описания проектов, файлы стандартов и правил. Международные стандарты (180-9000) требуют от предприятий иметь полное электронное представление изделий, причем, фактически данные представления не всегда структурированы и часто представляют собой неупорядоченный один или несколько информационных ресурсов. Проведение структуризации неупорядоченного набора файлов возможно только при участии эксперта, который знает специфику всех направлений деятельности проектного подразделения и имеет представление о тематике старых архивных проектов. При автоматизированном структурировании информационных ресурсов мы имеем дело с частотными словарями, где частота терма определяет принадлежность документа к той или иной тематике, и для эксперта удобно оценивать величину частоты для конкретного документа в виде лингвистических понятий таких как «часто», «редко», «очень редко» и т.д. Проиндексировав все хранилище информационных ресурсов, эксперт получает отношение частот термов и документов и дает лингвистические оценки частотным характеристикам термов. Далее требуется кластеризовать объекты, характеризующиеся нечеткими атрибутами в многомерном пространстве.
В работах Э. Спирли, Р. Кимбала, Н. Пендса рассматриваются методы построения многомерной модели данных. В работах Д. Селко метод построения модели основан на теории множеств. Задача создания и поддержания агрегатов по имеющимся детальным данным решается в работах отечественных ученых В. Дюка, А. Самойленко, в зарубежной литературе этот вопрос рассматривается в работах М. Суели, А. Ишикавы, Дж.. Рейншмидта, Т. Роббера. Методы очистки данных рассмотрены в работах Э. Рахма и X. До. Ряд предложенных методов применены для САПР, но конкретная научно-техническая задача кластеризации нечетких данных для автоматизированного проектирования не решена в науке и практике.
Таким образом, в теории и практике существует важная научно-техническая задача создания методов и средств организации информационного обеспечения систем автоматизированного проектирования (САПР), способного осуществлять кластеризацию неопределенных данных. С учетом вышесказанного разработка методов кластеризации, адекватных проектной информации, и структурно-функционального решения, является актуальной задачей.
Цель работы
Целью диссертации является снижение трудоемкости формирования проектных репозитариев за счет использования разработанных методов интеллектуального анализа нечетких данных.
Для методов интеллектуального анализа нечетких данных необходимо разработать структурно-функциональное решение.
Таким образом, объектом исследования является I
системы интеллектуального анализа данных, а субъектом ШбШШДОВЗда? - ф актор
3
чение
С.-П«.'1е<н!ур!
нечеткости характеристик информационных ресурсов, представимых в хранилище данных.
Задачи исследования
Для достижения поставленной цели необходимо решить ряд задач:
1. Исследовать особенности информационных ресурсов. Провести анализ результативности методов интеллектуального анализа нечетких данных для задач структурирования информационных ресурсов. Изучить ранее разработанные методы интеллектуального анализа данных, учитывающие нечеткость атрибутов объектов, и сделать вывод о возможности их применения.
2. Разработать методы кластеризации, позволяющие автоматизировано сформировать структуру проектного репозитария.
3. Разработать методику, позволяющую настраивать функции принадлежности нечетких атрибутов на основе не только оценок эксперта, но и фактических данных.
4. Разработать модель представления объектов проектирования набором нечетких правил.
5. Разработать структурно-функциональное решение для извлечения зависимостей в виде правил из нечетких данных.
6. Разработать программную систему, выполняющую нечеткую кластеризацию для структурирования хранилища информационных ресурсов.
7. Выполнить с помощью разработанного программного решения интеллектуальный анализ информационных ресурсов и осуществить структуризацию хранилища данных для проектной организации.
Методы исследования
Для решения поставленных задач использовались методы таксономии, аппарат реляционной алгебры, методы представления знаний, совокупность теорий, обобщенных направлением мягких вычислений, и проектирования программных систем.
В качестве инструментальных средств использовались: сервер баз данных Oracle9i, Java Developer Kit (Sun Microsystems), Borland Delphi 7, MySQL 4.1, PHP5.
Научная новизна
В работе проведено исследование проблемы, в котором новыми являются следующие результаты:
1. Предложен новый метод кластеризации нечетких данных. Отличие метода от известных заключается в том, что он позволяет кластеризовать сильно сгруппированные данные при отсутствии дополнительной информации о данных. Метод позволяет структурировать информационные ресурсы, описанные нечеткими характеристиками.
2. Предложена новая модель содержательной и навигационной структуры проектного репозитария в форме набора нечетких правил.
3. Сформирована новая методика использования интеллектуального анализа нечетких данных для организации проектных репозитариев при автоматизированном проектировании.
4. Разработано новое структурно-функциональное решение системы интеллектуального анализа нечетких данных.
Практическая ценность
Научно-исследовательская работа над разделами диссертации выполнялась в соответствии с договором НИР ЮО-НИЧсФНПЦОАО "НПО МАРС":
Практическая ценность полученных результатов состоит в следующем:
1. Созданная программная система — система интеллектуального анализа нечетких данных — позволяет структурировать хранение информационных ресурсов. На основе модели данных можно создавать как хранилище данных, так и аннотации ресурсов, характеризующих их. Для ФНПЦ ОАО "НПО МАРС" была осуществлена структуризация хранилища информационных ресурсов.
2. Созданная программная система является инструментом для исследования зависимостей в нечетких реляционных базах данных. Наиболее перспективным направлением исследований является исследование свойств модели (неполные данные, неточные данные).
3. Созданная программная система используется в Ульяновском отделении Сберегательного банка РФ №7002 для структуризации клиентской базы физических лиц, позволяя классифицировать клиентов по принадлежности к категориям.
4. Созданная программная система используется в НП «УЦ «Раздолье» при проведении маркетинговых исследований и анализе данных, полученных опросным путем от слушателей учебного центра.
Достоверность результатов
Достоверность научных положений, выводов и рекомендаций подтверждена результатами математического моделирования, результатами экспериментов и испытаний, а также результатами использования материалов диссертации и разработанных систем в проектных подразделениях организаций и на производстве.
На защиту выносятся:
1. Алгоритм кластеризации нечетких данных.
2. Модель проектного репозитария, позволяющая использовать результаты кластеризации для организации среды хранения и навигации в информационном хранилище.
3. Методика использования нечетких нейронных сетей при построении проектных репозитариев в процессе автоматизированного проектирования.
4. Структурно-функциональное решение системы интеллектуального анализа нечетких данных, осуществляющее структурирование информационных ресурсов, характеризуемых нечеткими атрибутами.
Реализация результатов работы
Результаты диссертации и практические рекомендации использованы в ФНПЦ ОАО "НПО МАРС" для структурирования хранилища информационных ресурсов. Научные и практические результаты диссертационной работы внедрены в Ульяновском отделении Сберегательного банка РФ №7002 и НП «УЦ «Раздолье».
Практическое использование результатов диссертационной работы подтверждено соответствующими документами о внедрении.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались: на четвертой международной научно-технической конференции «Математическое моделирование физических, экономических, технических, социальных систем и процессов» (Ульяновск, 2001); на международных конференциях «Континуальные логико-алгебраические исчисления и нейроинформатика в науке, технике и экономике» (Ульяновск, 2001, 2002, 2003, 2004, 2005, 2006); на XXXV, XXXVI, XXXVII, XXXIX научно-технических конференциях УлГТУ (Ульяновск, 2001, 2002, 2003, 2005); на международной конференции "Dynamical systems modeling and stability investigation" (Киев, 2001); на международной конференции «Математическое моделирование, статистика и информатика в современном управлении экономикой» (Самара, 2001); на 8-ой и 10-ой национальных конференциях по искусственному интеллекту с международным участием (Москва, 2002, 2006); на научной сессии МИФИ-2002 (Москва, 2002); на международной научно-технической конференции «Интеллектуальные системы» (Москва, 2006); на международной научно-технической конференции «Интеллектуальные САПР» (Москва, 2006); на всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (Москва, 2006); на международной конференции "Applications of mathematics in engineering and economics" (Bulgaria, Sofia, 2006). Публикация результатов работы По теме диссертации опубликовано 24 печатных работы. Личный вклад
Все результаты, составляющие содержание диссертации, получены автором самостоятельно.
Структура и объем диссертации
Диссертационная работа изложена на 176 страницах машинописного текста, содержит 14 рисунков, 8 таблиц и 3 диаграммы, состоит из введения, четырех глав, заключения, списка литературы из 127 наименований и 2 приложений на 19 страницах.
Содержание работы
Во введении дано обоснование актуальности темы диссертации, сформированы объект и предмет исследования, изложены цель и соответствующие ей задачи работы, перечислены методы исследований.
В первой главе представлен обзор и сравнительный анализ теоретических результатов и практических работ, посвященных интеллектуальному анализу данных, представлению и обработке неточной информации в системах управления базами данных.
Обзор выполнен с двух точек зрения. Во-первых, приведено краткое описание теорий, учитывающих неопределенность, неточность информации. Рассмотрены существующие научно-исследовательские теоретические и практические разработки в этой области, существующие на данный момент. Анализ показывает, что заложенные в теории нечетких множеств возможности представления и обработки субъективной информации делают ее привлекательной для моделирования
рассуждений человека, а сама теория нечетких систем успешно применяется в таких интеллектуальных системах, как САПР и экспертные системы. В работе теория нечетких систем будет применена для представления нечетких данных в СУБД.
Во-вторых, обзор посвящен рассмотрению вопроса анализа данных. Проведен анализ методов » интеллектуального анализа данных для решения задач кластеризации. Рассмотрены современные системы интеллектуального анализа данных, применяющиеся в них методы и алгоритмы, и тенденции их развития.
Современный уровень распространения автоматизации деятельности приводит к формированию на предприятиях и в организациях баз данных больших объемов. Такие базы данных являются фактографическими, сформированными на основании решения задач учетного характера. В качестве примера можно привести базы данных транзакций биллинговых систем, автоматизированные системы бухгалтерского и управленческого учета, хранилища данных космических снимков, данные о совершенных покупках в супермаркетах и так далее. В подобных базах данных скрыты закономерности объектов и деятельности. Выявление таких законов, их вербализация, преобразование к формализованной аналитической форме, способствует формированию конструктивных моделей проблемных областей, в том числе математических. Извлеченные из баз данных законы проблемной области позволяют обеспечить оптимизацию деятельности предприятий и организаций, поддержку управленческих решений.
Традиционным средством формирования математических моделей является статистический анализ, где, в основном, для задачи анализа данных в этом контексте применяются регрессионные методы. Применение статистических методов для задачи анализа данных затруднено тем, что часто для конкретной задачи из какой-либо предметной области выборка характеризуется малыми объемами и нечисловым характером атрибутов. В частности, в макроэкономических, социологических, маркетинговых базах данных широко используется лингвистическая форма представления данных. Вышеперечисленные трудности привели к формированию нового научного направления - интеллектуального анализа данных.
Значительных результатов названное направление достигло в извлечении знаний из реляционных баз данных. Программные продукты, строящие математические модели на основе реляционных баз данных, получили название Data Miner (DM). Научные результаты в данной области позволили создать новые технологии и виды комплексов программ, в частности, DM содержатся в старших версиях серверов данных. Несмотря на названные результаты, в интеллектуальном анализе данных остается ряд нерешенных задач. Использование нечисловых атрибутов, в том числе нечетких, не поддержано разработанными методами анализа. Фрагментарность выборки и нечисловые атрибуты не позволяют выразить содержание объекта в традиционной математической форме уравнений или формул и предполагают использование баз правил (знаний). Отсутствуют методы объективной настройки функции принадлежности.
Итогом первой главы стал вывод о том, что разработка новых методов интеллектуального анализа данных и модернизация известных методов для нечетких реляционных серверов данных является актуальной задачей.
Во второй главе рассматриваются теоретические основы предлагаемого метода нечеткой кластеризации и модель нечеткой гибридной нейронной сети. Создаваемые в рамках данной работы алгоритм нечеткой кластеризации и модель нечеткой гибридной нейронной сети находятся на стыке таких областей, как теория нечетких множеств, таксономия и нейронные сети. До недавнего времени эти направления развивались независимо друг от друга, и в каждой области сложились свои способы описания данных и операций над ними.
В первой части данной главы приводится краткое описание задачи нечеткой кластеризации, определяется совокупность понятий, область применения, свойства операций и предлагаемый алгоритм нечеткой кластеризации.
Функция оценки основана на мерах сепарабельности и компактности кластеров.
Пусть X = {х,,х2,множество данных, г1 - центр у-го кластера, где 1 = 1,2..., с.
Определение 1.Функцию принадлежности цС/, у = 1,2,...,с для Ухе Л"определим
так Л, (х) ~
1, если d(x,r) = О, О,если d(x,rl)=0,k Ф J,
^d(x,r) V'
> -— иначе.
7~\d(x,rv)
с И
Таким образом (*) = l,V* sX и (**)s N>J = '>2.....c-
/.i ' *■i '
Определение 2. Нечеткое разбиение может быть преобразовано в четкое
следующим образом:
Í1. если ur (хк) = тахшг (X)
и (г \ -i ' lSvác1 нп
[О иначе.
Очевидно, что yic¡ (х) = 1, если г,- ближайший центр к точке х„. Определение 3.
Дано множество кластеров С = {С,,С2,...,Сс}для множества объектов X = {л-,,*,,...,*„}. Для каждого С, еС, если С, не единичное множество, компактность
С, обозначим как ср, и определим так =_______
°Pi Y ixXx.fd(xltrtf /
11 J J / , где ц,(х.)- значение функции
/ I
принадлежности х1 к кластеру С,, г, - центр кластера С,, с - количество кластеров и 2<¡c<N.
Определение 4.
Дано множество кластеров с = {с,,с2,...,сс}для множества объектов ЛГ = {х„*2,. ..,*„}. Для каждого С,еС, если С, не единичное множество,
количество кластеров и 2 2 с 2 N. Определение 5.
Дано множество кластеров С = {С„С2,...,Сс}для множества объектов
X = {х|,х2.....Для каждого С,еС, если С, не единичное множество,
сепарабельность/компактность С, обозначим как лс, и определим как ¿с, = ¡р, х ср,. Таким образом «наихудший» кластер будет иметь наименьшее значение л?,. Алгоритм слияния применяет меру схожести для выбора наиболее похожих пар кластеров. В алгоритме слияния выбирается наиболее «плохой» кластер и затем удаляется. Все элементы, принадлежащие данному кластеру, перемещаются в «ближайший» кластер, после чего происходит переопределение центров кластеров.
Алгоритм слияния предполагает следующие шаги. Вход: оптимальное множество кластеров С* = {С*,,С*2,...,С*с„} для множества данных Х = {х,,хг,...,х„}, где с£2. Выход: множество кластеров С = {С,,С2.....Сс}.
Шаг 1. Создается массив г* = {г*|,г*2,...,/■*„,} такой, что каждое г*, ег*является центром кластера С*,еС*. Вычисляется значение я: для каждого С*,<=С*, удаляется из г »центр кластера с наименьшим значением 5с. Формируется новый массив г = {гиг1.....гс).
Шаг 2. Выводится новое множество кластеров С = {С„С2,...,Сс}, основанное на г.
Процедура пересчета центров кластеров. Вход: Массив центров кластеров г* = {г*),г*1,...1г*г} для множества данных X = {хрх,,...,^}.
Выход: Новый массив центров кластеров г = {г„гг.....гс].
Шаг 1. Выбирается наиболее близкий центр г*,для каждого элемента *уеХи х, включается в кластер С*,с центром г *,.
Шаг 2. Вычисляется медиана для каждого С*,как новый центр гп все новые центры группируются в массив г так, что г = {г,,г2,...,/-с}.
Шаг 3. Если г* ф г и не достигнут порог количества итераций, то переход на шаг 1. Шаг 4. Выход г.
Многошаговый Махтш алгоритм. Вход: множество данных ^ = {х,,д:2,...,*„}, количество кластеров с, точка старта р, целочисленное значение /. Выход: Множество кластеров С = {с„с,,...,се}. Шаг 1. Инициализируем сепарабельность/компактность ЯС, БС = 0.
сепарабельность с, обозначим через ¿р, и определим как
г,- центр кластера С,, г,- центр кластера С,, с -
Шаг 2. Определяем р как точку старта для модифицированного Maxmin алгоритма для получения множества кластеров С* = {С*|(С*а.-.С*Л'
Шаг 3. Пересчитываем центры кластеров, используя процедуру пересчета для С*. Шаг 4. Вычисляем значение сепарабельности/компактности SC* для С*. Если SC*>SC, то SC = SC*, С = С
Шаг 5. Если i>c, то i = i, р = г»(, где г*,- центр С*,, i = i+1. Переход на шаг 2 до сходимости алгоритма или достижения точки останова. Шаг 6. Вывод с.
Гибридный алгоритм кластеризации. Вход: множество данных X = {^,д:г)...,дг,;}, maxnum - максимальное количество кластеров.
Выход: Оптимальное множество кластеров С = {С,,С2.....Сс}.
Шаг 1. copl= max. пит, с = шах пит, / = 1. Случайным образом выбирается объект х е X в качестве точки старта р. Выполняется многошаговый maxmin алгоритм с параметрами X,c,i,pдля поиска оптимального множества кластеров С = {С|,С2,..,,Се} для с. Вычисляется функция оценки 5Сдля С.
Шаг 2. Выполняется алгоритм слияния для получения множества кластеров С'= {с,,С"2выбирается центр С',в качестве точки старта р, с = с-1, / = 2. Выполняется многошаговый maxmin алгоритм с параметрами Х,с,1,ррля поиска оптимального множества кластеров С* = {С*1,С*2,...,С','1.} для с. Вычисляется функция оценки SC для С* и принимается как SC*. Если SC*>SC, то SC = SC*, С = С*, сщ=с. Повтор шага 2, пока cS 2.
ШагЗ. Вывод: С = {С,,С2.....Сор,) - оптимальное множество кластеров.
Таблица 1.С равнение алгоритмов кластеризации
Алгоритм Примени Необходи Чувствитель Примени
мость к мость указания ность к входным мость к
сильно количества параметрам неравномерно
сгруппирован кластеров распределен
ным данным ным данным
Гибридный Да Нет Нет Да
алгоритм
к-средних Да Да Да Да
Субстракти Да Нет Да Нет
вный
Maxmin Да Нет Да Да
Fuzzy с- нет да Да Да
means
Во второй части главы дано описание структуры нечеткой нейронной сети, описание нейронов и слоев, также приводится алгоритм ее обучения.
Гибридная нечеткая нейронная сеть. Предлагается следующая структура гибридной нечеткой нейронной сети:
Слой 1. Первый слой выполняет раздельную фаззификацию каждой переменной лг„/ = 1,...,ЛГ, определяя для каждого к -го правила вывода значение коэффициента принадлежности иТМ в соответствии с применяемой функцией фаззификации
(например, с обобщенной функцией Гаусса) ил{х,) =---Это
параметрический слой с параметрами с}" ,6'*', подлежащими адаптации в процессе обучения.
Количество нейронов, связанных с каждым из входов, определяется из исходных данных, исходя из представления нечеткой переменной в базе данных. Так как для каждого атрибута объекта хранится словарь лингвистических переменных в виде набора функций принадлежности, то количество нейронов определяется количеством лингвистических переменных в словаре. Выходы узлов данного слоя - это степени принадлежности входных переменных. Значения данных параметров корректируются в процессе обучения сети.
Слой 2. Каждый нейрон этого слоя является нечетким нейроном «И» и моделируется ^нормой. Количество нейронов определяется количеством правил, полученных на выходе при функционировании сети кластеризации. Слой выполняет агрегирование отдельных переменных определяя результирующее значение коэффициента принадлежности для вектора х. Агрегирование
1 "
выходного результата сети производится по формуле у(х) = —,—(х), где
Слой 3. Каждый нейрон этого слоя является нечетким нейроном «ИЛИ» и моделируется Б к-нормой. Количество нейронов определяется количеством классов, полученных в результате кластеризации.
Слой 4. Слой представляет собой генератор функции Такаджи-Суджено-Канга
К
(ТвК), рассчитывающей значения ук(х) = + • ® этом слое производится
умножение сигналов ук{х) на значения и-*, полученные в предыдущем слое. Это параметрический слой, в котором адаптации подлежат линейные веса рь для к = 1,...,М и / = 1,...,/^, определяющих функцию следствия модели ТБК.
При обучении гибридной сети адаптации подлежат параметры р^ четвертого слоя и параметры нелинейной функции принадлежности первого слоя. Уточнение производится в следующей последовательности.
1. Рассчитываются линейные параметры рк) третьего слоя.
2>,
ы
N
УЛх) = Рю+%Р»х1 •
j=1
r=iLl
для к = 1,...,М.
2. Рассчитываются фактические выходные сигналы сети у(0,1-1,...,р
3. Рассчитывается вектор ошибки е=у-д.
4. Корректируются параметры с\к\а^к) первого слоя.
b')k](п +1) = b'f*(п)-т)ь , где и - номер очередной итерации.
Данный алгоритм является частным случаем алгоритма обратного распространения ошибки. Сеть обучается до достижения заданного уровня ошибки, количества эпох обучения или времени обучения.
В третьей главе рассматривается практическая реализация системы интеллектуального анализа нечетких данных (Fuzzy DataMiner), хранение которых осуществляется в промышленной базе данных Oracle9i. Основное внимание уделяется описанию схемы данных, позволяющей представить в реляционной базе данных нечеткие данные, механизмам и алгоритмам обработки этих данных, а также описанию структурных и функциональных схем реализации алгоритмов кластеризации и эмулятора нечетких нейронных сетей. Кроме этого обоснован выбор инструментальных средств и рассмотрены направления дальнейшего развития системы. В качестве инструментального средства для оперирования нечеткими данными использовались процедурные расширения сервера баз данных Oracle9i.
В модуле кластеризации реализовано два алгоритма нечеткой кластеризации: гибридный алгоритм нечеткой кластеризации и модифицированная нейронная сеть Кохонена. Программное обеспечение реализовано в среде разработки Borland Delphi Enterprise 7.0. Данная среда реализации была выбрана из-за удобства использования готовых визуальных компонентов и простоты работы с различными источниками данных. Данный модуль использует клиент-серверную архитектуру, что позволяет работать с удаленными СУБД.
г—
FCGA
DBConnection
Main —
Nsk
DBTables
Рисунок 1. Схема модуля нечеткой кластеризации реализации
В модуле построения нейронных сетей реализована модель гибридной нечеткой нейронной сети. Программный модуль позволяет создавать нейронные сети различной конфигурации с использованием как четких, так и нечетких нейронов.
Рисунок 2. Модуль реализации гибридной нечеткой нейронной сети
Программное обеспечение реализовано в виде вэб-интерфейса, что позволяет работать с модулем удаленно. Для реализации был выбран язык PHP 5, так как он обеспечивает наиболее простую схему реализации при использовании данной технологии. В качестве СУБД для хранения оперативных данных была выбрана MySQL 4.1, так как она может функционировать под операционными системами семейства Windows и Unix.
Таким образом, третья глава содержит описание практической реализации механизмов хранения нечетких данных в СУБД и их анализа. Разработанная система - универсальное инструментальное средство, которое открывает новые возможности для исследования скрытых зависимостей в нечетких отношениях.
В четвертой главе рассматриваются решения задач построения информационных ресурсов при автоматизированном проектировании, в которых были использованы методы нечеткой кластеризации, нечеткая СУБД с расширенной реляционной моделью, учитывающей нечеткость данных. Основная особенность этих решений состоит в возможности представления и обработки нечеткой информации об информационных ресурсах.
Первая задача - это задача организации структурированного информационного хранилища из разрозненных информационных ресурсов, относящихся к различным текущим и архивным проектам. Для ее решения использовалась интеллектуальная система поддержки принятия решений (ИСППР). Данная система состоит из трех компонент: СУБД, подсистема классификации и кластеризации, подсистема генерации правил. Отличительной особенностью рассматриваемой ИСППР является возможность обработки не полностью определенной информации.
Рисунок 3. Реализация ИСППР
Для анализа эксперту предлагается частотный словарь, характеризующий предметную область и набор файлов, характеризующихся частотой использования в них того или иного терма. Для упрощения работы эксперт характеризует частоту использования терма в документе в виде лингвистической переменной, то есть «очень мало», «мало», «средне», «много», «очень много».
Для анализа использовалась выборка из 119 документов, характеризуемых 57 термами. С помощью использования гибридного алгоритма кластеризации было получено разбиение на 51 кластер. Экспертным путем было определено необходимое количество уровней дерева каталогов информационного ресурса равное 6. Кластеризация проводилась в 6 этапов: деление на 2, 5, 10, 20, 30, 40, 51 кластеров. После проведения кластеризации алгоритмом Кохонена получена структура дерева каталогов, изображенная на Рисунке 4. Для оценки адекватности кластеризации приводятся краткие описания документов из кластеров 2 и 3. Описания и названия документов не использовались в качестве анализируемых данных.
Таблица 2. Описание 2 кластера
№ документа Описание документа
1 ПРИБОР. Таблица и методика проверки
2 Модуль "имя модуля". Таблица проверок
3 Таблица и методика проверки
4 Таблица и методика проверки
5 Таблица и методика проверки
6 Руководство по эксплуатации
Таблица 3. Описание 3 кластера.
№ документа Описание документа
1 Перечень средств вычислительной техники
2 Перечень средств вычислительной техники
3 Перечень средств вычислительной техники
4 Описание применения
5 Описание применения
6 Описание применения
7 Описание применения
Вторая задача - структурирование информационных ресурсов в рамках договора НИР 100-НИЧ с ФНПЦ «ОАО НПО МАРС».
Для структуризации было представлено 567 документов, охарактеризованных частотным словарем из 5717 термов. С помощью ИСППР было получено разбиение на 272 кластера, представляющее собой древовидную структуру информационного ресурса. Описания и названия документов не использовались в качестве анализируемых данных.
В результате кластеризации получено разбиение на 272 кластера; 167 кластеров состоят из 1 документа, 46 - из 2 документов, 23 - из 3 документов, 17 - из 4 документов, 5 - из 5 документов, 2 - из 6 документов, 2 - из 7 документов, 2 - из 8
документов, 2 - из 9 документов, 2 - из 10 документов, 1 - из 12 документов, 1 - из 14 документов, 1 - из 17 документов, 1 - из 23 документов.
Диаграмма 1. Количество элементов в кластерах
Разработанное программное обеспечение и результаты экспериментов переданы ФНПЦ «ОАО НПО МАРС».
Программное обеспечение позволило обработать массив из 567 документов за 2 часа. При ручном формировании исходной структуры репозитария кластеризация документов потребует трудозатрат не менее, чем 35 рабочих дней при средней производительности эксперта 0,5 часа на один документ.
Третья задача - анализ данных по результатам проведения анкетирования, разработанного институтом социально-экономических проблем народонаселения при Российской академии наук «Социально-экономическое положение населения России». Выборка данных для анализа представлена результатами проведения анкетирования в г. Димитровград Ульяновской области. Анкета состоит из 129 пунктов (438 вопросов). Для проведения опроса случайным образом были отобраны 1080 человек.
На некоторые из вопросов нельзя дать четких ответов, например, вопрос №46 «Как часто Вы работаете дома по вечерам и в Ваши выходные дни?». Варианты ответов: часто, редко, никогда. Кластеризация таких данных сложна, так как при делении на классы необходимо объединять различные лингвистические метки. Данные, полученные на основе анкетирования, были погружены в нечеткий реляционный сервер данных. В результате были получены данные, пригодные для автоматизированной обработки информации с помощью ОМ. Нечетким меткам были поставлены в соответствие функции принадлежности.
По результатам анализа можно сделать вывод о выделении кластера, представители которого имеют две квартиры и большую жилплощадь. Также можно
Количество элементов в кластерах
отметить, что они более приспособлены к экономической ситуации, верят в себя и часто работают дома. Причем денежные поступления у них не больше, чем у остальных. Похоже, что они после школы начали работать и преуспели в профессиональном плане.
Причиной отсутствия четкого разделения между социальными слоями общества являются особенности исходных данных, рассмотренные ниже. Как показывает результат, подавляющее большинство людей относят себя к среднему социальному классу. К высшему классу отнесли себя менее 1% опрошенных.
При кластеризации по субъективным атрибутам получаем следующие результаты представленные в Таблице 4.
Таблица 4. Результаты кластеризации
№ Вопрос Класс 1 Класс 2 Класс 3
56 Общественное положение семьи Среднее Низкое Низкое
73* Уровень материальной обеспеченности 4,20 2,73 2,35
74* Степень профессионализма 6,09 4,76 3,29
75* Приспособленность к экономической ситуации 5,34 3,07 1,88
76* Зависимость благосостояния от индивидуальных усилий 6,06 3,27 8,00
77* Общественное положение 4,72 3,17 2,88
78.2 Слой общества для Вашей семьи Средний слой Ниже среднего Средний слой
129 Изменится ли ваша жизнь Не изменится Скорее ухудшится Скорее ухудшится
* -по 9-бальной шкале
Разбиение на классы
□ 1 класс
□ 2 класс
□ 3 класс
Диаграмма 2. Разбиение на классы
Явно выделяется класс людей среднего положения, нормально обеспеченных, хорошо знающих свое дело, хорошо приспособленных и верящих в то, что положение в стране не ухудшится. Представители третьего класса считают, что положение их семьи и уровень обеспечения низкий, приспособленность к ситуации очень низкая, причем они знают, что их состояние полностью определяется их собственными усилиями. Свою квалификацию оценивают как низкую и думают, что жизнь ухудшится. Второй класс похож на третий с той разницей, что его
ГШ
V
представители считают себя немного более приспособленными, уверены в свой квалификации, хотя и не верят в свои силы.
Для анализа эффективности разработанной системы поддержки принятия решения при выполнении кластеризации нечетких данных был проведен отдельный эксперимент, позволяющий провести такой анализ. Эксперимент состоял в кластеризации нечетких данных, характеризующих 100 документов 5717 термами. Данный эксперимент состоял в нахождении наиболее значимых термов, характеризующих предметную область. При кластеризации измерялось затраченное на это время и количество задаваемых кластеров.
Были получены следующие результаты:
Таблица 5. Результаты эксперимента анализа эффективности
Количество документов Время обработки, сек Задаваемое количество кластеров
100 95 100
90 86 90
80 74 80
70 60 70
60 50 60
50 39 50
40 30 40
30 17 30
20 ю 20
10 5 10
Вычислительный эксперимент проведен на компьютере с процессором AMD AthlonXP 1800.
Анализ временных показателей показывает, что время обработки линейно зависит от увеличения количества кластеризуемых данных. Из этого сделан вывод, что возможности разработанной системы ограничены вычислительной мощностью и объемом памяти используемой вычислительной техники и особенностями используемой СУБД.
Итогом четвертой главы являются выводы о том, что разработанная система поддержки принятия решения может быть использована в качестве информационного обеспечения САПР. Созданные механизмы нечеткой кластеризации позволяют структурировать архивы проектов САПР.
В заключении приведены основные результаты исследований, полученные в диссертационной работе.
Основные результаты работы
Главным итогом диссертационной работы является снижение трудоемкости формирования проектных репозитариев за счет использования разработанных методов интеллектуального анализа нечетких данных.
Основные выводы и итоги:
1. Выполнен научный анализ современных работ в области информационного обеспечения САПР, рассмотрены существующие методы интеллектуального анализа, проанализированы возможности применения в ходе автоматизированного проектирования ранее разработанных методов и моделей.
2. Разработаны методы кластеризации, позволяющие работать с нечеткими атрибутами при отсутствии дополнительной информации о характере данных.
3. Разработана методика, позволяющая настраивать функции принадлежности нечетких атрибутов при анализе представленных данных.
4. Построена модель, описывающая набор правил, извлеченных из реляционной базы данных с нечеткими атрибутами.
5. Разработано структурно-функциональное решение системы извлечения зависимостей в виде правил из нечеткой системы управления базами данных.
6. Реализована программная система, позволяющая проводить нечеткую кластеризацию для структурирования хранилища информационных ресурсов.
7. Проведен интеллектуальный анализ информационных ресурсов и осуществлена структуризация хранилища данных ФНПЦ ОАО "НПО МАРС" с помощью разработанного программного комплекса. Программное обеспечение позволило обработать массив из 567 документов за 2 часа. При ручном формировании исходной структуры репозитария кластеризация документов потребует трудозатрат не менее, чем 35 рабочих дней при средней производительности эксперта 0, 5 часа на один документ.
Основное содержание диссертации опубликовано в работах:
1. Вельмисов А.П. Решение задачи формирования портфеля ценных бумаг с использованием нейронных сетей и генетического алгоритма. Труды четвертой международной научно-технической конференции «Математическое моделирование физических, экономических, технических, социальных систем и процессов». - Ульяновск: УлГУ, 2001 г., с.41-42
2. Вельмисов А.П. Адаптация генетического алгоритма для оптимизации многоэкстремальных функций. Труды международной конференции «Континуальные логико-алгебраические исчисления и нейроинформатика в науке, технике и экономике» (КЛИН-2001). Т.4: Математические методы и модели в прикладных задачах. - Ульяновск: УлГТУ, 2001г., с. 46-48
3. Вельмисов А.П. Формирование портфеля денных бумаг с использованием генетических алгоритмов и методов нейрокомпьютинга. Thesis of international conference reports "Dynamical systems modeling and stability investigation". "Modelling® Stability". - Kyiv: Киевский национальный университет, 2001., p. 151
4. Вельмисов А.П. Применение методов нейрокомпьютинга и генетических алгоритмов в решении задачи формирования портфеля ценных бумаг. Труды международной конференции «Математическое моделирование, статистика и информатика в современном управлении экономикой» - Самара: Самарская государственная экономическая академия, 2001г., с. 39.
5. Вельмисов А.П. Использование нечетких нейронных сетей для интеллектуального анализа в возможностных базах данных. Труды международной конференции КЛИН-2002. Т.З: Нейронные сети и модели в прикладных задачах науки и техники. - Ульяновск: УлГТУ, 2002г., с. 9-14.
6. Вельмисов А.П. Использование нечетких нейронных сетей для интеллектуального анализа в возможностных базах данных. Труды 8-ой национальной конференции по искусственному интеллекту с международным участием. Т.1 - М.: Из-во физико-математической литературы, 2002г., с.87-93.
7. Вельмисов А.П. Извлечение скрытых зависимостей из нечетких баз данных. Научная сессия МИФИ-2002. Сборник научных трудов. Т.З: Интеллектуальные системы и технологии. - М.:МИФИ, 2002г., с.167
8. Вельмисов А.П. Расширенные функциональные зависимости. Труды международной конференции КЛИН-2003. Т.З: Системы искусственного интеллекта и нейроинформатика. - Ульяновск: УлГТУ, 2003г., с.38-41.
9. Вельмисов А.П. Гибридные нейро-фаззи модели для анализа нечетких данных». Труды международной конференции КЛИН-2004. Т.З: Системы искусственного интеллекта и нейроинформатика. - Ульяновск: УлГТУ, 2004г., с.34-37.
Ю.Вельмисов А.П. Использование гибридных систем для анализа нечетких данных. Сборник научных трудов «Прикладная математика и механика», вып. 6 - Ульяновск: УлГТУ, 2004г., с. 213-220.
11.Вельмисов А.П. Расширенные функциональные зависимости в реляционных базах данных. Вестник УлГТУ, вып. 3 - Ульяновск: УлГТУ, 2004г., с.52-55.
12.Вельмисов А.П. Гибридные нейро-фаззи модели для анализа нечетких данных». Вестник УлГТУ, вып. 4 - Ульяновск: УлГТУ, 2004г., с.43-44.
13.Вельмисов А.П. Интеллектуальный анализ нечетких данных. Труды международной конференции КЛИН-2005. Т.4: Математические методы и модели в прикладных задачах науки и техники. - Ульяновск: УлГТУ, 2005г., с.30-35
14.Вельмисов А.П. Система анализа нечетких данных. Труды международной конференции КЛИН-2006. Т.4: Математические методы и модели в прикладных задачах науки и техники. -Ульяновск: УлГТУ, 2006г., с.92-93.
15.Вельмисов А.П. Алгоритм нечеткой кластеризации. Журнал «Труды Средневолжского математического общества». Т.8, №1 - Саранск: Средневолжское математическое общество, 2006г., с.192-197.
16.Вельмисов А.П., Стецко A.A., Ярушкина Н.Г. Нечеткие гибридные системы в задачах интеллектуального анализа данных. Труды международных научно-технических конференций «Интеллектуальные системы» (AIS'06) и «Интеллектуальные САПР» (CAD-2006). Т.1-М.:Физматлит, 2006г., с.81-88.
17. Вельмисов А.П., Стецко A.A., Ярушкина Н.Г. Нечеткие гибридные системы в задачах интеллектуального анализа данных. Труды десятой национальной конференции по искусственному интеллекту с международным участием, Т.2 -М.: Физматлит, 2006г., с.408-434.
18.Вельмисов А.П., Стецко A.A., Ярушкина Н.Г. Средства data mining для нечетких реляционных серверов данных. Труды всероссийской научной конференции «Нечеткие системы и мягкие вычисления». - М.: Физматлит, 2006г., с. 167-183.
19. A. Velmisov. Hybrid Clustering Algorithm. J. "Applications of mathematics in engineering and economics". - Bulgaria, Sofia, Softtrade,Ltd,,2006, p.44-50.
Подписано в печать 09.10.2006. Формат 60x84/16. Бумага писчая. Усл.печ.л. 1,00. Тираж 100 экз. Заказ МШ,
Типография УлГТУ, 432027, Ульяновск, Северный Венец, 32.
<2006А
Оглавление автор диссертации — кандидата технических наук Вельмисов, Александр Петрович
Введение.
Глава 1. Обзор работ и практических реализаций, посвященных интеллектуальному анализу данных и представлению нечетких данных в системах управления базами данных.
1.1 .Задача анализа данных.
1.2.Обзор моделей и реализаций нечетких БД.
1.3. Обзор методов интеллектуального анализа данных для решения задачи кластеризации и классификации.
1.3.1. Гипотеза компактности.
1.3.2. Гипотеза А- компактности.
1.4.ДСМ-метод и его модификации.
1.4.1.ДСМ-мето д.
1.4.2.ДСМ-метод автоматического порождения гипотез (ДСМ-АПГ).
1.5. Примеры систем извлечения знаний из данных.
1.5.1. Предметно-ориентированные аналитические системы.
1.5.2. Статистические пакеты.
1.5.3. Системы на основе моделей нейронных сетей.
1.5.4. Системы, использующие рассуждения на основе прецедентов.
1.5.5. Системы, использующие деревья решений.
1.5.6. Системы, использующие эволюционное программирование.
1.5.7. Системы на основе генетических алгоритмов.
1.5.8. Системы, использующие алгоритмы ограниченного перебора.
1.6 Обзор программных реализаций Data Miner.
1.6.1. Data Mining Suite™.
1.6.2. IBM Intelligent Miner.
1.6.3. Oracle Dataminer.
1.6.4. Microsoft OLE DB for Data Mining Specification in SQL Server
1.6.5. Statistica.
1.6.6. 1С Предприятие.
1.6.7. Polyanalyst.
1.6.8.Краткий обзор свободно распространяемых продуктов.
1.7. Стандарты и спецификации, используемые при определении архитектур систем извлечения знаний из данных.
1.7.1. Стандарты.
1.7.2. Языки спецификации задач извлечения знаний.
1.8.Вывод ы.
Глава 2. Математические методы анализа нечетких данных.
2.1. Нечеткая кластеризация.
2.1.1. Задача нечеткой кластеризации.
2.1.2.Общая формальная постановка задачи нечеткого кластерного анализа.
2.1.3. Уточненная постановка задачи нечеткой кластеризации.
2.1.4. Алгоритм решения задачи нечеткой кластеризации методом нечетких с-средних (FCM).
2.1.5. Гибридный алгоритм нечеткой кластеризации.
2.2. Нечеткая реляционная модель данных.
2.3. Нечеткая кластеризация с помощью нейронных сетей.
2.3.1. Алгоритм решения задачи нечеткой кластеризации методом сети Кохонена.
2.4. Поиск зависимостей на нечетких данных с помощью нечетких нейронных сетей разных архитектур.
2.4.1. Нечеткие нейронные сети.
2.4.2. Структура нечеткой сети ANFIS.
2.4.3. Гибридный алгоритм обучения адаптивных сетей.
2.4.4. Гибридный алгоритм обучения ANFIS.
2.4.5. Генерация нечетких правил.
2.4.6. Гибридная нечеткая нейронная сеть.
2.4.7. Обучение гибридной сети.
2.5.Выводы.
Глава 3. Структурно-функциональное решение Fuzzy Data Miner.
3.1 Описание нечеткого реляционного сервера данных.
3.1.1. Выбор инструментальных средств и технологий.
3.1.2. Информационная структура служебных таблиц представления нечетких данных.
3.1.3 Функциональное решение.
3.1.4. Требования к установке системы.
3.2. Реализация модуля кластеризации.
3.2.1 Реализация алгоритма гибридной кластеризации.
3.2.2. Реализация алгоритма Кохонена.
3.2.3. Выходные формы.
3.3 Реализация гибридной нечеткой нейронной сети.
3.3.1. Оперативная структура хранения.
3.3.2. Внешняя структура хранения.
3.3.3. Описание структур хранения.
3.3.4 Модуль реализации гибридной нечеткой нейронной сети.
3.3.5. Выходные формы.
3.4.Общая структура программного комплекса Fuzzy Data Miner.
3.5.Выводы.
Глава 4. Название.
4.1 Задача анализа социологической базы данных.
4.1.1 Постановка задачи.
4.1.2 Результаты анализа.
4.2 Задача структуризации информационных ресурсов.
4.2.1.Постановка задачи.
4.2.2. Интеллектуальная система поддержки принятия решений: структура и функции.
4.2.3. Проведение эксперимента.
4.2.4. Структурирование информационных ресурсов ФНПЦ «ОАО
МАРС».
4.3. Анализ эффективности ИСГШР.
4.4 Выводы.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Вельмисов, Александр Петрович
Общая характеристика работы. Проектирование сложных технических изделий выполняется в наши дни распределенным коллективом проектировщиков, использующих информационные технологии и работающих в условиях развитой корпоративной сети. Результатом работы разрозненных коллективов проектировщиков является информационное хранилище, содержащее архивы старых проектных решений, текущие проекты, электронные описания проектов, файлы стандартов и правил. Международные стандарты (180-9000) требуют от предприятий иметь полное электронное представление изделий, причем фактически данные представления не всегда структурированы и часто представляют собой неупорядоченный один или несколько информационных ресурсов. Проведение структуризации неупорядоченного набора файлов возможно только при участии эксперта, который знает специфику всех направлений деятельности проектного подразделения и имеет представление о тематике старых архивных проектов.
Актуальность проблемы. При автоматизированном структурировании информационных ресурсов мы имеем дело с частотными словарями, где частота терма определяет принадлежность документа к той или иной тематике и для эксперта удобно оценивать величину частоты для конкретного документа в виде лингвистических понятий таких как «часто», «редко», «очень редко» и т.д. Проиндексировав все хранилище информационных ресурсов эксперт получает отношение частот термов и документов и дает лингвистические оценки частотным характеристикам термов. Далее требуется кластеризовать объекты, характеризующиеся нечеткими атрибутами в многомерном пространстве. Конкретная научно-техническая задача кластеризации нечетких данных для > автоматизированного проектирования не решена в науке и практике.
Таким образом, в теории и практике существует важная научно-техническая задача создания методов и средств организации информационного обеспечения систем автоматизированного проектирования (САПР), способного осуществлять кластеризацию неопределенных данных. С учетом вышесказанного, разработка методов кластеризации, адекватных проектной информации, и структурно-функционального решения, является актуальной задачей.
Цель диссертационной работы. Целью диссертации является снижение трудоемкости формирования проектных репозитариев за счет использования разработанных методов интеллектуального анализа нечетких данных.
Для методов интеллектуального анализа нечетких данных необходимо разработать структурно-функциональное решение.
Таким образом, объектом исследования является информационное обеспечение системы интеллектуального анализа данных, а субъектом исследования - фактор нечеткости характеристик информационных ресурсов, представимых в хранилище данных.
Задачи исследования. Для достижения поставленной цели необходимо решить ряд задач:
1. Исследовать особенности информационных ресурсов. Провести анализ результативности методов интеллектуального анализа нечетких данных для задач структурирования информационных ресурсов. Изучить ранее разработанные методы интеллектуального анализа данных, учитывающие нечеткость атрибутов объектов, и сделать вывод о возможности их применения.
2. Разработать методы кластеризации, позволяющие автоматизировано сформировать структуру проектного репозитария.
3. Разработать методику, позволяющую настраивать функции принадлежности нечетких атрибутов на основе не только оценок эксперта, но и фактических данных.
4. Разработать модель представления объектов проектирования набором нечетких правил.
5. Разработать структурно-функциональное решение для извлечения зависимостей в виде правил из нечетких данных.
6. Разработать программную систему, выполняющую нечеткую кластеризацию для структурирования хранилища информационных ресурсов.
7. Выполнить с помощью разработанного программного решения интеллектуальный анализ информационных ресурсов и осуществить структуризацию хранилища данных для проектной организации.
Методы исследования. Для решения поставленных задач использовались методы таксономии, аппарат реляционной алгебры, методы представления знаний, совокупность теорий, обобщенных направлением мягких вычислений, и проектирования программных систем.
В качестве инструментальных средств использовались: сервер баз данных Oracle9i, Java Developer Kit (Sun Microsystems), Borland Delphi 7, MySQL 4.1, PHP5.
Научная новизна. В работе проведено исследование проблемы, в котором новыми являются следующие результаты:
1. Предложен новый метод кластеризации нечетких данных. Отличие метода от известных заключается в том, что он позволяет кластеризовать сильно сгруппированные данные при отсутствии дополнительной информации о данных. Метод позволяет структурировать информационные ресурсы, описанные нечеткими характеристиками.
2. Предложена новая модель содержательной и навигационной структуры проектного репозитария в форме набора нечетких правил.
3. Сформирована новая методика использования интеллектуального анализа нечетких данных для организации проектных репозитариев при автоматизированном проектировании.
4. Разработано новое структурно-функциональное решение системы интеллектуального анализа нечетких данных.
Практическая значимость работы. Научно-исследовательская работа над разделами диссертации выполнялась в соответствии с договором НИР 100-НИЧ с ФНПЦ ОАО "НПО МАРС":
Практическая ценность полученных результатов состоит в следующем:
1. Созданная программная система - система интеллектуального анализа нечетких данных позволяет структурировать хранение информационных ресурсов. На основе модели данных можно создавать как хранилище данных, так и аннотации ресурсов, характеризующих их. Для ФНПЦ ОАО "НПО МАРС" была осуществлена структуризация хранилища информационных ресурсов.
2. Созданная программная система является инструментом для исследования зависимостей в нечетких реляционных базах данных. Наиболее перспективным направлением исследований является исследование свойств модели (неполные данные, неточные данные).
3. Созданная программная система используется в Ульяновском отделении Сберегательного банка РФ №7002 для структуризации клиентской базы физических лиц, позволяя классифицировать клиентов по принадлежности к категориям.
4. Созданная программная система используется в НП «УЦ «Раздолье» при проведении маркетинговых исследований и анализе данных полученных опросным путем от слушателей учебного центра.
Достоверность результатов диссертационной работы. Достоверность научных положений, выводов и рекомендаций подтверждена результатами математического моделирования, результатами экспериментов и испытаний, а также результатами использования материалов диссертации и разработанных систем в проектных подразделениях организаций и на производстве.
Основные положения, выносимые на защиту.
1. Алгоритм кластеризации нечетких данных.
2. Модель проектного репозитария, позволяющая использовать результаты кластеризации для организации среды хранения и навигации в информационном хранилище.
3. Методика использования нечетких нейронных сетей при построении проектных репозитариев в процессе автоматизированного проектирования.
4. Структурно-функциональное решение системы интеллектуального анализа нечетких данных, осуществляющее структурирование информационных ресурсов, характеризуемых нечеткими атрибутами.
Реализация результатов работы. Результаты диссертации и практические рекомендации использованы в ФНПЦ ОАО "НПО МАРС" для структурирования хранилища информационных ресурсов. Научные и практические результаты диссертационной работы внедрены в Ульяновском отделении Сберегательного банка РФ №7002 и НП «УЦ «Раздолье».
Практическое использование результатов диссертационной работы подтверждено соответствующими документами о внедрении.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались: на четвертой международной научно-технической конференции «Математическое моделирование физических, экономических, технических, социальных систем и процессов» (Ульяновск, 2001); на международных конференциях «Континуальные логико-алгебраические исчисления и нейроинформатика в науке, технике и экономике» (Ульяновск, 2001, 2002, 2003, 2004, 2005, 2006); на XXXV, XXXVI, XXXVII, XXXIX научно-технических конференциях УлГТУ (Ульяновск, 2001, 2002, 2003, 2005); на международной конференции "Dynamical systems modeling and stability investigation" (Киев, 2001); на международной конференции «Математическое моделирование, статистика и информатика в современном управлении экономикой» (Самара, 2001); на 8-ой и 10-ой национальных конференциях по искусственному интеллекту с международным участием (Москва, 2002, 2006); на научной сессии МИФИ-2002 (Москва, 2002); на международной научно-технической конференции «Интеллектуальные системы» (Москва, 2006); на международной научно-технической конференции «Интеллектуальные САПР» (Москва, 2006); на всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (Москва, 2006); на международной конференции "Applications of mathematics in engineering and economics" (Bulgaria, Sofia, 2006).
По теме диссертации опубликовано 24 печатные работы.
Личный вклад. Все результаты, составляющие содержание диссертации, получены автором самостоятельно.
Заключение диссертация на тему "Методы и средства построения информационных хранилищ при автоматизированном проектировании"
Основные выводы и итоги:
1. Выполнен научный анализ современных работ в области информационного обеспечения САПР, рассмотрены существующие методы интеллектуального анализа, проанализированы возможности применения в ходе автоматизированного проектирования ранее разработанных методов и моделей.
2. Разработаны методы кластеризации позволяющие работать с нечеткими атрибутами при отсутствии дополнительной информации о характере данных.
3. Разработана методика, позволяющая настраивать функции принадлежности нечетких атрибутов при анализе представленных данных.
4. Построена модель, описывающая набор правил, извлеченных из реляционной базы данных с нечеткими атрибутами.
5. Разработано структурно-функциональное решение системы извлечения зависимостей в виде правил из нечеткой системы управления базами данных.
6. Реализована программная система позволяющая проводить нечеткую кластеризацию для структурирования хранилища информационных ресурсов.
Проведен интеллектуальный анализ информационных ресурсов и осуществлена структуризация хранилища данных ФНПЦ ОАО "НПО > МАРС" с помощью разработанного программного комплекса. Внедрение подтверждает результативность построенных моделей и алгоритмов.
Заключение
Главным итогом диссертационной работы является исследование информационных ресурсов, разработка модели нечеткой нейронной сети и : алгоритмов кластеризации для интеллектуального анализа нечетких данных в реляционных системах управления базами данных.
Библиография Вельмисов, Александр Петрович, диссертация по теме Системы автоматизации проектирования (по отраслям)
1. Аверкин А.Н. Нечеткое отношение моделирования и его использование для классификации и аппроксимации в нечеткихлингвистических пространствах. // Изв. АН СССР. Техническаякибернетика.- 1982.-N2.- с.215-217
2. Аверкин А., Батыршин И. Мягкие вычисления. Новости искусственного интеллекта, 3, 1996, 161-164.
3. Алиев P.A. Теоретические аспекты построения размытых систем управления // Изв. вузов СССР. Нефть и газ, 1981. N9. с.83-87
4. Алиев P.A., Абдикеев Н.М., Шахназаров М.М. Производственные системы с искусственным интеллектом,- М: Радио и связь. 1990. -264с.
5. Армстронг Е., Бобровский С., Фразини Д. и др. Сервер Огас1е7. Руководство разработчика приложений. Пер. с англ. АО РДТех Протвино. 1996.
6. Батыршин И.З. Методы представления и обработки нечеткой информации в интеллектуальных системах. Новости искусственного интеллекта, 1996, 2, 9 - 65.
7. Беллман Р., Заде JI. Принятие решений в расплывчатых условиях. // Вопросы анализа и процедуры принятия решений. / М. Мир, 1976.
8. Берштейн JI.C., Боженюк A.B. Нечеткие модели принятия решений: дедукция, индукция, аналогия. Монография. Таганрог: Изд-во ТРТУ, 2001. 110с.
9. Бобровски С. Oracle 7 и вычисления клиент-сервер. Пер. с англ. М.: Лори, 1996. 650с.
10. Ю.Бобровски С. Объекты в Огас1е8 / Русское издание Oracle Magazine N4, 1997i П.Борисов А.Н., Алексеев A.B., Крумберг O.A. и др. Модели принятиярешений на основе лингвистической переменной. Рига: Зинатне, 1982
11. Борисов А.Н., Алексеев A.B., Меркурьева Г.В. и др. Обработка нечеткой информации в системах принятия решений.- М: Радио и связь. 1989.-304 с.
12. Борисов А.Н. Системы, основанные на знаниях, в автоматизированном проектировании/Методическая разработка.-Рига: РПИ, 1989.- 126 с.
13. М.Борисов А.Н., Федоров И.П. Формирование технических решений на основе экспертных знаний. Изв. АН СССР, Техническая кибернетика N5 1990, с. 154-164
14. Васильев В.И., Ильясов Б.Г. Интеллектуальные системы управления с использованием нечеткой логики. Уфа: УГАТУ 1995. 80с
15. Вельмисов А.П. Формирование портфеля ценных бумаг с использованием генетического алгоритма. Тезисы докладов XXXV научно-технической конференции УлГТУ «Вузовская наука в современных условиях». Ульяновск: УлГТУ, 2001г., с.55-56.
16. Вельмисов А.П. Формирование портфеля ценных бумаг с использованием генетических алгоритмов и методов нейрокомпьютинга. Thesis of international conference reports
17. Dynamical systems modeling and stability investigation". "Modelling@ Stability". Kyiv: Киевский национальный университет, 2001., p. 151
18. Вельмисов А.П. Нечеткие сети. Тезисы докладов XXXVI научно-технической конференции УлГТУ «Вузовская наука в современных условиях». Ульяновск: УлГТУ, 2002г., с.43-44.
19. Вельмисов А.П. Извлечение скрытых зависимостей из нечетких баз данных. Научная сессия МИФИ-2002. Сборник научных трудов. Т.З: Интеллектуальные системы и технологии. -М.:МИФИ, 2002г., с. 167
20. Вельмисов А.П. Использование нейрокомпьютинга для DATAMINING в возможностных базах данных. Тезисы докладов XXXVII научно-технической конференции УлГТУ «Вузовская наука в современных условиях». Ульяновск: УлГТУ, 2003г., с.9-10.
21. Вельмисов А.П. Расширенные функциональные зависимости. Труды международной конференции КЛИН-2003. Т.З: Системыискусственного интеллекта и нейроинформатика. Ульяновск: УлГТУ, 2003г., с.38-41.
22. Вельмисов А.П. Гибридные нейро-фаззи модели для анализа нечетких данных». Труды международной конференции КЛИН-2004. Т.З: Системы искусственного интеллекта и нейроинформатика. -Ульяновск: УлГТУ, 2004г., с.34-37.
23. Вельмисов А.П. Использование гибридных систем для анализа нечетких данных. Сборник научных трудов «Прикладная математика и механика», вып. 6 Ульяновск: УлГТУ, 2004г., с. 213-220.
24. Вельмисов А.П. Расширенные функциональные зависимости в реляционных базах данных. Вестник УлГТУ, вып. 3 Ульяновск: УлГТУ, 2004г., с.52-55.
25. Вельмисов А.П. Гибридные нейро-фаззи модели для анализа нечетких данных». Вестник УлГТУ, вып. 4 Ульяновск: УлГТУ, 2004г., с.43-44.
26. Вельмисов А.П. Интеллектуальный анализ нечетких данных. Труды международной конференции КЛИН-2005. Т.4: Математические методы и модели в прикладных задачах науки и техники. -Ульяновск: УлГТУ, 2005г., с.30-35
27. Вельмисов А.П. Кластеризация кортежей нечеткого реляционного сервера данных. Тезисы докладов XXXIX научно-технической конференции УлГТУ «Вузовская наука в современных условиях», ч.1 Ульяновск: УлГТУ, 2005г., с.83
28. Вельмисов А.П. DATA MINER для нечеткого реляционного сервера данных. Тезисы докладов XXXIX научно-технической конференции УлГТУ «Вузовская наука в современных условиях», ч. 2 Ульяновск: УлГТУ, 2005г., с.96
29. Вельмисов А.П. Система анализа нечетких данных. Труды международной конференции КЛИН-2006. Т.4: Математическиеметоды и модели в прикладных задачах науки и техники. -Ульяновск: УлГТУ, 2006г., с.92-93.
30. Зб.Вельмисов А.П. Алгоритм нечеткой кластеризации. Труды средневолжского математического общества. Т.8, №1 Саранск: Средневолжское математическое общество, 2006г., с. 192-197.
31. А. Velmisov, Hybrid Clustering Algorithm, J. "Applications of mathematics in engineering and economics". Bulgaria, Sofia, Softtrade, Ltd.,2006, p.44-50.
32. Гаврилова T.A., Хорошевский В.Ф. Базы знаний интеллектуальных систем СПб: Питер, 2000 - 386с.
33. Горбоконенко Е.А., Емелеев Э.Р. Обзор направлений развития разработок нечеткой логики в информационно-поисковых системах и системах с базами данных. Сборник тезисов докладов XXXIV Научно-технической конференции УлГТУ. Ульяновск: УлГТУ, 2000г.
34. Горбоконенко Е.А., Ярушкина Н.Г. Представление нечеткой информации в СУБД. Труды 7-ой национальной конференции по искусственному интеллекту с международным участием. М.: Из-во Физико-математической литературы, 2000г.
35. Горбоконенко Е.А. Реализация подсистемы обработки нечеткой информации в СУБД. Вестник УлГТУ N3, 2000г.
36. Горбоконенко Е.А. Применение МУА-технологий в исследовании ТиТ^У-систем. Труды международной научно-технической конференции Информационные технологии в математических исследованиях. Пенза: Пензенский технологический институт, 2000г.
37. Горбоконенко Е.А. Исследование возможности создания нечеткой базы данных. Труды международной научно-технической конференции Информационные технологии в математических исследованиях. Пенза: Пензенский технологический институт, 2000г.
38. Горбоконенко Е.А. Организация нечеткой среды хранения на основе серверов данных. Проектирование экономических информационныхсистем: отчет по НИР N01990010088 / УлГТУ, Руководитель Ярушкина Н.Г. Инвентарный N02200102488 2000г.
39. Горбоконенко Е.А., Ярушкина Н.Г. Применение нечеткой СУБД в САПР. Труды конгресса «Искусственный интеллект в XXI веке». Научное издание. М.: Издательство Физико-математической литературы, 2001г.
40. Горбоконенко Е.А. FuzzyData Manager. Регистрационный номер в Информационно-библиотечном фонде Российской Федерации 50200100422.
41. Горбоконенко Е.А., Ярушкина Н.Г. Реализация нечеткого поиска в БД архивов проектов. Научая сессия МИФИ-2002. Сборник научных трудов. Т.З. Интеллектуальные системы и технологии. М.: МИФИ, 2002г.
42. Грубер М. Понимание SQL. Пер. с англ. М. 1993. 420с.
43. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М. Мир, 1976
44. Захаров В.Н., Ульянов C.B. Нечеткие модели интеллектуальных промышленных регуляторов и систем управления. 2. Эволюция и принципы построения.-Известия АН РАН. Сер. Техн. кибернетика, N4, 1993, с. 189-205.
45. Интеллектуальные системы принятия проектных решений / Алексеев A.B., Борисов А.Н., Вилюмс Э.Р. Слядзь H.H., Фомин С.А. Рига: Зинатне, 1997.-320 с.
46. Клир Дж. Системология. Автоматизация решения системных задач: Пер. с англ. М.: Радио и связь, 1990.- 544 с.
47. Кофман А. Введение в теорию нечетких множеств. Пер. с франц. -М.: Радио и связь, 1982. 432с.
48. Кудрявцев Л.Д. Курс математического анализа: Учеб. для студентов университетов и вузов. В 3 т. М.: Высш. шк., 1988
49. Кузнецов С.Д. Введение в СУБД. СУБД, 1,1995 - 6,1996
50. Ладыженский Г. Технология клиент-сервер и мониторы транзакций. -Открытые системы, 4, 1994
51. Левин Р., Дранг Д., Эделсон Б. Практическое введение в технологию искусственного интеллекта и экспертных систем с иллюстрациями на Бейсике.- М.: Финансы и статистика, 1990.- 239с.
52. Линден Б. Сервер Огас1е7. Справочное руководство по языку SQL. Пер. с англ. АО РДТех Протвино. 1996.
53. Литвак Б.Г. Экспертная информация. Методы получения и анализа. -М.: Радио и связь, 1982.- 184с.
54. Лорьер Ж.-Л. Системы искусственного интеллекта: Пер. с франц.- М.: Мир, 1991.- 568с.
55. Маковский В.А., Похлебаев В.И. Базы знаний (экспертные системы). М.: Издательство стандартов, 1993. - 37с.
56. Максименков A.B., Селезнев М.Л. Основы проектирования информационно-вычислительных систем и сетей ЭВМ. М.: Радио и связь, 1991
57. Малышев Н.Г. и др. Нечеткие модели для экспертных систем в САПР / Н.Г.Малышев, Л.С.Берштейн, А.В.Боженюк. -М: Энергоатомиздат, 1991.- 136 с.
58. Масалович А.И. Этот нечеткий, нечеткий, нечеткий мир / PC Week/RE N. 16,1995.
59. Масалович А.И. Прогноз дает . компьютер / Софтмаркет, N 23, 1996, стр.6.
60. Математическая энциклопедия / Гл.ред. Виноградов И.М. М.: Советская энциклопедия. 1984 г.
61. Мейер Д. Теория реляционных баз данных. Пер. с англ. М: «Мир», 1987. 608с.
62. Мелихов А.Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука. Гл. ред. физ.-мат. лит. 1990.- 272с.
63. Мельцер М.И. Диалоговое управление производством. М.: Финансы и статистика, 1983.
64. Негойце К. Применение теории систем к проблемам управления. М.: Мир, 1981
65. Нейлор К. Как построить свою экспертную систему.-М.:Энергоатомиздат, 1991.-286с.
66. Нечеткие множества в моделях управления и искусственного интеллекта / Под ред. Поспелова Д.А. М.: Наука. Гл. ред. физ.-мат. лит., 1986-312с.
67. Нечеткие множества и теория возможностей. Последние достижения. Пер. с англ. / Под ред. Ягера P.P. М.: Радио и связь, 1986 - 408с.
68. Нильсон Н. Принципы искусственного интеллекта.- М: Радио и связь, 1985.- 376с.
69. Обработка нечеткой информации в системах принятия решений / Борисов A.B., Алексеев A.B., Меркурьева Г.В. и др. М.: Радио и связь, 1989-304с.87.0рловский С.А. Проблемы принятия решений при нечеткой исходной информации. М.: Наука, 1981.
70. Пивкин В.Я., Бакулин Е.П., Кореньков Д.И. Нечеткие множества в системах управления.http://idisys.iae.nsk.su/fuzzybook/content.htinl)
71. Попов Э.В. Экспертные системы. М: Наука, 1987. - 288с.
72. Поспелов Д.А. Логико-лингвистические модели в системах управления.- М.:Энергоиздат, 1981.- 232с.
73. Поспелов Д.А. Моделирование рассуждений М.: Радио и связь, 1989.-184с.
74. Поспелов Д.А. Моделирование человеческих рассуждений в интеллектуальных системах//Лекции Всесоюз. шк. по основным проблемам искусственного интеллекта и интеллектуальным системам. Ч. 1.- Тверь: Центр программных систем, 1990.
75. Саати Р., Керне Д. Аналитическое планирование: организация систем. М. 1992
76. Саймон А.Р. Стратегические технологии баз данных: менеджмент на 2000 год: Пер. с англ. / Под ред. и с предисл. Когаловского М.Р. М.: Финансы и статистика, 1999. - 479с.
77. Симкин С., Бартлетт Н., Лесли Л. Программирование на Java. Путеводитель. Пер. с англ. К.: НИПФ «ДиаСофт.Лтд.», 1996. 736с.
78. Системы автоматизированного проектирования в радиоэлектронике: Справочник/Авдеев Е.В., Еремин А.Т., Норенков И.П., Песков М.И.; Под ред. Норенкова И.П. Радио и связь, 1986. - 368с.
79. Тарасов В.Б. От искусственного интеллекта к искусственной жизни: новые направления в науках об искусственном. Новости искусственного интеллекта. N 4. с.93-117
80. Тартаковский A.M., Курносов В.Е. Информационные технологии проектирования оптимальных конструктивных форм на основе методов эколюционного моделирования.1. ИТПП N3-4,1996 г., с.3-11
81. Теоретические основы САПР: Учебник для вузов. / Корячко В.П., Курейчик В.М., Норенков И.П. М.: Энергоатомиздат, 1987. - 400с.
82. Представление и использование знаний/Под ред. X. Уэно, М. Исидзука.- М.: Мир, 1989.- 220с.
83. Прикладные нечеткие системы/Асаи К., Ватада Д., Иван С. и др./Под ред. Т. Тэрано, К. Асаи, М. Сугено.- М.: Мир, 1993. 368с.
84. Рыбина Г.В. Технология проектирования прикладных экспертных систем.- М.: МИФИ, 1991.- 104с.
85. Стефанюк В.Л. Некоторые аспекты теории экспертных систем// Известия АН СССР. Техническая кибернетика. 1987.- N2. с.85-91.
86. Тарасов В.Б. Моделирование предпочтений в задачах принятия решений параметризованными нечеткими отношениями// Нечеткиесистемы: моделирование структуры и оптимизация.- Калинин:Изд-во КГУ, 1987.- с.17-30.
87. Тарасов В.Б. Инструментальные средства разработки нечетких интеллектуальных систем.- Новости искусственного интеллекта, 3, 1991, с.93-107.
88. Уинстон Н. Искусственный интеллект. М: Мир, 1980. - 519с.
89. Уотермен Д. Руководство по экспертным системам. М: Мир, 1989.- 388с.
90. Финн В.К. Интеллектуальные системы и общество: Сборник статей. Серия «Науки об искусственном». 2006, 352 с.
91. Финн В.К., Виноградов Д.В. Интеллектуальная система пополнения семантических словарей // Программные продукты и системы, №2, 2006
92. Шапиро Д. И. Принятие решений в системах организационного управления: Использование расплывчатых категорий. М.: Энергоатомиздат, 1983, - 184с.
93. Шостак А.П. Двадцать лет нечеткой топологии: основные идеи, понятия и результаты.- Успехи математических наук. 1989. - Т. 44. -N6. - с.99-147.
94. Экспертные системы. Принципы работы и примеры/Под ред. Р. Форсайта.- М.: Радио и связь, 1987.- 224с.
95. Экспертные системы: состояние и перспективы/Под ред. Д.А. Поспелова- М.: Наука, 1989.- 152с.
96. Элти Дж., Кумбс М. Экспертные системы: концепции и примеры. М.: Финансы и статистика, 1987.- 191с.
97. Язенин A.B. Нечеткое математическое программирование. Калинин: КГУ, 1986
98. Язенин A.B. О непрямых методах нечеткого математического программирования // Нечеткие системы: моделирование структуры и оптимизация. Калинин, 1987
99. Язенин А.В. Модели возможностного программирования в оптимизации систем // Изв. ÁH СССР. Техническая кибернетика. 1991. N5
100. Ярушкина Н. Г. Автоматизированное проектирование сложных технических систем в условиях неопределенности. Диссертации на соискание ученой степени доктора технических наук. Ульяновск, УлГТУ, 1999 г.
101. Bellman R. Е., Zadeh L.A., Decision-Making in Fuzzy Environment, Management Science, 17, №4, 1970.
102. Eufit'98 6th European Congress on Intelligent Techniques and Soft Computing ELITE European Laboratory for Intelligent Techniques Engineering. Hrsg. Von Prof. Dr. Dr. h. c. Hans-Jurgen Zimmermann. -Aachen: Mainz, 1998 ISBN3-89653-500-5
103. Gorbokonenko E.A. The Usage of Fuzzy RDBMS in CAD Systems. Interactive Systems: The problems of Human Computer Interaction. -Proceedings of the International Conference. - Ulyanovsk:1. U1STU, 2001.
104. IFSA'97. Prague. Seventh International Fuzzy System Association World Congress. University of Economics Prague
105. Pawlak Z., Rough sets. Int. J. Computer and Information Sci., 11, 1982
106. Pawlak Z., Rough sets. Theoretical aspects of reasoning about data. Kluwer Academic Publishers, Dordrecht, 1991
107. Slowinski R., Rough set approach to decision analysis. AI Expert, March 1995
108. Tatra Mountaints. Mathematical Publications. Fuzzy Structures. Current Trends Volume 13 1997
109. Valium B.R. C++ Neural Networks and Fuzzy Logic. IDG Books Worldwide, Inc. ISBN: 1558515526
-
Похожие работы
- Объектно-ориентированная система создания и управления хранилищем данных промышленного предприятия
- Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных
- Исследование и разработка методов оценки эффективности обслуживания запросов при создании хранилищ данных
- Модели и методики построения распределенных информационных хранилищ автоматизированных систем МЧС России
- Автоматизация управления процессами реинжиниринга машиностроительного предприятия на базе информационных моделей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность