автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Нечеткая кластеризация электронных информационных ресурсов проектного репозитория при автоматизированном проектировании

кандидата технических наук
Островский, Александр Александрович
город
Ульяновск
год
2010
специальность ВАК РФ
05.13.12
Диссертация по информатике, вычислительной технике и управлению на тему «Нечеткая кластеризация электронных информационных ресурсов проектного репозитория при автоматизированном проектировании»

Автореферат диссертации по теме "Нечеткая кластеризация электронных информационных ресурсов проектного репозитория при автоматизированном проектировании"

Островский Александр Александрович

Нечеткая кластеризация электронных информационных ресурсов проектного репозитория при автоматизированном проектировании

05.13.12 - Системы автоматизации проектирования по техническим наукам

(промышленность)

Автореферат диссертации на соискание ученой степени кандидата технических наук

- 9 ЛЕК 2010

Ульяновск - 2010

004617009

Работа выполнена на кафедре "Информационные системы" в Ульяновском государственном техническом университете.

Научный руководитель: доктор технических наук, профессор

Ярушкина Надежда Глебовна

Официальные оппоненты: доктор технических наук, профессор

Соснин Пётр Иванович

кандидат технических наук Ларин Кирилл Валентинович

Ведущая организация: ФНПЦ ОАО "НПО МАРС"

Защита состоится 22.12.2010 в 12.00 на заседании диссертационного совета Д212.277.01 при Ульяновском государственном техническом университете но адресу: 432027, г.Ульяновск, ул.Северный Венец, 32 (ауд. 211, Главный корпус).

С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета.

Автореферат разослан ноября 2010 I'.

Ученый секретарь диссерта- ' Смирнов Виталий

__т

ционного совета, доктор Иванович

ческих наук, профессор

Общая характеристика работы

Актуальность проблемы

За последнее десятилетие отмечается интенсивное развитие методов автоматизированного проектирования, поддерживающих коллективы разработчиков, рассредоточенных территориально. Основным инструментом работы таких коллективов проектировщиков являются проектные репозитории. Современные проектные репозитории должны отличаться от традиционных архивов проектной документации значительным объемом хранимых документов и малым временем отклика. Данные свойства проектных репозиториев нельзя обеспечить с помощью традиционных (ручных) методов идентификации предметной рубрики документа. Необходимо развивать автоматизированные методы управления хранилищем информационных проектных ресурсов, в том числе, учитывающие проблемную область (смысл) документов.

Таким образом, современный проектный репозиторий должен обладать свойствами интеллектуальной системы. Задача идентификации проблемной области проектного документа представляет собой прежде всего задачу кластеризации документов. Для сложных проектных документов часто бывает невозможно отнести документ только к одной проблемной области. Одновременная принадлежность документа к ряду предметных рубрик подразумевает сохранение условий неопределенности, что делает актуальным разработку и использование нечетких алгоритмов кластеризации.

Значительные объемы хранимых документов (тысячи) на один средний проект предъявляют дополнительные требования к быстродействию алгоритмов их кластеризации. Подобные требования делают актуальными разработку параллельных алгоритмов кластеризации.

Цель диссертационной работы

Целью диссертации является разработка методов, быстродействующих

алгоритмов, средств множественной кластеризации проектных документов н репозитории проекта.

Задачи исследования

В соответствии с целью работы актуальными будем считать следующие задачи исследования:

• провести сравнительный анализ существующих методов и систем кластеризации проектных документов;

• разработать адаптированный для работы с текстами нечеткий алгоритм кластеризации проектных информационных ресурсов;

• разработать методику иерархической кластеризации;

• разработать систему поиска документов, релевантных проекту на основе мер (расстояний) в пространстве проектных документов;

• разработать параллельный нечеткий алгоритм кластеризации проектных документов;

• разработать параллельный нечеткий алгоритм кластеризации проектных документов для реализации на вычислительном кластере;

• разработать и реализовать программные средства интеллектуального проектного репозитория, провести вычислительные эксперименты по исследованию их эффективности и быстродействия, внедрить их в практику проектной организации.

Методы исследования:

• современная теория неопределенности, неточности и нечеткости;

• теория кластеризации.

Научная значимость работы

Автор защищает: разработанные модели построения проектных репози-ториев; результаты теоретических, экспериментальных и практических разработок, внедрение в промышленную и опытно-промышленную эксплуатацию.

Научная новизна. Впервые:

• Разработан модифицированный нечеткий алгоритм на базе РСМ-мето-да, адаптированный к задаче кластеризации проектных документов.

• Предложена методика использования модифицированного нечеткого алгоритма на базе РСМ-метода, адаптированного к задаче кластеризации проектных документов, обеспечивающая иерархическую кластеризацию.

• Разработан, быстродействующий параллельный алгоритм модифицированного РСМ-метода.

• Разработан быстродействующий параллельный алгоритм модифицированного РСМ-метода для выполнения на вычислительном кластере.

• Разработана программная система кластеризации проектных документов.

Практическая ценность и внедрение результатов

Созданная программная система кластеризации проектных документов практически используется на производстве и позволяет достичь улучшенных техничсско-экономических показателей объектов проектирования.

Практическая ценность состоит в том, что разработанные модели и алгоритмы реализованы в форме программной системы и внедрены в деятельность ФНПЦ ОАО «НПО Марс» (г. Ульяновск). Практическое использование

результатов диссертационной работы подтверждено соответствующими документами о внедрении.

Основания для выполнения работы

Данная научная работа выполнялась в рамках тематического плана научных исследований Федерального агентства по образованию в 2005, 2006, 2007, 2008 г., была поддержана грантами РФФИ ДО 06-01-02012 и 06-01014087 в 2006 г., № 08-01-97006 в 2008 г., ряд задач исследования решался в рамках х/д НИР № 100/05 УлГТУ по заказу ФНПЦ ОАО «НПО МАРС».

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена результатами экспериментов, а так же результатами использования материалов диссертации и разработанной системы в проектной организации.

Основные положения, выносимые на защиту:

1. Модифицированный нечеткий алгоритм на базе РСМ-метода, адаптированный к задаче кластеризации проектных документов, эффективно решает задачу идентификации проблемной области проектного документа.

2. Предлагаемая методика использования модифицированного нечеткого алгоритма на базе РСМ-метода, адаптированного к задаче кластеризации проектных документов, обеспечивает иерархическую кластеризацию проектных документов.

3. Разработанный параллельный алгоритм модифицированного РСМ-метода обеспечивает необходимое быстродействие.

4. Разработанный параллельный алгоритм модифицированного РСМ-метода, для реализации на вычислительном кластере, обеспечивает необходимое быстродействие.

5. Разработанная программная система кластеризации проектных документов позволяет реализовать интеллектуальный проектный репозито-рий, функционирующий в автоматизированном режиме.

Апробация работы

Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на второй всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления НСМВ 2008» (г. Ульяновск, 2008 год); одиннадцатой национальной конференции по искусственному интеллекту с международным участием КИИ — 2008 (г. Дубна, 2008 г.); международной «конференции но логике, информатике, науковедению» (г. Ульяновск, 2007 г.); 42 ой научно-технической конференции (г. Ульяновск, 2008 г.); научно-практической конференции студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте ИММВИИ — 2009» (г. Коломна, 2009 г.); V -ой международной научно — практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (г. Коломна, 2009 г.); XI научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных технологий. Системы управления знаниями» (РБП-СУЗ-2008).

Публикации. По материалам диссертации опубликовано 14 печатных работ, из них 2 статьи - в журналах из списка рекомендованных ВАК, получено свидетельство о государственной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 106 наименований, трех приложений, содержит 135 страницы машинописного текста, 36 рисунков и 19 таблиц.

Основное содержание работы

Во введении рассмотрена актуальность работы, определена ее цель и задачи, сформулированы положения, выносимые на защиту, их научная новизна и практическая ценность. Представлены основания для выполнения работы, ее апробация и структура.

В первой главе рассмотрены основные функции РБМ-систем. Приведена классификация методов кластеризации и рассмотрены алгоритмы нечеткой кластеризации. Рассмотрена общая для всех методов схема работы. Обоснован выбор РСМ метода для кластеризации электронных информационных ресурсов. Проведен обзор существующих реализаций параллельного РСМ и продуктов для построения вычислительного кластера. Обоснован выбор программного продукта для реализации кластерного вычисления алгоритма.

РБМ-системы это класс программного обеспечения, созданный с целью предоставления простого доступа к массивам проектных документов. Подобные системы помогают организации определить связи между различными элементами данных. Одними из базовых функций такого рода систем являются хранение и управление данными, управление кластеризацией и классификацией.

При реализации данного функционала возникает ряд вопросов. Так, например, при публикации новых ресурсов необходимо знать куда разместить его, к какой категории отнести; для быстрого поиска документов пользователь должен знать где их искать, какими параметрами обладает тот или иной ресурс и т.д. Без построения разнообразных рубрикаторов и индексаторов выполнить указанные выше задачи проблематично. Для структурирования массивов данных применяют средства кластеризации и классификации.

На сегодняшний день существует множество различных методов кластеризации и их модификаций. Подробное описание более сотни из них приведе-

но в работах Д. А. Манделя, наиболее популярных на сегодняшний день — в работах И. А. Минакова.

Алгоритм нечеткой кластеризации fuzzy c-means более остальных подходит для решения задачи кластеризации электронных информационных ресурсов по следующим причинам:

• нечеткая кластеризация позволяет отнести один документ одновременно к нескольким группам схожих объектов, что более «естественно», чем отношение к одному конкретному кластеру. Это наиболее важно для документов, находящихся на границе кластеров и документов, имеющих отношение сразу к нескольким проблемным областям.

• Результат кластеризации - матрица принадлежности документов кластерам, по которой легко организовать интеллектуальный поиск документов по степени их близости.

• Возможность применения алгоритма к вычисляемым индикаторам встречаемости терминов.

• По сравнению с другими методами нечеткой кластеризации, например, алгоритмом Густафсона-Кесселя, fuzzy c-means имеет меньшую вычислительную сложность и более пригоден к кластеризации больших массивов данных чем его аналоги.

Большие объемы документов и признакового пространства существенно увеличивают время кластеризации. При выполнении алгоритма на компьютере с многоядерном процессором (процессорами) имеет смысл выполнять процессы распараллеливания. Однако, более существенное сокращение времени кластеризации может обеспечить вычислительный кластер.

Главной целью диссертационной работы является адаптация метода нечеткой кластеризации FCM к задаче кластеризации электронных информацион-

ных ресурсов и реализация алгоритмов поиска по результатам кластеризации.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Адаптировать алгоритм ГСМ к кластеризации ЭИР.

2. Разработка методики иерархической кластеризации методом РСМ.

3. Разработка и реализация метода организации поиска по результатам кластеризации.

4. Реализовать адаптированный для задачи кластеризации электронных информационных ресурсов алгоритм {иггу с-шеапэ используя парадигмы параллельного выполнения, а также используя вычислительный кластер.

Во второй главе описаны процедуры адаптации (шгу с-шеапэ алгоритма к задаче кластеризации электронных информационных ресурсов. Предложены варианты параллельного выполнения метода РСМ на одном компьютере и на вычислительном кластере. Описан метод организации поиска по результатам кластеризации.

Объектом кластеризации является множество X = {х} электронных информационных ресурсов проектного репозитория "НПО Марс" (Ульяновск). Каждый такой ресурс представлен частотным портретом слов его аннотации:

х = {{¿,?г)|< е Т,п 6 14},

где ■терм; п—число упоминаний терма в документе; Т— множество термов.

Таким образом, объект кластеризации можно представить следующим образом:

X = {хих2,хз,...,хт\хг = {(¿,п)\1 €Т,пе К}} 10

Множество кластеров определяется как:

v = {(t,r)|i ег.г е:

где ¿—терм; г—значение терма 4 (параметра центра кластера), определяется как:

EIU^-fc

У" um '

Z-/!= 1 MjJ

где к—значение терма f в г-ом ЭИР; /и;,— степень принадлежности г-ro ЭИР j-му кластеру.

Каждый ЭИР относится к каждому кластеру с определенной степенью принадлежности. Классический метод FCM неиерархический, что не всегда удобно для восприятия, дальнейшего анализа и использования результатов. Для реализации иерархического РСМ предлагается следующая методика.

В алгоритм добавляется еще один параметр — р — порог включения ресурса в кластер. Пусть ^ степень принадлежности ресурса i кластеру j, тогда

-1 , если fiij > const р = 0 , если > 1/(7

1 , если Ц{j = max{ni}

Данный параметр применяется только на конечном этапе кластеризации-представлении результатов для дальнейшей обработки и не влияет на работу алгоритма. Для вновь добавленного параметра предусмотрено три возможных значения. ЭИР включается в кластер, если степень принадлежности его кластеру равна: не менее заданного значения; не менее, чем 1/С, где С число кластеров; максимальному значению среди степеней его принадлежности всем кластерам = та,х{ц{\).

Адаптированный алгоритм FCM, описанный в настоящей работе, имеет два основных этапа вычислений: вычисление центров кластеров; вычисление степеней принадлежности.

Вычисление степеней принадлежностей зависит от этапа вычисления центра кластеров. Прежде чем выполнять второй этап вычислений, необходимо дождаться завершения первого, так как в вычислении участвуют все параметры кластеров. Однако, каждый из этих этапов целесообразно распараллелить. На рис.1 представлена одна итерация варианта параллельного выполнения адаптированного к задаче кластеризации ЭИР алгоритма fuzzy c-means.

Инициализация

Рис. 1. Одна итерация варианта параллельного выполнения адаптированного к задаче кластеризации ЭИР алгоритма fuzzy c-means

На этапе вычисления матрицы принадлежности каждый ЭИР обрабатывается отдельно, на этапе вычисления центров кластера—каждый кластер. Так же как и в последовательном алгоритме выполнения, часть вычислений нормы разности матриц принадлежности на соседних итерациях происходит на этапе вычисления новой матрицы.

Второй вариант параллельного алгоритма адаптированного FCM разработан для реализации на вычислительном кластере GridGain. Особенностью данного варианта является наличие задач и работ. К задачам относятся вычисление центров кластеров и вычисление степеней принадлежности.

Кластерный вариант имеет свои особенности. На рис. 2 представлен вариант выполнения алгоритма на вычислительном кластере GridGain. Кластерный вариант выполнения разделен на две задачи вычисление центров кластеров и вычисление степеней принадлежности. Работы внутри задач выполняются параллельно, задачи - последовательно.

Результатом применения fuzzy c-mcans метода является матрица принадлежности ресурсов кластерам. Она нозволяюст определить с какой степенью принадлежности тот или иной ЭИР относится к заданному кластеру, что позволяет выделить среди множества ресурсов наиболее соответствующие определенной предметной области. Каждый ресурс Xi характеризуется множеством термов 7J, что, совместно с матрицей принадлежности, позволяет выделить следующие типы поисковых запросов: по множеству ключевых слов (или их частей); по степени похожести ресурсов.

Поиск по множеству ключевых слов. Пусть Т*-множество ключевых слов (частей слов), по которым необходимо осуществить поиск. Тогда результатом будет множество ресурсов X* С X, удовлетворяющее следующуму условию:

Рис. 2. Алгоритм выполнения адаптированного к задаче кластеризации ЭИР алгоритма fuzzy c-means на вычислительном кластере GridGain

где XI —г-ый ЭИР, 1 < г <| X* |; Т^—множество термов х-,-го ЭИР.

Поиск по степени похожести ресурсов. Под похожими ресурсами в настоящей работе подразумеваются ЭИР, относящиеся к одной и той же предметной области, т.е. находящиеся в одном кластере. Пусть X", X" С Х~ определенное множество ресурсов, принадлежащие множеству кластеров V*,

тогда множество Y* ресурсов считается похожим на X", если выполняются следующие условия:

V№,yiey*:№eV¡L.,®í6Vt1

где y¡, 1 < г <| У" |- похожий на x¡, 1 < j <| X* | ЭИР;

1 < к <| V* |—кластер.

В третьей главе рассмотрены функциональные возможности приложений, реализующих адаптированный метод FCM и поиск по результатам кластеризации. Структуры входных и выходных данных, программное обеспечение и технологические сродства.

Ряд задач исследования настоящей работы решался в рамках х/'д НИР № 100/05 УлГТУ по заказу ФНПЦ ОАО «НПО МАРС». В частности, требования относительно языка программирования и СУБД были выбраны специалистами данной организации. В качестве СУБД используется Microsoft SQL Server 2000, а языка программирования - JAVA. В качестве системы для построения вычислительного кластера был выбран продукт GridGain.

На рис.3 представлена диаграмма вариантов использования приложения кластеризации. На рис.4 представлен интерфейс кластеризатора.

Приложение поиска представляет собой веб-приложение. В качестве языка программирования, также как в кластеризаторе, используется JAVA. В качестве сервера приложений Apache Tomcat. На рис.5 представлена диаграмма вариантов использования приложения поиска.

В четвертой главе описаны результаты следующих экспериментов: по оценке качества кластеризации; сравнению времени выполнения многопоточной и однопоточной реализаций алгоритма; сравнению времени выполнения кластерной и многопоточной реализаций алгоритма;

Просмотр х ( икфвризцми о) \^1>есур« у

( Просмотр спискЛ.

( информации о) ( )

1 ' \ ресурсов у

( сервисные \ V Фгккцк» у5"

Настройка \ ( лядомтроа 1 \^>лаС1еригацмну*

Рис. 3. Диаграмма вариантов использования приложения кластеризации

Эксперименты по качеству кластеризации. На наборе документов из 256 ЭИР проведена экспертная классификация по четырем признакам и получены следующие количества классов: по виду документов - 10 классов; по тематике работ - 31 классов; по классу документации - 3 класса; по разделу документации ■ 13 классов (см. "Приложение А" диссертационной работы).

С «Я»«Г«|>* }

Рис. 4. Интерфейс кластеризатора

Г

/\

О о .пи »ой

Г"

У Выбор эксперимента у

ж.

Поиск по частям слов

>

\ Просмотр результатов

¿ЗР--—^тГ^

Просмотр информации о ресурсе

Просмотр информации о кластере

- идентификатор;

- наименование;

- список, кластером, в которых содержаться •: указанием степени принадлежности.

- идентификатор;

- наименование,

- список ресурсов с указанием степени принадлежности

Рис. 5. Варианты использования приложения поиска

Таблица 1. Результаты экспериментов на наборе из 256 документов

Тип классификации (кластеров) Эксп. вес Значение оценочной функции

Виды документации (10) 1,3 0,43

1,4 0,40

1,5 0,49

Тематики работ (31) 1,3 0,45

1,4 0,46

1,5 0,46

Классы документации (3) 1,3 0,26

1,4 0,27

1,5 0,27

Разделы документации (13) 1,3 0,60

1,4 0,59

1,5 0.59

В табл. 1 приведены результаты экспериментов.

В результате экспериментов, наиболее близким к экспертному разбиению яляется кластеризация на 3 кластера с экспоненциальным весом 1,3.

Сравнение производительности кластерной и многопоточной версий кластеризатора. Для ответа на вопрос, когда использовать многопоточную версию реализации алгоритма, а когда кластерную, проведем сравнение времен выполнения обоих реализаций в зависимости от числа вычислителей (рис.6).

В заключении приведены основные результаты исследований, полученные в диссертационной работе:

Рис. 6. Сравнение времен выполнения одной итерации многопоточной и кластерной версий реализации

1. Главным итогом диссертационной работы является создание ряда моделей, методов, алгоритмов и средств построения интеллектуальных проектных репозиториев.

2. Выполнен анализ современных работ но методам кластеризации.

3. Разработан модифицированный нечеткий алгоритм на базе РСМ-мето-да, адаптированный к задаче кластеризации проектных документов.

4. Разработана методика использования модифицированного нечеткого алгоритма на базе РСМ-метода. адаптированного к задаче кластеризации проектных документов, обеспечивающая иерархическую кластеризацию проектных документов.

5. Разработана быстродействующая многопоточная модель модифициро-

ванного нечеткого алгоритма на базе РСМ-метода.

6. Разработана быстродействующая модель модифицированного нечеткого алгоритма на базе РСМ-метода на основе кластерных вычислений.

7. Разработана программная система кластеризации проектных документов.

8. Проведены вычислительные эксперименты по исследованию эффективности разработанной системы.

9. Программная система внедрена в ФНПЦ ОАО НПО "МАРС" (Ульяновск 2007 г., 2008 г.).

В приложении А представлена экспертная-классификация 256 документов. В приложении Б представлен акт, подтверждающий использование результатов диссертационной работы в ФНПЦ ОАО "НПО МАРС". В приложении В представлено свидетельство о государственной регистрации программы для ЭВМ.

Таким образом, в диссертации решена актуальная научно-техническая задача, имеющая важное хозяйственное значение для развития информационного обеспечения систем автоматизированного проектирования, а именно: разработаны методы, быстродействующие алгоритмы и программные средства кластеризации проектных документов в интеллектуальном проектном репозитории.

Публикации.

Статьи, опубликованные в журналах, рекомендованных ВАК РФ:

1. Островский А. А. Кластеризация документов интеллектуального проектного репозитария на основе РСМ метода. // Программные продукты и системы. - 2008. - №4. - С. 55 - 56.

2. Ярушкина Н.Г., Островский A.A. Параллельный алгоритм FCM-класте-ризации // Известия Самарского научного центра Российской академии наук. - 2008. - № 10. -С. 212-218

Основные статьи по теме диссертации в прочих изданиях:

1. Островский А. А. Веб-представление интеллектуального проектного ре-позитария. // Информационные и интеллектуальные системы. Труды международной «Конференции по логике, информатике, науковедению - КЛИН-2007». - Ульяновск: УлГТУ, 2007. - том2. - С. 50 52.

2. Островский А. А. Реализация FCM метода для кластеризации информационных ресурсов. // Информатика и экономика. Сборник научных трудов. - Ульяновск: УлГТУ, 2007. - С. 114 - 119.

3. Островский А. А., Родионова Ю. А. Задача кластеризации набора электронных информационных ресурсов. // Автоматизация процессов управления. - 2008, - М(11). - С. 101 - 105.

4. Островский А. А. Алгоритм FCM для интеллектуального проектного репозитария. // Тезисы докладов 42-й научно-тсхничсской конференции. - Ульяновск: УлГТУ. -2008. - С. 126.

5. Ярушкина Н. Г., Корунова Н. В., Родионова Ю. А., Селяев А. Г., Островский А. А., Чекина А. В. Интеллектуальный проектный репозитарий. // Одиннадцатая национальная конференция по искусственному интеллекту КИИ-2008 с международным участием: Труды конференции. Т. 3. - М.: ЛЕНАНД, 2008 С. 345-352.

6. Островский А. А. Реализация параллельного выполнения алгоритма FCM кластеризации. // Прикладная информатика. - 2009. - №2(20). -С. 101 - 106.

7. Островский А. А. Кластеризация документов интеллектуального проектного репозитария на основе FCM метода. // Информационные технологии. Межвузовский сборник научных трудов. - Ульяновск: УлГТУ.

- 2008. С.102 - 105.

8. Островский А. А. Адаптация FCM метода для кластеризации электронных информационных ресурсов. // Нечеткие системы и мягкие вычисления - НСМВ 2008. Вторая Всероссийская научная конференция. - Ульяновск. - 2008. - том 2. - С. 79 - 84.

9. Ярушкина Н.Г., Селяев А.Г., Суркова Е.В., Корунова Н.В. Островский А. А. Организация интеллектуального хранилища на основе нечеткой кластеризации. //XI научно-практическая 5/3 конференция «Реинжиниринг бизнес-процессов на основе современных технологий. Системы управления знаниями» (РБП-СУЗ-2008): Сборник научных трудов / Московский государственный университет экономики, статистики и информатики Москва. -2008. - С. 332-335.

10. Островский А. А. Реализация алгоритма fuzzy classifier means кластеризации на вычислительном кластере. /'/' Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Научные доклады. - Коломна. - 2009. - С. 212-222.

11. Островский А. А. Вариант параллельного выполнения алгоритма FCM

— кластеризации. V-я Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте». Сборник научных трудов. - Москва. Физматлит. -2009. -том 2. -С. 886 - 897.

12. Корунова Н.В., Наместников A.M., Островский A.A., Родионова Ю.А.,

Чскина A.B., Ярушкина Н.Г.Интеллектуальный репозиторий проектных документов // Двенадцатая национальная конференция но искусственному интеллекту КИИ-2010 с международным участием: Труды конференции. - 2010. - Т. 2. С.257-263.

Свидетельства:

1. Свидетельство о государственной регистрации программы для ЭВМ №2009611318. Подсистема кластеризации интеллектуального проектного реиозитория / А.А.Островский. -4.03.2009 г. -М.:Роспатснт, 2009.

АВТОРЕФЕРАТ

ОСТРОВСКИЙ АЛЕКСАНДР АЛЕКСАНДРОВИЧ

НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ ПРОЕКТНОГО РЕПОЗИТОРИЯ ПРИ АВТОМАТИЗИРОВАННОМ ПРОЕКТИРОВАНИИ

Подписано в печать 15.11.2010. Усл. печ. л. 1,40. Тираж 100 экз. Заказ 1239.

Типография УлГТУ, 432027, г.Ульяновск, ул. Сев. Венед, д. 32.

Оглавление автор диссертации — кандидата технических наук Островский, Александр Александрович

Введение

Глава 1. Обзор основных функций PDM-систем.

1.1. Место PDM-систем в САПР.

1.1.1. Распространенные PDM-системы.

1.1.2. Основные функции PDM-систем.

1.1.2.1. Хранение и управление данными

1.1.2.2. Управление классификацией и кластеризацией

1.1.3. Недостатки современных PDM-систем.

1.2. Обзор методов кластеризации.

1.2.1. Классификация методов кластеризации.

1.2.2. Общая схема кластеризации.

1.2.2.1. Определение множества признаков

1.2.2.2. Выбор меры сходства.

1.2.2.3. Проверка достоверности результатов

1.2.3. Нечеткие методы кластеризации.

1.2.3.1. FCM алгоритм.

1.2.3.2. Gustafson-Kessel алгоритм.

1.2.4. Выбор метода для применения к задаче кластеризации электронных информационных ресурсов

1.3. Варианты ускорения fuzzy c-means

1.3.1. Параллельные реализации fuzzy c-means алгоритма

1.3.2. Обзор программного обеспечения для создания вычислительного кластера.

1.3.2.1. Apache Hadoop.

1.3.2.2. GridGain.

1.3.3. Обоснование выбора программного продукта для создания кластера

1.4. Выводы по главе и постановка исследования.

1.4.1. Выводы по главе.

1.4.2. Постановка исследования.

Глава 2. Модели и средства кластеризации электронных информационных ресурсов.

2.1. Адаптированный fuzzy c-means.

2.1.1. Описание объекта кластеризации.

2.1.2. Адаптация к входным данным.

2.1.3. Возможность иерархической кластеризации

2.1.4. Уточнённый алгоритм FCM.

2.1.4.1. Шаг 1. Инициализация.

2.1.4.2. Шаг 2. Вычисление центров кластеров

2.1.4.3. Шаг 3. Вычисление степеней принадлежности

2.1.4.4. • Шаг 4. Проверка условий остановки алгоритма

2.1.4.5. Шаг 5. Сохранение результатов.

2.2. Метод организации поисковой системы на основе результатов кластеризации.

2.2.1. Матрица принадлежностей как основа для ассоциативного поиска.

2.2.2. Алгоритм поиска.

2.3. Вариант параллельного выполнения алгоритма FCM

2.4. Вариант выполнения алгоритма РСМ на вычислительном кластере

2.4.1. Вычисление центров кластеров.

2.4.2. Вычисление матрицы принадлежности.

Глава 3. Реализация приложений.

3.1. Программное обеспечение и технологические средства

3.2. Структуры данных.

3.2.1. Структура входных данных.

3.2.2. Структура выходных данных.

3.3. Кластеризатор.

3.3.1. Варианты использования.

3.3.2. Функции по работе с базой данных.

3.3.3. Выполнение кластеризации.

3.3.4. Работа с отчетами.

3.3.5. Редактирование иерархии кластеров.

3.3.6. Сервисные функции

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Островский, Александр Александрович

За последнее десятилетие отмечается интенсивное развитие методов автоматизированного проектирования, поддерживающих коллективы разработчиков, рассредоточенных территориально. Основным инструментом работы таких коллективов проектировщиков являются проектные рспозитории. Современные проектные репозитории должны отличаться от традиционных архивов проектной документации значительным объемом хранимых документов и малым временем отклика. Данные свойства проектных репозиториев нельзя обеспечить с помощью традиционных (ручных) методов идентификации предметной рубрики документа. Необходимо развивать автоматизированные методы управления хранилищем информационных проектных ресурсов, в том числе, учитывающие проблемную область (смысл) документов.

Таким образом, современный проектный репозиторий должен обладать свойствами интеллектуальной системы. Задача идентификации проблемной области проектного документа представляет собой прежде всего задачу кластеризации документов. Для сложных проектных документов часто бывает невозможно отнести документ только к одной проблемной области. Одновременная принадлежность документа к ряду предметных рубрик подразумевает сохранение условий неопределенности, что делает актуальным разработку и использование нечетких алгоритмов кластеризации.

Значительные объемы хранимых документов (тысячи) на один средний проект предъявляют дополнительные требования к быстродействию алгоритмов их кластеризации. Подобные требования делают актуальными разработку параллельных алгоритмов кластеризации.

Цель диссертационной работы

Целью диссертации является разработка методов, быстродействующих алгоритмов, средств множественной кластеризации проектных документов в репозитории проекта.

Задачи исследования

В соответствии с целью работы актуальными будем считать следующие задачи исследования:

• провести сравнительный анализ существующих методов и систем кластеризации проектных документов;

• разработать адаптированный для работы с текстами нечеткий алгоритм кластеризации проектных информационных ресурсов;

• разработать методику иерархической кластеризации;

• разработать систему поиска документов, релевантных проекту на основе мер (расстояний) в пространстве проектных документов;

• разработать параллельный нечеткий алгоритм кластеризации проектных документов;

• разработать параллельный нечеткий алгоритм кластеризации проектных документов для реализации на вычислительном кластере;

• разработать и реализовать программные средства интеллектуального проектного репозитория, провести вычислительные эксперименты по исследованию их эффективности и быстродействия, внедрить их в практику проектной организации.

Методы исследования:

• современная теория неопределенности, неточности и нечеткости;

• теория кластеризации.

Научная значимость работы

Автор защищает: разработанные модели построения проектных ре-позиториев; результаты теоретических, экспериментальных и практических разработок, внедрение в промышленную и опытно-промышленную эксплуатацию.

Научная новизна. Впервые:

• Разработан модифицированный нечеткий алгоритм на базе РСМ-метода, адаптированный к задаче кластеризации проектных документов.

• Предложена методика использования модифицированного нечеткого алгоритма на базе РСМ-метода, адаптированного к задаче кластеризации проектных документов, обеспечивающая иерархическую кластеризацию.

• Разработан быстродействующий параллельный алгоритм модифицированного РСМ-метода.

• Разработан быстродействующий параллельный алгоритм модифицированного РСМ-метода для выполнения на вычислительном кластере.

• Разработана программная система кластеризации проектных документов.

Практическая ценность и внедрение результатов

Созданная программная система кластеризации проектных документов практически используется на производстве и позволяет достичь улучшенных техническо-экономических показателей объектов проектирования.

Практическая ценность состоит в том, что разработанные модели и алгоритмы реализованы в форме программной системы и внедрены в деятельность ФНПЦ ОАО «НПО Марс» (г. Ульяновск). Практическое использование результатов диссертационной работы подтверждено соответствующими документами о внедрении.

Основания для выполнения работы

Данная научная работа выполнялась в рамках тематического плана научных исследований Федерального агентства по образованию в 2005, 2006, 2007, 2008 г., была поддержана грантами РФФИ № 06-01-02012 и 06-01014087 в 2006 г., № 08-01-97006 в 2008 г., ряд задач исследования решался в рамках х/д НИР № 100/05 УлГТУ по заказу ФНПЦ ОАО «НПО МАРС».

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена результатами экспериментов, а так же результатами использования материалов диссертации и разработанной системы в проектной организации.

Основные положения, выносимые на защиту:

1. Модифицированный нечеткий алгоритм на базе КСМ-метода, адаптированный к задаче кластеризации проектных документов, эффективно решает задачу идентификации проблемной области проектного документа.

2. Предлагаемая методика использования модифицированного нечеткого алгоритма на базе РСМ-метода, адаптированного к задаче кластеризации проектных документов, обеспечивает иерархическую кластеризацию проектных документов.

3. Разработанный параллельный алгоритм модифицированного РСМ-метода обеспечивает необходимое быстродействие.

4. Разработанный параллельный алгоритм модифицированного РСМ-метода, для реализации на вычислительном кластере, обеспечивает необходимое быстродействие.

5. Разработанная программная система кластеризации проектных документов позволяет реализовать интеллектуальный проектный ре-позиторий, функционирующий в автоматизированном режиме.

Апробация работы

Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение на второй всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления НСМВ — 2008» (г. Ульяновск, 2008 год); одиннадцатой национальной конференции по искусственному интеллекту с международным участием КИИ — 2008 (г. Дубна, 2008 г.); международной «конференции по логике, информатике, науковедению» (г. Ульяновск, 2007 г.); 42 — ой научно-технической конференции (г. Ульяновск, 2008 г.); научно-практической конференции студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте ИММВИИ — 2009» (г. Коломна, 2009 г.); V -ой международной научно — практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (г. Коломна, 2009 г.); XI научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных технологий. Системы управления знаниями» (РБП-СУЗ-2008).

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка литературы из 104 наименований, трех приложений, содержит 135 страниц машинописного текста, 36 рисунков и 19 таблиц.

Заключение диссертация на тему "Нечеткая кластеризация электронных информационных ресурсов проектного репозитория при автоматизированном проектировании"

Заключение

В ходе диссертационного исследования получены следующие основные результаты:

1. Главным итогом диссертационной работы является создание ряда моделей, методов, алгоритмов и средств построения интеллектуальных проектных регюзиториев.

2. Выполнен анализ современных работ по методам кластеризации.

3. Разработан модифицированный нечеткий алгоритм на базе РСМ-метода, адаптированный к задаче кластеризации проектных документов.

4. Разработана методика использования модифицированного нечеткого алгоритма на базе РСМ-метода, адаптированного к задаче кластеризации проектных документов, обеспечивающая иерархическую кластеризацию.

5. Разработана быстродействующая многопоточная модель модифицированного нечеткого алгоритма на базе РСМ-метода.

6. Разработана быстродействующая модель модифицированного нечеткого алгоритма на базе РСМ-метода на основе кластерных вычислений.

7. Разработана программная система кластеризации проектных документов.

8. Проведены вычислительные эксперименты по исследованию эффективности разработанной системы.

9. Программная система внедрена в ФНПЦ ОАО НПО "МАРС" (Ульяновск 2007 г., 2008 г.).

Таким образом, в диссертации решена актуальная научно-техническая задача, имеющая важное хозяйственное значение для развития информационного обеспечения систем автоматизированного проектирования, а именно: разработаны методы, быстродействующие алгоритмы и программные средства кластеризации проектных документов в интеллектуальном проектном-репозитории.

Библиография Островский, Александр Александрович, диссертация по теме Системы автоматизации проектирования (по отраслям)

1. Норенков, И. П. Основы автоматизированного проектирования / И. П. Норенков. — М: МГТУ имени Н.Э.Баумана, 2002. - С. 336.

2. Википедия Электронный ресурс]. — 2009. http://ru.wikipedia. org/wiki/PDM.

3. Armstrong, Stephen С. Engineering and product development management: the holistic approach / Stephen C. Armstrong. — Cambridge University Press, 2001. P. 325.

4. Ivica Crnkovic Ulf Asklund, Annita Persson Dahlqvist Implementing and integrating product data management and software configuration management / Annita Persson Dahlqvist Ivica Crnkovic, Ulf Asklund.- Artech House, 2003. P. 338.

5. Stark, John. Product lifecycle management: 21st century paradigm for product realisation / John Stark. — Birkhauser, 2005. — P. 441.

6. Корячко, В. П. Теоретические основы САПР / В. П. Корячко, В. М. Курейчик, И. П. Норенков. — М: Энергоатомиздат, 1987.- С. 397.

7. Прикладные интеллектуальные системы, основанные на мягких вычислениях / Под ред. Н. Г. Ярушкина. — Ульяновск: УлГТУ, 2004.- С. 139.

8. Наместников, А. М. Интеллектуальные проектные репозитории / А. М. Наместников. — Ульяновск: УлГТУ, 2009. — С. 110.

9. Мандель, Д. А. Кластерный анализ / Д. А. Мандель. — М: Финансы и статистика, 1988. — С. 176.

10. Дж.-О., Ким. Факторный, дискриминантный и кластерный анализ / Ким Дж.-О., Мыоллер Ч. У., Клекка У. Р. и др.; Под ред. И. С. Енюкова. — М: Финансы и статистика, 1989. — С. 215.

11. Черезов, Д. С. Обзор основных методов классификации и кластеризации данных / Д. С. Черезов, Н. А. Тюкачев // Вестник ВГУ, серия: системный анализ и информационные технологии. — 2009. № 2. - С. 25-29.

12. Минаков, И. А. Кластеризация неструктурированной информации, представленной в виде текстов на естественном языке / И. А. Минаков // Вестник Самарского государственного технического университета. Серия: Технические науки. — 2006. — № 40. — С. 15-22.

13. Пескова, О. В. Разработка метода автоматического формирования рубрикатора полнотекстовых документов: Ph.D. thesis. — М, 2008.

14. Ндррпег, Frank. Fuzzy cluster analysis: methods for classification, data analysis, and image recognition / Frank Hoppner. — NY: John Wiley and Sons, 1999. P. 289.

15. Mirkin, Boris Grigorevich. Clustering for data mining: a data recovery approach / Boris Grigorevich Mirkin. — CRC Press, 2005.

16. Mark S. Aldenderfer. Roger K. Blashfield. Sage university papers: Quantitative applications in the social sciences / Roger K. Blashfield Mark S. Aldenderfer. SAGE, 1990. - P. 87.

17. Mirkin, Boris Grigorevich. Mathematical classification and clustering / Boris Grigorevich Mirkin. — Springer, 1996. — P. 428.

18. Saman K. Halgamuge, Lipo Wang. Classification and clustering for knowledge discovery / Lipo Wang Saman K. Halgamuge; Ed. by Lipo Wang Saman K. Halgamuge. — Birkhâuser, 2005. — P. 356.

19. Abonyi, Jânos. Cluster Analysis for Data Mining and System Identification / Jânos Abonyi, Balâzs Feil. — Springer, 2007. — P. 303.

20. Bezdek, James G. Fuzzy models and algorithms for pattern recognition and image processing / James C. Bezdek. — Springer, 1999. — P. 776.

21. Nascimento, Susana. Fuzzy clustering via proportional membership model / Susana Nascimento. — IOS Press, 2005. — P. 178.

22. Dumitrescu, Dumitru. Fuzzy sets and their application to clustering and training / Dumitru Dumitrescu, Beatrice Lazzerini, Laxmi Chandra Jain; Ed. by Dumitru Dumitrescu, Beatrice Lazzerini, Laxmi Chandra Jain. CRC Press, 2000. — P. 622.

23. Miyamoto, Sadaaki Algorithms for Fuzzy Clustering: Methods in C-Means Clustering with Applications / Sadaaki Miyamoto, Hidetomo Ichihashi, Katsuhiro Honda. — Springer, 2008. — P. 247.

24. Chi, Zheru. Fuzzy algorithms: with applications to image processing and pattern recognition / Zheru Chi, Hong Yan, Tuan Phom. — World Scientific, 1996. P. 225.

25. Kuncheva, Ludmila Ilieva. Fuzzy classifier design / Ludmila Ilieva Kuncheva. — Springer, 2000. — P. 314.

26. Oliveira, José Valente. Advances in fuzzy clustering and its applications / José Valente Oliveira, Jose Valente de Oliveira,

27. Witold Pedrycz; Ed. by José Valente Oliveira, Jose Valente de Oliveira, Witold Pedrycz. John Wiley and Sons, 2007. — P. 434.

28. Ye, Nong. The handbook of data miningHuman factors and ergonomics / Nong Ye. — NJ: Routledge, 2003. — P. 689.

29. Feldman, Ronen. The text mining handbook / Ronen Feldman, James Sanger. — Cambridge University Press, 2006. — P. 423.

30. Xu, Rui. Clustering / Rui Xu, Donald C. Wunsch. Wiley, 2009. -P. 358.

31. Ярушкина, H. Г. Основы теории нечетких и гибридных систем / Н. Г. Ярушкина. — М: Финансы и статистика, 2004. — С. 320.

32. Parallel Fuzzy c-Means Clustering for Large Data Sets / Kwok T., Smith K., Lozano Si, Taniar D. // Lecture Notes in Computer Science. 202. - P. 365.

33. Garduno, Edgar. Parallel Fuzzy Segmentation of Multiple Objects / Edgar Garduno, Gabor T. Herman // Int J Imaging Syst Technol — 2008.

34. Gridgain-cloud development platform Электронный ресурс]. — 2008. http ://www.gridgain.com.

35. Apache Hadoop Электронный ресурс]. — 2008. http : //hadoop. apache. org.

36. A., Flores-Sintas. Membership functions in the fuzzy C-means algorithm / Flores-Sintas A., Cadenas J.M., Martin F. // Fuzzy Sets and Systems. ~ 1999. Vol. 101, no. 1. - Pp. 49-58.

37. A., Visa. Technology of Text Mining / Visa A. // Lecture Notes in Computer Science. — 2001. Vol. 2123.

38. Arabie, Phipps. Clustering and classification / Phipps Arabie, Lawrence J. Hubert, Geert de Soete. — NJ: World Scientific, 1996.- P. 490.

39. B., Liu. Fuzzy programming with fuzzy decisions and fuzzy simulation-based genetic algorithm / Liu B., Iwamura K. // Fuzzy Sets and Systems. 2001. - Vol. 122, no. 2. - Pp. 253-262.

40. Estep, Donald, J. Practical Analysis in One Variable / Donald J. Estep.- Springer, 2002. P. 621.

41. H.Ch., Yang. Automatic Hypertext Construction through a Text Mining Approach by Self-Organizing Maps / Yang H.Ch., Lee Ch.H. // Lecture Notes in Computer Science. — 2001. — Vol. 2035. — P. 108.

42. Hermann, Robert. Geometric computing science: first steps / Robert Hermann. — Math Sci Press, 1991. — P. 400.

43. Jarke, Matthias. Fundamentals of data warehouses / Matthias Jarke.- Springer, 2003. P. 219.

44. Liew, K. M. Parallel and distributed computing: applications and technologies : 5th international conference, PDCAT 2004, Singapore,

45. December 8-10, 2004 : proceedings / K. M. Liew; Ed. by K. M. Liew.- Springer, 2004. — P. 891.

46. Lingras P. Yan R., West Ch. Fuzzy C-Means Clustering of Web Users for Educational Sites / West Ch. Lingras P., Yan R. // Lecture Notes in Computer Science. — 2003. — Pp. 557-562.

47. M.S., Chen. Fuzzy clustering analysis for optimizing fuzzy membership functions / Chen M:S., Wang S.W. // Fuzzy Sets and Systems. — 1999.- Vol. 103, no. 2. Pp. 239-254.

48. M.S., Yang. Fuzzy clustering algorithms for mixed feature variables / Yang M.S., Hwang P.Y., Chen D.H. // Fuzzy Sets and Systems. — 2004. Vol. 141, no. 2. - Pp. 301-317.

49. Masseglia, Florent. Successes and New Directions in Data Mining / Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire. — Hershey, 2008. P. 369.

50. Brain State Recognition Using Fuzzy C-Means (FCM) Clustering with Near Infrared Spectroscopy (NIRS) / Kobashi S., Hata Yu., Kitamura Yu.T. et al. // Lecture Notes in Computer Science. — 2001.- P. 124.

51. T.W., Liao. A fuzzy c-means variant for the generation of fuzzy term sets / Liao T.W., Celmins A.K., Hammell R.J. // Fuzzy Sets and Systems. 2003. - Vol. 135, no. 2. - Pp. 241-257.

52. William H. Inmon Derek Strauss, Genia Neushloss. DW 2.0: the architecture for the next generation of data warehousing / Genia Neushloss William H. Inmon, Derek Strauss. — Morgan Kaufmann, 2008. P. 371.

53. Yang, Laurence Tianruo. High-performance computing: paradigm and infrastructure / Laurence Tianruo Yang, Minyi Guo; Ed. by Laurence Tianruo Yang, Minyi Guo. — John Wiley and Sons, 2006. — P. 778.

54. Zwillinger, Daniel. Handbook of differential equations / Daniel Zwillinger. — Gulf Professional Publishing, 1998. — P. 801.

55. Байдип, Г. В. О некоторых стереотипах параллельного программирования / Г. В. Байдин // Вопросы атомной науки и техники. Серия: Математическое моделирование физических процессов. — 2008. № 1. - С. 67-75.

56. Барахнин, В. А. О задании меры сходства для кластеризации текстовых документов / В. А. Барахнин, В. А. Нехаева, А. М. Федотов // Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2008. — Т. 6, № 1. — С. 3-9.

57. Борисюк, Ф. В. Новый метод поиска на основе иерархической кластеризации по областям текстовых документов / Ф. В. Борисюк, В. И. Швецов // Вестник Нижегородского университета им. Н.И. Лобачевского. 2009. - № 4. - С. 165-171.

58. Вишняков, Ю. М. Организация электронных хранилищ документов / Ю. М. Вишняков, А. Н. Толкачев // Программные продукты и системы. — 2002. — № 1. — С. 14.

59. Исследование принципов построения систем программирования, поддерживающих разработку распределенных параллельных программ / С. С. Гайсарян, М. В. Домрачев, В. Ф. Еч, H. Н. Шталтовная // Информационный бюллетень РФФИ. — 1996. — Т. 4, № 1.- С. 544.

60. Двоенко, С. Д. Кластеризация множества, описанного парными расстояниями и близостями между его элементами / С. Д. Двоенко // Сибирский журнал индустриальной мателштики. — 2009.- Т. 12, № 1. С. 61-73.

61. Демидова, JI. А. Подход к проблеме нечеткой кластеризации в условиях неопределенности выбора целевой функции / JI. А. Демидова, С. Б. Титов // Вестник Рязанского государственного радиотехнического университета. — 2009. — № 29. —- С. 54-60.

62. Ерикин, А. Б. Анализ PDM-систём / А. Б. Ерикин // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. — 2006. № 28. - С. 273-278.

63. Иванов, В. В. Организация электронного архива конструкторской и технологической документации на основе PDM STEP Suite / В. В. Иванов // Вопросы радиоэлектроники. Серия общетехническая. 2007. — № 1. — С. 137-146.

64. Киселев, М. В. Метод автоматической кластеризации текстов и его применение / М. В. Киселев, М. М. Шмулевич, А. И. Эрлих // Программные продукты и системы. — 2008. — № 2. — С. 47-48.

65. Колыбанов, К. Ю. Хранилище данных как основа корпоративной информационной системы / К. Ю. Колыбанов, С. А. Панова // Программные продукты и системы. — 2007. — № 1. — С. 5.

66. Корунова, Н. В. Кластеризация документов проектного репозита-рия на основе нейронной сети Кохонена / Н. В. Корунова // Программные продукты и системы. — 2008. — № 4. — С. 16.

67. Краснощекое, Е. Е. Средства информационного поиска и навигации в массивах неструктурированной информации / Е. Е. Краснощекое // Известия Южного федерального университета. Технические науки. 2008. - Т. 78, № 1. - С. 138-141.

68. Кудинов, Ю. И. Нечеткое моделирование и кластеризация / Ю. И. Кудинов, И. Ю. Кудинов // Проблемы управления. — 2008. №.6. - С. 2-10.

69. Лебеденко, Е. В. Планирование вычислений в потоковых вычислительных системах кластерного типа с гибридной архитектурой / Е. В. Лебеденко, И. В. Логинов // Информационные технологии моделирования и управления. — 2008. № 7. - С. 846-852.

70. Минаков, И. А. Алгоритм кластеризации семантических дескрипторов документов / И. А. Минаков // Вестник Самарского государственного технического университета. Серия: Технические науки. 2009. - №1.- С. 34-46.

71. Михайлов, Д. В. Семантическая кластеризация текстов предметных языков (морфология и синтаксис) / Д. В. Михайлов, Г. М. Емельянов // Компьютерная оптика. — 2009. — Т. 33, № 4. — С. 473-480.

72. Островский, А. А. Адаптация РСМ метода для кластеризации электронных информационных ресурсов / А. А. Островский // Нечеткие системы» и мягкие вычисления НСМВ 2008 / Под ред. Н. Г. Ярушкина; УлГТУ. - Т. 2. - Ульяновск: УлГТУ, 2008. -С. 79-84.

73. Островский, А. А. Реализация РСМ метода для кластеризации информационных ресурсов / А. А. Островский // Информатика и экономика. Сборник научных трудов / Под ред. Н. Г. Ярушкина;

74. УлГТУ. Ульяновск: УлГТУ, 2007. - С. 114-119.\

75. Островский, А. А. Реализация параллельного выполнения алгоритма РСМ кластеризации / А. А. Островский // Прикладная информатика. 2009. - Т. 2, № 20. - С. 101-106.

76. Островский, А. А. Алгоритм РСМ для интеллектуального проектного репозитария / А. А. Островский // Тезисы докладов 42-й научно-технической конференции / УлГТУ. — Ульяновск: УлГТУ, 2008. С. 126.

77. Островский, А. А. Кластеризация документов интеллектуального проектного репозитария на основе РСМ метода / А. А. Островский // Программные продукты и системы. — 2008. — № 4. -С. 55-56.

78. Островский, А. А. Задача кластеризации набора электронных информационных ресурсов / А. А. Островский, Ю. А. Родионова // Автоматизация процессов управления. — 2008. — Т. 1, № 11. — С. 101-105.

79. Патана, Е. И. Статистический анализ и кластеризация основных текстурных функционалов / Е. И. Патана // Известия Южного федерального университета. Технические пауки. — 2008. — Т. 81, № 4. С. 192-198.

80. Подшивалов, Д. В. Исследование средств параллельного программирования на основе потоковой модели вычислений / Д. Б. Подшивалов // Информационный бюллетень РФФИ. — 1995. — Т. 3, № 1. С. 202.

81. Полещук, О. М. Нечеткая кластеризация элементов множества полных ортогональных семантических пространств / О. М. Полещук, И. А. Полещук // Вестник Московского государственного университета леса Лесной вестник. — 2003. — № 3. — С. 117-127.

82. Поршнев, М. 1С-РБМ первая система для конструктора на платформе «1С:Предприятие 8.0» / М. Поршнев // САПР и графика.- 2005. № 7. - С. 23.

83. Радионова, Ю. А. Инструментарий оценки эффективности методов автоматических кластеризации / Ю. А. Радионова // Автоматизация процессов управления. — 2009. — Т. 4. — С. 89-96.

84. Свистунов, С. А. Исследование алгоритмов автоматической кластеризации документов на основе функции подобия / С. А. Свистунов // Известия Таганрогского государственного радиотехнического университета. — 2006. — Т. 64, № 9. — С. 68.

85. Сусойкин, В. Эволюция хранилищ данных: проблемы современного этапа / В. Сусойкин // Банковские технологии. — 2008. — № 6.- С. 31-34.

86. Суховилов, Б. М. Интеллектуальные хранилища данных в системах государственного управления / Б. М. Суховилов // Программные продукты и системы. — 2006. — № 1. — С. 8.

87. Тиек, Л. Теоретическое построение интеллектуальной системы поиска в хранилище данных / Л. Тиек // Известия Южного федерального университета. Технические науки. — 2007. — Т. 77, № 2.- С. 116-119.

88. Тиндова, М. Г. Предварительная кластеризация многомерных объектов в интеллектуальном анализе данных / М. Г. Тиндова // Вестник Саратовского государственного социально-экономического университета. — 2008. № 4. - С. 137-138.

89. Фомичева, О. Е. Исследование корпоративных хранилищ данных на основе методов интеллектуального анализа / О. Е. Фомичева,

90. О. В. Головина // Горный информационно-аналитический бюллетень (научно-технический журнал) Mining informational and analytical bulletin (scientific and technical journal). —■ 2008. — № 2.1. C. 289-294.

91. Целых, А. А. Нечетка модель семантического описания Интернет -ресурсов / А. А. Целых // Известия Таганрогского государственного радиотехнического университета. — 2006. — Т. 65, № 10. — С. 42-43.

92. Чернышев, Ю. О. Применение нечетких систем в распределенных системах баз данных САПР / Ю. О. Чернышев, Д. В. Яценко // Известия Таганрогского государственного радиотехнического университета. 2000. - Т. 16, № 2. - С. 375-376.

93. Шалыто, А. А. Автоматное программирование и параллельные вычисления / А. А. Шалыто, Е. А. Мандриков, Ю.К. Чеботарева //

94. Известия высших учебных заведений. Приборостроение. — 2009. Т. 52, № 10. - С. 66-73. • t

95. Ярушкина, Н. Г. Параллельный алгоритм FCM-кластеризации / Н. Г. Ярушкина, А. А. Островский // Известия Самарского научного центра Российской академии наук. — 2008. — № 10. — С. 212-218.

96. Свидетельство о государственной регистрации программы для ЭВМ №2009611318. Подсистема кластеризации интеллектуального проектного репозитория / А. А. Островский. -4.03.2009 г. -М.:Роспатент,2009.

97. Оценка результатов кластеризации при использовании различных критериев качества // Программные продукты и системы. — 2009. № 3. - С. 13.

98. Оценка эффективности метода кластеризации, использующего субъективные оценки // Программные продукты и системы. — 2009. № 2. - С. 26.

99. Википедия Электронный ресурс]. — 2009. http://en.wikipedia. org/wiki/Picarditeration.

100. Insight IT. Hadoop Электронный ресурс]. — 2008. http://www. insight-it.ru/net/scalability/hadoop.

101. PDM // Manufacturing Systems (MSI). 1998. - Vol. 16, no. 4. -P. 89.