автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Непараметрические методы анализа кластеров высокой плотности

доктора технических наук
Коваленко, Андрей Петрович
город
Москва
год
1999
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Непараметрические методы анализа кластеров высокой плотности»

Оглавление автор диссертации — доктора технических наук Коваленко, Андрей Петрович

Введение

1. Кластеры высокой плотности

1.1. Информативные множества.

1.2. Оценки плотности.

1.2.1. Оценка плотности распределения.

1.2.2. Гистограммная оценка плотности.

1.2.3. Ядерная оценка плотности.

1.2.4. Оценка методом ближайших соседей.

1.3. Кластеры уровня плотности.

1.3.1. Модель кластеров уровня плотности.

1.3.2. Алгоритм построения кластеров уровня плотности.

1.3.3. Метод поиска оптимальных уровней плотности.

1.3.4. Сходимость показателя контрастности границ кластеров

1.4. Унимодальные кластеры.

1.4.1. Модель унимодальных кластеров.

1.4.2. Алгоритм построения унимодальных кластеров.

1.4.3. Унимодальные области.

1.4.4. Двухэтапный метод анализа модальных кластеров.

1.5. Выводы по главе 1.

2. Методы анализа кластеров высокой плотности

2.1. Метод анализа кластеров образов.

2.1.1. Классификатор по правилу кп ближайших соседей.

2.1.2. .Модель кластера образов.

2.1.3. Параллельный классификатор

2.1.4. Распознавание сигнала на фоне шума.

2.1.5. Задача выделения сигнала из смеси сигнала и шума.

2.2. Нейросетевой метод кластерного анализа.

ОГЛАВЛЕНИЕ

2.2.1. Модель трехслойной нейросети.

2.2.2. Алгоритм обучения нейросети.

2.3. Аппроксимационный метод кластерного анализа.

2.3.1. Аппроксимационная модель.

2.3.2. Состоятельность аппроксимационного метода.

2.3.3. Доказательство леммы 2.1.

2.3.4. Выбор значений параметров аппроксимационного метода

2.4. Выводы по главе 2.

3. Проекционный кластерный анализ

3.1. Целенаправленное проецирование многомерных данных.

3.2. Генетический алгоритм максимизации проекционного индекса

3.3. Последовательный проекционный кластерный анализ.

3.4. Кластерный анализ социологических данных.

3.4.1. Постановка задачи кластерного анализа профилей.

3.4.2. Многоварантные вопросы и комбинированные категории

3.4.3. Интерпретация результатов кластерного анализа профилей

3.5. Методика анализа результатов социологических опросов.

3.6. Выводы по главе 3.

Введение 1999 год, диссертация по информатике, вычислительной технике и управлению, Коваленко, Андрей Петрович

В настоящее время в базах данных организаций и предприятий накоплен огромный объем фактического материала об их деятельности. Но большие массивы представляют ценность лишь в том случае, если они организованы так, что из них можно извлечь полезную информацию. Один из способов решения этой актуальной задачи состоит в оперативном анализе данных - On-Line Analytical Processing (OLAP) - путем организации на основе имеющихся баз данных информационных хранилищ данных (в западной литературе для обозначения таких систем обычно используется термин Data Warehouse) и разработке интеллектуальных технологий извлечения из информационных хранилищ новых знаний (Data Mining). За последние несколько лет OLAP-технологии, информационные хранилища и инструментальные средства извлечения из них новых знаний превратились в предмет всеобщей заинтересованности [3]. По оценкам специалистов консалтинговой компании Прайс Вотерхаус Купере в настоящее время 20% американских компаний используют эти технологии и уже в ближайшем будущем их число существенно возрастет [81]. Своей популярностью они в первую очередь обязаны ориентацией на конечного потребителя информационной продукции, а также тому факту, что они спроектированы таким образом, что практически не требуют от рядового пользователя освоения принципиально новых методов работы с данными.

Интеллектуальные технологии позволяют получить из информационных хранилищ намного более содержательную информацию, нежели традиционные запросы к базам данных. Такие технологии ориентированы в первую очередь на выявление закономерностей и вывод из них правил. Эти закономерности и правила можно в дальнейшем использовать для поддержки принятия решений и прогнозирования их последствий. Кроме того, подобные средства нередко позволяют ускорить анализ конкретной ситуации за счет акцентирования внимания на самых важных переменных или объектах. Разумеется, эти закономерности могут быть обнаружены и в результате последовательности традиционных запросов к базам данных. Однако предлагаемые технологиями Data Mining средства автоматизации поиска позволяют существенно расширить спектр возможных вариантов и сократить время их анализа.

Значительное уменьшение показателя "цена/производительность" вычислительных систем, распространение специализированных параллельных систем позволило ряду организаций приступить к внедрению интеллектуальных технологий извлечения знаний. Многие основополагающие идеи и методы, используемые в этих технологиях, известны уже достаточно давно. Но резкое снижение стоимости вычислительных операций и чрезвычайно большие объемы накопленных данных дали толчок к разработке новых методов и алгоритмов.

К настоящему времени сформировался стандартный набор инструментальных средств Data Mining, в который, наряду с нейронными сетями, генетическими алгоритмами, деревьями решений и рядом других, неизменно входит и кластеризация. Кластеризация включена в список информационных технологий Data Mining такими ведущими разработчиками систем информационных хранилищ данных как Microsoft, Oracle, SAS Institute, NCR, Pilot Software. Алгоритмам кластерного анализа посвящена обширная библиография (см., например, [1], [47], [69], [86], [68], [56]). Методы кластерного анализа образуют специальные разделы практически во всех наиболее распространенных статистических пакетах (SAS, SPSS, Statistica, Statgraphics и др.). Однако несмотря на более чем полувековую историю развития этого раздела прикладного многомерного статистического анализа, обширную библиографию и сотни различных методов, в настоящее время в системах извлечения знаний активно применяются только некоторые из них, в частности, иерархические методы кластеризации и метод /¿-средних. Состав этого набора определяется не столько теоретической обоснованностью методов и традициями преподавания университетских курсов МСА, сколько "прозрачностью" реализуемых методами операций по выявлению кластеров, объективно содержащихся в многомерных данных. Последнее требование особенно актуально для систем поддержки принятия решений, предназначенных не для специалистов в области информационных технологий, а непосредственно для профессионалов в прикладной области - лиц, принимающих управленческие решения, "проблемных" аналитиков.

Объектом диссертационного исследования являются методы кластерного анализа, предназначенные для извлечения знаний из больших баз данных в системах поддержки принятия решений.

Теория и методы кластерного анализа начали активно развиваться, наряду с другими разделами прикладного многомерного статистического анализа, примерно с середины 60-х годов. Повышенный интерес к кластерному анализу многомерных данных обусловлен главным образом двумя причинами: потребностью в обработке больших объемов многомерных данных при решении задач в математике, технике, социологии, психологии, эконометрике и развитием вычислительной техники, позволившим эффективно реализовать соответствующие алгоритмы в виде программных средств, в том чиеле и для специальных параллельных вычислительных систем.

К наиболее известным теоретическим подходам к анализу многомерных данных можно отнести алгебраический, теоретико-вероятностный, синтаксический, теоретико-графовый. Выбор того или иного подхода определяется особенностями прикладных задач, для решения которых предназначены разрабатываемые методы. Одним из признаков ОЬАР-систем, декларированных Коддом [60], является разделение данных на показатели (переменные, признаки) и состояния (наблюдения, объекты). Таким образом, в случае обработки данных из информационных хранилищ, кластеризуемыми объектами выступают, как правило, числовые векторы, которые целесообразно рассматривать как точки в некотором метрическом пространстве. Вариация значений векторов может быть обусловлена причинами различной природы, но довольно часто представляется возможным считать, что данные есть результаты наблюдения некоторой многомерной случайной величины с неизвестным законом распределения. Исходя из этой гипотезы о теоретико-вероятностной природе исходных данных, определим в качестве предмета диссертационного исследования модели, методы и алгоритмы анализа кластеров высокой плотности, основанные на теоретико-вероятностном подходе к анализу многомерных данных.

Актуальность темы диссертации определяется тем, что исследуемые теоретико-вероятностные модели кластеров высокой плотности с одной стороны допускают возможность строгого математического обоснования методов и алгоритмов их построения, а с другой -соответствуют представлениям о "естественной кластеризации", то есть такой кластеризации, которую построил бы человек, если бы мог увидеть распределение точек в пространстве. Эта идея получила свое логическое развитие в предложенном в диссертации методе последовательного проекционного кластерного анализа, который ориентирован на визуальный контроль последовательного процесса кластеризации данных. Об актуальности темы диссертации свидетельствует также тот факт, что направления диссертационного исследования были поддержаны международным научным фондом INTAS (грант № 93-0725) и Российским фондом поддержки фундаментальных исследований (грант № 96-01-00922).

Предположим, что имеется совокупность объектов, исходная информация о которых представлена либо в форме матрицы "объект-признак" (каждый столбец представляет результат статистического обследования реального объекта по d анализируемым переменным), либо в форме матрицы попарных расстояний между объектами (каждый элемент характеризует взаимную отдаленность пары объектов). В дальнейшем будем интерпретировать объекты как точки некоторого признакового пространства. Геометрическую близость двух или нескольких точек в этом пространстве будем рассматривать как близость "физических" состояний соответствующих реальных объектов, их однородность. Задача классификации (кластерного анализа) состоит в выделении из анализируемой совокупности однородных, в определенном смысле, классов или кластеров (cluster (англ.) - гроздь, пучок, скопление элементов, характеризуемых каким-либо общим свойством).

Если анализируемые векторы координат точек признакового пространства рассматривать как наблюдения независимых, одинаково распределенных случайных векторов, описываемых плотностью вероятности f(x), то задача кластерного анализа может быть сформулирована как задача выявления связных непересекающихся областей высокой плотности вероятности (high-density clusters). Первая теоретическая модель кластеров высокой плотности - модель кластеров уровня плотности в ¿-мерном евклидовом пространстве - была независимо предложена в 1974 году X. Боком [56] и в 1975 году

Дж. Хартиганом [68]. На основе результатов J1. Девроя и Т. Вагнера ([62] , [63]) о равномерной сходимости непараметрических оценок плотности М. Вонг и Т. Лейн [88] в 1981 году предложили иерархический алгоритм построения кластеров уровня плотности и доказали теорему о его состоятельности. В 1986 году этот алгоритм был включен в раздел кластерного анализа пакета SAS [83]. Отличаясь от алгоритмов иерархической кластеризации по существу, этот алгоритм оказался очень сходным с ними по внешним признакам. В частности, на выходе он, как и иерархические алгоритмы, строил дендрограмму, предоставляя пользователю самому решать, какие уровни плотности для него больше подходят. При этом такие потенциальные возможности модели как поведение функции плотности на границе кластера, характеризующее "резкость" контуров "сгущений" точек, многомодальность плотности и т.п. оставались неиспользованными.

В 1987 году А. Грушо [9] ввел понятие информативных множеств, обобщающее понятие кластеров высокой плотности и, задавая различные вероятностные меры на потоковых графах, предложил ряд эффективных критериев проверки статистических гипотез о существовании в данных кластерных структур определенных типов [10].

В подробном обзоре X. Бока, опубликованном в 1996 году и посвященном вероятностным моделям и проверке гипотез в кластерном анализе, отмечается ([57], стр. 385), что для получения точечной оценки плотности с требуемой точностью при размерности пространства больше трех требуется выборка очень большого объема (так называемое "проклятие размерности"), и поэтому формальное описание и оценивание границ кластеров сложной формы представляет собой сложную задачу. Для аппроксимации областей высокой плотности предлагались различные подходы, основанные на матрице попарных расстояний, например, ^-связные компоненты, минимальные остовные деревья, односвязные кластеры и т.п. Такие решения могут оказаться неэффективным для задач, у которых выборки слишком велики, чтобы использовать матрицы попарных расстояний, но не достаточны для оценивания плотности непосредственно в исходном пространстве. Отметим, что при извлечении знаний из больших баз данных выборки обычно имеют именно подобные размерности. Поэтому дЛя анализа кластеров высокой плотности в таких задачах необходимы новые эффективные методы и алгоритмы как построения кластеров высокой плотности, так и снижения размерности исходного пространства.

Цель диссертационного исследования состоит в разработке, теоретическом исследовании и практической реализации новых методов и алгоритмов анализа кластеров высокой плотности и их применении в системах поддержки принятия решений.

В зависимости от того, что понимать под "областью высокой плотности", возможны различные теоретико-вероятностные модели кластеров. Поэтому первая задача, решению которой посвящена диссертация, - это разработка и исследование теоретических моделей кластеров высокой плотности. При наличии строгого определения можно, хотя бы теоретически, зная функцию /(ж), найти в признаковом пространстве области высокой плотности, представляющие интерес для последующего содержательного анализа. Это позволяет установить четкое соответствие между целями прикладного исследования и теоретической кластерной моделью.

Плотность /(ж), как правило, не известна. Однако по предположению имеется многомерные данные - п наблюдений независимых случайных векторов, распределенных с этой плотностью. Вторая задача, которая решается в диссертации, состоит в разработке методов выделения в многомерных данных эмпирических кластеров, соответствующих (во вполне определенном теоретиковероятностном смысле) заданным теоретическим кластерам высокой плотности. При этом естественно потребовать, чтобы методы удовлетворяли условию состоятельности, то есть с ростом объема статистического материала увеличивалась и степень соответствия эмпирических кластеров теоретическим. Строгое доказательство состоятельности методов кластеризации позволяет также критически оценить свойства ряда известных и широко применяемых эвристических методов и предложить их модификации, удовлетворяющие условию состоятельности.

ОЪАР-системы предъявляют к инструментальным средствам анализа данных очень жесткие ограничения на время обработки. Считается, что время отклика должно быть настолько мало, чтобы не успевали размыкаться ассоциативные связи, возникающие у аналитика в ходе осмысления прикладной проблемы [60]. Поэтому при большом числе наблюдений (порядка 104 —105) производительности вычислительной техники с традиционной последовательной ("фон-неймановской") архитектурой оказывается недостаточно. Третьей задачей диссертационного исследования было построение параллельных алгоритмов, позволяющих реализовать предложенные методы анализа кластеров высокой плотности на специализированных параллельных вычислительных системах, в частности, на транспьютерных сетях и нейрокомпьютерах.

Еще одной особенностью ОЪАР-систем является наличие средств наглядного графического представления данных конечному пользователю. Известно, что человеческий мозг способен воспринимать и анализировать информацию, которая представлена в виде геометрических образов, в объеме, на несколько порядков больше того, который требуется для обработки информации, представленной в алфавитно-цифровом виде [3]. Наглядные геометрические образы стимулируют творческое мышление, способствуют формированию гипотез, активизируют интуицию, повышают эффективность информационно-аналитической и управленческой деятельности персонала [59]. Имеются различные подходы к визуализации многомерных данных ([1]). Как правило, они сводятся к решению задачи отображения многомерных данных в пространство низкой размерности с сохранением существенных для пользователя структурных особенностей. Для анализа кластеров высокой плотности такими существенными особенностями, по-видимому, являются динамика формирования кластеров, их взаимное расположение, возможность визуального сравнения "значимости" кластеров (например, по мощности, плотности, изолированности и т.п.). С другой стороны, для решения некоторых задач кластерного анализа такое снижение размерности просто необходимо вследствие уже упоминавшегося "проклятия размерности". При большой размерности исходного пространства оценка области локального "сгущения" вероятностной массы требует очень большого объема данных, которого в базе может и не быть. Спроецировав данные на пространство меньшей размерности, мы получаем возможность применить к ним статистические методы обработки. Это определило четвертую задачу диссертационного исследования, решение которой направлено на разработку нового комбинированного метода, который объединял бы возможности известных методов целенаправленного проецирования [1] и предлагаемых методов анализа кластеров высокой плотности.

Наконец, возможности, преимущества и недостатки той или иной интеллектуальной технологии лучше оцениваются в процессе решения конкретных задач анализа многомерных данных. Поэтому пятая задача, которая решалась в ходе диссертационного исследования, состояла в разработке инструментальной подсистемы визуального кластерного анализа социологических данных анкетного типа для системы "Барометр".

Поставленные задачи определили структуру диссертации, которая состоит из введения, трех глав, заключения и приложений.

Заключение диссертация на тему "Непараметрические методы анализа кластеров высокой плотности"

3.6. Выводы по главе 3

1. Предложен новый метод последовательного проекционного кластерного анализа многомерных данных, в основе которого лежит целенаправленное проецирования выборки из многомерного метрического пространства в пространство меньшей размерности. Для поиска локальных экстремумов проекционного индекса энтропийного типа используется генетический алгоритм. Па проекции строятся кластеры высокой плотности, а затем, в отличие от известных процедур, вновь строятся проекции точек, только из каждого кластера в отдельности. При двумерной проекции такой подход позволяет визуально контролировать процесс кластеризации. На модельных примерах показана эффективность применяемой версии генетического алгоритма и способность проекционного индекса исключать измерения, неинформативные с точки зрения выявления кластерной структуры данных.

2. Дана новая постановка задачи кластерного анализа данных анкетного типа, в основе которой лежат идеи, известные в теории анализа соответствий [1], и предложена методика решения этой задачи методом последовательного проекционного кластерного анализа. Методика реализована в виде программной системы визуального кластерного анализа социологических данных (VCA). Пример обработки данных всероссийского опроса, проведенного фондом "Общественное мнение" в декабре 1998 года, приведен в работе [43].

ЗАКЛЮЧЕНИЕ Заключение

В диссертационном исследовании получены следующие научные результаты:

1. Разработан новый метод поиска оптимальных уровней плотности, основанный на исследовании показателя контрастности границ кластеров. Доказана теорема о равномерной сходимости выборочной оценки показателя контрастности границ кластеров, обеспечивающая состоятельность метода. Показано что данный показатель согласуется с визуальным восприятием четких контуров, ограничивающих области высокой плотности.

2. Предложена новая модель унимодальных кластеров и состоятельный алгоритм для их построения, который представляет собой модификацию известного алгоритма Уишарта [87]. Разработан алгоритм построения оценок унимодальных областей и доказана теорема об их состоятельности.

3. Предложен новый метод решения задачи классификации, основанный на правиле кп ближайших соседей. В отличие от известного метода здесь по обучающей выборке предварительно строятся эмпирические информативные множества, соответствующие классам образов. Классификация вновь поступающих наблюдений сводится к проверке их принадлежности к тому или иному информативному множеству. Доказана теорема о состоятельности такого параллельного и линейного по сложности алгоритма. Полученный результат позволяет использовать для решения задачи классификации специальные параллельные вычислительные системы.

4. Разработан состоятельный нейросетевой классификатор, предназначенный для построения кластеров высокой плотности. Предложен состоятельный алгоритм обучения нейросети и получена асимптотическая оценка числа нейронов внутреннего слоя, обеспечивающего заданную точность классификации. Эти теоретические результаты позволяют использовать нейросетевые процессоры, основанные на радиальных базисных функциях, для решения задачи классификации либо вовсе без применения традиционного обучающего алгоритма обратного распространения ошибки, либо эффективно контролировать результаты обучения нейросети этим алгоритмом.

5. Для вероятностной модели исходных данных показано, что метод кластерного анализа, основанный на аппроксимации матрицы попарных расстояний между наблюдениями матрицей отношения эквивалентности, при определенной параметризации показателя качества аппроксимации строит эмпирические кластеры высокой плотности. Получена функциональная зависимость между параметрами метода и уровнем плотности. Эти результаты позволяют обосновать значимость кластеров, полученных аппроксимационным методом в тех случаях, когда исходная информация о распределении представлена только матрицей расстояний.

6. Разработан новый метод последовательного проекционного кластерного анализа многомерных данных, в основе которого лежит целенаправленное проецирования выборки из многомерного метрического пространства в пространство меньшей размерности. Для поиска локальных экстремумов проекционного индекса энтропийного типа используется генетический алгоритм. На проекции строятся кластеры высокой плотности, а затем, в отличие от известных процедур, строятся проекции точек каждого кластера в отдельности. При двумерной проекции метод позволяет визуально контролировать процесс кластеризации. На модельных примерах показана эффективность применяемой версии генетического алгоритма и способность проекционного индекса исключать измерения, неинформативные с точки зрения выявления кластерной структуры данных.

7. Предложена новая постановка задачи кластерного анализа данных анкетного типа, в основе которой лежат идеи, известные в теории анализа соответствий [1], и разработана методика решения этой задачи методом последовательного проекционного кластерного анализа. Методика реализована в виде программной системы визуального кластерного анализа социологических данных (VCА).

Научная новизна диссертации состоит в том, что в результате теоретических исследований разработаны новые модели, методы и алгоритмы анализа кластеров высокой плотности, позволяющие более эффективно решать задачи кластеризации многомерных данных в системах поддержки принятия решений.

Теоретическая значимость результатов диссертации заключается в том, что на основании теоретических положений, разработанных при исследовании моделей кластеров высокой плотности, предложены новые или существенно модифицированы некоторые известные методы кластерного анализа с целью их использования в качестве инструментальных средств OLAP-систем для извлечения знаний о кластерной структуре многомерных данных.

Практическая ценность предложенных методов состоит в том, что в процессе исследования они доведены до конкретных вычислительных алгоритмов, для которых получены оценки пространственной и временной сложности, исследованы возможности распараллеливания вычислительного процесса и его реализации на специальных параллельных вычислительных системах. Разработан метод последовательного проекционного кластерного анализа, предоставляющий возможность графического отображения многомерных данных и их кластерной структуры. Построены состоятельные оценки ряда параметров разработанных методов и алгоритмов, представляющие интерес для приложений. По заказу Главного управления информационных систем ФАПСИ (ГУИС ФАПСИ) под руководством автора на основе результатов диссертации разработана программная система визуального кластерного анализа социологических данных. Эта система, помимо ГУИС ФАПСИ, внедрена в НИИ "Квант" и ряде других научно-исследовательских организаций, апробирована и получила положительную оценку в фондах "Общественное мнение" и ИНДЕМ, занимающихся проведением и анализом результатов массовых социологических опросов.

На защиту выносятся следующие" научные положения:

1. Метод поиска оптимальных уровней плотности по критерию максимума показателя контрастности границ кластеров.

2. Модель унимодальных кластеров и метод построения выборочных унимодальных кластеров и унимодальных областей.

3. Методы анализа кластеров высокой плотности, основанные на на оценке информативных областей выборочного пространства (параллельный классификатор по правилу кп ближайших соседей, ней-росетевой и аппроксимационный методы кластеризации).

4. Метод последовательного проекционного кластерного анализа.

5. Представление и методика анализа кластерной структуры данных анкетного типа в виде совокупности частотных профилей.

К основным направлениям дальнейших исследований в области анализа кластеров высокой плотности, по нашему мнению, следует отнести:

1. Результаты, связанные с анализом унимодальных кластеров, могут получить дальнейшее теоретическое развитие при использовании в качестве критерия значимости не только высоты эмпирического кластера, но и его массы. Начало этому направлению положено двухэтапным методом анализа унимодальных кластеров, рассмотренным в п. 1.4.4. Здесь полезными могут оказаться результаты В. Полоника [80] о сходимости и ассимптотическом распределении оценки "избыточной" массы кластеров уровня плотности, а также результаты В.Д. Конакова и Э. Маммена [45] об оценке числа и расположении мод непараметрической оценки плотности.

2. Развитие метода последовательного проекционного кластерного анализа можно вести по двум направлениям. Первое - методическое - связано с разработкой методики анализа сложных пространственных кластерных структур. Для этого, например, можно исследовать кластерную структуру сначала визуально по двумерным проекциям, а затем постепенно увеличивать размерность проекций, используя для кластеризации разработанные методы анализа кластеров высокой плотности, и сравнивать получаемые результаты.

Второе направление может оказаться полезным при анализе поведения и управлении сложными динамическими объектами (например, в качестве такого объекта можно рассматривать общественное мнение). Проецируя на уже построенные плоскости новые значения характеристик объекта (новые профили тех же самых категорий), можно анализировать характер их поведения в пространстве и при обнаружении тенденций принимать соответствующие решения.

3. Представляется перспективной изложенная в п. 3.3 идея использовать кластерный анализ для оценки момента останова генетического алгоритма. Возможность генерации выборок практически неограниченных объемов и динамического контроля за изменением состава популяций позволяет изменять параметры операторов селекции и мутации непосредственно в процессе работы алгоритма.

4. Важным направлением развития полученных в диссертации результатов может стать реализация параллельных алгоритмов кластеризации на специализированных параллельных вычислительных системах для решения задач предварительной обработки больших потоков данных в реальном времени (например, в области физики высоких энергий, геоинформационных систем, телеметрии, метеорологии) с целью выделения "информативных" данных для их последующей обработки при помощи более точных процедур.

Библиография Коваленко, Андрей Петрович, диссертация по теме Теоретические основы информатики

1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности //Под ред. С.А. Айвазяна. М.: Финансы и статистика, 1989. 607 с.

2. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. М.: Наука, 1964.

3. Архипенков С. Аналитические системы на базе Oracle Express OLAP. Проектирование, создание, сопровождение. М.: "ДИАЛОГ-МИФИ", 1999. 319 с.

4. Веденов A.A., Ежов A.A., Левченко Е.Б. Архитектурные модели и функции нейронных ансамблей / / Итоги науки и техники. Серия "Физические и математические модели нейронных сетей". Под ред. A.A. Введенова. Т. 1, М.: Наука, 1990. С. 44-92.

5. Горбанъ А.Н. Обучение нейронных сетей. М.: ПараГраф, 1990. 159с.

6. Грушо A.A. Условия состоятельного выявления вкраплений в выборку из равномерного распределения // Вероятностные задачи дискретной математики. Под ред. Г.И. Ивченко. М.: Московский экономико-статистический институт, 1987. С. 65-73.

7. Грушо A.A. Методы статистической обработки больших массивов неоднородных случайных данных с целью решения информационно-логических задач. Дисс. .д-ра физ.-мат. наук. М.: в/ч 33965, 1988.

8. Глаз A.A. Параметрическая и структурная адаптация решающих правил в задачах распознавания. Рига: Зинатне, 1988. 170с.

9. Деврой Д., Дьёрфи Д. Непараметрическое оценивание плотности. Li-подход. М.: Мир, 1988.

10. Дуда Р, Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. 512 с.

11. Загоруйко Н.Г. Какими решающими функциями пользуется человек? // Вычислительные системы. Новосибирск, 1967. Вып. 28. С. 69-79.

12. Загоруйко Н.Г. Методы распознавания и их применение. М.: Советское радио, 1972. 206 с.

13. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Института математики СО РАН, 1999. 270 с.

14. Коваленко А.П., Рамеев O.A. А"-связный пороговый метод классификации объектов // Конф. "Нечисловая статистика, экспертные оценки и смежные вопросы", Москва-Таллин, 1984, с. 299-300.

15. Коваленко А.П., Колобашкин С.М., Каталов Ю.Т. Разработка и применение математических методов для анализа работы параллельных вычислительных систем с единым управлением. Отчет о НИР "Корунд". В/ч 33965, № 15/19-686, 1986.

16. Коваленко А.П., Кудинов Д.М., Сомик К.В., Толстое В.Г. Аналитическая обработка данных на базе интегрированной АИС спецназначения. Отчет о НИР "Связь". М.: в/ч 33965, 15/19-10, 1986.

17. Коваленко А.П., Рамеев O.A. Исследование и разработка методов автоматической классификации криминалистических объектов. Отчет о НИР "Десант". // Сборник научных отчетов. Деп. в в/ч 33965, № 1555, 1986.

18. Коваленко А.П. K-связный пороговый метод автоматической классификации объектов и его спецприменения. Дисс. .канд. техн. наук. М.: в/ч 33965, 1989.

19. Коваленко А.П., Агафонов A.B. Исследование и разработка математических методов анализа данных. Отчет о НИР "Десант-3". В/ч 33965, № 15/19-859, 1990.

20. Коваленко А.П. Параллельный классификатор по правилу к ближайших соседей // 2-я конф. "Транспьютерные системы и их применение" (тезисы), Домодедово, 27-29 октября 1992. М.: Российская транспьютерная ассоциация, 1992, с. 34.

21. Коваленко А.П. Аппроксимационный метод кластерного анализа по правилу к ближайших соседей // Автоматика и телемеханика, 1992, № 10, с. 127-134.

22. Коваленко А.П. Алгоритм построения унимодальных кластеров методом кп ближайших соседей // Автоматика и Телемеханика, 1993, № 5, с. 100-105.

23. Коваленко А.П. Метод пополнения унимодальной кластеризации // Автоматика и Телемеханика, 1994, № 3, с. 82-87.

24. Коваленко А.П. Метод поиска оптимальных уровней иерархической кластеризации // Автоматика и Телемеханика, 1994, № 5, с. 38-47.

25. Коваленко А.П. Состоятельный алгоритм формирования нейронной сети для анализа кластеров высокой плотности // Техническая кибернетика, 1994, № 5, с. 97-102.

26. Коваленко А.П. Нейросетевой классификатор по правилу кп ближайших соседей // 4-я конф. "Транспьютерные системы и их применение" (тезисы), Домодедово, 3-6 октября 1994. М.: Российская транспьютерная ассоциация, 1994.

27. Коваленко А.П., Нырков С.Н. Разработка и исследование непараметрических методов контроля защищенности спецаппаратуры. Отчет о НИР "Модуль". В/ч 33965, № 15/19-74, 1994.

28. Коваленко А.П. Параллельный классификатор по правилу кп ближайших соседей // Автоматика и Телемеханика, 1995, К2 1, с. 157-165.

29. Коваленко А.П. Нейросетевой метод анализа кластеров высокой плотности // Вторая Всероссийская школа-коллоквиум по стохастическим методам. Тезисы докладов. М.: Научное издательство "ТВП", 1995. С. 70-72.

30. Коваленко А.П., Виноградов М.В. Последовательный проекционный кластерный анализ социологических данных / / Пятая Всероссийская школа-коллоквиум по стохастическим методам. Тезисы докладов. М.: Научное издательство "ТВП", 1998. С. 226-228.

31. Коваленко А.П., Виноградов М.В. Последовательный проекционный кластерный анализ. Методика применения для обработки данных социологических опросов. Научный отчет о НИР "Модуль-4". М.: в/ч 33965, 1998.

32. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций одной переменной и суммированием // Доклады АН СССР, 1957. Т. 114. С. 953-967.

33. Корнеев В.В. Параллельные вычислительные системы. М.: Но-лидж, 1999. -320 с.

34. Манделъ ИД. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

35. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980.

36. Парми Я. (1997) Кластерно-ориентированные генетические ал-гортмы для определения областей высоких значений целевой функции на пространстве поиска. В кн. Эволюционные вычисления и генетические алгоритмы. Под ред. ЭД. Гудмана и

37. А.П. Коваленко. Обозрение прикладной и промышленной математики. Серия "Методы оптимизации", Т.З, вып.5. Научное издательство "ТВП", Москва, 1997. С. 637-655.

38. Патрик Э.А. Основы теории распознавания образов. М.: Советское радио, 1980. 496с.

39. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981. 694с.

40. Фрумкина P.M. Цвет, смысл, сходство. Аспекты психолингвистического анализа. М.: Наука, 1984. 176с.

41. Чилингарян A.A. Развитие методов обработки данных в физике высоких энергий. От баз данных к базам знаний / Препринт Ереванского физического института 1327(22)-91. ЦНИИатомин-форм, 1991.

42. Эволюционные вычисления и генетические алгоритмы. Под ред. Э.Д. Гудмана и А.П. Коваленко. Обозрение прикладной и промышленной математики. Серия "Методы оптимизации", Т.З, вып.5. М.: Научное издательство "ТВП", 1997.

43. Aivazian S. Mixture-Model Cluster Analysis Using the Projection Pursuit Method. In Gainmerman A. (ed) Computational Learning and Probabilistic Reasoning, 277-286, John Willey, Chichester, 1996.

44. Bock H.H. Automatische Klassifikation. Theoretische und praktische Methoden zur Gruppierung und Srukturierung von Daten (Clus-teranalyse). Göttingen: Vandenlioeck&Ruprecht, 1974. 480 p.

45. Bock H.H. Probabilistic aspects in cluster analysis // Conceptual and numerical analysis of data. Ed. 0. Opitz. Berlin: Springer, 1989. P. 12-44.

46. Воск Н.Н. Probability Models and Hypotheses Testing in Partitioning Cluster Analysis // Clustering and Classification. Eds Arabie P., Hubert L.J., and De Soete G. World Scientific Publ., River Edge, NJ, 1996. P 377-453.59 6061