Математическое моделирование структур многомерных данных в классификационных задачах

Буховец, Алексей Георгиевич

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическое моделирование структур многомерных данных в классификационных задачах

доктора технических наук: Буховец, Алексей Георгиевич
город: Воронеж
год: 2006
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Математическое моделирование структур многомерных данных в классификационных задачах»

Автореферат диссертации по теме "Математическое моделирование структур многомерных данных в классификационных задачах"

На правах рукописи

Буховец Алексей Георгиевич

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ СТРУКТУР МНОГОМЕРНЫХ ДАННЫХ В КЛАССИФИКАЦИОННЫХ

ЗАДАЧАХ

Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук

Воронеж - 2006

Работа выполнена на кафедре высшей математики и теоретической механики Федерального государственного образовательного учреждения высшего профессионального образования "Воронежский государственный аграрный университет имени К.Д. Глинки"

Научный консультант: доктор физико-математических наук,

профессор Семенов Михаил Евгеньевич

Официальные оппоненты: доктор физико-математических наук,

профессор Покорный Юлий Витальевич

доктор технических наук, профессор Жак Сергей Вениаминович

доктор технических наук, профессор Кравец Олег Яковлевич

Ведущая организация: Центральный экономико-математический

институт РАН, г. Москва

Защита диссертации состоится 14 декабря 2006 г. в 13 - 30 на заседании диссертационного совета Д. 212.035.02 Государственного образовательного учреждения Воронежская государственная технологическая академия по адресу: 394017 г. Воронеж, проспект Революции, 19.

С диссертацией можно ознакомиться в библиотеке ГОУ ВГТА. Автореферат разослан & ноября 2006 г.

Ученый секретарь диссертационного совета

Хаустов И.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Задача построения различного рода классификаций привлекает внимание специалистов многих отраслей на протяжении ряда последних десятилетий. В нашей стране и за рубежом был опубликован ряд фундаментальных работ и монографий, посвященных исследованию и решению конкретных предметных проблем с использованием методов многомерной классификации, методологии решения задач типологии и классификации, методике применения кластерного анализа как такового.

К настоящему моменту развития этого направления дескриптивный подход к построению классификационных моделей стал в некотором роде уже каноническим и в основном себя исчерпал. Об этом можно судить хотя бы по тому факту, что практически все современные профессиональные системы статистической обработки данных, например, такие как STATISTICA, STATGRAPHICS, SPSS и др., включают в себя примерно один и тот же набор алгоритмов кластерного анализа, созданных в предыдущие десятилетия.

: Дальнейшее развитие этого направления, на наш взгляд, должно заключаться в разработке и'исследовании математических моделей механизмов формирования структуры многомерных данных, их эволюции и функционирования. Эта идея в том или ином виде уже была представлена в литературе, но обычно под этим понималась возможность оценить стохастическую природу данных. В отличие от этого подхода в работе предлагается рассматривать математические модели, представленные дифференциальными уравнениями или итерационными схемами. Предлагаемый подход позволяет проводить исследование построенной модели, устанавливать новые свойства решений задачи. В рамках такого подхода появляются определённые возможности в интерпретации результатов проведенной классификации. Наличие модели механизма порождения данных делает возможным использование классификационных результатов в качестве основы для дальнейшего прогноза и верйфи-кации различного рода гипотез.

Указанные преимущества предложенного подхода делают задачу разработки математических моделей классификации, учитывающих механизмы формирования структур многомерных данных, весьма перспективной и актуальной.

Тематика работы соответствует научным направлениям ФГОУ ВПО ВГАУ: «Построение и численная реализация новых математических моделей технологических и производственных процессов в АПК» № г.р. 01.200.1003987 и «Методы получения исходного материала и новых сортов озимой пшеницы и тритикале» № г.р. 01.200.1003984.

Цель работы. Разработка методологии построения и анализа математических моделей механизмов формирования кластерных структур многомерных данных, обеспечивающей решение классификационных задач в социальных, экономических, биологических и других предметных областях знаний.

Достижение сформулированной цели осуществляется посредством решения следующих задач:

• Разработка и исследование математических моделей механизмов формирования структур многомерных данных с учетом неоднородности признакового пространства.

• Разработка и исследование способов оценки структуры многомерных данных па базе анализа фрактальных размерностей данных.

• Создание моделей структур многомерных данных посредством итеративных функциональных систем и исследование их математических свойств.

• Разработка методики анализа и интерпретации результатов работы классификационных алгоритмов в рамках системного подхода, базирующейся на исследовании ранговых распределений.

• Разработка статистических процедур для оценки числа классов разбиений на основе результатов имитационного моделирования.

• Апробация выдвинутых предложений при изучении социальных, экономических, биологических и других объектов исследования.

Методы исследования. В работе используется общая методология математического моделирования сложных систем, последовательно проводится подход построения классификации на основе исследования структуры многомерных данных. Для этого используются методы математической статистики, теории дифференциальных уравнений, методы численного эксперимента и имитационного моделирования, теории фракталов.

Поскольку в области кластерного анализа не существует подходов, позволяющих получить аналитическое решение задачи, все предложенные процедуры и алгоритмы являются численными и имеют соответствующую машинную реализацию и программное обеспечение. На защиту выносятся:

• Методология моделирования классификационных задач, основывающаяся на исследовании механизмов формирования структурных особенностей многомерных данных.

• Методика сравнения структур данных на основе вычисления фрактальных размерностей многомерных данных, полученных в результате работы алгоритмов кластерного анализа.

• Методика моделирования структур многомерных данных с использованием результатов работы итеративных функциональных систем.

• Методика оценки числа классов в классификационном разбиении, основанная на результатах имитационного моделирования.

• Методика анализа и интерпретации результатов работы классификационных алгоритмов в рамках системного подхода, базирующаяся на исследовании ранговых распределений.

• Результаты применения предложенных методик в решении практических задач.

' Научная новизна. В работе представлены следующие новые научные результаты:

• Представлен новый методологический подход к задаче классификации, основанный на моделировании механизмов формирования структур многомерных данных.

• Разработана и исследована модель классификационной задачи, основывающаяся на предположении о неоднородности признакового

пространства: продемонстрированы возможности описания задачи классификации как задачи о нахождении собственных функций, соответствующих плотностям распределения отдельных классов,

• Разработан новый подход к анализу структуры многомерных данных как фрактальной структуры, продемонстрированы возможности формирования структуры данных в результате.выполнения итеративной процедуры.

• Возможности оценки результатов классификации и их интерпретации рассмотрены с точки зрения системного подхода, предложена методика оценки параметра рангового распределения методом имитационного моделирования.

• Предложен новый подход к оценке числа классов разбиения, основанный на методе имитационного моделирования, работоспособность которого продемонстрирована в ходе решения практических задач.

• Приведены результаты решения конкретных практических задач, основывающихся на предложенных методических разработках, в социологии, экономике, селекции и генетике.

Практическая ценность. Практическую ценность работы составляют результаты, полученные в таких предметных областях, как социология, моделирование экономических систем, а также моделирование в селекции и семеноводстве. . - -

В социологии - предложен новый подход к анализу эмпирической информации, позволяющий установить целостность и системность социально-экономических объектов.

В моделировании экономических процессов предложена модель оценки уровня сокрытия доходов физических лиц, модель формирования и функционирования теневой экономической деятельности.

. В селекции и семеноводстве предложена классификационная модель сортообразцов озимой пшеницы, представляющая практический интерес с точки зрения получения гетерогенных популяций с лучшими сочетаниями признаков.

- Петербург, 1999), на Международных конференциях «Математика. Образование. Экология. Тендерные проблемы» (Воронеж, 2000; Воронеж, 2003), на II Всероссийском симпозиуме по прикладной и промышленной математике (Самара, 2001; Петрозаводск, 2003), на Всероссийской научно

— практической конференции «Экономическое прогнозирование: модели и методы - 2004» (Воронеж, 2004), на Международной научно — практической конференции «Экономическое прогнозирование: модели и методы» (Воронеж, 2005), на Международной научно-практической конференции «Современные проблемы прикладной математики и математического моделирования» (Воронеж, 2005), на международной научно - практической конференции «Экономическое прогнозирование: модели и методы» (Воронеж, 2006).

Публикации. По теме диссертации опубликовано 78 работ. Основные положения диссертации представлены в монографии «Типология и классификация в социологических исследованиях». - М.: Наука, 1982, в журналах РАН и центральной печати, материалах международных конференций. Личный вклад автора представляют постановка задачи моделирования структур многомерных данных, подходы к её решению, анализ полученных результатов работы вычислительных алгоритмов.

Объём и структур» диссертации. Диссертация изложена на 259 страницах машинописного текста, состоит из введения, шести глав, 37 рисунков, 16 таблиц, заключения, списка литературы, включающего 162 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении раскрывается актуальность темы, формулируются цель и основные задачи исследования, приводится краткая характеристика диссертационной работы.

Первая глава носит обзорный характер и имеет целью дать общее представление о классификационной проблеме. В ней рассматриваются методологические аспекты использования классификационных моделей в прикладных задачах, анализируется словесно-смысловое описание классификационной задачи, приводится обзор математических подходов к формализации основных положений задачи классификации в рамках геометрического подхода. При этом основной упор делается на формализации таких понятий, как признаковое пространство, близость объектов в признаковом пространстве (функции расстояний), оценка качества классификации. Показывается, что различные классификационные критерии тесно связаны с определенными структурными особенностями многомерных данных, которые в той или иной мере имплицитно связаны с предположениями о порождении (генезисе) самих данных.

Приводятся описания алгоритмов кластерного анализа, отвечающие различным классификационным критериям, которые были использованы в данной работе при решении практических задач:

• Итеративные алгоритмы ("Форель");

• Иерархические алгоритмы;

• Алгоритм классификации, основанный на выделении локальных максимумов функции принадлежности;

• Градиентная процедура модального анализа.

Комплексное использование указанного набора классификационных процедур позволяет выделять классы различных структур. При этом все отобранные алгоритмы имеют один и тот же управляющий параметр, задаваемый пользователем, что в значительной мере упрощает сравнение результатов работы алгоритмов.

Проведенный обзор классификационной проблематики свидетельствует о том, что проблеме исследования механизмов формирования структур данных не уделяется должного внимания. В связи с этим в нашей работе предлагается рассмотреть два подхода к моделированию механизмов формирования структур многомерных данных. Первый связан с рассмотрением преимущественно внешних механизмов формирования как некоторой целостной совокупности. В этом случае структура может быть интерпретирована как реакция исследуемой системы на внешнее воздействие. Этот подход основывается на предположении о неоднородности признакового пространства, что находит своё выражение в модели посредством задания некоторого потенциала. Второй подход основывается на предположении о ведущей роли внутренних процессов формирования структуры исследуемого объекта, для моделирования которой предлагается использовать итерированные функциональные системы.

Вторая глава посвящена методическим вопросам оценки классификационных результатов и их интерпретации. Для этого проводится сравнительный анализ рассмотренных алгоритмов многомерной классификации как в теоретическом, так и прикладном плане. Теоретическое сравнение основывается на сопоставлении свойств и внутренних характеристик классификационных алгоритмов и имеет целью обеспечить качественное сравнение результатов их работы. Для проведения такого сравнения предлагается использовать понятие свойства допустимости, которое заключается в том, что алгоритм и производимое им разбиение обладают сформулиро-

ванным свойством. В работе рассматриваются такие свойства, как допустимость в классе образов, выпуклая допустимость, связная на заданном уровне допустимость, допустимости с точки зрения дублирования отдельных точек, классов, монотонная допустимость. Приводятся результаты выполненных сравнений, которые показывают, что для наиболее полного исследования структуры многомерных данных необходимо использовать набор алгоритмов, обладающих различными классификационными критериями.

Проведенное тестирование отобранных алгоритмов кластерного анализа наглядно демонстрирует как свойства работы алгоритмов, так и свойства получаемых классификационных разбиений. На основании проведенных сравнительных исследований алгоритмов предлагается методика комплексного использования классификационных алгоритмов в задачах типологического анализа.

Для определения числа классов в классификационном разбиении предложен подход, основанный на проверке статистической гипотезы. Суть подхода заключается в том, что сравниваются результаты применения алгоритма кластерного анализа к реальным эмпирическим данным с результатами применения того же алгоритма к данным, полученным в результате имитационного моделирования, которые не обладают какими-либо структурными особенностями. Другими словами, предполагается, что классификационная структура данных, выделенная в результате применения методов кластерного анализа, не может быть получена за счёт случайного отбора единиц наблюдения из однородной совокупности. В качестве статистического критерия для полученного разбиения вычислялась следующая статистика:

5 =

О)

1=1

на основании плотности распределения которой строится критическая область.

В формуле (1) приняты следующие обозначения:

я, - численность; - го класса; п = ^п. - объём выборки;

к - число классов; р — размерность признакового пространства; Х) ) - (- й объект у -го класса;

— 1 А

X. = — 2_.Х,, - среднее значение / - го класса (центр тяжести класса);

Х =—УУУ'Хи -среднее выборочное значение (центр тяжести данных),

р(Х1,Х/) - евклидово расстояние между объектами Х) и X,, определённое в пространстве размерности р.

По результатам применения алгоритма кластерного анализа к смоделированным случайным данным строилась гистограмма распределения статистики 5, которая затем аппроксимировалась некоторым стандартным распределением. Для полученного распределения определялись верхний и нижний квантили стандартного 5% уровня, которые принимались за границы критической области при тестировании соответствующей статистической гипотезы.

Примеры использования предложенных подходов к построению различного рода классификаций приведены в шестой главе.

В третьей главе классификационная задача рассматривается с точки зрения основных положений системного анализа. Показано, что представление многомерных данных как отображения некоторой системы связано с наличием в классификационном разбиении такого рангового распределения объектов, на котором выполняется закон Ципфа. Для практических задач была рассмотрена наиболее простая форма закона > '

где / = 1, 2, ...К ранг (порядковый номер) класса;

С - постоянная величина, обычно равная объёму наибольшего (модального) класса (N «'/,);

п, - объём (численность, частость) класса /'- го ранга;

а - некоторая постоянная положительная величина, обычно не превосходящая единицы.

На основании исследования механизмов формирования ципфовых распределений, приведенных в работе, делается вывод, что выполнение ципфового распределения является необходимым условием системности рассматриваемой совокупности объектов.

Для проверки выполнения распределения Ципфа на классификационном разбиении предлагается использовать метод статистических испытаний, который заключается в том, что с помощью датчика случайных чисел строится разбиение множества на заранее заданное число классов, численности которых распределены в соответствии с равномерным распределением.

Совместное ранговое распределение

зг ........——-—.—....................... ■ . ■ |

28 24

го

Рис. 1. Пример рангового распределения, на котором выполнение закона Ципфа подтверждено методом стохастического моделирования (ось абсцисс - ранги классов; ось ординат - численности классов)

Объёмы классов, выраженные в процентах, затем ранжируются, и для рангового распределения производится оценка параметров уравнения 1п(т?, ) = 1пС + ^1п(г), полученного логарифмированием формулы закона Ципфа. Оценка значения параметра у в дальнейшем рассматривается как случайная величина. На основании результатов эксперимента затем подбирается функция плотности распределения оцениваемого параметра. Задаваясь уровнем значимости, определяется критическая область для проверяемой статистической гипотезы. На рисунке 1 представлены результаты проверки выполнения рангового распределения, полученного в ходе решения задачи о построении типологии увольняющихся. Более подробно эта задача рассматривается в шестой главе.

В четвёртой главе классификационная задача рассматривается в условиях, предполагающих наличие неоднородности признакового пространства. Показано, что при некоторых предположениях относительно локального характера взаимодействия объектов и потенциала, характеризующего неоднородность признакового пространства, состояние системы может быть описано уравнением типа уравнения Шрёдингера.

Для этого рассмотрим систему объектов, представленных в виде точек р-мерного признакового пространства, в котором определен некоторый потенциал U =U{x), где через х обозначены координаты точки в признаковом пространстве. Распределение точек будет характеризоваться некоторой, вообще говоря, комплекснозначной функцией Ч^*,/). Зафиксируем х0 -точку пространства, соответствующую некоторому объекту системы, и выделим элементарный объем признакового пространства в виде куба с ребром Дл'0 и центром в точке ,vn. Допустим, что при малых отклонениях объекта от положения х0 в системе возникает некоторое противодействие этому отклонению.

Раскладывая функцию Ч'(х,0 в указанной точке в ряд Тейлора и ограничиваясь первыми двумя членами разложения с последующим усреднением по выделенному объему, можно разность между средним значением функции Ч* и значением функции в этой точке '-И0 представить в следующем виде:

= = (3)

»-I ОХ

где С- некоторая константа, определяемая размерностью пространства я и величиной Длг(). Предположим, что величина этого отклонения компенсируется реакцией системы на изменения значений признаков объекта, которая может быть представлена в виде (£,-С)1Р, где {/ = £/(*)- ранее введенный потенциал, ¿'- величина, играющая роль энергии движущейся точки. Введенное в рассмотрение соотношение означает, что энергия движущейся точки уменьшается действием сдерживающего потенциала 1/{х). Тогда изменение положения точки в признаковом пространстве может быть представлено в виде суммы двух слагаемых

СУ2Ч' + (£;-1/)Ч' = 0. (4)

Полученное соотношение характеризует изменение величины функции Ч*, которое вызвано смещением объекта, находящегося в точке д:0, за счет изменения координат точки в признаковом пространстве и выражает условие сохранения системы. Однако при этом следует принять во внимание, что при изменении положения объекта в признаковом пространстве может меняться не только абсолютная величина смещения, но и направление смещения. Будем считать, что поворот вектора, характеризующего направление смещения, может быть учтен введением сомножителя , который, очевидно, не изменяет абсолютной величины смещения. В этом случае функция Ч'(л-,0 = ф(.г)<?~'"г~';)' будет представлена в виде произведения двух сомножителей, один из которых связан с положением точки в пространстве и зависит только от .х, а другой характеризует изменение смещения, вызванное реакцией системы на происходящее изменение. Тогда изменение функции ^(х,/), вызванное изменением положения объекта во времени, можно представить так:

^ = = Ч(Е- и)<р(х)е

,-ПЕ-и)1

-¡(Е-ЩЧ1, (5)

или

— + 1{Е-и)Ч> = 0.

д(

(6)

Умножая обе части соотношения на получим

сП1

~+|(е-а)ч' = о.

(7)

Полученное равенство выражает условие эволюции системы во времени.

Полагая, что изменение состояния системы в признаковом пространстве соответствует изменению системы во времени, получим уравнение, описывающее состояние системы в рассматриваемой точке

Таким образом, локальное состояние системы в признаковом пространстве описывается операторным уравнением

Квадрат модуля функции состояния системы, являющейся решением этого уравнения, интерпретируется как оценка плотности распределения объектов в признаковом пространстве. Решение введенного в рассмотрение уравнения может быть представлено в виде ряда по собственным функциям задачи, которые соответствуют отдельным классам, выделяемым алгоритмами кластерного анализа. При этом квадраты модулей коэффициентов разложения интерпретируются как интенсивности классов, т.е.

г — = СУ2Ч> + 2(Е - иу¥.

дг

(8)

(9)

где И = СУ2 + 2(Е - СУ) - оператор.

величины, пропорциональные их численностям. Таким образом, показано, что задача классификации может быть сведена к задаче о собственных функциях уравнения, описывающего состояние системы. В этой же главе приводятся модельные примеры, демонстрирующие возможности предлагаемого подхода. Для построения оценки Ч1- функции предлагается использовать корневой метод, основанный на ортогональном разложении оцениваемой функции.

Пятая глава посвящена рассмотрению структуры многомерных данных как некоторого фрактального образования. Показывается, что структурные особенности, о которых шла речь в первой главе, могут быть рассмотрены как аттракторы некоторых дифференциальных уравнений или разностных схем. -

Сравнение структур многомерных данных предлагается проводить на основе вычисления фрактальных размерностей этих данных. Рассматриваются фрактальные размерности Минковского DF, информационная £>,, корреляционная Dc:

ln(S(6)) К 5) л*5>

l'li) I ' /f5;=-Z р \ър (10)

Dc= Un, /;'(Cf)}, где C(¿) = -L ± a„(S-p{X X )). o

Здесь Б{6) - минимальное число п- мерных сфер радиуса б, необходимых для покрытия фрактала, р. - количество (относительное) объектов, находящихся в сфере радиуса <5; /(<5)- количество информации, необходимое для определения состояния системы в пределах точности б; о~,,(0 - единичная функция Хевисайда; р{^ХпХ ^ - расстояние между точками Х1 и Х1 в выбранной метрике пространства. В работе показывается, что все указанные выше размерности отражают различные структурные

особенности многомерных данных и могут быть объединены в рамках семейства размерностей Реньи.

Для моделирования фрактальных структур многомерных данных предлагается использовать следующую процедуру:

Пусть в признаковом пространстве Лр определено некоторое множество точек Ж = , которое в дальнейшем будем называть протофракта-лом.

1. В признаковом пространстве произвольным образом определяется точка Хй&Яр.

1. С помощью датчика случайных чисел определяется номер точки

и вычисляются координаты новой точки Л', = (.*,,,дг12>.по следующей формуле:

xaj+(K-P)*y*zRJ \ + (К-Р)*/л

0 = 1, ~.,Р) (il)

где К — число точек протофрактала; Р — размерность признакового пространства, /.I - некоторый масштабный коэффициент, характеризующий самоподобие структуры.

3. В дальнейшем точка X, принимается за исходную, а затем пункт 2 повторяется столько раз, сколько точек необходимо получить. В результате применения такой процедуры будет получено множество точек £■„ = {Х1,Хг,..:,Х1}, которое будем называть предфракталом.

Рассмотренная выше процедура может быть отнесена к классу рандомизированных итерированных функциональных систем, т.н. IFS (Iterated Function System), в которых фракталы порождаются детерминированными правилами, выполняемыми случайным образом. Полученное в результате выполнения этой процедуры множество называют аттрактором системы. Основные свойства предложенной процедуры.

1. Неподвижные точки X' этого преобразования можно определить исходя из равенства

1 + /с

где к = (К - Р)/1. Очевидно, что в качестве неподвижной точки преобразования (при 0) может выступать любая точка протофрактала {■£,}"_,• Нетрудно видеть, что эти точки будут устойчивыми при выполнении условий: АГ-Р>0,//>0.

2. Зависимость построенной структуры от значений параметра /./ можно оценить, рассмотрев следующее соотношение:

111Т1.Т,. = 111X1-=-— = *„., (13)

т.е. будет наблюдаться сходимость к одной точке.

В случае неограниченного увеличения значения параметра // предельные точки будут совпадать с точками исходного протофрактала 7, Т.К.

04)

и 1 +(К-/>)*//

При промежуточных значениях // можно наблюдать, что каждая исходная точка становится основанием некоторой реплики, вокруг которой формируется группа точек, воспроизводящая структуру исходных данных. Причем исходная точка, вокруг которой формируется новая структура, занимает в последней то же самое положение, какое она занимала в исходной. Другими словами, отчётливо наблюдается самоподобие генерируемой структуры. Па рисунке 2 представлена зависимость результатов выполнения процедуры от значений параметра к, а точнее, поскольку в задаче фиксированы значения К=30 и Р=2, то от значений параметра //.

«3«

зг"

031

«<'0

к = 0.6

к = 3

С13 •••

-1—

гоз(|> ,х:( к = 12

•» « * и

к = 42

Рис. 2. Зависимость результатов выполнения процедуры от параметров

Исследование сходимости предложенной процедуры приводится в одномерном случае. Пусть Л',, ={*<,} - начальная точка процедуры. Тогда

х„+/<4" 1 Л. где ^ = "ГТ' = + * = ~Р>;

1 + Л

■V,=~~~=-гт<^+=где = *43); 1 + к 1 + /с

•V, = + я,) + я2) +.....+ а,.,).

Полученное выражение представляет собой не что иное, как запись схемы Горнера для многочлена р-й степени от переменной 4 (без свободного члена) с коэффициентами а ,,а 2,...,а0, которые представляют собой случайным образом выбранные из совокупности точек протофрактапа 2 = {г^}^^ на /'-ом шаге, умноженные на коэффициент к, т.е. я, = кг'^, / = 1 а0 = х0 + кг^. Другими словами, имеет место следующее равен-

ство:

= а0Г + +... + = ££ . (15)

Или если изменить порядок суммирования и нумерацию коэффициентов {Ь, = я / = 1,...,/5-1), то можно записать полученный многочлен в порядке возрастания степеней

(=0 1 + К ¡-О 1+К (=0

где М = тах|г5,''|.

Тогда, рассматривая .г как частичную сумму ряда, обозначим

/«- ' 1 + ки 1 + к ¿Г

и учитывая, что £ = —-—, 0<£<1, получаем, что предельное значение 1 + к

х' представляет собой сумму абсолютно сходящегося степенного ряда, мажорируемого рядом, который является бесконечно убывающей геомет-

х ^ ( IV 1 + к

рической прогрессией. Ряд ^Г^' - =——, а значит, х" <М.

ыо .=<А 1 + ^ У ^

Для х' можно получить более точную оценку, перегруппировав члены ряда

или '

(16)

к К где«, =-—причем а, >0,^«,. = 1.

1 + Л с

Следовательно, предельное значение ж* является, во-первых, конечным значением, а во-вторых, представляет собой выпуклую линейную

комбинацию точек протофрактала 7, = • Это будет означать ограниченность множества получаемых точек.

Полученное соотношение показывает, что ха, входящее в коэффициент при наивысшей степени переменной £, с увеличением степени оказывает всё меньшее и меньшее влияние на предельное значение. Другими словами, предельное значение х практически не зависит от первоначально выбранного значения ха. Этот факт неоднократно отмечался в литературе. ■

Очевидно, что значение х" будет зависеть от порядка появления точек протофрактала Z = {Zl}*t в ходе выполнения процедуры, поскольку значения а следовательно, и величины ег( определяются индексом /. Таким образом, возможные значения точки х' в конкретном выполнении процедуры можно рассматривать как значения выпуклой линейной комби-

нации, коэффициенты которой а, представляют собой случайные величины.

Обобщая полученные выводы, можно сказать, что по сути дела построение предфрактала при заданном множестве Ъ = {2,}*, посредством

предложенной процедуры можно свести к выполнению следующих действий:

1. Вычислению конечного числа Л" случайно взятых слагаемых из абсо-

00 ( 1 V

лютно сходящегося ряда вида УЧ- , т.е. вычислению матрицы

А = А,м где N — число требуемых точек предфрактала, К — число точек

протофрактала. Правило отнесения /-го члена ряда к какому-либо слагаемому может быть, вообще говоря, любым. В численных экспериментах, проводимых нами, обычно использовалось равномерное распределение, т.е. предполагалось, что все члены ряда имеют одинаковую вероятность быть включенными в сумму любого слагаемого. Впрочем, нетрудно организовать и любое другое соотношение вероятностей.

2. Полученная в результате вычислений матрица умножается на матрицу = р > ГДС Р - размерность признакового пространства. Результат

произведения - матрица X = А*X будет представлять собой список координат точек предфрактала в заданном пространстве. Таким образом, если организована матрица А = к, то построение нового предфрактала, полученного за счёт изменения конфигурации Кшожества 2 = при сохранении его численности, не вызывает особых затруднений и не требует повторения всей процедуры в целом.

Одной из основных проблем, связанных с вычислением фрактальной размерности, является построение покрытия исходного фрактального множества минимальным числом сфер заданного радиуса д. Обычно эта проблема решалась путём замены сфер заданного радиуса кубиками с ребром 3, т.е. практически путем замены одной метрики на другую. Для вычисления фрактальной размерности совокупности анализируемых данных

нами предлагается методика, основанная на использовании результатов выполнения алгоритма «Форэль». В работе приводятся результаты машинных экспериментов по вычислению и сравнению указанных выше фрактальных размерностей. Генерирование данных, обладающих фрактальной структурой, выполняется посредством специальной итерированной процедуры. Приводится доказательство её сходимости и фрактапыюсти получаемых в результате выполнения данных.

Шестая глава содержит результаты практического использования представленных в первых главах техник и методик решения классификационных задач. Все результаты носят характер законченных исследований и имеют определенную практическую и методическую ценность.

В задаче о прогнозировании урожайности сельскохозяйственных культур показывается, что улучшить качество регрессионной модели удается только после того, как учтены результаты классификации сельских хозяйств. Классификационные результаты были представлены в виде номинальных признаков, которые в регрессионной модели были использованы как фиктивные (dummy) переменные. Такой подход позволяет значительно повысить надежность получаемых выводов и обеспечивает хорошую интерпретируемость результатов.

Вторая рассматриваемая задача связана с построением типологии увольняющихся методами многомерной классификации и оценкой системности исследуемой совокупности. Входной информацией для построения классификации послужили данные анкетного опроса увольняющихся с промышленных предприятий г. Улан-Уде, проведённого в 1977г. Весь массив исходных данных был предварительно разбит на две группы. Первая группа характеризовалась территориальной стабильностью, а вторую группу составили анкеты респондентов, поведение которых характеризовалось территориальной мобильностью. Исходные данные сформированных таким образом групп обрабатывались первоначально отдельно. В качестве признаков, образующих пространство, в котором проводилась классификация, были выбраны такие переменные, как возраст, образование, длительность проживания респондента в данном населённом пункте, а также уровень жизни в районах рождения, получение образования, выбы-

тие и предполагаемое вселение. Ряд других показателей, такие, например, как, стаж работы на предприятии, использовались только на стадии интерпретации классификационных разбиений.

Применение методики последовательного использования алгоритмов кластерного анализа, представленной во второй главе, позволяет получить хорошо интерпретируемые классы в совокупности увольняющихся. Использование методики, представленной в третьей главе, позволяет установить, что закон Ципфа выполняется только на ранговом распределении, соответствующем всей совокупности увольняющихся (см. рис.1), и не выполняется на других отдельно рассматриваемых подмножествах — ранговые распределения этих подмножеств не являются значимо отличными от равномерного распределения на стандартном 5% уровне. Такой результат позволяет прийти к выводу о целостности и системности исследуемой совокупности объектов.

Задача об оценке скрытых доходов физических лиц рассматривается как пример решения классификационной задачи в условиях неоднородности признакового пространства. В статье С.А. Айвазяна "Модель формирования распределения населения России по величине среднедушевого дохода (экспертно-статистический подход)" (Экономика и математические ме-тоды.-1997,-Т. 33, вып.4.-С.74-86) приведены результаты анализа статистических данных и экспертных оценок, на основании которых было выделено пять классов (страт - следуя терминологии источника). Эти классы различаются как по социальному составу, так и уровню доходов. Удельные веса выделенных классов равнялись 39%, 40%, 17%, 3,97% и 0,03%, а среднедушевой доход в каждом из этих классах соответственно составил 350, 700, 1640, 1200 и 120000 тыс. руб.

В рамках предложенной в главе 4 модели были проведены расчеты, целью которых было получение выделенной структуры распределения населения России по среднедушевому доходу. Для этого каждый индивид (физическое лицо - с точки зрения налоговых органов) был представлен объектом в одномерном признаковом пространстве, в качестве координаты которого выступает доход этого индивидуума. Возможность получения дохода определяется, с одной стороны, его активностью (обозначим эту

величину через Е), ас другой стороны, сдерживается проводимой фискальной политикой. Это сдерживающее ограничение в модели будет выполнять функция потенциала и (х).

В рассматриваемый период налогообложение физических лиц проводилось в соответствии с прогрессивной шкалой - величина налога изменялась от 12 до 35% по мере возрастания среднемесячного дохода. Эти величины были использованы в качестве значений потенциала. Учитывая, что распределения всех классов описывались логарифмически — нормальным законом, все построения, связанные с потенциальной функцией и получаемым решением, проводились в логарифмической шкале.

Для нахождения распределений классов было использовано одномерное стационарное уравнение Шредингера, которое в данном случае имело вид

—С-у- + 1/(лг)Ч' = £4*, (17)

ах

где С - константа, характеризующая однородность признакового пространства. В наших расчётах эта величина была принята равной 75,9 тыс. руб. и соответствовала усредненной величине минимальной месячной оплаты труда, 11(х) - функция потенциала, указанная ранее, Е - величина, характеризующая активность объекта, Ч'(дг) - функция состояния системы.

Была рассмотрена модель бесконечно глубокой ямы, поскольку, с одной стороны, величина дохода не может принимать отрицательных значений, а с другой - величины 11(х) порядка е7" « 4 ■ 10й минимальных месячных оплат труда (ММОТ). Такой доход, согласно официальным данным Госкомстата РФ, сопоставим с общими денежными доходами населения страны в сентябре 1996 г., составившими 116 трл. руб., и вряд ли мог быть получен в качестве дохода физическим лицом.

Для решения задачи дифференциальное уравнение было заменено конечно-разностной схемой

Учитывая граничные условия Ч'0 =4'^ =0, определённые формой заданного потенциала, получим систему однородных линейных уравнений, которую можно представить в матричном виде (54* = ЕШ, где (7 - трёхдиа-тональная матрица, соответствующая левой части разностного уравнения. Полученная однородная система линейных уравнений будет иметь нетривиальные решения только при значениях Е, являющихся собственными значениями матрицы б.

Отметим, что задача восстановления потенциала относится к классу некорректно поставленных. Для её решения необходимо знание собственных значений задачи, которые не были известны. Поэтому для восстановления потенциала использовался прямой метод подбора. Качество подгонки оценивалось по максимальному значению величины относительного отклонения в узлах сеточных функций и составляло от 2 до 7 %.

Расчёт плотностей распределения классов, выполненный в предположении, что потенциал имеет форму, соответствующую нормативной схеме налогообложения, не позволяет получить распределение, представленное в указанной выше статье. Это, на наш взгляд, является следствием того, что в реальности вся схема налогообложения носила другой характер, а именно, имела место ситуация, представленная на рисунке 3 пунктирной линией.

Анализ полученных значений потенциала показывает, что его величина в области малых и средних доходов соответствовала нормативам налогообложения физических лиц. В области больших и сверхбольших доходов такое соответствие отсутствует. Используя полученные результаты значений и(х), можно оценить суммарную величину необъявленных (скрытых) доходов. Согласно нашей модели эта величина составляет 82,5% против 54%, указанных в цитируемой работе.

Возможно, расхождение вызвано неточностями в оценках и в уточнении нуждаются значения численностей доходных групп и величина минимальной месячной оплаты труда. Отметим, что в рамках предлагаемого подхода появляется возможность оценить величины скрытых доходов в отдельности по каждому из выделенных классов.

Рис. 3. Сплошной линией представлен потенциал, соответствующий нормативным актам, пунктирной - потенциал, предполагаемый в модели (ось абсцисс — логарифм дохода; ось ординат — процентная ставка налогообложения)

Дальнейшее обобщение предложенного подхода позволяет сформулировать модель функционирования теневой экономической деятельности, в рамках которой на качественном уровне можно дать объяснение механизмов функционирования теневой экономики и оценить последствия её устранения.

Заканчивается глава рассмотрением задачи построения классификационной модели сортообразцов мягкой озимой пшеницы. По данным, полученным в ходе полевых испытаний 249 сортов озимой пшеницы за три года исследований (2001 -2003 гг.) методом последовательной дихотомии, были выделены классы, которые характеризуются уникальными значениями отдельных признаков, т.е. была определена внутривидовая структура коллекции исходного материала.

В качестве основной процедуры кластерного анализа использовался алгоритм к-средних. Расстояния между объектами в признаковом пространстве определялись как невзвешенное евклидово расстояние. Критерий прекращения дальнейшего разделения класса был выбран в соответствии с предложенной в главе 2 методикой. Для этого моделировались дан-

ные, которые не обладают структурой, но имеют такие же, как и реальные данные, дескриптивные статистики.

В результате были сформированы классы, изменчивость признаков в которых уменьшается, и, следовательно, возрастает однородность попавших в них генотипов. Выделенные классы характеризуются уникальными сочетаниями значений признаков сортов с учетом влияния на них внешней среды. В дальнейшем предполагается, что в качестве родительских компонентов для скрещиваний будут использованы образцы из разных структурных групп; а также образцы, реакция генотипа которых на среду различна или уникальна.

В Заключении сформулированы полученные результаты и приведены основные выводы:

• Разработана модель классификационной задачи, учитывающая неоднородность признакового пространства за счёт введения в рассмотрение потенциала. Показано, что при выполнении довольно общих предположений распределение элементов системы в признаковом пространстве может быть описано уравнением типа уравнения Шрёдингера. Интегрирование этого уравнения, при накладываемых на функцию состояния естественных ограничений конечности и непрерывной дифференцируемое™, позволяет объяснить наличие устойчивых состояний в системе объектов. Эти состояния в дальнейшем соотносятся с эмпирическими классами, выделяемыми алгоритмами кластерного анализа.

• Представлена методика сравнения структур многомерных данных на базе вычисления их фрактальных размерностей. Для исследования структурных параметров предлагается применить метод статистических испытаний. Это приводит к тому, что фрактальная размерность рассматривается уже не только как предел некоторой порождающей процедуры, но и как некоторая случайная величина, значение которой предстоит оценить в результате проделанных вычислений.

• Разработана и исследована процедура генерирования многомерных данных, обладающих фрактальной структурой. Доказана сходимость этой процедуры и фрактальность получаемых в ходе ее реализации многомерных данных.

• Разработана методика анализа и интерпретации результирующего разбиения, базирующаяся на исследовании рангового распределения. Показано, что использование имитационного моделирования позволяет установить выполнение закона Ципфа и ответить на вопрос о целостности рассматриваемой совокупности. Пригодность процедуры к практическому использованию продемонстрирована на решении конкретной содержательной задачи построения типологии увольняющихся,

• Предложена процедура оценки числа классов в результирующем разбиении, основанная на проверке статистической гипотезы. Нулевая гипотеза формулируется как гипотеза об отсутствии в данных какой-либо структуры. В качестве данных, соответствующих нулевой гипотезе, используются многомерные данные, имеющие нормальное распределение. Пригодность процедуры к практическому использованию продемонстрирована на решении конкретной содержательной задачи построения классификационной модели сортообразцов озимой пшеницы.

Таким образом, в настоящей работе представлены методологии построения и анализа математических моделей механизмов формирования кластерных структур многомерных данных, продемонстрирована её работоспособность и практическая целесообразность при решении классификационных задач в различных предметных областях.

Основные положения, выводы, результаты отражены в следующих публикация!автора:

1. Буховец А.Г. Зависимость выбора алгоритма классификации от гипотезы о характере распределения объектов в признаковом пространстве [Текст] / А.Г. Буховец// Типология и классификация в социологических исследованиях.-М.: Наука, 1982.-С. 143-179.

(Typologie a klasifikace v sociologickych vyzkumech // Praha: Nakladatel-stvi svoboda, 1989.)

2. Буховец А.Г. Квантово-механическая интерпретация задачи многомерной классификации [Текст] / А.Г. Буховец // Обозрение прикладной и промышленной математики. - М., 2001. - Т.8, вып.1. - С. 120-121.

3. Буховец А.Г. Модель классификационной задачи [Текст] / А.Г. Буховец И Вестник. Научно-технический журнал Воронежского государственного технического университета. — Воронеж, 2002. — С. 40-45.

4. Буховец А.Г. Определение фрактальной размерности данных в задачах многомерной классификации [Текст] / А.Г. Буховец, М.Е. Семёнов // Обозрение прикладной и промышленной математики. - М,, 2006. — Т. 13, вып.1.,-С. 86.

5. Буховец А.Г. Классификационная задача как задача системного анализа [Текст] / А.Г. Буховец // Вестник ВГУ, серия «Системный анализ и информационные технологии». - 2006. — № 1. - С. 42 - 50.

6. Буховец А.Г. Системный подход и ранговые распределения в задачах классификации [Текст] / А.Г. Буховец // Вестник ВГУ, серия «Экономика и управление». - 2005.-№ 1. - С. 130-142.

7. Павлюк Н.Т. Анализ сопряженности элементов продуктивности у сои [Текст] / Н.Т. Павлюк., Т.Г. Ващенко, А.Г. Буховец И Селекция и семеноводство.-2004.-№ 1.-С. 10-12.

8. Буховец А.Г. Классификационная модель сорТобразцов озимой пшеницы [Текст] / А.Г. Буховец, Т.Г. Ващенко, Н.Т. Павлюк, И.А. Русанов, Г.Г. Голева// Селекция и семеноводство. — 2005. -№ 4.- С. 12 - 15.

9. Буховец Air. Об одном подходе к задаче классификации [Текст] / А.Г. Буховец // Социология: методология, методы, математические модели.-2004. -№ 18.-С. 82-105.

10.Буховец А.Г. Системная интерпретация результатов классификации [Текст] / А.Г. Буховец // Социология: методология, методы, математические модели. - 2006. - № 22. - С. 114-144.

11.Буховец А.Г // Модель развития овражной эрозии, учитывающая струк-Typiibie изменения [Текст] / А.Г. Буховец, В.В. Адерихин // Обозрение прикладной и промышленной математики. - 2003. - Т. 10, вып.2. - С. 450-451.

12.Буховец А.Г. Моделирование теневой экономической деятельности [Текст] / А.Г. Буховец // Дифференциальные уравнения. — 2006. - № 11. - С. 43-47.

13.Буховец А.Г. Математическая модель механизма функционирования теневой экономической деятельности [Текст] / А.Г. Буховец, М.Г. Мат-

, веев // Вестник Воронежского государственного технического университета. - 2006. - Т. 2, № 5. - С. 9 - 17.

14-Шапошник A.B. Селективность полупроводниковых сенсоров с мембранными покрытиями [Текст] / A.B. Шапошник, Н.С. Демочко, А.Г. Буховец, В.В. Котов, C.B. Рябцев // Сорбционные и хроматографиче-ские процессы.-2005.-Т.5, вып. 5. - С. 712-718.

15.Кузнецов В.В. Моделирование процессов при проектировании зерноочистительного оборудования [Текст] / В.В. Кузнецов, А.Г. Буховец, A.B. Шмидт И Тракторы и сельскохозяйственные машины. -1997,- №2,-С. 28-30.

16.Буховец А.Г. Алгоритм классификации, использующий понятие нечеткого множества и его применение [Текст] t А.Г. Буховец, А.Г. Кузнецов, A.C. Соловьёв, A.C. Разгонер // Опыт применения ЭВМ в социологических исследованиях. - М.: ИСИ АН СССР, 1977. - С. 91-100.

17.Буховец А.Г. Кластерный анализ как метод решения классификационной задачи [Текст] / А.Г. Буховец // Вестник факультета прикладной математики и механики. Вып.2. - Воронеж: ВГУ, 2000. - С. 248-253.

18.Буховец А.Г. Пакет программ многомерной классификации [Текст] / А.Г. Буховец, И.Н Рысков // Всесоюзная школа "Программно-алгоритмическое обеспечение многомерного статистического анализа". -Ереван, 1979.-С. 183-184.

19.Буховец А.Г. Стратегия использования методов многомерной классификации при изучении социально-экономических процессов [Текст] / А.Г. Буховец, В.М Гаськов II Математико-статистические методы анализа в социологических исследованиях. - М.: ИСИ АН СССР, 1980. - С. 27-36.

20.Буховец А.Г. Использование методов многомерной классификации при построении типологии [Текст] / А.Г. Буховец // Социальные проблемы рационального соотношения профессиональных и семейно-бытовых функций женщин. - М.: ИСИ АН СССР.1980.-С. 167-174.

21.Буховец А.Г. Изучение трудовой мобильности методами многомерной классификации [Текст] / А.Г. Буховец, В.М Гаськов // Проблемы воспроизводства и миграции населения. - М.: ИСИ АН СССР, 1981. -С. 215-228.

22.Буховец А.Г. Последовательное применение алгоритмов многомерной классификации [Текст] / А.Г. Буховец // Многомерный анализ социологических данных (методические указания, алгоритмы и описания программ) -М.: ИСИ АН СССР, 1981.-С. 24-73.

23.Буховец А.Г. Сопоставление результатов исследования социально-экономических объектов при использовании алгоритмов классификации [Текст] / А.Г. Буховец, A.C. Соловьёв // Проблемы сравнительных социологических исследований. - М.: ИСИ АН СССР, 1982. - С. 32-33.

24.Буховец А.Г. Использование принципов системного подхода при построении типологий [Текст] / А.Г. Буховец // И Всесоюзная конференция «Системное моделирование социально-экономических процессов», 4.1, - Таллин, 1983. - С. 24-26.

25. Курносов А.П. Дискретно-непрерывная модель урожайности [Текст] / А.П. Курносов, А.Г. Буховец, В.В. Давние, Р.У. Рахметан И Математические методы управления сложными системами и их приложения. Всесоюзная конференция. - М., 1984. —С. 121 — 123.

26.Буховец А.Г. Использование ранговых распределений при интерпретации результатов кластерного анализа [Текст] / А.Г. Буховец, A.C. Соловьёв // Методы социологических исследований. 3-я Всесоюзная конференция. - Вып. III. - М., - 1989. - С. 6-7.

27.Буховец А.Г. Построение дерева принятия решения для классификации объектов [Текст] / А.Г. Буховец, A.C. Соловьёв // Методы социологических исследований. 3-я Всесоюзная конференция. — Вып. III. — М., 1989. -С. 7-9.

28.Буховец А.Г. Об интерпретации результатов математической обработки данных социологических исследований [Текст] / А.Г. Буховец // Математические методы и модели в социологии. - Вып.2. - ИСИ АН СССР, 1991.-С. 36-42.

29.Курносов А.П. Об одном подходе к моделированию урожайности [Текст] / А.П. Курносов, А.Г. Буховец, В.В. Давние, Р.У. Рахметан И Оптимизация размещения, специализации и концентрации сельскохозяйственного производства: Сб. науч. трудов. - Воронеж, 1984. - С. 111 -117.

30.Буховец А.Г. Критерий системности социально-экономических объектов [Текст] / А.Г. Буховец, A.C. Соловьёв // Математические методы в социологических исследованиях. - М.: ИСИ АН СССР, 1984.- С. 28-36.

31.Буховец А.Г. Структурные особенности ципфовских распределений [Текст] / А.Г. Буховец // Информационные технологии в учебном процессе и НИР. - Воронеж: ВГАУ, 1995.- С. 289-294.

32. Буховец А.Г. // О механизме формирования ципфовских распределений при моделировании урожайности зерновых культур [Текст] / А.Г. Буховец, С.Н. Дементьев, Л.П. Яновский, Т.Е. Хоршева// Труды III Международной конференции «Математика. Компьютер. Образование». - М., 1996.-С. 71-76.

33. Адерихин В.В. Использование методов многомерного статистического анализа для оценки антропогенного воздействия на природную среду [Текст] / В.В. Адерихин, А.Г. Буховец, В.М. Смольянинов И Международная конференция «Экология. Экологическое образование. Нелинейное мышление». - Воронеж, 1997. - С. 48-49.

34.Буховец А.Г. Об одном подходе к задаче классификации [Текст] / А.Г. Буховец // Международная конференция «Экология. Экологическое образование. Нелинейное мышление». - Воронеж, 1997. - С. 49-50.

35.Буховец А.Г. Задача классификации как задача о собственных значениях [Текст] I А.Г. Буховец II Математическое моделирование систем. Труды Всероссийской конференции. - Воронеж, 1998. — С. 68-70.

36. Адерихин В.В. Анализ антропогенного воздействия на природную среду с помощью методов многомерного статистического анализа [Текст] / В.В. Адерихин, А.Г. Буховец, В.М. Смольянинов II Экология. Экологическое образование. Нелинейное мышление: труды III международной конференции. - М., 1998. - С. 25-29.

37.Адерихин В.В. Математическая модель определения допустимой антропогенной нагрузки на природную среду [Текст] / В.В. Адерихин, А.Г. Буховец, В.М. Смольянинов // Математика. Экономика. Экология. Образование. VII международная конференция. — Ростов-на-Дону, 1999. -С. 137-139.

38.Буховец А;Г,- Моделирование классификационной задачи [Текст] / А.Г.

, Буховец// Средства математического моделирования. Вторая международная конференция.-С.-Петербург, 1999.-С. 162-163.

39.Буховец А.Г. Модель классификационной задачи [Текст] / А.Г. Буховец // Математика. Образование. Экология. Тендерные проблемы: материалы международной конференции. - Воронеж, 2000. — С. 60 -61.

40.Буховец А.Г. О форме потенциала в задаче классификации [Текст] / А.Г. Буховец // Математика. Образование. Экология. Тендерные проблемы: материалы конференции. - Т.2. - М.,2001. - С. 50 - 55.

41.Буховец А.Г. Определение числа классов в задачах кластерного анализа методом имитационного моделирования [Текст] / А.Г. Буховец, Т.Г. Долганова // Математика. Математическое образование: материалы международной конференции. Воронеж, 26-30 мая 2003 г. — Воронеж: ВГУ, 2003.-С. 83-86.

42.Буховец А.Г. Об интерпретации потенциала классификационной задачи [Текст] / А.Г. Буховец // Математика. Образование. Экология. Тендерные проблемы: материалы международной конференции. Воронеж, 2630 мая 2003г. - М.: Прогресс-Традиция, 2003. - Т 2. - С. 15-20.

43.Буховец А,Г. Оценка уровня сокрытия доходов физических лиц [Текст] ./ А.Г. Буховец // Экономическое прогнозирование: модели и методы -2004: материалы Всероссийской научно-практической конференции. Воронеж, 18-19 марта 2004г. - Ч. 1,-Воронеж: ВГУ, 2004.-С. 76-79.

44.Буховец. А.Г; Определение фрактальной размерности многомерных данных с помощью алгоритма кластерного анализа [Текст] / А.Г. Буховец, Е.А. Буховец, Ю.В Прокопова. // Экономическое прогнозирование:

. модели и методы - 2004: материалы Всероссийской научно-практической конференции. Воронеж, 18-19 марта 2004 г. - Ч 1. - Воронеж: ВГУ, 2004. - С. 40-42.

45.Буховец А.Г. Макроэкономическая модель оценки скрытых доходов физических лиц в теневой экономике [Текст] / А.Г. Буховец // Математические и инструментальные методы в экономике: сб. науч. трудов. — Вып.1Воронеж, 2004. - С. 79-86.

46.Буховец А.Г. Моделирование фрактальных структур в классификационных задачах [Текст] / А.Г. Буховец // Экономическое прогнозирова-

ние: модели и методы: материалы международной научно - практической конференции. Воронеж, 29 - 30 апреля 2005 г. - 4.2. -Воронеж: ВГУ, 2005,-С. 448-453.

47.Буховец А.Г. Моделирование структуры многомерных данных системами итерированных функций [Текст] / А.Г. Буховец // Современные проблемы прикладной математики и математического моделирования: материалы конференции. - Воронеж, 2005. - С. 448 -453.

48.Буховец А.Г. Математические модели классификационных задач как основа прогнозирования [Текст] / А.Г. Буховец // Экономическое прогнозирование: модели и методы: материалы международной научно -практической конференции. Воронеж, 30-31 марта 2006 г. - 4.1. -Воронеж: ВГУ, 2006. - С. 15 - 17.

49.Ващенко Т. Г. Моделирование структуры урожая сои [Текст] / Т. Г.Ващенко, В.П. Богатова, А.Г. Буховец, Г.Г Голева // Математика. Образование. Экология. Тендерные проблемы: материалы конференции. -Воронеж, 2000, - С. 64 -65.

50.Ващенко Т.Г. Статистическое моделирование влияния элементов урожая на продуктивность сои [Текст] / Т.Г. Ващенко, А.Г. Буховец, Г.Г. Голева // Математика. Образование, Экология. Тендерные проблемы: материалы международной конференции. - Т.2 - М., 2001. - С. 66-71.

51.Гончаров C.B. Использование статистических методов для оценки экспериментальных данных в селекции озимой пшеницы [Текст] / C.B. Гончаров, Н.Т. Павлюк, А.Г. Буховец, Г.Г. Голева, И.А. Русанов /. -Достижения аграрной науки в начале XXI века. - Воронеж, ВГАУ, 2002.-С. 192-198.

52.Ващенко Т.Г. Оценка селекционной значимости элементов продуктивности сои с использованием математического моделирования [Текст] / Т.Г. Ващенко, А.Г. Буховец, Г.Г. Голева // Вестник Воронежского государственного аграрного университета. -2002. -№5. -С. 78-90.

Опубликованы в изданиях, рекомендованных ВАК РФ при защите

докторских диссертаций, работы 2 — 8; 11 — 15.

Подписано в печать 2.11.2006 г. Формат 60х80'Лб Бумага кн.-журн. П.д. 2,0. Гарнитура Тайме. Тираж 100 экз. Заказ № 3200

Типография ФГОУ ВПО ВГАУ 394087 Воронеж, ул. Мичурина, 1

Оглавление автор диссертации — доктора технических наук Буховец, Алексей Георгиевич

ВВЕДЕНИЕ.

1. МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ КЛАССИФИКАЦИОННОЙ ЗАДАЧИ. ОБЩИЕ ПРИНЦИПЫ ПОСТРОЕНИЯ КЛАССИФИАЦИЙ

1.1.Методологические аспекты классификационной задачи.

1.2.Математическая формализация основных предположений классификационной задачи.

1.3 Описания алгоритмов кластерного анализа.

1.3.1. Итеративный алгоритм классификации «Форэль».

1.3.2. Иерархические агломеративные алгоритмы.

1.3.3. Алгоритм выделения локальных максимумов функции принадлежности.

1.3.4. Градиентная процедура модального алгоритма кластерного анализа.

2. ОЦЕНКА КЛАССИФИКАЦИОННЫХ РЕЗУЛЬТАТОВ И ИХ ИНТЕРПРЕТАЦИЯ

2.1 Сравнительный анализ алгоритмов классификации.

2.1.1. Теоретическое сравнение классификационных алгоритмов.

2.1.2. Тестирование работы классификационных алгоритмов. .73 2.1.3 Комплексное использование алгоритмов классификации в задачах типологии.

2.2 Определение числа классов путём имитационного моделирования.

3. СИСТЕМНЫЙ АНАЛИЗ В ЗАДАЧАХ КЛАССИФИКАЦИИ

3.1. Основные принципы системного подхода в задачах классификации.

3.2. Механизмы формирования ципфового распределения.

3.3 Проверка выполнения ципфового распределения на разбиении совокупности объектов.

4. ПРОБЛЕМА НЕОДНОРОДНОСТИ ПРИЗНАКОВОГО ПРОСТРАНСТВА.

4.1. Логическое обоснование формальной постановки классификационной задачи в условиях неоднородности признакового пространства.

4.2 Задача классификации как задача о собственных значениях.

4.3 О выборе формы потенциала в задаче классификации.

4.4 Представление оценки плотности в задачах классификации.

5. ФРАКТАЛЬНЫЙ ПОДХОД И МОДЕЛИРОВАНИЕ СТРУКТУР МНОГОМЕРНЫХ ДАННЫХ В КЛАССИФИКАЦИОННЫХ ЗАДАЧАХ

5.1 Сопоставление структурных особенностей исследуемых данных.

5.2 Понятие фрактальной размерности

5.3. Моделирование фрактальных структур многомерных данных.

5.4. Нахождение фрактальной размерности многомерных данных.

6. ПРИМЕНЕНИЯ КЛАССИФИКАЦИОННЫХ МОДЕЛЕЙ ПРИ РЕШЕНИИ ПРАКТИЧЕСКИХ ЗАДАЧ

6.1 Кластерный анализ и регрессионные модели с фиктивными переменными в задачах моделирования урожайности.

6.2 Применение системного подхода в задачах классификации.

6.3 Математическая модель механизма функционирования теневой экономической деятельности.

6.4. Классификационная модель сортообразцов озимой пшеницы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Буховец, Алексей Георгиевич

Актуальность темы. Задача построения различного рода классификаций привлекает внимание специалистов многих отраслей на протяжении ряда последних десятилетий. За это время был выделен и унифицирован ряд задач классификации в социально - экономических и технических исследованиях, геологии, медицине, биологии других областях, разработаны специальные методы решения классификационных задач, создано современное алгоритмическое и программное обеспечение. Внедрение математических методов классификации дало наиболее значительный эффект в таких областях как управление социально - экономическими процессами, контроль качества сложных технических изделий, объективная оценка результатов новых методов лечения больных, автоматизация научных исследований.

В нашей стране и за рубежом был опубликован ряд фундаментальных работ и монографий, посвященных исследованию и решению конкретных предметных проблем с использованием кластерного анализа (см. [Айвазян С.А. и др., 1974, 1978, 1997], [Распознавание образов ., 1968], [Развитие сельских поселений, 1977]), методологии решения задач типологии и классификации (см. [Воронин, 1985], [Любищев, 1968, 1969, 1971], [Розова, 1986], [Татарова, 2004]) и методике использования кластерного анализа как такового (см. [Айвазян С.А. и др., 1974, 1989, 1998], [Дорофеюк, 1971], [Дубров A.M. и др., 2000], [Елисеева, Рукавишников, 1977], [Загоруйко 1972, 1985], [Орлов, 1991], [Мандель, 1988], [Миркин,1980], [Дюран, Оделл, 1977], [Anderberg, 1973], [Cormak, 1971], [Hartigan, 1975], [Lorr, 1983]) и др.

Однако наряду с достигнутыми успехами в этой области специалистами отмечается, что недостаточно ещё разработана методология использования математических методов классификации, отсутствует методическое обоснование использования классификационных алгоритмов, особенно в части изучения кластерной структуры и её идентификации, остается нерешёнными ряд вопросов оценки и интерпретации полученных решений. Всё это в значительной степени препятствует широкому внедрения результатов решения классификационных задач в практику и одновременно с этим делает исследование этой проблемы актуальной.

Классификационные задачи присущи самым различным областям человеческой деятельности, и проблемы, возникающие при их решении, носят междисциплинарный характер. Поэтому основным подходом к решению такого рода задач является метод математического моделирования. Именно использование математических моделей должно способствовать разрешению указанных выше проблем и обеспечить в дальнейшем более широкое внедрение классификационных задач в практику. Применение математических моделей и методов при построении классификаций позволяет, во-первых, выделить и формально описать наиболее важные, существенные связи переменных и объектов.

Во-вторых, из чётко сформулированных соотношений и исходных данных дедуктивными методами можно получать новые выводы, адекватные изучаемому объекту в той же мере, что и сделанные предпосылки. Эту особенность классификации связывают с дальнейшим анализом развитием полученной модели системы, которая должна обладать прогностическими свойствами.

В-третьих, методы математического моделирования и математической статистики позволяют индуктивным путём получать новые знания об объекте исследования, ранее не представленные в явной форме: оценивать форму и параметры распределений переменных, в наибольшей степени соответствующие имеющимся наблюдениям.

Наконец, в-четвёртых, использование математического формализма позволяет точно и компактно излагать саму суть результатов, формулировать существенные выводы и понятия. Всё это приводит к чёткому пониманию того, что именно математические модели классификации должны использоваться в практических приложениях. Или, если сформулировать эту же мысль в виде двойственного утверждения, задачи классификации должны быть помещены в контекст математизации самой науки.

Как показывает обзор традиционных методов решения классификационной задачи, дескриптивный подход к построению моделей классификации себя в основном уже исчерпал. Свидетельством этого может служить тот факт, что практически все современные профессиональные системы статистической обработки данных, например, такие как STATISTICA, STATGRAPHICS, SPSS, включают в себя примерно один и тот же набор алгоритмов кластерного анализа, созданных в предыдущие десятилетия.

Рассматривая задачу построения классификации с точки зрения исследования структуры многомерных данных, можно прийти к пониманию того, что следующий шаг в дальнейшем развитии этого направления должен заключаться в изучении механизмов формирования структуры многомерных данных, их генезиса. Эта идея неоднократно высказывалась в литературе различными авторами (см., например, [Айвазян, Мхитарян, 1998, с.324]). Правда, обычно развитие этой идеи сводилось к тому, чтобы оценить имеют ли данные вероятностную (стохастическую) природу, или утверждения такого рода неправомочны, и тогда следует рассматривать классификационную задачу как задачу анализа данных (data analysis). Вместе с тем наличие механизма порождения данных делает возможным использование классификационной модели в качестве основы для дальнейшего прогноза и верификации.

Рассмотрение множества исходных данных как отображения (представления) некоторой системы, предполагает два возможных способа организации этой системы и проявления её целостности: внешний и внутренний (см., например, [Шрейдер, 1982, с.67]). Обычно представление системы даётся посредством её членения, или выделения классов, т.е. математическое представление системы в таком виде и принято считать моделью системы.

В соответствии с этим в нашей работе предлагается рассмотреть два подхода к моделированию механизмов формирования структур многомерных данных. Первый связан с рассмотрением преимущественно внешних механизмов формирования системы как целостной совокупности. В этом случае структура может быть проинтерпретирована как реакция исследуемой системы на внешнее воздействие. Этот подход основывается на предположении о неоднородности признакового пространства, что находит своё выражение в модели посредством задания некоторого потенциала.

Второй подход основывается на предположении о ведущей роли внутренних процессов формирования структуры исследуемого объекта. Сопоставление результатов решения некоторых дифференциальных уравнений, или полученных на их основе разностных схем, позволяет, на наш взгляд, выдвинуть предположение о том, что исследуемые данные могут представлять собой результаты развития в признаковом пространстве некоторого эволюционного процесса, для моделирования которого предлагается использовать итерированные функциональные системы.

Перечисленные особенности предложенного подхода делают задачу разработки математических моделей классификации, учитывающих механизмы формирования структур многомерных данных весьма перспективной и актуальной.

Тематика работы соответствует научным направлениям ВГАУ «Построение и численная реализация новых математических моделей технологических и производственных процессов в АПК» № г.р. 01.200.1003987 и «Методы получения исходного материала и новых сортов озимой пшеницы и тритикале» № г.р. 01.200.1003984. Цель работы. Разработка методологии построения и анализа математических моделей механизмов формирования кластерных структур многомерных данных, обеспечивающей решение классификационных задач в социальных, экономических, биологических и других предметных областях знаний.

Достижение сформулированной цели осуществляется посредством решения следующих задач:

• Разработка и исследование способов оценки структуры многомерных данных на базе анализа фрактальных размерностей данных.

• Методика оценки числа классов классификационных разбиений, основанная на результатах имитационного моделирования.

• Результаты применения предложенных методик в решении практических задачах.

Научная новизна. В работе представлены следующие новые научные результаты:

• Разработана и исследована модель классификационной задачи, основывающаяся на предположении о неоднородности признакового пространства; продемонстрированы возможности описания задачи классификации как задачи о нахождении собственных функций, соответствующих плотностям распределения отдельных классов.

• Разработан новый подход к анализу структуры многомерных данных как фрактальной структуры, продемонстрированы возможности формирования структуры данных в результате выполнения итеративной процедуры.

• Приведены результаты решения конкретных практических задач, основывающихся на предложенных методических разработках, в социологии, экономике, селекции и генетике. Практическая ценность. Практическую ценность работы составляют результаты, полученные в таких предметных областях как социология, моделирование экономических систем, а также моделирование в селекции и семеноводстве.

В социологии - предложен новый подход к анализу эмпирической информации, позволяющий установить системность социального объекта.

В селекции и семеноводстве предложена классификационная модель сортообразцов озимой пшеницы, представляющая практический интерес с точки зрения получения гетерогенных популяций с лучшими сочетаниями признаков.

Апробация работы. Основные результаты работы были представлены на Всесоюзной научной конференции «Проблемы применения математических методов и ЭВМ в социологических исследованиях» (Звенигород, 1978), на Всесоюзной школе «Программно -алгоритмическое обеспечение прикладного многомерного статистического анализа» (Цахкадзор, 1979), на I Всесоюзной конференции «Системное моделирование социально - экономических процессов» (Воронеж, 1980), на Всесоюзном симпозиуме «Проблемы сравнительных социологических исследований» (Черноголовка, 1982), на II Всесоюзной научной конференции «Системное моделирование социально - экономических процессов» (Таллин, 1983), на Всесоюзной конференции «Теория, методология и практика системных исследований» (Москва, 1984), на 3-й Всесоюзной конференции «Методы социологических исследований» (Звенигород, 1989), на «The Third International Congress on Industrial and Applied Mathematics.» (Hamburg,1995), на 3-й Международной конференции «Математика. Компьютер. Образование» (Дубна, 1996), на Международной конференции «Экология. Экологическое образование. Нелинейное мышление» (Воронеж, 1997), на V международной конференции «Математика. Компьютер. Образование» (Дубна, 1998), на Всероссийской конференции «Математическое моделирование. Методы, приложения и средства» (Воронеж, 1998), на 21-й международной школе - семинаре «Системное моделирование социально - экономических процессов» (Старый Оскол, 1999), на VII международной конференции «Математика. Экономика. Экология. Образование.» (Ростов - на - Дону, 1999), на Второй международной конференции «Средства математического моделирования» (С. -Петербург, 1999), на Международной конференции «Математика. Компьютер. Образование» (Дубна, 2000), на Международной конференции «Математика. Образование. Экология. Тендерные проблемы» (Воронеж, 2000), на 23-й международной школе - семинар «Системное моделирование социально - экономических процессов» (Дивногорск, 2000), на II Всероссийском симпозиуме по прикладной и промышленной математике (Самара, 2001), на 8-й Международной конференции «Математика. Компьютер. Образование» (Пущино, 2001), на 9-й Международной конференции «Математика. Компьютер. Образование» (Дубна, 2002), 10-й Международной конференции «Математика. Компьютер. Образование» (Пущино, 2003), на Международной конференции «Математика. Образование. Экология. Тендерные проблемы» (Воронеж, 2003), на IV Всероссийском симпозиуме по прикладной и промышленной математике (Петрозаводск, 2003), на 11-й Международной конференции «Математика. Компьютер. Образование» (Дубна, 2004), на Всероссийской научно - практической конференции «Экономическое прогнозирование: модели и методы - 2004» (Воронеж, 2004), на 12-й Международной конференции «Математика. Компьютер. Образование» (Пущино, 2005), на Международной научно -практической конференции «Экономическое прогнозирование: модели и методы» (Воронеж, 2005), на 28-й международной научной школе -семинаре «Системное моделирование социально - экономических процессов» (Н. Новгород, 2005), на международной научно -практической конференции «Современные проблемы прикладной математики и математического моделирования» (Воронеж, 2005), на международной научно - практической конференции «Экономическое прогнозирование: модели и методы» (Воронеж, 2006), на Всероссийской научной конференции «Социологические методы в современной исследовательской практике» (Москва, 2006). Публикации. По теме диссертации опубликовано 78 работ. Основные положения диссертации представлены в монографии «Типология и классификация в социологических исследованиях», М.: Наука, 1982, в журналах РАН и центральной печати, материалах международных конференций.

Объём и структура диссертации. Диссертация изложена на 259 страницах машинописного текста, состоит из введения, шести глав, 37 рисунка, 16 таблиц, заключения, списка литературы, включающего 162 наименования.

Заключение диссертация на тему "Математическое моделирование структур многомерных данных в классификационных задачах"

Результаты работы остальных четырех алгоритмов приведены в таблице 5.

11 10 9 8 7 6 5 4 3 2

6 7 8 9 10 11 12 13 14 X

Рис. 3. Модельный пример 3

ЗАКЛЮЧЕНИЕ

Рассмотрение классификационной задачи, как задачи исследования структуры многомерных данных приводит к необходимости изучения механизмов формирования таких структур. Структурные особенности, которые фиксируют алгоритмы классификации, составили основу математической модели такого подхода к решению задачи классификации.

Первый из рассмотренных подходов связан с отказом от однородности признакового пространства. Предполагается, что неоднородность пространства может быть представлена в виде некоторого потенциала Щх). Этот потенциал, являясь функцией от координат, действует на объекты по-разному в разных точках пространства. Взаимодействуя с объектами в пространстве, потенциал Щх) препятствует их свободному перемещению и тем самым формирует структуру. Эти предположения, как показано в работе, можно формализовать и представить в виде математической модели, основу которой составляет уравнение типа уравнения Шрёдингера. В рамках этой модели получает своё объяснение не только появление дискретной структуры классификационной задачи, естественно возникающей при решении полученного уравнения, но и также отсутствие структуры, - в случае, когда потенциал имеет, например, симметричную форму, происходит совмещение в признаковом пространстве мод плотностей распределения отдельных классов. А в случае, когда спектр решаемого уравнения непрерывен, в структуре данных с необходимостью будет присутствовать стохастический шум -что делает в принципе невозможным ставить и решать классификационную задачу. В работе приведёны модельные примеры, иллюстрирующие сформулированные утверждения, а также содержательный пример, демонстрирующий работоспособность этого подхода.

В рамках формализма предложенной модели имеется возможность объяснения и некоторых других особенностей задач статистического анализа данных. В частности, в работе рассматривается модель функционирования теневой экономической деятельности.

Таким образом, в задаче классификации, традиционно считающейся задачей статистического анализа данных, появляется возможность использования некоторых разделов теории дифференциальных уравнений, которая ранее не привлекалась к исследованию такого рода задач. Дальнейшее развитие этого направления в исследовании структур многомерных данных позволяет выдвинуть предположение о том, что анализируемые данные могут представлять собой аттрактор некоторой динамической системы. В связи с этим предположением для сравнения многомерных данных предлагается использовать понятие фрактальной размерности. Сопоставление процедур решения этих задач показывает, что как в теории фракталов при вычислении фрактальной размерности, так и в задачах кластерного анализа при работе некоторых итеративных алгоритмов, приходится строить покрытие множества исходных данных признакового пространства сферами различного радиуса. Это сходство в реализации решений разных задач областей математики наводит на мысль о близости методов и целей, а, следовательно, и необходимости их совместного рассмотрения.

Сравнение структур многомерных данных с очевидностью подразумевает возможность иметь данные, фрактальный характер которых не вызывает сомнений. Для этого в работе предлагается генерировать многомерные данные посредством специальной итерированной процедуры. Приводится доказательство сходимости этой процедуры и фрактальности получаемых множеств точек. Также приводятся результаты численных экспериментов, подтверждающие, что данные, не имеющие фрактальной структуры, полученные к примеру с помощью датчиков случайных чисел, и данные, генерируемые предложенной процедурой, имеют значимо различающиеся фрактальные размерности.

Кроме этого в работе исследуется проблема оценки ранговых распределений в классификационной задаче. Была установлена связь целостности системы и выполнения на ранговом распределении системы закона Ципфа. Однако способы проверки достоверности этого факта не всегда давали результат, хорошо согласующийся с очевидным положением дел. Решение этого вопроса, предлагаемое в работе, базируется на использовании имитационного моделирования. В работе приведен пример решения практической задачи, иллюстрирующей

•л возможности и работоспособность такого подхода.

Этот же методом предлагается использовать при решении такого важного для практических задач вопроса каким является вопрос о числе классов в результирующем разбиении. Основные положения предложенного подхода были использованы при построении классификационной модели сортообразцов озимой пшеницы.

Обобщая все изложенное, сформулируем ещё раз основные результаты диссертационной работы:

• Разработана модель классификационной задачи, учитывающая неоднородность признакового пространства за счёт введения в рассмотрение потенциала. Показано, что выполнение этих предположений логически приводит к тому, что распределение элементов системы в признаковом пространстве может быть описано уравнением типа уравнения Шрёдингера. Интегрирование этого уравнения, при накладываемых на функцию состояния естественных ограничениях конечности и непрерывной дифференцируемое™, позволяет объяснить наличие устойчивых состояний в системе объектов. Эти состояния в дальнейшем соотносятся с эмпирическими классами, выделяемыми алгоритмами кластерного анализа.

• Разработана и исследована процедура генерирования многомерных данных, обладающих фрактальной структурой. Доказана сходимость этой процедуры и фрактальность получаемых в ходе её реализации многомерных данных.

Таким образом, в настоящей работе представлена методологии построения и анализа математических моделей механизмов формирования кластерных структур многомерных данных, продемонстрирована её работоспособность и практическая целесообразность при решении классификационных задач в различных предметных областях. *

Библиография Буховец, Алексей Георгиевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Айвазян С.А. Классификация многомерных наблюдений / Айвазян С.А., Бежаева З.И., Староверов O.B. М.: Статистика, 1974.-240 с.

2. Айвазян С.А. Модель формирования распределения населения России по величине среднедушевого дохода (экспертно-статистический подход). // Экономика и математические методы.1997. т.ЗЗ, вып. 4. С.74-86.

3. Айвазян С.А. Прикладная статистика и основы эконометрики. Учебник для вузов / Айвазян С.А., Мхитарян B.C. М.: ЮНИТИ,1998,- 1022 с.

4. Айвазян С.А. Прикладная статистика. Классификация и снижение размерности / Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. М.: Финансы и статистика, 1989, - 607 с.

5. Александров В.В. Анализ данных на ЭВМ (на примере системы СИТО) / Александров В.В., Алексеев А.И., Горский Н.Д. М.: Финансы и статистика, 1990, 192 с.

6. Андерсон Т. Введение в многомерный статистический анализ. -М.:- ФИЗМАТГИЗ, 1963. 500 с.

7. Аптон Г. Дж. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. - 143 с.

8. Арсенин В.Я., Крянев A.B. Применение статистических методов решения некорректных задач для обработки " результатов физических экспериментов. В кн.: Автоматизация научных исследований в экспериментальной физике. М.: Энергоатомиздат, 1987, с. 19 - 30.

9. Ахиезер Н.И., Глазман И.М. Теория линейных операторов в гильбертовом пространстве. М.: Наука, 1966.

10. Ю.Богданов Ю.И. Основная задача статистического анализа данных: корневой подход. М.: МИЭТ, 2002. - 96 с.

11. П.Божокин C.B., Паршин Д.А. Фракталы и мультифракталы. -Москва Ижевск, 2001.

12. Бокий Г.Б. Вопросы классификации и системного подхода в минералогии / Классификация в современной науке. Сборник научных трудов, Новосибирск, Наука, 1989, с. 87 100.

13. Бокун Н., Кулибаба И. Проблемы статистической оценки теневой экономики // Вопросы статистики. 1997. - №7.

14. Болч Б. Многомерные статистические методы в экономике / Б. Болч, К. Хуань. -М.: Статистика, 1979. 317 с.

15. Большая Советская энциклопедия, т.12, М., 1973, с. 269.

16. Большой толковый социологический словарь. / Под ред. Д. Джери, Д. Джерри / Пер. с анг. H.H. Марчук. М., 1999, т.2.

17. Боровиков В. STATISTICA: искусство анализа данных на компьютере. Для профессионалов. СПб.: Питер, 2001. - 655 с.

18. Буховец А.Г. Квантово-механическая интерпретация задачи многомерной классификации. // Обозрение прикладной и промышленной математики. М., 2001, т.8, вып.1, с. 120-121.

19. Буховец А.Г. Моделирование фрактальных структур в классификационных задачах. // Экономическое прогнозирование: модели и методы. Материалы международной научно -практической конференции 29 30 апреля 2005 г. - Воронеж: ВГУ, 2005.-4.2, с, 448-453.

20. Буховец А.Г. Модель классификационной задачи. // Вестник. Научно-технический журнал Воронежского государственного технического университета. Воронеж, 2002, с.40-45.

21. Буховец А.Г. Об интерпретации результатов математической обработки данных социологических исследований. // Математические методы и модели в социологии. Вып.2, ИСИ АН СССР, 1991, с.36-42.

22. Буховец А.Г. Об одном подходе к задаче классификации // Социология: методология, методы, математические модели. 2004. № 18. С.82-105.

23. Буховец А.Г. Системный подход и ранговые распределения в задачах классификации. // Вестник ВГУ, серия «Экономика и управление», 2005, №1, с. 130 142.

24. Буховец А.Г., Гаськов В.М. Изучение трудовой мобильности методами многомерной классификации. // Проблемы воспроизводства и миграции населения. М.; ИСИ АН СССР, 1981, с. 215-228.

25. Буховец А.Г., Гаськов В.М. Стратегия использования методов многомерной классификации при изучении социально-экономических процессов. // Математико-статистические методы анализа в социологических исследованиях. М., ИСИ АН СССР, 1980, с.27-36.

26. Буховец А.Г, Дементьев С.Н., Яновский Л.П, Хоршева Т.Е. О механизме формирования ципфовских распределений при моделировании урожайности зерновых культур. // Труды III Международной конференции «Математика. Компьютер. Образование.» М.; 1996, с. 71-76.

27. Буховец А.Г, Кузнецов А.Г, Соловьёв A.C., Разгонер A.C. Алгоритм классификации, использующий понятие нечёткого множества и его применение. // Опыт применения ЭВМ в социологических исследованиях. М.; ИСИ АН СССР, 1977, с.91-100.

28. Буховец А.Г, Семёнов М.Е. Определение фрактальной размерности данных в задачах многомерной классификации. // Обозрение прикладной и промышленной математики. М, 2006, т. 13, вып. 1, с. 86.

29. Буховец А.Г, Соловьев A.C. Критерий системности социально-экономических объектов // Математические методы в социологических исследованиях. М.: ИСИ АН СССР, 1984, стр. 28-36.

30. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979, 448 с.

31. Зб.Гнеденко Б.В. Курс теории вероятностей. М.-Л.: 1950,387 с.

32. Гордон, Ж. К. Теоретическая археология. М.: 1983, с.116.

33. Гуд И. Дж. Ботриология ботриологии. // Классификация и кластер, M.: Мир, 1980, с. 66- 82.

34. Данилов Ю.А. Лекции по нелинейной динамике. Элементарное введение. -М.: Постмаркет, 2001,184 с.

35. Демиденко Е.З. Линейная и нелинейная регрессии. М.: Финансы и статистика, 1981.

36. Дорофеюк A.A. Алгоритмы автоматической классификации (обзор) //Автоматика и телемеханика, 1971, № 12, с. 78 113.

37. Доспехов Б. А. Методика полевого опыта (с основами статистической обработки результатов исследований) / Б.А. Доспехов 5-е изд., доп. и перераб . - М.: Агропромиздат, 1985. -351с.

38. Доспехов Б. А. Методика полевого опыта (с основами статистической обработки результатов исследований) / Б.А. Доспехов 5-е изд., доп. и перераб . - М.: Агропромиздат, 1985. -351 с.

39. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы: Учебник. М.: Финансы и статистика, 2000.-352 с.

40. Дюран Б., Оделл П. Кластерный анализ / Пер с англ.- М.: Статистика, 1977. 128 с.

41. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов (Статистические методы классификации и измерения связей). М.: статистика, 1977,245 с.

42. Измерение теневой деятельности / Под. ред. И.И. Елисеевой и А.Н. Щириной. СПб.: Изд-во СПбГУЭФ, 2003. - 269 с.

43. Интерпретация и анализ данных в социологических исследованиях. -М.: Наука, 1987.-252 с.

44. Кайгородов А.И. Естественная зональная классификация климатов земного шара. М.: Изд-во АН СССР, 1955.

45. Кедров Б.М. Классификация. Философская энциклопедия. Т.2. М.: Советская энциклопедия, 1962.

46. Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

47. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976, - 736 с.

48. Классификация и кластер. Под ред. Дж. Вэн. Райзин. М.: Мир, 1980, 389 с.

49. Князева E.H., Курдюмов С.П. Будущее и его горизонты: методология в прогнозировании. В сб. Синергетика. Труды семинара. Т.4. Естественнонаучные, социальные и гуманитарные аспекты. М.: МГУ, 2001. -с.5 - 19.

50. Колмогоров А.Н., Фомин C.B. Элементы теории функций и функционального анализа. М.: Наука, 1976.

51. Козлов Ю.Г. Теневая экономика и преступность // Вопросы экономики. 1990. - №3.

52. Крамер Г. Математические методы статистики. М.: Мир, 1975.

53. Красс М.С., Чупрыков Б.П. Математика для экономистов. -СПб.: Питер. 2004 404 с.

54. Кроновер P.M. Фракталы и хаос в динамических системах. Основы теории. М.: Постмаркет, 2000. - 352 с.

55. Крянев A.B., Лукин Г.В. Математические методы обработки неопределенных данных. М.: ФИЗМАТ ЛИТ, 2003. - 216 с.

56. Курносов А.П, Буховец А.Г., Давние В.В., Рахметан Р.У. Дискретно-непрерывная модель урожайности. // Математические методы управления сложными системами и их приложения. Всесоюзная конференция. М.; 1984., с. 121 123.

57. Курносов А.П., Буховец А.Г.,., Давние, Рахметан Р.У. Об одном подходе к моделированию урожайности. // Оптимизация размещения, специализации и концентрации сельскохозяйственного производства. Сб. научн. трудов., Воронеж, 1984, с. 111 -117.

58. Лобанов А.И., Петров И.Б. Вычислительные методы для анализа моделей сложных динамических систем. М.: МФТИ, 2000.

59. Любищев A.A. О количественной оценке сходства. В сб.: Применение математических методов в биологии. ЛГУ, 1969.

60. Любищев A.A. О критериях реальности в таксономии. // Информационные вопросы семиотики, лингвистики и автоматического перевода. М.: ВИНИТИ, 1971, вып. 1, с.67- 82.

61. Любищев A.A. Проблемы систематики. В кн.: Проблемы эволюции. Новосибирск, Наука, 1968, т.1, с.7 - 9.

62. Малинецкий Г.Г., Потапов А.Б. Современные проблемы нелинейной динамики. М.: Эдиториал УРСС, 2000.

63. Манд ель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988,- 176 е.: ил.

64. Мандельброт Б. Фракталы, случай и финансы. М. - Ижевск, 2004, 256 стр.

65. Маслов В.П. Операторные методы. М.: Наука. - 1973.

66. Маслов В.П. Эконофизика и квантовая статистика. // Математические заметки. Том 72, вып. 6., 2002, с. 883 891.

67. Математические методы анализа и интерпретация социологических данных. М.: Наука, 1989. - 173 с.

68. Международный классификатор рода Triricum L. / Составители В. Ф. Дорофеев, М. И. Руденко, А. А. Филатенко. JI., 1984.

69. Мережко А. Ф. Проблема доноров в селекции растений / А. Ф. Мережко. СПб, 1994. - 128 с.

70. Методика государственного сортоиспытания сельскохозяйственных культур. М., 1989.

71. Методы анализа данных: Подход, основанный на методе динамических сгущений. М.: Финансы и статистика, 1985. -357 с.

72. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980,319 с., ил.

73. Миркин Б.Г. Анализ качественных признаков. М.: Статистика, 1976, 166 с.

74. Многомерные классификации в социально экономических исследованиях. Отв. ред. В. Жуковская. М.: 1973, вып. 2.

75. Моделирование в социологических исследованиях. // И.В. Бестужев Лада, В.Н. Варыгин, В.А. Малахов - М.: Наука, 1978 -103 с.

76. Морозов А.Д. Введение в теорию фракталов. Москва - Ижевск: Институт компьютерных исследований, 2002, 160 с.

77. Морозов А.Д. Введение в теорию фракталов. Москва - Ижевск: Институт компьютерных исследований, 2003, 160 с.

78. Мучник И.Б., Новиков С.Г., Петренко Е.С. Метод структурный классификации в задаче построения типологии городов по социально демографическим характеристикам населения // Социологические исследования, 1975, №2.

79. Налимов В.В. Вероятностная модель языка. // М.: Наука 1979, -303 с.

80. Налимов В.В. Мир как геометрия и мера. // Разбрасываю мысли. В пути и на перепутье. М.'Прогресс-Традиция, 2000 - 344 е., ил.

81. Налимов В.В. Теория эксперимента. // М.: Наука 1971.

82. Нейман фон Дж. Математические основы квантовой механики. -М.: Наука, 1964.

83. Огурцов А.П. Типология // Новая философская энциклопедия. М., 2001.Т.4. с. 69-72.94.0рлов А.И. Заметки по теории классификации. Социология: методология, методы, математические модели. 1991, № 2, с.28 -50.

84. Орлов А.И. Устойчивость в социально экономических моделях. М.: Наука, 1979,296 с.96.0рлов А.И. Эконометрика: учебник для вузов. М.: Экзамен, 2003, - 576 с.

85. Пайтген X. О., Рихтер П. X. Красота фракталов. М.: Мир, 1993.

86. Петере Э. Хаос и порядок на рынках капитала. Новый аналитический взгляд на циклы, цены и изменчивость рынка: Пер. с англ. М.: Мир. 2000. - 333 с.ил.

87. Пешек И. Взаимодействие генотипов и среды и анализ продукционной устойчивости / И. Пешек, И. Гартман, И. Недерле // Взаимодействие генотип среда и его роль в селекции. -Краснодар, 1988. - С. 19-35.

88. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. М.: Наука, 1967,237 с.

89. Ю1.Пытьев Ю.П. Математические методы интерпретации эксперимента: Учеб. пособие для вузов. М.: Высш. шк., 1989. -351 е.: ил.

90. Развитие сельских поселений (лингвистический метод типологического анализа социальных объектов). Под ред. Т.И. Заславской, И.Б. Мучника. М.: Статистика, 1977.

91. Распознавание образов в социальных исследованиях. Отв. ред. Загоруйко Н.Г., Заславская Т.И. Новосибирск, Наука, 1968, -196 с.

92. Ю4.Ризниченко Г.Ю. Лекции по математическим моделям в биологии. Часть 1. Ижевск: НИЦ «Регулярная и хаотическая динамика», 2003,333 с.

93. Розова С.С. Классификационная проблема в современной науке. -Новосибирск: Наука, 1986,223 с.

94. Розова С.С. Классификация как метод научного познания (опыт анализа функции классификации в познавательной деятельности)- В Философские проблемы сознания и познания. -Новосибирск, Наука, 1965, с. 255 278.

95. Рюэль Д. Случайность и хаос. Ижевск.: Регулярная и хаотическая динамика, 2001.

96. Садовский М.В. Лекции по статистической физике. Москва -Ижевск, 2003, 336 с.

97. Садовничий В.А. Теория операторов. М.: Дрофа, 2001. - 384 с.

98. Самарский A.A. Теория разностных схем М., Наука, 1983, 616 с.

99. Современные проблемы математики. Новейшие достижения. -ВИНИТИ, вып. 36,1990. 185 с.

100. Социально-экономическое положение России. Январь-сентябрь 1996 г. №9. Госкомитет РФ по статистике, 1996, № 9.

101. ПЗ.Струмилин С.Г. Естественно историческое районирование СССР. Методология работы. - М. - Л.: Изд-во АН СССР, 1947.

102. Татарова Г.Г. Основы типологического анализа в социологических исследованиях: Учебное пособие / Г.Г. Татарова. М.: Издательский дом «Новый учебник», 2004. - 206 с.

103. Терлецкий Я.П. Статистическая физика. М.: Высшая школа, 1994.-350 с.

104. Типология и классификация в социологических исследованиях.- М.: Наука, 1982,296 с.

105. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач . -М.: Наука, 1979.

106. Типология потребления. М.: Наука, 1978,168 с.

107. Толстова Ю.Н. Глава 2. Этапы решения задач типологии. Комплексное использование математических методов. В кн.: Типология и классификация. М.: Наука, 1982, с. 29 - 56.

108. Толстова Ю.Н. Корректность функции расстояния относительно используемых шкал в социально экономических задачах. - Экономика и математические методы, 1978, № 3.

109. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978,411 с.

110. Тюрин Ю.Н., Макаров A.A. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 2003. - 544 е., ил.

111. Фадцева Л.Д., Якубовского О.А Лекции по квантовой механике для студентов математиков», 2-ое изд.,. - М., 2001, с. 256.

112. Факторный, дискриминантный и кластерный анализ: Пер. с англ./ Под ред. И. С. Енюкова. М.: Финансы и статистика. 1989. -215с.: ил.

113. Философский словарь / Под ред. И.Т. Фролова. 4-е изд.-М.: Политиздат, 1981. - 445 с

114. Философский энциклопедический словарь. М., Советская энциклопедия, 1983.

115. Фок A.B. Начала квантовой механики М., Наука, 1976,376 с.

116. Формальная логика. Учебник для философских факультетов университетов.-М.: 1977.

117. Хайтун С.Д. Наукометрия. Состояние и перспективы. М.: Наука, 1983, - 344 с.

118. Харари Ф., Палмер Э. Перечисление графов. М.: Мир, 1977.

119. Холево A.C. Безгранично делимые измерения в квантовой теории вероятностей. Теория вероятностей и ее применения, вып. 31, №3,1986-е. 560-564.

120. Холево А.С. Статистическая структура квантовой механики. -Москва Ижевск: 2003. - 192 с.

121. Чуличков А.И. Математические модели нелинейной динамики. М.: ФИЗМАТЛИТ, 2003. - 296 с.

122. Шрейдер Ю.А. Логика классификации. Научно - техническая информация, Сер. 1,1973, №5, с. 3 - 7.

123. Шрейдер Ю.А., Шаров А.А. Системы и модели. М.: Радио и связь, 1982.- 152 е., ил.

124. Шурыгин. A.M. Прикладная стохастика: робастность, оценивание, прогноз. М.: Финансы и статистика, 2ООО.

125. Эконометрика: Учебник / Под ред. И.И. Елисеевой. М.: Финансы и статистика, 2002, - 344 с.

126. Яблонский А.И. Математические модели в исследовании науки. -М.; Наука, 1986.

127. Яновский Л.П. Введение в эконометрику / Яновский Л.П., Буховец А.Г. Воронеж: АОНО «ИММиФ», 2003,176 с.

128. Anderberg М. R. Cluster Analysis for Applications. Academic Press, New York, 1973.

129. Barnsey M. Fractals Everywhere. Academic Press, Boston, 1988.

130. Cormak R.V. A Review of Classification // J. of the Royal Statistical society, 1971. vol. 134, p. 125 - 162.

131. Everitt B. Cluster Analysis. New York, 1974.

132. Fisher R.A. The Use Multiple Measurement in Taxonomy Problems. Hum. Genet. 1949,1936, № 6, p. 179 188.

133. Fisher L., Van Ness J.W. Admissible Clustering Procedure // Biometrika, 1971, vol. 58, № 1, p. 91 104.

134. Friedmann H.P., Rubin J. On Some Invariant Criteria for Grouping Data. JASA, 1967, p. 1159-1178.

135. Fromm R.F., Norsouse R.A. A CLASS: a Nonparametric Clustering Algorithm. Patter Recognition, 1976, vol, 8, p. 107 - 114.

136. Gitman I., Levin M. An Algorithm for Detecting Unimodal Fuzzy Sets and Its Application as a Dustering Technique. IEEE Trans. Comput., 1970 v. C-15, № 7, pp. 583 593.

137. Hartigan J.A. Clustering Algorithms. London 1975.

138. Koontz W., Narendra P., Fukunaga R. A Graph Theoretic Approach to Nonparametric Clustering Analysis. IEEE Trans. Comput., 1976, v C-25, № 9, pp. 936 - 943.

139. Lorenz H.-W. Nonlinear Dynamical Economics Chaotic Motion. -Berlin.: Springer-Verlag, 1993.

140. Lorr M. Cluster Analysis for Social Sciences. San Francisco: Jossey -Bass, 1983.

141. MacQueen J. Some Methods of Classification and Analysis of Multivariate Data (Observations) In Proc. 5-th Berkeley Symp. on Math. Prob. And Statist., University of California Press, Berkeley, 1967, v. 1, p.281 -297.

142. Mosteller F., Tukey J.W. Data Analysis and Regression: A Second Course in Statistics/ Reading. Addison Wesley, 1977.

143. Odell P.L., Duran B.S. Cluster Analysis (a survey). Berlin, 1974.

144. Parzen E. On estimation of probabilities for sums of bounded random variables // Annals of Mathematical Statistics. 1962, v. 33, p. 1065-1076.

145. Renyi A. Probability Theory. Amsterdam: North-Holland 1970.

146. Rosenblatt M. Remarks on some nonparametric estimates of a density function // Annals of Mathematical Statistics. 1956. v.27, p. 832-835.

147. Software Digest Rating Report, 1991, vol. 8, № 5.

148. Sokal R., Sneth P. Numerical Taxonomy. San Francisco: W.H. Freeman, 1973.

149. Sokal R., Sneth P. Principles of Numerical Taxonomy. San Francisco: W.H. Freeman, 1963.

150. Zipf G.K. Human Behavior and the principle of Least Effort. Cambridge 1949.1. СПРАВКАо применении в ООО «Воронежская инвестиционная палата» научных разработок А.Г. Буховца

151. Буховец А.Г. ведет исследования по проблемам построения классификаций на основе формирования структур объектов со сравнимым горизонтом постоянной прибыльности, что имеет существенное значение при оценках предприятий на рынке слияний и поглощений.

152. Таким образом, разработанные А.Г. Буховцом методики, имеют ясные перспективы практического применения в деятельности инвестиционных компаний и банков.1. Директор по развитию

153. ООО «Воронежская инвестиционная палата»,

Похожие работы

Информатика, вычислительная техника и управление
05.13.00