автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Лингвистические методы параллельного типа, основанные на критериальных функциях монотонных систем, и их применение для агрегирования больших эмпирических матриц данных
Автореферат диссертации по теме "Лингвистические методы параллельного типа, основанные на критериальных функциях монотонных систем, и их применение для агрегирования больших эмпирических матриц данных"
Ордена Ленина Институт Проблем Управления
На правах рукописи
ДУМбАДЗЕ Мурман Ношреванович
ЛИНГВИСТИЧЕСКИЕ МЕТОДЫ ПАРАЛЛЕЛЬНОГО ТИПА, ОСНОВАННЫЕ НА КРИТЕРИАЛЬНЫХ ФУНКЦИЯХ МОНОТОННЫХ СИСТЕМ, И'ИХ ПРИМЕНЕНИЕ ДЛЯ АГРЕГИРОВАНИЯ бОЛЬШИХ ЭМПИРИЧЕСКИХ МАТРИЦ ДАННЫХ
Специальность 05.1.т.10 -Управление в социальных и экономических системах
АВТОРЕФЕРАТ
на соискание ученой степени кандидата технических наук
Москва 199 1
Работа выполнена в ордена Ленина Института проблем управления (автоматики и телемеханики)
Научный руководитель: кандидат технических наук Сонин М.С.
Официальные опоненты: доктор технических наук, профессор Дорофеюк A.A. кандидат технических наук Ослон A.A.
Ведущая организация - Всесоюзный Научно исследова-
тельний институт системных исследований АН СССР
Зашита состоится " "_ 19Я1г. в _ час.
на заседании специализированного совета nJ (S100Z.68.03) Института проблем управления (автоматики и телемеханики): Москва, Профсоюзная ул, RR, телефон .134-9.1-29.
С диссертацией можно ознакомится в библиотеке Института проблем управления (автоматики и телемеханики). Автореферат разослан " "_1991 _г.
Ученый секретарь специализированного совета, кандидат технических наук ' ВЛАСОВ.С.А.
Общая характеристика работы
Актуальность работы. В последние годы,в связи с * развитием и применением электронно-вычислительной техники как средства обработки больших массивов информации, намечается постоянный рост проведения широких научных исследований социальных процессов и систем, таких как образ и уровень жизни населения, закономерности
возникновения » заболеваний, оперативного управления
транспортними перевозками, и т.д. Вполне ясно, что данные, описывающие эти сложные об'екты и процессы, носят многомерный и разнородный характер. Поэтому все более актуальным становится решение независимой от природы об'екта задачи классификации по многомерным данным. Поскольку задачи классификации формулируются как задачи комбинаторной экстремизации, разработка соответствующих алгоритмов решения задач за приемлемое время в настоящее время имеет большую важность.
Цель работы. Целями диссертационной работы являются:
1) Исследование возможностей разработки методики классификации данных с использованием так называемой теории монотонных систем.
2) Выработки методики агрегирования больших эмпирических матриц, включающей в себя:
а) Создание такой классификации , при которой формированные классы "маломощны", что имеет содержательный смысл на уровне поставленной задзчи.
б) Нахождение специальных монотонных функции, повышающих эффективность работы алгоритма с вычислительной точки зрения при выделении "маломощных" классов.
в) Применеиие полученных процедур (алгоритмов) для агрегирования об'ектов и признаков матрицы данных любой природа.
л) Реализация на основе формализованных математических методов и алгоритмов классификзции на ПЭВМ, позволяющей автоматизировать решение конкретных задач возникающих в самых разнообразных сферах.
Методы исследования. Для решения этих задач в диссертации использовались методы лингвистического анализа эмпирических данных,теория монотонных систем, математическая статистика, теория управления.
Научная новизна. На основе теории монотонных систем предложен новый подход последовательной процедуры классификации, при котором первоначально из всего
исследуемого множества выделяется некоторая совокупность об'ектов, определяемая как первый класс; затем - из оставшегося множества строится второ й класс и т.д. Для решения конкретных прикладных задач проведены следующие исследования:
1 ) Выделено минимальное по вложению ядро общей монотонной системы, которое рассматривается как один класс обследованных систем и изучены свойства таких ядер.
2) Рассмотрены специальные монотонные системы, для которых об'ем вычислений для нахождения минимальных по вложению ядер существенно сокращается.
3) Предложены лингвистические методы параллельного агрегирования об'ектов и признаков матрицы данных, которые базируются на свойствах критериальной функции монотонных систем. При этом параллельное агрегирование понимается как такой процедуры экстремизации критериальной функции, при которой формируются группы признаков и классы об'ектов одновременно.
Практическая ценность работы Решение задач привело к созданию и реализации на. новой последовательной процедуры в рамках теории монотонных Исследуемая процедура позволяет
кластеризирование об'ектов и признаков матрицы данных "маломощными" порцями. Разработанные лингвистические -методы анализа матрицы данных позволяют проводить разбиение признаков на некоторое число групп, в каждой из которых об'екты соответственно тоже разбиваются на некоторое число групп об'ектов. Такие подходы обладают рядом, как содержательных, так и вычислительных преимуществ. В
поставленных твм РС.
классификации, систем, осуществлять
частности при анализе числовых данных достигается эффективная интерпретация получаемых результатов. Разработанные алгоритмы с точки зрений вычислений полиномиальны и поэтому они могуть быть использованы для структуризации данных произвольной прир \-.ч.
Реализация результатов исследования. Разработанные в диссертации методы, алгоритмы и программы были использованы для решения следующих прикладных задач:
а) Изучалась задача анализа массива реальных данных за 1яяяг., характеризующих различные аспекты социально-экономического развития сельских советов Ад*.АССР ГР.
б) Изучалась двумерная матрица типа "об'акт-признак", где об'ектами являлись разные ведомства г. Батуми , а признаки характеризовали по ведомствам о выбросах вредных веиеств в атмосферу от всех стационарных источников выделения и их очистке.Социально-экономическая эффективность результатов внедрения потверждена соответствующими актами о внедрении результатов работы.
Аппробация работы. Результаты работы доклад и вались на семинарах в Институте проблем управления, общемосковском семинаре по экспертным оценкам и обработка данных, на семинарах в батумском вычислительном центре по гидрометеорологии.
Публикации. Некоторые результаты исследований по теме диссертаций опубликованы в журнале "А в томати к а и телемеханика" АН СССР, другие результаты диссертации не публиковались.
Структура и об'ем работы. Диссертация состоит из введения, трех глав, заключения и приложения. Содержит 13 я страниц машинописного текста; яг. рисунков, 22 таблиц,список литературы из 71 названий; 117 страниц приложений.
Содержание работы
Во введении дается обоснование актуальности, научной новизны и практической ценности работы, определяющей ее
место среды работ того же направления, приводится краткое содержание по главам.
В первой главе диссертации проводится обзор основных результатов исследования отечественных и зарубежных авторов в области разработки методов структуризации. Поскольку полученные в диссертации результаты основываются на теории монотонных систем, поэтому в первой главе вводятся понятия монотонной системы и ее ядра, а также приводится алгоритм выделения максимального по вложению ядра монотонной системы, что в свою очередь выделяет задачу классификации данных на основа понятие монотоннбй системы.
Пусть задано конечное множество об'ектов и, |V| =N1, и на нем скалярная функция п, которая каждой паре (где н^у-произвольное подмножество v, 1<ч!) ставит в соответствие число П(1,н).
Число п(1,н) называется весом элемента 1 на множестве н. От такой функции требуется, чтобы она удовлетворяла следующему условию
<1) п(),и) » п(!,н' ),
для всех ¡^н'
Определение 1. . Множество V с весовой функцией п, которая удовлетворяет условию (1), называется
монотонной системой. Обозначим ее <«,п>.
Определение 2. Пусть Н£М монотонной системы <у?|п>. Тогда <н,п> называется суженной монотонной системой.
Определение .?. Функция р, ставящая каждому
подмножеству монотонной системы <к,П> в соответствие
число
(2) Р(Н)=ппп П( 1 ,н) ,
называется экстремальной функцией.
В целом, удобно пользоватся следующим обозначением монотонной системы - <м,п,р>.
Определение 4. Суженная система <н',п,г>
монотонной системы <м,п,к>, при которой функция Р
б
принимает максимальное значение на н'
(Я ) Р(н' )=шах Р(Н) ,
называется экстремальной подсистемой, а н' -называется ядром монотош>й системы <«,п,к>. Значение р(н' ) называется
показателем качества ядра.
Подчеркнем, что экстремальное в смысле (3) подмножество, является наибольшим по вложению ядром.
В этой главе формулируется основная цель диссертации-разработка лингвистических методов обработки эмпирических матриц "об'ект-признак" на основе теории монотонных систем.
Поставленная в диссертации цель достигается в результате решения следующих задач:
1. Разработки методики классификации с помощью монотонных систем с цель» получения кластер-анализа обрабативаемой информации.
2. Проведения исследования специальных монотонных систем, позволяющих упростить процедуру классификации данных, обладающих сложной природой.
л. Построения общей схемы конструирования лингвистического анализа матрицы данных с помощью монотонных систем.
4. Создания прикладной монотонной системы с целью ее использования для параллельного агрегирования об'ектов и признаков больших эмпирических матриц данных.
5. Разработки комплекса программ, реализующих предложенную процедуру классификации с помощью монотонных систем.
й. Решения прикладных задач, возникающих в разнообразных сферах.
Во второй главе описывается общая схема алгоритма классификации с применением монотонных систем и ставится задача построения алгоритмов классификации основанных на поиске "меньших по мощности", а лучше всего наименьших по вложению ядер в последовательности вложенных монотонных
систем. Исследуются некоторые свойства минимальных по вложению ядер монотонно* системы. На их основе дается процедура построения алгоритма классификации, основанная на последовательном выделении минимальных по вложения ядер вложенных монотонных систем. Рассматриваются специальные монотонные системы, которые позволяют сократить об'ем вычислений, необходимых для нахождения минимальных по вложению ядер.
Предложены схемы лингвистического анализа эмпирических матриц данных на базе заданных монотонных систем - на множестве признаков-столбцов и на множестве об'ектов-строк. В основе этой схемы лежит следующее соображение. Пусть рассматривается совокупность об'ектов анализа, описываемых значениями некоторого множества показателей, то есть каждый об'ект может быть представлен как вектор в многомерном пространстве показателей. В схеме лингвистического метода предлагается разделить пространство на несколько подпространств, то есть разделить показатели на группы,.« в каждом подпространстве изучать структуру об'ектов, то есть строить разбиения об'ектов .на классы. Результатом является набор разбиений об'ектов, интерпретируемых как классификации об'ектов по разным аспектам. Таким образом, каждый об'ект описывается "фразой" из слов двух типов: номера аспектов-групп показателей и номера классов.
Построенные алгоритмы базируются на следующих теоремах.
Теорема t . г, есть минимальное по вложению ядро
монотонсй системы <w,n,F> , тогда и только тогда, когда для любого выполняется условые
(4) f(fi.) < f(0) ,
где п( ядро системы <n\t,n,F), а о наиболшее по вложению ядро монотонной системы <w,n,F).
Заметим, что ядра г.н суженной системы <r.yi,n,F>", где н-произвольное подмножество г. (iter,), удовлетворяют одному из двух взаимно исключающих друг друга условий: a) f(г,н) = F(о)
я
6) f(fih)<f(0),
где о наибольшее по вложению ядро системы <v,n,F>.
Теорема 2. Пусть о и к = {п, ,с-2,. ■ • .п,}
соответственно наибогашее по вложению ядро и множество всех ядер системы Чк.п.ю, а лн - тдро суженной системы <o\n,n,F>, для любого н*о. Тогда если f(oh) < к(о), то для любого i имеем нпо(»0.
Алгороитм поиска наибольшего по вложению ядра г. системы <w,n,F> сводится к построению так называемо*
опредляющей последовательности 1"<'i,t2.....,n> "
- элементов множества из w и выделения из
нее такого наибольшего правого сегмента
V*Wi,",,V' для кот°рого
(S)' n<VV* я 1Л п( W
V=1 , V
и кроме того, ц - наименьший индекс, для которого верно (Я).
Поскольку, как это следует из процедуры построения максимального по вложению ядра, для всех \j=í"7ñ
(«) n( W*" < " п(«, Tv)-F(Iv) ,
¡' I
V
постольку всякий сегмент i , удовлетворяющий (s)
определяет некоторое ядро п системы <w,n,f>. Из всех таких ядер, которые выделяются одновременно с нахождением наибольшего по вложению ядра г,, выделим наименьшее. Обозначим его через л, а соответствующий ему элемент-первый элемент а последовательности х-через i-. Далее для писка одного из минимальных п о влож е нию ядер будем использовать в качестве начального сужения <г. ,п,г> именно это ядро.
Следствие. Для всякого ядра п системы <r,,n,f> имеем
- о.
Алгоритм ai, предназначенный для выделения минимального по вложению ядра монотонной системы.
о
Шаг 1. Строим последовательность I, удовлетворяющую для всех v=i,m, условию (fi); выделяем в ней
наибольший индекс Ц из тех, что удовлетворяют условию (5). Он определяет ядро о, (будем считать его ядром О(а) уровния а=1), элемент i- г п. В силу следствия искомое наименьшее ядро г. . вложенное в г,, обязательно
min '
содержит i- ( I- г Г, . £ Г,).
" г 'МД min '
lar 2. Положим a=a + l . Возьмем систему <n,n,F> и рассмотрим семейство ее сужений <<7\{ i} ,ц,f> , для всех i^o, кроме i— , и на каждом сужений найдем ядро os (оно выделяется с помощью эффективного алгоритма - для нахождения максимального по вложению ядра).
Возможны две ситуации:
1) Существует такое i , что F(ñ()=F(ñ). (обнаружить, что на шаге 2 имеем место эта ситуация можно не
просматривая все системы <п\[)},n,F>. Первая же система, которая даст равенство F(ñ1)=F(n) определяет этот факт).
2) для всех i»i , F(rc.) < F(ñ).
1. Если имеет место первая ситуация, то выбираем любой элемент j* ■»— из множества п~, (например, для определенности, наименьший по номеру в исходном списке элементов W). обозначим этот элемент через ¡^ Вместо системы <f¡, П,F>, построенной на шаге 1, берем систему <г,(а-1) ,n,F>, где п(а-1 )=fi. . После этого применяем к ней шаг 2.
2. Если имеет место вторая ситуация, то это означает в силу теоремы 1, что искомое минимальное по вложению ядро найдено. Им является рассматриваемое ядро г, (на уровне о«1 ) или г. (а -1 ) на уровне а.
Ясно, что с точки зрения вычислительной эффективности алгоритма существенно как можно быстрее обнаружить первую ситуацию. -
для этой цели опишем алгоритм А2, являющийся
незначительной модификацией выше описанного алгоритма А1.
ю
Алгоритм А2, предназначенный для выделения
минимального по вложению ядра монотонно« системы Шаг 1. Это есть ваг 1 алгоритма *1.
Наг 2. После шага 1 алгоритма м. разов'ем г. на две максимально равные по мощности части н^ m — , и
Н2»0\(Н1(П~), (Ht 1;н21Я— «а). (здесь рассматривается упорядоченное множество п, которое получено после выполнения шага 1 алгоритма А), и поэтому разбиение легко осуществляется путем выбора границы между множествами н, и Н2 в последовательности элементов г, ) '. Определим ядро 0(11,) системы <11,111-,n,F>. Если F(п(нt )> = fJo), то П(Н.,) снова нужно разбить на две максимально равные по мощности части, и такое разбиение будем последовательно проводить до тех пор, пока не наступит вторая из возможных ситуации F(ñ(H1)) < F(f¡). Эта вторая ситуация, очевидно, означает, что в н2 имеется хотя бы один элемент, который принадлежит искомому ядру. Поэтому для сокращения поиска ситуации )»р(&)" на шаге 2 описанного алгоритма в отличие от алгоритма ai следует выбрать не произвольный очередной элемент для рассмотрения системы <o.ln,f>l а такой i, что i-и,. Далее последовательно перебираются сначала все элементы из н, , а затем уже из н2- Конец алгоритма.
Итак, с учетом описанного алгоритма поиска минимального по вложению ядра, искомый алгоритм классификации определяется как следующая последовательная процедура.
Сначала в система <w,n,f> отыскивается минимальное по вложении ядро п,. Затем в сужении íWXr^.n.F) вновь отыскивается минимальное по вложению ядро п2 и далее аналогично этот процесс сужения и поиска минимального по вложению ядра на суженной монотонной системе проводится до исчерпания w.
Утверждение 1. Пусть п, ,r¡2, ... ,г.js| минимальные по вложению ядра соответственно монотонных систем <w,u,f>,<w\f!pn,f>, . . . , <vi\(gt ,г,2, . . . ,r.|s ) | ,u,f> , тогдэ
f(0, )>f(r,2)*. . ,*F(0|S| ), где я-некоторое множество
индексов.
Отметим, что использование специальных монотонных систем дают допольннтелькые возможности сокращения вычислений, необходимых для нахождения минимальных по вложению ядер. Кроме того, рассмотрение таких систем позволяет иногда описать всю структуру изучаемых данных, что резко расширяет возможность предложенных алгоритмов, так как позволяет учесть априорную информацию при построении искомой классификации.
Рассмотрим ' монотонную систему <и,п1(к> , где функция п1(1,н)=тях я.,, задана на матрице связей
а=1я^|, 1,.гН. предполагается, что для всех справедливо я.^»о,¡»,=о. Пусть
к*{1,2,...,к}-некоторое множество индексов и о^-для любого
я»1 ,ь диаметр матрицы А,т.е. <•„={' |,)я}| а
=т»х л^у Тогда необходыимый об'ем вычислений
предложенного алгоритма для нахождения минимального по вложению ядра таких монотонных систем сокращается на основе следующей теоремы.
Теорема з. Для любого я=1 ,к, о есть минимальное по
вложению ядро монотонной системы <w,n1,f>.
Теорема 4. Пусть {or,я = 1,к} есть множество всех минимальных по вложению ядер монотонной системы <w,ii1,f>. Тогда если о есть наибольшее по вложению ядро монотонной системы <H,n.,F>, то г,- и г. где s={i ,2,... ,к).
Рассмотрим _монотонную систему <w-,n2lF>, где
функция пг(i,н)=) я.^ задана на матрице связей
JfH
АгИя. j«, i , j^w. Предполагается, что. для всех '.J'W
справедливо > 0, i*j,aii=o. Тогда имеет место следующая
теорема.
Теорема я. В монотонной системе <w,n2,F> существует единственное минимальное по вложению ядро.
Пусть дана прямоугольная матрица данных ф 5 Л<р. jü^., и пусть w^v - множество об'ектов-строк матрицы
I wxl = lxl=Г1). а wy=Y - множество' признаков-столбцов lwyl=1v|=н). Таким образом рассматривается Ф - матрица
"об'ект-признак".
На множестве признаков-столбцов wy рассмотрим
следующую монотонную систему <wy,n( i ,Hy).,F(Hy)>, где ПЦ.н ) монотонная функция этой монотонной системы, а
F(н )=mln П(1,ч ). Максимальное по мощности множество
у 1--н у
у
Hy,,£Wy, доставляющее глобальный максимум функции И"у). называется наибольшим по вложению ядром монотонной системы
<wy,n(i,Hy),F(Hy)>.
Рассмотрим следующую подматрицу ф' (w х матрицы
х у
ф , для любого ну s wy . Нетрудно заметить, что монотонную
систему можно построить и на множестве об'ектов-строк w^
матрицы Ф' . Для любого подмножества н множества w^
матрицы ф' введем обозначение: нх(ну) = vi^ и элементу
j^H (н ) сопоставим число п(j,н (н )). Построим монотонную * у х у
систему на об'ектах-строках аналогично тому, как это сделано для монотонной системы на множестве признаков-столбцов. Обозначим ее через - <w ,n(j,H (н )),f(h.(ii ))>.
X х у х у
Построенная монотонная система на множестве об'ектов-строк <w ,n(j (н (н ))|F(" (и ))> порождает на lW I |х|
множестве 2 =2 всех подмножеств множества функцию Q(il v), которая определяется следующим образом:
Q(Hy)=F(
условию
q(ll ) = F(нт(н )), где н*(н ) удовлетворяет следующему
уху X у
F("*("y))= » 1 « n(j,H*(Hy))=
m
H (H )iW j-"H (H )
v * y ' y * X 4 y
n(j,(llx(lly)).
Относительно построенной функции ЧП'у) справедлива следующая теорема.
Теорема К. <5(Ну) есть монотонная функция от н т.е. ну4[(у1 означает, что <}{ну )*<5(ну). Рассмотрим теперь новую функцию
п' ( i,н )=11 ( i ,н )♦<}(ну ), которая определяет новую монотонную систему на множестве
Г
признаков-столбцов 1' <' ). Р-' Теорема 7.
а
именно
систему
<«у,11' (1 ,ну),г' <"у)>, где
I'
,.71 ..л
11 > ' 2 ■ • ' " ' 'м
последовательности ;(5,ну),Р(ну)> Утверждение 2.
<« ,п'( < ,н (н )>,совпадает
¡п 1 ' 2
<«у.п(5,ну),р(ну)>.
Определяющая последовательность > монотонной системы
с ч
I
определяющей монотонной системы
ядро монотонной системы
Пусть ну< наибольшее по вложению
<« ,п(1 ,н ),г(н )>,
У У У
соответствующий элемент т.е.
ш 1 п И*.
М*
тогда имеет место следующее соотношение
п'(.и«,, » в я х
I ..
Таким образом, необходимый об'ем вычислений алгоритма
для нахождения наибольшего по вложению ядра
и
у*
<ы ,п' (I ,н .)(и )> сокращается; в частности для поиска и
строится определяющая последовательность
• ■ Тп>
монотонной системы <« ,п( I ,н КНн )>, и выделяется из - нее
такой наибольший правый сегмент которого
= <Г
Г1 « I ■
и м ц-и
соответствующий элемент множества н^ через
. я
>, для
• Я
'м»
ОЛозначим т.е.
"м* '"у ) = п 1 V1*1
у = 1,м*
алгоритм параллельной агрегации об'ектов и признаков.
Шаг 1. Для монотонной системы <ку, п ( 1 , н ), г( н ) строим определяющую последовательность 1П = < , ¡" , .. . ¡!! •. Находим
12 4
минимальное по вложению ядро и уже построенной монотонной
у*
системы <V ,и'(1,и (я.)>.
Шаг 2.Для монотонной системы
<*х ,П(.Ы^н^)) ,р(нх(н^))> строим определяющую
последовательность. Находим минимальное по вложению ядро этой монотонной системы. Обозначим его через
Шаг а. Положим и^ги^дн^ , переходим к шагу 1, и процесс продолжаем до исчерпания и .
Таким образом, с учетом полученного алгоритма процесс параллельной агрегации об'ектов и признаков определяется как следующая последовательная процедура.
С начала в построенной на признаках-столбцах матрицы данных монотонной системе <»у1п(I),г(н )> отыскивается
минимальное по вложению ядро н^. Полученное ядро порождает на об'ектах-строках матрицы данных монотонную систему
<их.П(,р(нх(н^))>. находим ее минимальное по вложению ядро; обозначим его через ч1 (и1 ). Затем в
1 х* 1 *
сужении (! 1пу) )> вновь отыскивается
£
минимальное по вложению ядро н и соответствующее ему
,2 .„2
У"
ядро Н^(И^) и далее этот процесс сужения проводится до исчерпания I* |*|у|=ч.
Отметим, 'что описанная последовательная процедура порождает множество множеств I • • • И'^.*) ■ где кеь, а
ь - некоторой множество индексов, для , которых выполняется
1 2 к следующее соотноиение: г 1 1 ), где
«1п п(' • "у*' • лля лийого ¿.ТПГ. кроме того
¡«•и-',, ч 1 *
Можно предложить постановку задачи разбиения об'ектов-строк на большое число классов. Одну из таких возможностей дает использование выше описанной процедуры построения алгоритма классификации, основанной на последовательном выделений минимальных по вложению ядер вложенных монотонных систем. В результате процедуры получается некоторое число различных
"1* > >1 )), для любого j=T7i; классов,
для которых характерно следующее .соотношение:
Ч(Ну») * Ч(н^)»"« ч(н^), где любого
1 2 *. 1 1Л7Т.
Указанная постановка задачи, в отличие от первой разбиение призналв-столбцов, гораздо сложнее с точки зрения об'ема вычислений алгоритма.
Полезность описанной конструкций монотонных систем «ллустрируются в третьей главе диссертаций, где решены выше названные две практические задачи. Анализ массивов данных (значений некоторых показателей на множестве исследуемых об'ектов) проводится двумя способами: структурными методами реализованными в пакете программ "Типолог-Терри" и методами поиска минимальных ядер нескольких монотонных систем, построенных на множествах исследуемых об'ектов.
Структурный анализ с использованием пакета программ "Типолог-Терри" проводится по следующей методике:
1-й- этап -ввод исходных показателей и построение на их базе по фиксированным формулам производных показателей; предварительный анализ коэффициентов парных корреляций показателей.
2-й этап - анализ отдельных аспектов - частных проблем, состоящий в выделении (путем назначения или с помощью алгоритма экстремальной группировки ) групп показателей, и для каждой группы построение интегрального показателя (первой главной компоненты).
3-й этап - классификация об'ектов исследования (с помощью алгоритма автоматической классификации) по значениям каждого интегрального показателя с целью последующей характеристики классов средними значениями и среднеквадратическими отклонениями показателей.
4- этап - анализ нескольких частных проблем, представленных классификациями об'ектов исследования по соответствующим интегральным показателям , который выполняется путем сопоставления этих классификации и который приводит к новому разбиению об'ектов на классы, образованные с помощью пересечения и об'единения классов по частным проблемам.
1 г.
Далее, для интерпретации найденного разбиения анализируется соотношение между классами этого разбиения и минимальными ядрами двух монотонных систем, построенных с учетом такого разбиения: <и,п1,Р> и <и,п2,г>, где и
множество об'ектов исследования; п](<,н)=^ ^ 1
1+г '
1 ' П,(1,Н)=тях--- , УН£И И VI , .^Н , 1 ^ ^ ; ЗДвСЬ г..
1 + г, . и
'Л . -
расстояние между )-м и .¡-м об'ектамы в пространстве
интегральных показателей.
В [1] доказано наличие единственного минимального по вложению ядра у монотонной системы ■си,п1,Р>. Вызывает интерес распределеня об'ектов входящих в минимальное ядро, по непересекающимися классам разбиения, полученного структурными методами анализа.
Как следует из'определения функции п2, минимальные по вложению ядра монотонной системы <и,п2,р> представляют собой пары самых близких об'ектов, в пространстве интегральных показателей. Об'единение таких пар об'ектов образует максимальное по вложению ядро данной монотонной системы. Вудем анализировать пересечение этого ядра с классами разбиения, полученного структурными методами с помощью пакета программ "Типолог-Терри"..
Однако необходимо отметить, что если расстояние вычисляется по эвклидовой метрике в пространстве интегральных показателей, заданных своими значениями на исследуемом множестве об'ектов, то пара самых близких об'ектов будет, как правило,- единственной, и следовательно, Максимальное Ядро монотонной системы <м,п2,г> совпадет с минимальным и будет содержать только одну эту пару об'ектов. В этом случае изучение пересечения максимального ядра с классами разбиения. об'ектов, полученными с помощью структурных методов анализа, теряет смысл. Чтсбы избежать такой ситуации, предлагается переити от евклидового расстояния к ранговому, введя градаций значений интегральных Показателей. Легко видеть, что. увеличение числа таких градаций приводит к уменьшению мощности максимального ядра
монотонной системы <\^,л2,г>, а уменьшение числа градаций -- к увеличению мощности. Отрицательным результатом уменшения числа градаций, безусловно, является потеря информации о значениях интегральных показателей. Поэтому число таких градаций лучше выбирать, исходя из некоторого условия, заданного из вне (напрыер, экспертно или из других задач, по смыслу связанных с данной). В нашем случае число градации . значений интегральных показателей может быть задано совпадающим с числом классов при классификации по каждому интегральному показателю, т.е.
Е к - ^
к = 1
где Ч™ - номер класса ш-го об'екта по к-му интегральному показателю; »-числа интегральных показателей. Тогда ' минимальными ядрами монотонной системы <у,я2,р> .будут пары об'ектов, имеющих одиноковыа номера классов в классификации по каждому из рассматриваемых интегральных показателей, т.е. пары об'ектов, составляющих каждый класс разбиения в п-мерном пространстве интегральных показателей. (Для этих пар п2з1). Понятно, что об'екты, составляющие одноэлементные классы, в минимальные ядра включатся не .. будет.
Минимальное ядро монотонной системы <«,я)рр> при вычислении расстояния г.^ через ранги интегральных показателей будет состоять из одной или нескольких последовательносьтей об'ектов, относящихся (для каждой последовательности) к одному и тому же классу разбиения множества об'ектов в пространства интегральных показателей. Причем порядок следования об'ектов в таких последовательностях не имеет значение. Это обясняется следующим обр' пом. Значение функции я, для каждого об'екта одного класса разбиения есть величина постоянная. При исключении из множества V об'екта любого клзсга, наибольшее изменение функции я, произойдет на об'ектлх того же класса (она уменьшится на единицу, т.к. для данного класса г(^ = Г>). Поэтому, пока не закончится перечисление (в
любом порядке) всех об'ектов одного класса, об'екты другого класса в определяющей последовательности появиться не могут.
Для изучения социально-демографических особенностей .сельсоветов Аджарии по каждому из П1-го ее сельсоветов была собрана информация о' значениях исходных показателей. Для обеспечения возможности сравнения сельсоветов необходимо было заменить большую часть абсолютных показателей - на относительные. В качестве таковых били выбраны производные показатели, которые изучались в соответствие с следующими социально-демографическими аспектами развития сельсоветов: структурой занятости населения; уровнем образования; обеспечением местами в школах и дошкольных детских учреждениях ; состоянием здравохранения ¡здоровья населения; интенсивности т.н. "перестроечных" процессов; структурой владения землей, демографической ситуацией.
1. На основе анализа двух интегральных показателей множество сельсоветов республики было разбито на 3 существенно различных типа: сельсоветы сельских районов, районов преимущественно городского населения и районов со смешанной структурой занятости.
2. Для сельсоветов сельских районов характерна хорошая демографическая ситуация, но плохое состояние здравоохранения и здоровья населения, крайне низкий уровень образования: удельный вес малограмотного населения превышает удельный вес специалистов, и среди малограмотных более 1/3 составляют неграмотные.
Л. Сельсоветы районов с преимущественно городским населением существуют в условиях хорошей демографической ситуации, отличаются относительно высокими ресурсами здравоохранения и и уровнем состояния здоровья населения, относительно высоким уровнем образования и развития социальной инфраструктури, выражающимся, в частности, в наибольшей обеспеченности местами в школах и детских садах по сравнению с сельсоветами других типов. В отношении использования приусадебных участков такие сельсоветы опережают все прочие, а в части развития кооперации -опережают сельские и чуть отстают от сельсоветов
1 т
со смешанное структурой занятости. В селсоветах городского типа развита средняя и мелькая форма землевладения.
4. лях сельсоветов со смешанной структурой занятости населения существуют в условиях плохой демографической ситуации. Для некоторых сельсоветов этого типа характерны недостаточные ресурсы здравоохранения и относительно низкий уровень состояния здоровья населения. Уровень образования здесь лишь немного выше, чем в сельсоветах сельских районов. По обеспеченности местами в школах и детских садах сельсоветы смешанного приближаются городским, а в части развития кооперации опережают как сельские, так и городского типа. В отношении использования приусадебных участков сельсоветы смешанного типа опережают сельские и незначительно отстают от городских. Преимущественное развитие получила крупная форма землевладения. Эти сельсоветы имеют самостоятельное значение и не являются суперпозицией городского и сельского типов сельсоветов.
В. При исследовании минимального ядра монотонной системы <к,и,,к> получено, что его структура идентична структуре разбиения множества сельсоветов на типы в пространстве двух интегральных показателей.
П. При исследовании максимального ядра монотонной системы <у,п2,к> из-за отсутствия одноэлементных типов сельсоветов получено полное покрытие трех типов разбиения сельсоветов в пространстве двух интегральных показателей.
Для решения задачи - изучение характеристики влияния на здоровье работающих на предприятиях г.Батуми, существующих тем социально-экономических условый и действующих факторов вредности производства - была собрана данные о значениях исходных показателей по зп-м предприятиям. В диссертации рассматривались две возможные схемы влияния аргументов на изучаемые функций: у=г(у) и > — Г(>•), где у-характеристики здоровья, \-факторы вредности производства, ¡¿-характеристики социально-экономических условый.
1 . В результате проведанного исследования были выявлг-ны статистически значимые кусочно-постоянные зависимости характеристик здоров!,я работающих ст факторов вредности
го
производства и характерных социально-экономических условия на предприятиях:
-зависимость доли работающих на предприятиях хроников (у2) от характеристики вредности производства (*,);
-зависимость числа потерянных рабочих дней на 1-го человека (у,) от степени использования женского труда (7г);
-зависимость числа потерянных рабочих дней на 1-го человека (у,) от обеспеченности предприятий средствами соцкультбыта
-зависимость доли работающих на предприятиях инвалидов (ул) от обеспеченности предприятий -средствами соцкультбыта
-зависимость доли работающих на предприятиях хроников (у2> от обеспеченности предприятий средствами соцкультбыта
2. В ряде случаев, несмотрия на отсутствие статистически значимых зависимостей, били обиаругены некоторые особенности в структуре распределения предприятий по классам разбиений:
-не наблюдалось предприятий с высоким и средным уровниями производственной вредности, для которых был бы характерен низкий уровень числа потерянных рабочих дней на 1-го человека;
-не наблюдались случай работы большого и среднего числа инвалидов на предприятиях с высоким и средним уровниями вредности и на предприятиях с высокой выработкой;
-не наблюдались случай работы большого числа инвалидов на предприятиях с большим и средним числом источников вредности;
-случай работы большого и среднего числа инвалидов наблюдались только на предприятиях с высокой степенью использования женского труда.
л. С помоСцъю метода минимальных ядер решался вопрос о существовании зависимостей у,!*,,,?.^) и Уг'"!'7^'-
При исследовании монотонных систем <;к,п1 ,т> и <у,ц',г> получено,что {соответстренно с учетом и без учета)
а) их минимальные ядра состоят из одной или нескольких
последовательностей предприятий, имеющих одинаковые номера классов при разбиении всего множества предприятий в пространстве аргументов или х 1. п. т.е. найдена связь
структуры минимальных ядер систем такого вида с классами разбиения предприятий в пространствах аргументов и
б) сужение области, выделяемой минимальныим ядром в пространстве аргументов в случае учета кусочно-постоянных зависимостей у,(?2 ), у,(), не приводит к равномерному случайному распределению предприятий, составляющих ядро, по классам функции у,;
в) расширение области, выделяемой минимальным ядром в случае кусочно-постоянных зависимостей у2( х, ), у2 (•/у), приводит к лучшему различению классов предприятий по функций
Факты б) ив) позволяют сделать вывод о существовании зависимостей у|('2. -"3) и у2(») •
При исследовании монотонных систем <«,112,к> и <и,и£,к> получено, что(с учетом и без учета зависимостей)
а) их максимальные ядра, состоят• из всех пар предприятий, образующих такие классы разбиения в пространстве аргументов, в которые входят два и более предприятий, т.е. найдена связь структуры максимальных ядер монотонных систем такого вида с классами разбиеиия предприятий в пространствах аргументов г.,.7^ и ^'"ги
б) покрытие классов предприятий как по функциий у,, так и по функций у2 максимальными ядрами таких систем улучшается с учетом найденных кусочно-постоянных зависимостей, что служит подтверждением сделанного ранее вывода о существовании зависимостей и у?.'х 1 1'"
ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ
Основными результатами, полученными в настоящей
диссертационной работе, япляются следующие:
I. Проведен анализ подходящих методов для классификации
об'ектов и описана задача классификации на языке теория монотонных систем.
2. Построены алгоритмы классификации, основанные на поиске ядер в последовательности вложенных монотонных систем и имеющие преимущества относительно известных алгоритмов на уровне поставленной цели.
3. Построены специальные монотонные системы, для которых нахождение специальных класов на уровне поставленной цели упрощается.
4. Наиболее актуальной является изучение проблем, связанных с выбором монотонной функции, таких, что нахождение классов анализируемого множества об'ектов упрощается.
5. Предложен новый подход к изучению больших массивов эмпирических данных, основанный на комбинаций параллельного лингвистического метода и на критериальных функциях монотонных систем,
в. Разработана система программ, реализующая описанную методику кластеризирования с помощью монотонных систем.
7. Предложена методика изучения социально-демографических особенностей некоторых территориально-административных единиц,основанная на структурных методах анализа эмпирических данных, которые реализованы в пакете программ "Типолог-Терри". С помощью этой методики проведен анализ сельсоветов Аджарии.
я. Разработан способ применения структурных методов анализа эмпи.-ических данных для определения статистически значимых одномерных кусочно-постоянных зависимостей. Выявлено пять таких зависимостей характеристик здоровья работающих от реакторов вредности производства, и характеристик социально-экономических условий на предприятиях.
я. Найдена и экспериментально подтверждена связь структур минимальных ядер монотонных систем двух видов с классами разбиения об'ектов, полученными с помощью структурных методов анализа эмпирических данных.
ю. Предложен метод совместного анализа:
?л
а) минимальных ядер монотонных систем в пространстве нескольких аргументов;
б) классов разбиения об'ектов по оси функции;
с целью определения существования зависимости между данными аргументами и функцией. Метод исползовался для определения существования двух зависимостей характеристик здоровья работающих, каждая в двумерном пространстве аргументов.
По теме диссертации опубликована следующая работа;
1. Думбадзе М.Н. Об алгоритмах классификации, основанных на поиске ядер в последовательности вложенных монотонных систем.//Автоматика и Телемеханика,1990,п.
-
Похожие работы
- Разработка и исследование генератора монотонных систем в решении задач агрегирования данных
- Методы агрегирования иерархических динамических систем в задачах отраслевого планирования
- Методы итеративного агрегирования для приближенного решения линейных и нелинейных алгебраических систем и интегральных уравнений
- Принятие решений по агрегированной информации в теоретико-игровых моделях
- Об итерационных методах решения операторных уравнений второго рода
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность