автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Информационно-статистические методыоценивания точности идентификации социально-экономических процессов

кандидата технических наук
Лапина, Татьяна Ивановна
город
Курск
год
2000
специальность ВАК РФ
05.13.10
Автореферат по информатике, вычислительной технике и управлению на тему «Информационно-статистические методыоценивания точности идентификации социально-экономических процессов»

Автореферат диссертации по теме "Информационно-статистические методыоценивания точности идентификации социально-экономических процессов"

РГБ ОД

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

КУРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

На правах рукописи

Лапина Татьяна Ивановна

Информационно-статистические методы

оценивания точности идентификации социально — экономических процессов

Специальность 05.13.10 - Упраштение в социальных и экономических системах

Автореферат диссертации на соискание ученой степени кандидата технических наук

КУРСК - 2000

Работа выполнена в Курском Государственном техническом университете

Научные руководители:

доктор технических наук, профессор Уразбахтин И.Г. кандидат технических наук, доцент Уколова Л.Н.

Официальные оппоненты:

Доктор экономических наук, профессор Степанов А.А. Кандидат технических наук, старший научный сотрудник Мирталибов ТА.

Ведущая организация:

ОКБ "Авиаавтоматика" АО Прибор г. Курск

Защита состоится " Л6- " _2000 г. в /¿?часов на

заседании диссертационного совета при Курском

государственном техническом университете по адресу: 305039, г. Курск, ул. 50 лет Октября, 94.

С диссертацией можно ознакомится в библиотеке Курского государственного технического университета.

Автореферат разослан " 2000г.

Ученый секретарь диссертационного совета

к.ф-м.н., профессор Старков Ф.А.

^{>611.9/0

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы В условиях острейшего экономического кризиса )Собое значение приобретают своевременность и точность принятия )ешений в управлении на всех уровнях социально-экономических систем. Задача высокоэффективной организации управления в социалыю-1кономических системах может быть решена путем совершенствования методов управления, математических методов описания и анализа 1кономической информации, внедрения современных информационных -ехнологий. Идентификация, как элемент научной методологии описания 1Кономической информации, решает задачи построения математических моделей социально-экономических объектов. Задаче идентификации юевящено много исследований, отличающихся не только объектами, соторые необходимо идентифицировать, но и методами и алгоритмами идентификации. Методы идентификации должны быть устойчивыми и >бсспечивать адекватность моделей объектам, целям и задачам управления 1 условиях изменения вероятностных свойств статистических данных. . Три решении задач идентификации традиционно используются методы , »снованные на применении порядковых статистик (Г.Дейвид), ранговых :ритериев (Я.Гаек, З.Шидак), ранговых корреляций (М.Кендал), юбастных методов (ПХыобер), графических методов анализа (Цж.Тьюки), ^традиционных методов (Б.Эфрон).

Однако, полученные теоретические результаты не всегда 'довлетворяют требованиям практики, особенно в условиях ограниченного п<50) объема данных и высокой априорной неопределенности о (ероятностных характеристиках исследуемых объектов. Для 1дентификации социально-экономических процессов характерно:

• непостоянство и ограниченность объема статистических данных об гсследуемом объекте;

• изменчивость вероятностных характеристик измеряемых параметров >бъекта и условий их формирования;

• недостаточность сведений о форме (структуре) связи факторов и юраметров модели наблюдаемого объекта.

Перечисленные условия усложняют решение задач идентификации .оциально-экономических процессов из-за проблематичности применения гзвестных подходов, основанных на классических методах математической ггатистики. Особенно это относится к задачам идентификации форм юделей по выборочным данным, так как они решаются с использованием

ограниченного набора аналитических моделей. Реальные процессы не всегда можно отнести к известным классам моделей с достаточной степенью адекватности.

В последние годы развивается новое направление статистических методов анализа информации, представленной малым объемом выборочных данных, базирующееся на применении концептуальных моделей представления пар распределений, известных как рабочие характеристики (Дж.Иган), распределения индикаторов (Г. Б. Петухов), каноническое представление пар распределений (Ф.П.Тарасенко), концептуальная модель представления пар распределений (И.Г.Уразбахтин).

Использование концептуальной модели в задачах идентификации законов распределения и анализа статистических данных, представленных малым объемом выборочных данных, показало их высокую эффективность по сравнению с известными подходами. В то же время остаются открытыми вопросы оценивания надежности принимаемых решений в задачах идентификации форм моделей.

В данной работе рассматриваются вопросы оценивания адекватности форм моделей при идентификации с использованием информационно-статис-тичсских критериев, основанных на концептуальном представлении пар распределений.

Предлагаемый в работе информационно-статистический подход к анализу выборочных данных с использованием приведенных распределений, позволяет разработать количественные меры оценки точности идентификации форм моделей социально-экономических систем. Предложенные методы дают удобный инструментарий для обработки статистических экспериментальных данных и определения корректности выбранной модели.

Таким образом, объектом исследования в предлагаемой работе являются процессы идентификации стохастических объектов. Предметом исследования являются методы оценки адекватности форм моделей при идентификации слабоформализуемых систем в условиях ограниченного объема данных.

Целью диссертационной работы является повышение точности идентификации форм моделей социально-экономических процессов в задачах управления.

Для достижения поставленной цели решаются следующие основные задачи:

• Обоснование информационно-статистического подхода к оценке

качества идентификации социально-экономических процессов с использованием приведенных распределений и концептуальной модели представления пар распределений;

• Разработка приемов оценивания возможного разнообразия классов статистических распределений для заданных значений "собственных индикаторов" приведенных распределений;

• Разработка способа оценивания качества идентификации форм моделей по остаточной неопределенности на основе анализа информативности поля концептуальной модели;

• Разработка мер структурного разнообразия законов с заданными свойствами;

• Разработка способа оценки взаимной неопределенности статистик выборочных данных;

• Оценка чувствительности статистических мер рассогласования распре-делений к преобразованиям характеристик выборочных данных;

• Разработка последовательной процедуры проверки гипотез по многим критериям с учетом максимальной информативности мер рассогласования выборочных данных.

• Разработка программного обеспечения формирования библиотеки форм моделей для идентификации стохастических объектов.

Методы исследования базируются на основных положениях теории идентификации, теории информации, теории моделирования, теории вероятностей и математической статистики, теории оценивания и принятия решений.

Научная новизна определяется методом формирования форм моделей в задачах идентификации с использованием приведенных распределений; предложенным информационно-статистическим подходом к оценке качества идентификации социально-экономических процессов, основанным на свойствах концептуальной модели представления пар распределений.

Основные теоретические результаты диссертационной работы заключаются в получении новых результатов в задачах идентификации форм ( структур) моделей социально-экономических процессов. Разработанные информационные критерии оценивания качества идентификации форм моделей не зависят от их физической природы, что характеризует их универсальность и применимость в различных областях науки и техники. Результаты исследования могут быть использованы в задачах анализа и синтеза систем обнаружения, распознавания, и т.д.

Основными результаты прикладного характера заключаются в том, что на основании предложенных методов разработана автоматизированная библиотека форм моделей, позволяющая получить вид модели выборочных данных по рассчитанным индикаторам с использованием метода приведенных распределений. Наличие в библиотеке различных моделей, намного превосходящих все известные классы распределений позволяет эффективно решать прикладные задачи, связанные с моделированием поведения социально-экономических, медицинских, экологических объектов и систем. Разработаны методы оценивания адекватности полученных моделей в виде мер возможного структурного разнообразия классов моделей для статистических значений индикаторов выборочных данных.

Апробация работы Результаты работы докладывались и обсуждались на Второй международной молодежной школе-семинаре БИКАМП (г.Санкт-Петербург, 1999), на Четвертой Российской университетско-академической научно-практической конференции (Ижевск, 1999, на научно-технических семинарах кафедры.

Автором опубликовано по теме диссертационной работы 9 печатных работ, список которых приведен в конце автореферата.

Структура и объем работы Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка из 74 наименований.

На защиту выносятся следующие основные результаты работы: " 1.Метод оценивания возможного разнообразия классов статистических распределений в задачах идентификации форм моделей с использованием "собственных индикаторов" приведенных распределений, основанных на свойствах центральных моментов распределений.

2.Метод оценивания адекватности модели при идентификации случайных объектов на основании определения остаточной неопределенности путем анализа информативности поля концептуальной модели.

3.Мсры структурного разнообразия законов с заданными свойствами;

4.Рекомендации по выбору критерия принятия решений с учетом взаимосвязи статистик выборочных данных.

5.Способ оценки чувствительности статистических мер рассогласования распределений к преобразованиям характеристик выборочных данных.

б.Последоватсльная процедура проверю! гипотез по многим критериям с учетом максимальной информативности мер рассогласования

выборочных данных.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, дана общая характеристика работы, определены цель и задачи исследования, научная новизна, сформулированы положения, выносимые на защиту, и практические результаты работы.

В первой главе проведен анализ существующих методов идентификации и дано обоснование информационно-статистического подхода к оцениванию адекватности моделей при идентификации случайных процессов методом приведенных распределений. Необходимым элементом процесса управления является обеспечение адекватного описания поведения объекта управления, то есть представление его в виде некоторой модели. Методы идентификации позволяют восстановить форму модели по совокупности наблюдений, характеризующих поведение объекта. В качестве показателей пригодности математических моделей в экономике и социальной сфере используются показатели адекватности, устойчивости, точности и эффективности. Значительная часть методов математической статистики основана на предположении о том, что информации, получаемой об исследуемом объекте, достаточно для представления данных в виде некоторой функции с конечным числом параметров. Однако на практике чаще всего приходится сталкиваться с ситуацией, когда исходная информация представлена малым объемом выборочных данных, что характерно для экономики, экологии и медицины. В этих областях, известные методы идентификации не дают хороших результатов, в то время как расхождение модели и объекта может привести к существенным потерям. В данной ситуации возможно применение методов нспараметрической статистики или разработка специфических методов идентификации, ориентированных на особенности социально-экономических процессов.

В данной работе рассматривается метод идентификации, основанный на использовании приведенных распределений. При идентификации требуется оценить адекватность модели, то есть возможное разнообразие классов моделирующих функций, отвечающих заданным требованиям. Для количественной оценки точности идентификации предложен информационно-статистический подход, позволяющий на основании

статистических данных оценить область неопределенности (область разнообразия) моделирующих функций с применением мер, зависящих от значений индикаторов приведенных распределений. В качестве меры неопределенности случайного объекта исследования с конечным множеством состояний А,, А2,..., Ап с соответствующими вероятностями

р,, р2, ..., рп используется энтропия Шеннона н(А) = -^р,1пр1 или для

ы

непрерывных случайных объектов, не допускающих введения конечной абсолютной меры неопределенности, используется относительная мера

неопределенности в виде дифференциальной энтропии н =-]г(х) 1пС(х)Эх, где

^х) - плотность распределения случайной величины х. Для измерения количества информации используется также среднее количество

информации по Кульбаку 1 = |г, (х)

1п

(1х или мера Хартли

I = N , которая интерпретируется как уменьшение количества

возможных состояний объекта N.

Вторая глава посвящена разработке приемов оценивания адекватности форм (структур) моделей при идентификации стохастических объектов, в условиях ограниченного объема данных и высокой априорной неопределенности. Основой решения поставленных задач идентификации является метод приведенных распределений. Анализ выборочных данных, их характеристик и мер рассогласования выполнен с использованием концептуальной модели представления пар распределений.

Концептуальная модель формально представляется в виде системы:

Р.(х) = гх=Рг(гх), гхе [0,1], ХЕ [х~,х + ];

рх2(х) = Ех2(Рх-,1 (гх)) = *г2(гх)» Гх[0,1],хе[х-,х+], (1)

где (х), (х)- функции распределения вероятностей.

Подобная модель использовалась в работах Тарасенко Ф.П., Петухова Г.Б., Дж.Игана. В наиболее общем виде свойства концептуальной модели представления нар распределений изучены Уразбахтиным И.Г.

Важным свойством приведенных распределений является то, что центральные моменты распределения Бернулли |1к0 образуют верхнюю границу для центральных моментов ц* всевозможных приведенных к интервалу [ОД] распределений, т.е. значения всех моментов приведенных

распределений лежат в области

О < \1[ < тг (1 -тР)[(1 -шг)к-' + (-1)к = Цк6(тг ),к = 1,2,....

и могут быть с заданной точностью представлены "собственными

индикаторами" {тг,1к}, где к={у||1^, к=2(1)п }к, тг Цк- начальный и центральные моменты приведенных распределений. Точность определяется числом учитываемых в индикаторе центральных моментов цк, к=2,3.. . Анализ "собственных индикаторов" известных теоретических распределений показал, что каждый класс распределений в пространстве индикаторов = шг = 2,3,... занимает вполне определенную

область, что позволяет восстановить форму распределения выборочных данных, используя библиотеку индикаторов приведенных распределений. Восстановление законов распределения производится по ограниченному объему экспериментальных данных из исследуемой генеральной совокупности, при этом "собственные индикаторы", принципиально являясь случайными, занимают некоторую область вокруг их истинного значения (рис. 1а), где

103- верхняя граница возможных значений индикатора 13 в условиях полной неопределенности;

103- верхняя и нижняя границы возможных значений 13 при заданных значениях и 14 или 12.

1з ■

0.9

0 I

о.; 0.6 /и

01 03 0-3

о 1

-

1« -

-—

7" -""

г;3 1 Г*Ы

3 0 4 0 5 0 6 0/ 0Й 0^ 1 и

1 т„

х-1

Рис. 1. Статистические индикаторы, сгенерированные для 1*х(х) = с •

(а)

и диапазон их возможных значений (б) для индикатора 13

В работе получены соотношения для вычисления областей возможных значений "собственных индикаторов" при получении значений моментов низшего или высшего порядка, что позволяет количественно оценить надежность

0.5

ь

принимаемых решений о классе распределения выборочных данных:

и >_____Ь_____

(-ml)"

[(1-ш*ж) +---ту],

<[(i-m;)+—, k(2mJk2k3 .t_ai-nV»

^I^Ik^lLax ИЛИ Дк=1*кт»-Гкт*.

Определяя для каждого момента область возможных значений с заданным уровнем значимости, размер этой области можно определить как меру неопределенности или меру разнообразия законов распределений, которые могут быть выдвинуты в виде гипотезы о классе распределения генеральной совокупности (рис. 1 б).

Свойства распределений, приведенных к интервалу [0,1], положены в основу идентификации форм любых моделей f(x) хе [х~,х+] по статистическим данным. Предложенный подход базируется на том, что масштабная и сдвиговая операции над функцией и переменной х

f*(х) = с• f(ах + b) + d х е [х~,х+] не меняют структуру (класс) функций. Любая функция f(x) хе [х",х + ] путем подбора параметров а, Ь, с, d может быть приведена к интервалу [0,1] и удовлетворять

условиямf*(x) > о, jf*(x)dx = 1 , то есть обладать свойствами приведенной к интервалу [0,1] плотности распределения.

Из определения концептуальных моделей приведенных распределений следует, что они располагаются лишь в единичной квадратной координатной системе.

Если на Ff (г) известна некоторая точка и с координатами г, и Ffj (г,), то всевозможные функции Ff(r), проходящие через эту точку, могут находиться только в области (на рис. 2а эта область заштрихована).

0<Ff2(r)<r15 re (0,r, J Ff2(r,)<F?2(r)<l re (r,,l].

Следовательно, появление некоторой информации о случайной величине, отображаемой в виде точки на концептуальной модели, снижает область возможного структурного разнообразия моделей или классов законов распределения выборочных данных.

1.11

а)

«и

1К)

ос

0.1

а) б)

Рис. 2. Области возможного расположения Р (г) с заданной точкой иц (а), информативность поля концептуальной модели (б) Для оценки возможного разнообразия классов распределений некоторой совокупности выборочных данных, то есть определения неопределенности, остающейся после выбора модели или вероятности эшибки идентификации, в данной работе проведен анализ информативных свойств произвольной точки концептуальной модели. В качестве меры информативности определено в соответствии с Хартли количество снятой неопределенности о многообразии концептуальных моделей

1 = 1од<а-1оддн =-1од

СГ

(2)

где - многообразие возможных концептуальных моделей, -многообразие концептуальных моделей, проходящих через точку и ..

Пусть заданы две выборки объемом пит элементов. Тогда, многообразие концептуальных моделей, которые могут быть построены для двух выборок, будет определяться соотношением

о = сп .

Если задаться некоторой точкой на концептуальной модели с координатами и.., то многообразие концептуальных моделей, проходящих через эту точку, будет определяться соотношением

Чу -4+1 '^(пн)+(пН).

где ] обозначает координаты точки

В соответствии с формулой (2) количество снятой информации или информативность точки будет определяться в виде:

1(ич) = 1оё(с:+П1)-1оё(с;^ ■ с?;:1Жи.й) = )■

(3)

Анализ остаточной неопределенности после получения информации в виде различных точек и., концептуальной модели показал, что информативность точек и., низка в областях близких к началу координат. В точках иоо и итп информативность равна 0.Информативность поля концептуальной модели симметрична относительно диагональной линии. Наибольшая информативность поля концептуальной модели соответствует области вдоль главной диагонали.

Исследование неопределенности отдельных точек пространства концептуальной модели позволяет решать задачи оценки возможного многообразия моделирующих функций при заданном объеме выборочных данных. А также определять, в зависимости от расположения точек концептуальной модели, соответствующие количество выборочных данных, достаточное для принятия решения о законе распределения случайной величины с заданным уровнем значимости.

Использование концептуальной модели позволяет свести задачу оценивания степени рассогласования функций РХ| (х),1 = 1,2 Рх (х) =к оцениванию рассогласования функций Рг (г),'| = 1,2и т.д.

Для (х)и Рх (х)введсм понятие упорядочения х б [х'.х^ввиде преобразования ^(х), хе[х~,г+], 1Х е [Чх = Х~,1х = Х+]. Тогда исходя из известного метода определения закона распределения функций от случайных величин 1Х при заданных законах распределения исходных случайных величин х можно написать

и4х) = Мх>

Л,

откуда следует

Эх

Эх

Э1,

Эх

Из свойства концептуальной модели с учетом (4) следует

ЭРГ7(г)_ЭРГ2(Г)_^(Х2)

Эг ЭРГ1(г) ^(х,)

Последнее выражение можно представить в виде

ЭРг, (Г) = *..,(*,,) А =

Эг Эг, •

Из последнего соотношения следует, что упорядочение 1:(х) может быть заменено на упорядочение ^ГХ),ГХ б [ОД].

Понятие упорядочения поясним на следующем примере.

Пусть на некотором множестве случайных величин {*; }<м> заданы два различных распределения вероятностей :

N

{РД*])}^)11 {Р2(х^><м>, ХР.(Х]), ]=1,2.

На оси Т определим точки I , ]=1(1)К, отстоящие друг от друга на равных интервалах в порядке возрастания номеров ]. Если поставить в соответствие всем элементам множества {Х;}<м> точки I в каком либо порядке, то количество возможных вариантов соотнесения точек I элементам х. (упорядочения) будет определяться числом (}=№.

Далее в соответствии с распределением вероятностей {Р, (х {Р2 (х^ для элементов^ , расположенных на оси Т в выбранном порядке I, строятся распределения вероятностей РГ((г,)и Г4 и их

а) 6) в)

Рис.3. Концептуальные модели для различных вариантов размещения (а,б) и упорядочения по убыванию отношения правдоподобия (в)

Анализ концептуальных моделей с различным видом упорядочения случайных величин показывает, что концептуальные модели, соответствующие упорядочению по возрастанию или убыванию отношения правдоподобия характеризуют потенциальную различимость исследуемых распределений.

В данной работе для оценки разнообразия структурно различимых

законов распределения при заданных условиях к уровню выбранной меры предлагается среднее количество информации по Кульбаку

i=R<*)-

In

хё x

4M]

ix

(5)

Применяя концептуальную модель представления пар распределений (1), формулу (5) можно преобразовать к виду

f4(x) ,00

In

\(х)Л

f$i (x)dx = jff2 (r) ■ In(ffi (r))dr , r e [0,1]

(6)

где f?i (r) = 1 - равномерное распределение в интервале [0,1]. Последнее выражение фактически характеризует среднее количество информации в распределении ff[ (г) = 1, заданном в интервале [0,1] но отношению f f( (г), то есть по отношению к равномерному.

Пусть на интервале [0,1] заданы равномерное распределение ff( (г) = 1 и множество распределений-^ (г)j, отвечающие условиям (рис.4):

1. d = max |f (г)-г! < d*;

re[o,l] I fjV ' I '

. . . . [P/R, , r, e R, с [0,l] r ,

,Ff(r) F-(y)

/

Рис.4. Области расположения концептуальных моделей распределений с заданными свойствами

3.Для функции у = ф(г), ге [ОД], у е [ОД], которая представляет :обой упорядочение г по возрастанию (убыванию) (г), т.е. у, € У,, у2е У2, У1 < У 2»выполняется равенство

А' =шах ¡Р.(у)— у|.

Последнее соотношение следует из теоремы Неймана - Пирсона. При 5ыполнении этих условий будет справедливо тождество

^ +у* = Р, где у* =шах(у, е У,).

Многообразие (г)]отвечающее условиям 5, 6 и имеющее для ¡севозможных Рг (г) одинаковые значения I располагаются в области, )граниченной функциями Г^ (у) и Р^ (у), гдеР^ (у), Р^2 (у) - функции )аспределения при упорядочении (г') по возрастанию и убыванию (рис. 1) и определяется количественно для данного примера

I = (1* • 1п (1* + (1 — Р) • 1п ——

Р-с1

В третьей главе рассмотрены вопросы, связанные с выбором >ффективного критерия принятия решений в задачах идентификации. Надежность принятия решений о классе функции, моделирующей :лучайный объект (процесс) и оценка рассогласования модели и объекта, шределяется характером информации генеральной совокупности, 1спользуемой для восстановления формы модели; используемыми сритериями и мерами рассогласования, применяемыми для оценки адекватности модели и объекта; знанием распределения вероятностей ;татистик для применяемых мер рассогласования; объемом выборочных щнных.

Таким образом, анализ статистических критериев и мер ^согласования, выработка рекомендаций по выбору достаточно »ффективных мер для проверки адекватности модели и объекта является )дной из главных проблем при решении задач идентификации. Кроме того, щенить результат идентификации можно, лишь располагая падежными лерами рассогласования и критериями принятия решений.

В данном работе разработаны рекомендации по выбору мер ^несогласования, статистик выбранных мер. Получено распределение ¡ероятностей статистик плотностей распределения выборочных данных, тредставленных в виде концептуальных моделей, проведен анализ $заимосвязей статистик мер рассогласования, исследована

чувствительность статистик к различным отклонениям случайных величин и преобразованиям над ними.

Наиболее распространенные критерии, применяемые в практике, основаны на статистиках, характеризующих меры рассогласования функций или плотностей распределения, дают хорошие результаты лишь в условиях большого объема данных. В работе использованы статистики, полученные на основе концептуальной модели представления пар распределений.

Выражения для вычисления статистик мер рассогласования с использованием концептуальной модели приведены в таблице 1.

Решение задачи определения распределений статистик реализуется на основе следующих свойств концептуальной модели выборочных распределений:

- число всевозможных реализации концептуальных моделей для дискретных распределений с объемами выборок п, и п2 равно 0 = С"'+Пг =С"'+Пг, что определяется числом всевозможных размещений элементов одной выборки среди элементов другой;

- для выборочных распределений любая реализация модели

равновероятна и определяется соотношениями р = п = ——.

Таблица 1.

Вид меры рассогласования С использованием КМ Геометрическая интерпретация

Критерий Колмогорова-Смирнова Д„_ = шах(г, -^(г,)) Д^ = тах(^(г,)-г„) Д„=тах|гх-Р;1(гх)| Меры Д^Д^ ,Д(1_ характеризуют максимальное отклонение И (г) от диагонали (функции г,)

Критерий Крамера фон Мизеса 1 А», =|(г, -^(г,))2«]!, 0 0 МсриД, >Д„1 характеризуют площадь между моделью и диагональю (функцией г<)

Критерий Уилкоксона 1 Дт, =|^(г)(1г 0 0 Меры ДШ1 ,Дт, характеризую площадь под моделью

Названные свойства позволяет оценить вероятности распределений статистик с использованием определения вероятностей событий в

видер(А) = -^—, где число всевозможных концептуальных моделей

благоприятствующих событию А.

В работе проведен анализ взаимной неопределенности статистик, основанных на отношении правдоподобия, и непараметрических статистик (Уилкоксона, Мизеса, Колмогорова-Смирнова).

Для исследования чувствительности статистик использовано представление выборочных данных в виде числового кода. Числовой код выборочных данных соответствует концептуальной модели представления пар распределений и задаст расположение элементов одной выборки данных среди элементов другой выборки. Такое представление выборочных данных позволяет оценить характеристики выборки по величине кода при неизвестном законе распределения.

В связи с аддитивностью функций статистик их значения будут одинаковыми для всевозможных перестановок кода (концептуальные модели с кодами: 110231;231110;312110 будут иметь одинаковые значения статистик). Число всевозможных концептуальных моделей с одинаковым значением статистик определяется числом перестановок в коде и представляется формулой

Способ формирования кода схематично представлен на рис.4.

—О-

к

/

/

А

/

/

У

*

—Т"

1 0 1

" - элементы первой выборки, "•" - элементы второй выборки Рис.4. Порядок построения концептуальной модели и формирования кода (10123) для двух выборок

В основе вычисления распределения статистик находятся следующие положения:

1. Число всевозможных реализаций модели Р ((г I и 1) I п2) при заданных п, и п2 равно

с„, =гп, = (П,+П2)!

„1+п, ^^ (7)

2. Элементы выборок {х(1)}П1, {х(2)}Пг независимы и одинаково распределены.

3. Распределение статистик плотностей распределения задастся отношением количества возможных реализаций концептуальной модели с одинаковыми значениями статистик к общему числу их возможных реализаций

Р(Д(.)!=Д,1) = О^Ы (8)

где 9 задается равенством

ГК,!

На основании (7,8) и геометрической интерпретации статистик можно утверждать, что минимальное значение мер рассогласования соответствует концептуальным моделям близким к диагональной линии (функции г,).

В работе получен алгоритм построения концептуальной модели для заданного кода двух выборок, который обеспечивает минимальное значение для мер рассогласования.

Анализ значений статистик показал, что каждая из рассматриваемых мер оценивает определенный вид рассогласования двух случайных выборок в разной степени, поэтому выбор конкретной меры для построения эффективного критерия, чувствительного к отклонению по заданному признаку, определяется конкретной задачей.

Совместный анализ многих статистик, основанных на различных мерах и часто применяемых в практике показал, что они, в общем случае, зависимы. Эту стохастическую зависимость определим как связность. Степень связности зависит как от характера статистик, так и от их величин. Наиболее общей мерой связности является величина интервала возможных значений анализируемой статистики А. при конкретном Д. значении другой

Аз(Л = 8|)

£, (5,) = шах Д, (5,) - тшА]. (5,) = Д^ (6,) - А^ (5,), (9)

Если обозначить через ф-^(б(-)) - плотность распределения татистики Д(*), то величина

л}

е?, = |М6.)Фг(8.)«18( (10)

дт '

южет быть определена как неопределенность статистики А относительно А

Чем меньше величина £°. , тем меньше взаимная неопределенность ли выше связность. При £°. = 0 статистики А и А функционально зависимы, [ем больше величина е° тем эффективнее использование [ногокритериальных оценок.

В работе предложена процедура выбора статистик для проверки ипотсз на основе принципа "максимального снятия неопределенности" шх е0^. Согласно этой процедуре из возможных статистик для проверки ипогез выбирается та, которая имеет наибольшую взаимную еопределенность по отношению к альтернативной гипотезе Н и пределястся соотношением

£ = шах

При многокритериальной оценке применение процедуры шах е озволяет организовать проверку гипотезы по заданным статистикам, окращая время принятия решения.

Оптимальность достигается в том случае, когда выбор очередной татистики производится по принципу шах £. Определение величины £°..(у) ^ -номер шага эксперимента, у=0(1)т) производится перед каждым кспериментом с учетом значения статистики Д.<у) полученного на редыдущем шаге (\М).

В работе проведен анализ чувствительности статистических мер ассогласования к преобразованиям характеристик случайных величин.

Известно, что для оценивания одних и тех же отклонений могут быть рименимы различные меры. Качество принятия решения при проверке ипотез зависит от эффективности применяемой меры, которая арактеризуется величиной дисперсии. Чаще всего эффективность зменения рассогласования оценивается без априорных сведений. Однако, азличные меры, используемые для оценивания заданного типа отклонения,

по-разному могут реагировать на другие типы возможных отклонений у анализируемых генеральных совокупностей.

Таким образом, выбор мер при проверке тех или иных гипотез должен проводиться с учетом их чувствительности к различным "мешающим" факторам, которые могут иметь место.

Влияние "мешающих" факторов может быть устранено путем соответствующего преобразования случайных величин.

В рамках задач идентификации важной проблемой является как выбор признака различия (типа отклонения) сравниваемых распределений, так и меры этого различения. Проведенный в работе совместный анализ признаков и мер их оценивания позволяет оптимизировать критерий проверки гипотез, что дает возможность надежно оценивать адекватность моделей при идентификации случайных процессов.

В главе четвертой предлагаемый подход к идентификации и оценке адекватности полученной модели использован для прогнозирования концентраций вредных выбросов в открытые водоемы Курской области. Одной из важных проблем мониторинга окружающей среды является задача прогнозирования концентраций и обнаружения выбросов вредных веществ от промышленных источников в открытые водоемы. Для прогнозирования загрязнения открытых водоемов области, обусловленного каким-либо промышленным источником, широко используются различные статистические модели. В диссертации для прогнозирования выбросов вредных веществ, вызванных одиночным промышленным источником, предлагается использовать математическую модель, получерную методом идентификации с использованием приведенных распределений на основе вычисленных статистических индикаторов. Вид модели выбран из автоматизированной библиотеки форм моделей. Для решения задачи оценивания адекватности полученной модели также использованы разработанные автором методы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложен информационно-статистический подход к оцениванию качества идентификации социально-экономических процессов с использованием приведенных распределений, который позволил разработать меры адекватности моделей, полученных по малому объему выборочных данных.

2. Разработанные методы оценивания многообразия классов

моделирующих функций с использованием "собственных индикаторов" приведенных распределений, основанных на свойствах центральных моментов распределений, и информативных свойств концептуальной модели позволяют уменьшить погрешность идентификации форм моделей.

3. Получены меры структурного разнообразия законов с заданными свойствами с использованием приема упорядочения выборочных данных..

4. Разработаны рекомендации по выбору эффективного критерия принятия решений с учетом взаимосвязи статистик выборочных данных и предложена последовательная процедура проверки гипотез по многим критериям с учетом максимальной информативности мер рассогласования выборочных данных, сокращающие время принятия решения в задачах идентификации.

5. На основе анализа чувствительности статистических мер рассогласования распределений к преобразованиям характеристик выборочных данных предложены меры наименее чувствительные к влиянию случайных факторов.

6. Разработано про1~раммного обеспечения автоматизированной библиотеки форм моделей для идентификации стохастических объектов, отлича-ющееся широким многообразием моделирующих функций и возможностью оценить адекватность модели.

Публикации по теме диссертационной работы

1. Лапина Т.И., Уколова Л. Н., Уразбахтин И.Г. Принцип максимальной информативности в планировании последовательной процедуры проверки гипотез по многим критериям/Лелекоммуиикацин, №1,2000.

2. Лапина Т.Н., Уколова Л.Н., Уразбахтин И.Г. Чувствительность статистических мер рассогласования к преобразованиям характеристик радио- и радиотехнических сигналов//Телекоммуникации, №2,2000.

3. Лапина Т.И., Уразбахтин И.Г. Оценка многообразия статистических классов распределений одновыборочных и двувыборочных данных//

Известия КГТУ, Изд-во КГТУ №4 2000г.

4. Лапина Т.И., Уколова Л.Н., Уразбахтин И.Г. Построение мер

структурного разнообразия законов распределения вероятностей на основе применения упорядочения случайных величин// Известия КГТУ, Изд-во КГТУ №4 2000г.

5. Лапина Т.И., Уразбахтин И.Г., Уколова Л.Н Приведенные распределения а задачах оценки многообразия классов распределений по экспериментальным данным // Известия КГТУ, Изд-во КГТУ №3 1999.

6. Лапина Т.И., Уразбахтин И.Г., Уколова Л.Н. Информационные подходы к идентификации в современном менеджменте // Вторая международная школа-семинар БИКАМП-99, Санкт-Петербург, 1999.

7. Лапина Т.И., Уразбахтин И.Г., Уколова Л.Н. Использование метода приведенных распределений в решении задач управления социально-экономическими системами // Четвертая Российская унивсрситетско-академическая научно-практическая конференция, Ижевск, 1999.

8. Лапина Т.И., Уразбахтин И.Г., Уколова Л.Н. Меры структурного разнообразия законов распределений с заданными свойствами // Медико-экологические информационные технологии . Тезисы докладов межд. техн. конф.-Курск: МОиПОРФ, МАНЭ, БЧ и П, АИО, МАИ, КГТУ, 1998.

9. Аминеддин Ф.Р., Уколова Л.Н., Лапина Т.И. Критерий оценки адекватности моделей на основе кодирования //Четвертая Российская университетско-академическая научно-практическая конференция,

Ижевск, 1999.