Логико-статистические алгоритмы анализа причинно-следственных связей при наличии категоризованных данных

Кузбменков, Вячеслав Витальевич

Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Логико-статистические алгоритмы анализа причинно-следственных связей при наличии категоризованных данных

кандидата физико-математических наук: Кузбменков, Вячеслав Витальевич
город: Москва
год: 1992
специальность ВАК РФ: 05.13.16

Автореферат по информатике, вычислительной технике и управлению на тему «Логико-статистические алгоритмы анализа причинно-следственных связей при наличии категоризованных данных»

Автореферат диссертации по теме "Логико-статистические алгоритмы анализа причинно-следственных связей при наличии категоризованных данных"

российская акадшия наук

вычислительный центр

На правах рукописи

Кузьменков Вячеслав Витальевич

логико-статистические алгоритмы анализа причишю-свдственных связей при наличии катег0ри30ванных данных.

05.13.16. применение вычислительной техники, математического моделирования и математических методов в научных исследованиях

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

москва - 1992

Работа выполнена на кафедре прикладной математики Московского ордена Ленина, ордена Октябрьской Революции и ордена Трудового Красного {Знамени государственного технического университета им. Н.Э.Баумана.

Научный руководитель - доктор технических наук, профессор Тескин О.И.

Официальные оппонента : доктор фазико-ыатематических наук, ■ старший научный сотрудник

Благовещенский Е.Н. кандидат физико-математических наук, старший научный сотрудник Павлов И.В.

Ведущая организация - Институт математики СО АН РАН г. Новосибирск.

Защита состоится —-4992 года в ■—— часов

на заседании специализированного совета Д 002.32.06 при Вычислительном Центре РАН по адресу : г. Москва, ул. Вавилова, 40, конференц-зал.

С диссертацией можно ознакомиться в библиотеке Математического института им. В.А. Стеклова РАН.

Автореферат разослан 1992 Г.

Ученый секретарь

Специализированного совета с,м- ^Р™

овдая характеристика работы

Задача построения моделей исследуемого объекта по разнотипным данным и принятие решений по ним является классической задачей, находящей свое применение в различных областях человеческого знания : технике, медицине, социологии, биологии, информатике и т.п. В зависимости от постановки задачи это могут быть задачи диагностики, классификации, распознавания образов, сжатия информации (компактификации данных с целью представления их в виде знаний о предметной области).

' Актуальность задачи. Настрое развитие методов анализа данных, измеренных в порядковых шкалах, или катетеризованных данных, в последнее время связано с бурным развитием вычислительной техники. Тем не менее, научно обоснованных методов анализа категоризованных данных насчитывается чрезвычайно мало и применение их для- построения моделей затруднено в силу большой сложности соответствующих алгоритмов (анализ таблиц сопряженности, логические методы), в тех случаях, когда значения факторов, составляющих выборку, измерялись в разнотипных шкалах, применение обеих групп методов объективно затруднено. Одним из перспективных подходов к решению подобных задач является логико-статистический метод, так как при этом подходе не накладываются какие-либо ограничения на вид закона распределения по кавдому фактору. Особое значение эти методы приобретают в областях техники, где исследуемые параметры измеряются в неколичественных шкалах (например, при оценке надежности системы).

Кроме того, актуальность решаемых в диссертационной работе задач объясняется тем- фактом, что в последнее время проявился особый интерес к созданию проблемно-ориентированных экспертных систем ОС). Основой любой ЭС является набор знаний, составляющий ее базу знаний. Причем, чем достовернее и многочисленнее знания, включенные в базу знаний, тем качественнее совета и рекомендации экспертной системы.

Главной трудностью при разработке ЭС является проблема извлечения знаний о предметной области. В настоящее время основным источником таких знаний является эксперт в рассматриваемой области. Знания эксперта всегда являются квинтэссенцией его практического опыта в данной области, которые получены им в ходе много-

летней работы. Вместе с тем, эксперимент, как важный источник элементарных знаний, в настоящее время игнорируется при получении знаний для ЭС ввиду недостаточной разработанности методик извлечения и обобщения знаний из выборок, характеризующих предметную область. Трудности, с которыми сталкиваются попытки создания таких методик, являются общими для задач обработки данных: алгоритмическая трудоемкость получения знаний и отсутствие практически пригодных методов (сильные допущения к их применению, не выполняемые на практике).

В силу сказанного вше, разработка алгоритмов логико-статистического анализа причинно-следственных связей является актуальным этапом в создании объективных методов извлечения знаний из экспериментальной выборки.

Целью работы является разработка методики предварительного анализа данных смешанной природы, обеспечивающей адекватность представления наблюдаемых причинно-следственных связей на основе комплексного учета структуры модели и эмпирической структуры данных за счет использования машинно-ориентированных методов исследования.

Научная новизна. В диссертации разработан метод распознавания образов для объектов, имеющих структурное представление, по результатам наблюдения за элементами (факторами), составляющими объект с учетом статистической повторяемости наблюдений.

Автором рассмотрен способ образования таблицы сопряженности 2x2 из исходной матрицы наблюдений типа "объект-свойство", показывающий статистическую неэквивалентность ячеек формируемой таблицы сопряженности 2x2. Для устранения этой неэквивалентности предложено использовать теорему Байеса с целью получения апостериорных оценок частот в таблице сопряженности 2x2, где в качестве априорной информации выбираются вероятности, зависящие от структурных особенностей рассматриваемых моделей. Предлагаемый способ учета априорной информации позволяет учитывать неэквивалентность ячеек таблицы сопряженности 2x2 и делать достаточно эффективной проверку гипотезы о наличии зависимости между предполагаемой причиной и следствием даже в случае нулевых значений в ячейках.

Рассмотрены статистические критерии, пригодные для установления положительной ассоциации в случае апостериорных

недели оценок частостей (аналог точного критерия Фишера и критерия на основе отношения правдоподобий).

С целью сокращения числа отбираемых эмпирически истинных высказываний автором предложен способ формирования семейства альтернативных гипотез о независимости, которые позволяет учитывать степень доверия к матрице наблюдений, т.е. учитывать возможную противоречивость причин и отклика, что особенно важно при наблюдении реальных объектов.

Исследованы логические и статистические правила обобщения конъюнктивных высказываний. Доказана их эквивалентность для матриц наблюдения, реализующих все возможные комбинации значений, принимаемых факторами при бесповторных наблюдениях. Показано, что статистические правила, основанные на отношении правдоподобий, обладают рядом преимуществ при решении задач установления внутренней структуры при пассивных наблюдениях за объектом. Предложены алгоритмы последовательной селекции для поиска минимальной дизъюнктивно-нормальной фора, описывающей структуру объекта на основе статистического критерия. При этом численное значение статистического критерия может служить эффективным критерием сравнения качества логических моделей.

Автором разработан также способ представления объекта исследования в виде графа возможных связей, основное назначение которого состоит в алгоритмическом поддержании способа формирования проверяемых высказываний.

Практическая ценность диссертации заключается в создании программного комплекса (ПК) по установлению причинно-следственных связей при наличии катетеризованных данных и подтвервдение его эффективности при анализе структурных схем надежности сложных технических систем и анализе работоспособности изделий.

Полученные в диссертационной работе результаты были использованы:

-НИИ Специального Мапиностроения для установления причин разрушения баллонов из композиционных материалов и отражены в отчете по теме Эб9888"в\ № гос. регистр. 029848., соисполнителем которой являлся автор, а также в договоре №148 "разработка пакета программ обработки неоднородной информации";

-при проведении сравнительного анализа возможностей предложенных алгоритмов и аналогичных алгоритмов (логических - [Блох

А.Ш..Орлов В.А.] и логико-статистических, реализованных в пакете ОТЭКС [Лбов Г.С.].

Апробация работы. Результаты работы докладывались на:

1) Семинаре по статистическому анализу данных (sda-89) (г. Варна (НРБ), сентябрь 1989 г.);

2) Всесоюзной НТК с международным участием стран членов сэв "Применение статистических методов в производстве и управлении"

(г.пермь, сентябрь 1990 г.);

3) НТК "Системы управления бездефектностью производства",

(Г.ВИННИЦа, МЭЙ 1991 Г.);

4)1\/ Всесоюзной школе-семинаре "Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа", шос.Цахкадзор, октябрь 1991 г.).

Публикации. По теме диссертации опубликовано пять научных работ. В том числе две работы на английском языке.

Структура работы и объем диссертации. Работа состоит из Введения, 4-х разделов основного текста, Заключения общим объемом 140 машинописных страниц, в том числе 14 таблиц, 24 рисунка и 4-х приложений объемом 41 страница.

краткое содержание работы

Во введении обоснована актуальность выполняемых в диссертационной работе исследований, сформулированы цель и задачи исследования.

В первой главе проведен обзор методов построения моделей при наличии категоризованных данных и сформулирована постановка задачи. При этом под категоризованными данными понимаются данные как неколичественного типа, так и сгруппированные, разбитые на классы и т. п. количественные данные.

В частности, рассмотрены следующие методы статистического анализа категоризованных данных:

- построение лог-линейных моделей для таблиц сопряженности, которые являются основным способом представления категоризованных данных [Аптон Г. .Кульбак С.. Akaike н.. Birch m.w., Bozdogan н., Sakomoto Y.].

- построение мультипликативных моделей, представляющих собой частный случай лог-линейных моделей, при котором используется фак-

торизация совместного распределения переменных [vermuth n.i.

- использование графических и рекурсивных моделей описания взаимодействий мевду факторами [Lauritsen S.L..Spiegeltolter D.J.I.

Сформулированы следующие недостатки, присущие статистическим методам анализа категоризованных данных.

Во-первых, это трудность вычисления достоверного значения критериев оценки степени взаимосвязи факторов типа х, точного критерия Фишера и меры ассоциативной связи Юла для таблиц сопряженности, в случае появления ячеек с малым числом наблюдений (малыми частотами).

Во-вторых, громоздкие и сложные вычислительные алгоритмы выбора наилучшей лог-линейной и ей подобных иерархических моделей, число которых экспоненциально растет с ростом числа включаемых в рассмотрение факторов и их взаимодействий. При этом результаты выбора могут существенно отличаться друг от друга в зависимости от используемого метода. Например, при использовании алгоритмов прямой или обратной селекции.

В-третьих, к недостаткам статистических методов обработки категоризованных данных следует отнести сложность интерпретации результирующей лог-линейной модели.

В обзор логических методов построения моделей по категоризо-ванным данным, применяемым в основном для диагностики и распознавания образов, были включены следующие подходы:

- Метод, связанный с построением тупиковых тестов и матриц [Яблонский С.В., Вапник В.Н., Журавлев D.H., Москаленко Ю.С.Ь

- метод алгоритмов вычисления оценок (АВО-алгоритмы) [¡Куравлев Ю.И. h

- методы формирования понятий (Бэнгард М.М., Бенердаи Р.];

- граф-схемный подход к распознаванию образов [Блох А.Ш., Орлов В.А.].

Несмотря на практическую ценность указанных алгоритмов, можно отметить следующие общие недостатки логического подхода, присущие в той или иной степени указанным методам и ограничивающие применимость логических методов на практике.

Во-первых, необходимость задания опорных множеств для алгоритмов типа ABO и тупиковых тестов.

Во-вторых, использование "принципа голосования" при принятии классифицирующего решения, а также использование оценок,

основанных на свойстве статистической устойчивости вероятности, что справедливо лишь при больших объемах выборок.

В-третьих, зависимость результата решения от порядка просмотра признаков, а также использование эвристических правил группирования для получения решений (граф-схемные методы распознавания).

Наконец, в первой главе рассмотрены логико-статистические метода, названные комбинированными методами гостроения моделей го категоризованным данным. Под комбинированным методом понимаются методы, использупцие в качестве моделей логические высказывания в форме конъюнкций, а критерий принятия этой модели строится на основе статистической теории проверки гипотез. Как правило, в качестве нулевой гипотезы рассматривается гипотеза о независимости причины от следствия.

К таким методам были отнесены:

- метода, разрабатываемые в Институте Математики СО АН СССР (Лбов Г.С.];

- так называемые guha - методы проверки наличия положительной ассоциации в таблице сопряженности (Ляшенко H.H., Hajek р.,

Havranek Т.].

Рассмотренные в обзоре комбинированные метода построения моделей вместе с положительными сторонами (как-то: возможность использования логических правил вывода, направленных на сокращение перебора в процессе поиска моделей ("отрицательная дедукция") и сохранения результатов ("положительная дедукция")-, освобождение от предположений о виде распределения наблюдаемых данных-, простота интерпретации результатов анализа), имеют также и ряд недостатков, свойственных статистической природе используемых критериев (как-то: появление нулевых наблюдаемых частот при составлении эмпирических таблиц; эвристически задаваемый требуемый уровень значимости; использование неполных наборов характеристик типа: частота случаев и т.п ), так и логической природе (принцип "простоты", выраженный в отборе наиболее общих, устойчивых закономерностей). Перечисленные недостатки существенно снижают эффективность метода при малых выборках, с которыми наиболее часто приходится иметь дело в приложениях.

Проведенный анализ состояния предмета и методов построения алгоритмических моделей позволил уточнить и детализировать задачи, решение которых необходимо для достижения цели настоящей дассерта-

ции. Большинство из предлагаемых к решению задач носит общеметодический характер и предполагает использование стандартных методов статистического 'анализа. Вместе с тем, особенности задачи идентификации объекта по уникальной выборке предполагают учет особенностей метода построения моделей и имеющейся исходной информации.

Таким образом, возникает необходимость в решении ряда новых задач системного анализа и математической статистики. Перечислим первую группу задач, решаемых в диссертации, относящихся к системному анализу предметной области:

г разработка простой, надежной и легко интерпретируемой структуры представления объекта исследования и результатов решения, обеспечивающей широкий диапазон применимости в различных прикладных областях;

- определение логической и статистической структуры входных параметров исследуемого объекта и разработка алгоритма, реализующего учет этой структуры.

К группе задач решаемых в диссертации, связанных со статистическими процедура™, следует отнести:

- разработку методов учета структурной (модельной) априорной информации и ее влияния на используемые критерии проверки гипотезы о независимости при получении конечного результата идентификации;

- разработка статистического алгоритма и критерия заключительной проверки на адекватность наблюдаемой матрице логических моделей.

Решение перечисленных частных задач составляет теоретическую основу данной диссертации и обеспечивает реализацию цели диссертации.

Во второй главе рассмотрены вопросы, связанные с методологическими основами идентификации объектов с использованием комбинированных методов анализа данных.

Установленная аналогия мевду понятиями структурной важности элемента, используемой при анализе надежности системы, и понятием "ядра" - простого, наиболее сильного в статистическом смысле высказывания в ата - методе, позволила, на основе предложенной автором схемы разбиения таблицы мхы (рис 1.), проанализировать причины возникновения ядер и предложить способ учета структурной важности фактора при проверке конъюнктивного высказывания.

._1_

'0. .00 0. .01 0. 1. 10

1. . . 10 1..11'

n •

0.0

0j0 , 1 С1 2 .

Гч 2

1.0

1.1 . аз I С2 а4 .

а Ь

с С1

Рис. 1. Схема разбиения таблицы мхм и переход ее в эмпирическую ТабЛИЦУ 2x2.

Из приведенной схемы разбиения очевидным образом следуют выражения для подсчета частот в ячейках эмпирической таблицы 2x2 :

V Ь=Ь1+Ь2: С=С1+С2' Й=<11+С12+с13+<14-

(1)

Поскольку выявленная особенность формирования частот в эмпирической таблице 2x2 влияет на результат проверки гипотезы о независимости, то в работе рассмотрен способ задания априорной информации для эмпирической таблицы 2x2, учитывающий эту особенность.

Так,' если определить вероятность попадания одного наблюдения в ячейку (1,л таблицы мхы через выражение :

"и =

(2)

| |сагсЦГ, )х| |сагсКГ,) 1=1 j=l

то априорные вероятности для эмпирической таблицы 2x2 будут иметь

ВИД :

л ■= п. ,

а и

.1=1 I.

(3)

я = я (ПсагсКГ.М); я.= я ( Г~|сагс1(Г. )-1) ([~~|сагс1(Г. )-1), с а 1=1 1 ° а 1=1 1 >1 ■>

где ь ,1. - ранги конъюнкций, задащих причину и следствие в проверяемом высказывании;

сага^) - мощность множества значений факторов г1. Для ди-хотомичной матрицы <0,1> сагс!^) = 2 для vi.

Заметим, что выбор значения априорной вероятности в виде (2) соответствует заданию равномерного распределения частот в таблице

MxN.

Апостериорные оценки частот в таблице 2x2 вычисляются с использованием теоремы Байеса. При этом предполагается, что функция правдоподобия, задающая совместное распределение причины и следствия, записывается в ввде полиномиального распределения, а априорная плотность распределения параметров - в виде распределения Дирихле. При принятых допущениях выражение для вычисления апостериорных оценок частот в таблице 2x2 принимает вид:

в = ALLÎ^ll . (4,

J N + К

где у - наблюдаемое значение частот; n - объем эксперимента; к - сумма параметров распределения Дирихле;

n2 - |y|2

к = -=-= ; (5)

JNtt - y|

ktJ = K-T^j, i,J = 1,2.

Таким образом, выражения (з), (4), (5) полностью определяют апостериорные оценки частот в ячейках таблицы сопряженности, с учетом ранга конъюнкции. Вместе с тем, предложенный способ учета априорной информации также позволяет решить задачу "удаления" нулевых частот и реализует метод "случайных чисел" аналогичный предложенному В Flenberg S.E. & Holland P.W.

Далее, во втором разделе, рассматриваются вопросы связанные с проверкой гипотезы о независимости в случае положительных действительных апостериорных оценок на основе интегрального аналога точного критерия Фишера и критериев построенных на статистике отношения правдоподобий типа х2 -максимального правдоподобия и критерия" Акайке шс). Для последнего случая предложено переформулировать альтернативную гипотезу Ht :

hq: p1j=9-j91- гипотеза о независимости;

Ht: PjJ =mln(9-1,91-)-c1(J); (6)

Pj2 =0i._raln'0.i-Gi.

P2* =e.j-minte ,Oj,);

P22 =1-е-ГР*2=1-01--р2Г

где e1_,o.J- маргинальные частоты в таблице сопряженности; e1(J)- вероятность появления противоречивого наблюдения.

Для непротиворечивых наблюдений e1(j)=°-

В заключительном параграфе второго раздела рассмотрены вопросы выбора наилучшей модели в виде дизъюнктивно-нормальной формы, отражающей структуру объекта с помощью правил логического и статистического вывода.

В качестве логических правил вывода рассмотрены правило индуктивной резолюции и правило транзитивного замыкания.

Статистические правила вывода строятся на основе информационного критерия aie. При этом доказывается следующее утверждение.

Утверждение i.

Результаты объединения простых высказываний, эмпирически истинных при заданном уровне значимости а, с помощью логических правил и статистического критерия, построенного на отношении правдоподобий, эквивалентны для матрицы наблюдений, реализующей все комбинации значений факторов, задающих причину.

Третья глава посвящена разработке алгоритма guha+ метода и проверки его эффективности.

В частности, рассматривается алгоритм проверки гипотез с использованием предложенной во второй главе схемы разбиения исходной таблицы mxn и выражений (з),(4),(5) с учетом пропущенных наблвдений в матрице наблвдений.

Кроме того, предлагаются алгоритмы заключительного отбора эмпирически истинных высказываний непереборного типа. При этом доказывается следующее утверждение.

Утверждение 2.

Алгоритм последовательной обратной селекции (ПОС) обеспечивает значение критерия aic, совпадающее с его значением при использовании алгоритма полного перебора для полных таблиц.

При этом под полной таблицей понимается таблица типа "объект-свойство", реализующая всевозможные значения факторов-причин, а под алгоритмом ПОС понимается алгоритм, построенный на последовательном отбрасывании конъюнкций из ДНФ, сформированной из клауз с возрастающим рангом.

Оценка эффективности разработанного guha+ метода проводилась на примерах сравнения результатов, полученных этим методом, с ре-

зультатами логического граф-схемного метода распознавания [Орлова В.А.1. логико-статистического алгоритма ТЕМП [ЛОова Г.С.] и специально разработанного тестового примера по восстановлении структурных схем надежности (ССН) изделий.

Проведенный сравнительный анализ показал высокую эффективность разработанной методологии распознавания образов на основе минимизации критерия aic, вычисленного для дизъюнктивно-нормальной формы. При этом минимальное значение указанного критерия служит не только оценкой меры сложности ДНФ (в смысле числа клауз), но и учитывает качество описания дизъюнктивно-нормальной формой наблюдаемых экспериментальных данных. Пример изменения критерия aic в зависимости от числа конъюнкций в ДНФ приведен на рис.2, а на рис.з приведена соответствующая ДНФ для данных Орлова В. А.

Изменения качества восстановления структуры в функции объема наблюдений и вероятности появления значений фактора для случая дихотомичной матрицы исследовалось на примере восстановления шести типовых ССН, состоящих из шести элементов: последовательной, последовательно-параллельной, мостиковой, сетевой, звездообразной,произвольной. При этом получены следующие результаты:

1) наилучшие результаты восстановления достигаются при наличии в матрице наблюдений равновероятного появления значений факторов и объема эксперимента, близкого к полной таблице-,

2) достоверность прогнозируемых значений отклика уменьшается с уменьшением объема эксперимента и составляет о.95±о.о5 для Объема N=64, 0.87 ± 0.075, ДЛЯ Объема N=32 И 0.75 ± 0.17 для объема N=i6 независимых экспериментов. Данная тенденция подтверждается результатами восстановления как по планам активного эксперимента, так и по планам пассивного эксперимента.

3) увеличение вероятности встречи какого-либо фиксированного значения фактора приводит к увеличению ошибки предсказания состояния системы, а, следовательно, к ухудшению восстановления ССН.

Четвертая глава диссертационной работы посвящена разработке интерактивного программного комплекса для решения задач идентификации отказовых состояний. В частности, в связи с широким спектром задач, решаемых с помощью разработанной методологии,

рани: ог!ои.ма1 Критерий :А1С

ДЕРЕВО РЕШЕНИЙ

пороговое значение:

0.000000

Изменение критерия А1С от мис<4а конъюнкций

Дерева

2. Ианенение критерия Л1С от сложности конечной ДНО.

РО I

райи: ог1ои,ма1 Критерий:А1С

........."О........

ДЕРЕВО РЕШЕНИИ

пороговое значение;

0.000000

1л.

<3)

ь. Ц.

т « п

Ь- 1л. и.

о сч

XV.

со

(Г) Ц_

_ -

и и. и

сч сч

£ £ X

сч сч

и и.

о сч о

л x x

т со •г

и. и. ь.

о сч

со I

-------

Смещение Дерева Х-Ув.(х-Ум.) У-Ув.(у-Уи.> 0ч= 6 И-враи. Б-масш!

Рис. 3. Деревья решений Орлова В. А/

объект исследования предложено описывать с помощью направленного графа связей. При этом кроме описательно-языковой функции направленный граф связей несет также и исполнительную алгоритмическр функцию. Она основана на следующих свойствах направленного графа -транзитивность, антисимметричность, рефлексивность, и удобна при реализации алгоритма поиска наилучших простых гипотез. В работе предлагается соответствующая структура данных и алгоритм построения высказываний.

Описательная функция графа связей реализована путем разработки входного языка. Разработанный контекстно-свободный язык, построенный на шп-грамматике, является основой для построения однопроходного рекурсивного синтаксического анализатора и позволяет учитывать априорные знания пользователя о возможных связях между факторами в объекте исследования.

Приведенные в главе г и з алгоритмы и разработанный в главе 4 синтаксический анализатор позволили разработать специализировант ный пакет по установлению причинно-следственных связей при наличии категоризованных данных.

Пакет реализован на гвм совместимых персональных компьюторах и состоит из функциональной и сервисной частей. Функциональную часть составляют упомянутые выше алгоритмы, а сервисная включает в себя пользовательский оконный интерфейс и текстовый редактор для оперативного просмотра результатов и редактирования входных данных.

Использование данного программного комплекса позволило решить задачу идентификации причин отказового состояния изделия из полимерного композиционного материала. При этом результат решения был подвергнут сравнению с решением полученным классическими методами - линейным дискриминантным и ковариационным анализами.

В заключении сформулированы основные результаты работы.

1. На основании предложенной автором методики формирования таблицы сопряженности 2x2, которая является базовой анализируемой структурой для выявления связи между причиной и следствием оша-метода, рассмотрены возможности учета априорной информации о ранге конъюнкций, порождающих различные гипотезы о сложности модели. Проанализировано влияние ранга рассматриваемой модели на значение критерия принятия гипотезы о наличии ассоциативной связи в таблице сопряженности 2x2. Таким образом, сделана попытка

устранения субъективного предположения о преимуществе простых моделей перед более сложными. Предложенный подход является достаточно общим и может быть использован во всех задачах, связанных с построением таблиц сопряженности 2x2.

2. Разработана методика формулирования рационального множества альтернатив гипотезе о независимости исследуемых факторов в виде установления некоторого порога для максимально возможной положительной связи. Уровень этого порога определяется степенью доверия к исходным статистическим данным и уточняется на основе априорных знаний о характере исследуемого объекта.

йо второй группе относятся задачи, связанные с оптимальным представлением объекта исследования и заключительной обработкой простых высказываний с целью выявления структуры объекта. В частности автором предложены:

3. Представление объекта исследования в виде ориентированного графа, связывающего факторы-причины и факторы-следствия в единую структуру данных, удобную при практической реализации алгоритма гостроения проверяемой гипотезы на вычислительной машине. Разработанный универсальный входной язык описания объекта исследования позволяет пользователю разработанного программного комплекса легко модифицировать предлагаемую структуру объекта с учетом имевдихся априорных знаний о нем.

4. Разработан алгоритм обобщения простых гипотез, типа ЕСЛИ..

.., ГО..... в единственную минимальную дизъюнктивно-нормальную

форму с использованием статистического информационного критерия. Разработанный алгоритм имеет полиномиальную сложность.

В целом результаты исследований подтверждают правильность выбранного направления развития способов выявления закономерностей с использованием логико-статистических алгоритмов, и позволяют утверждать, что все задачи, необходимые для достижения поставленной цели работы, решены.

На защиту выносятся следующие основные результаты диссертационной работы.

1. Методика учета априорной информации о способе образования проверяемой гипотезы и ее влияние на апостериорные оценки частот в проверяемой таблице.

2. Алгоритмы обобщения логических высказываний с использованием логических правил вывода и информационного статистического

критерия.

3. Методика и алгоритмы представления исследуемого объекта в виде ориентированного графа связей. Формальный язык описания объекта, обеспечиващий удобство реализации вычислительных алгоритмов.

4. Методики проверки точности и достоверности разработанного программного комплекса по выявлению причинно-следственных связей по результатам выборочных наблюдений.

Основше результаты диссертации опубликованы в следующих работах.

1.Кузьменков В. В. Уточнение правил выбора значимых факторов на основе guha - метода/ Применение статистических методов в производстве и управлении: Тезисы докл. Всесоюзной научно-технической конференции - Пермь,1990.-т.г. -с. 314-315.

2.Kuzmenkov V.V..Terskin O.I. New approach to GUHA method from the reliability viewpoint// in COMPSTAT 1990 - Wien: Physica Verlag,1990,- P.57-62. _

3.Kuzmenkov V.V., Terskin 0.1., Grinenko M.M. Main features of the GUHA - procedure// in COMPSTAT 1990 software catalogue -Dubrovnik,1990.-P.25-26.

4. Кузьменков В.В., Тескин 0.И. Применение логико-вероятностных методов к задаче восстановления структурной схемы надежности. // Статистические методы оценивания и проверки гипотез: Межвузовский сборник научных трудов. -Пермь, 1991. - с.23-34.

5.Кузьменков В.В..Тескин О.И. Статистические и логические основы GUHA+ метода // Тезисы докл. Всесоюзной школы-семинара Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа.-пос.Цахкадзор, 1991.-ч. i.-с. 117-119.

В.В. Кузьменков

Логико-статистические алгоритмы анализа причинно-следственных связей при наличии категоризованных данных

Подписано в печать 27.04.92 Формат бумаги 60x84 1/16 Тираж 100 экз. Заказ 55 . Бесплатно.

Отпечатано на ротапринтах в ВЦ РАН I17333, Москва, ул. Вавилова, 40.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00