автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными

кандидата физико-математических наук
Стафеев, Сергей Вячеславович
город
Петрозаводск
год
2008
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными»

Автореферат диссертации по теме "Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными"

На правах рукописи

003169126

Стафеев Сергей Вячеславович

ИДЕНТИФИЦИРУЕМОСТЬ И ОБУЧЕНИЕ ГАУССОВСКИХ ГРАФОВЫХ МОДЕЛЕЙ С ЛАТЕНТНЫМИ ПЕРЕМЕННЫМИ

05 13 18 — математическое моделирование, численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

1 5 МАЙ 2008

Петрозаводск 2008

003169126

Работа выполнена в Институте прикладных математических исследований Карельского научного центра РАН

Научный руководитель доктор физико-математических наук, профессор Павлов Юрий Леонидович

Официальные оппоненты доктор технических наук Рогов Александр Александрович, профессор кафедры математического моделирования систем управления ГОУ ВПО "Петрозаводский государственный университет",

кандидат физико-математических наук Полин Александр Константинович, руководитель геоинформационного центра Института геологии Карельского научного центра РАН

Ведущая организация ГОУ ВПО "Пермский государственный университет"

Защита состоится " ? \ " ^ь-ti-J._ 2008 г в / 6 часов на

заседании диссертационного совета Д 212 190 03 в Петрозаводском государственном университете по адресу 185910, г Петрозаводск, пр Ленина, 33

С диссертацией можно ознакомиться в библиотеке Петрозаводского государственного университета

Автореферат разослан " ^ " Qh2008 г

Ученый секретарь диссертационного совета

Д 212 190 03

Поляков В В

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Одной из основных целей статистической обработки данных является выявление структуры зависимостей между признаками изучаемых объектов Одним из интенсивно развивающихся в настоящее время подходов для достижения этой цели является графовое моделирование - направление прикладной статистики, в котором вероятностно - статистическая структура зависимостей между переменными представляется в виде графа, вершины которого отождествляются с изучаемыми переменными, а ребра графа указывают на наличие прямой зависимости между соответствующими переменными Важным достоинством графовых моделей, является то, что с их помощью можно выдвигать и проверять гипотезы о причинно-следственных связях в изучаемых объектах.

Перед обучением (нахождением структуры и параметров) графовой модели необходимо ответить на вопрос, возможно ли в принципе однозначное восстановление структуры и параметров модели по имеющимся статистическим данным Это составляет, так называемую, проблему структурной и параметрической идентифицируемости модели Важность решения данной проблемы заключается в том, что следствием структурной неидентифицируемости модели является невозможность однозначной содержательной интерпретации модели, а следствием параметрической неидентифицируемости является невозможность состоятельного оценивания ее параметров Отметим, что при обучении графовых моделей, содержащих латентные (ненаблюдаемые) переменные, проблема идентифицируемости особенно актуальна. Это связано с тем, что, как правило, без дополнительных условий структура и параметры такой модели оказываются неиден-тифицируемыми.

Цель исследования. Цель диссертации состояла в выявлении условий структурной и параметрической идентифицируемости и разработке алгоритмов обучения гауссовских графовых моделей с латентными переменными

Объекты исследования. Объектами исследования были гаус-совские графовые модели, условия параметрической и структурной

идентифицируемости рассматриваемых моделей, а также итеративные алгоритмы нахождения оценок максимального правдоподобия параметров моделей

Методы исследования. В диссертации использовались методы теории вероятностей, математической и прикладной статистики, теории графов

Научная новизна. В диссертации впервые найдены условия структурной и параметрической идентифицируемости для гауссов-ских деревьев с латентными переменными и условия параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками Разработаны новые алгоритмы обучения гауссов-ских графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками

Основные положения диссертации, выносимые на защиту.

На защиту выносятся

1 Условия структурной и параметрической идентифицируемости для гауссовских деревьев с латентными переменными

2 Условия параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками

3 Алгоритмы обучения гауссовских графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками

4 Комплекс программ, реализующий разработанные алгоритмы и результаты его применения для решения двух задач психологии

Связь работы с крупными научными программами, темами. Результаты диссертации получены в рамках двух научно-исследовательских тем Института прикладных математических исследований Карельского научного центра РАН "Исследование и разработка методов создания интеллектуальных систем статистического анализа данных" (№гос. регистрации 01 9.80009162) и "Разработка методов исследования случайных структур и их применения при принятии

статистических решений" («Woc регистрации 01 200 202223) Работа по теме диссертации была поддержана грантом РФФИ №97-01-00554 "Моделирование процесса принятия решений при выборе методов статистического анализа"

Апробация результатов диссертации. Основные результаты работы были апробированы на Юбилейной научной конференции Карельского научного центра Российской академии наук посвященной 275-летию РАН (Петрозаводск, 1999 г), Пятой международной конференции "Вероятностные методы в дискретной математике" (Петрозаводск, 2000 г), Научной конференции "Карелия и РФФИ" (Петрозаводск, 2002 г), Memorial seminar dedicated to the 60th birthday of Vladimir Kalashmkov "Applied Stochastic Models and Information Processes" (Petrozavodsk, 2002 г), Четвертом Всероссийском симпозиуме по прикладной и промышленной математике (Петрозаводск, 2003 г), Пятом Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, 2004 г), Seventh International Conference "Computer Data Analysis and Modeimg Robustness and Computer Intensive Methods" (Minsk, 2004 г.), Russian — Scandmavian Symposium "Probabihty theory and applied probabihty" (Petrozavodsk, 2006 г ) и на Ученом совете Института прикладных математических исследований Карельского научного центра РАН

Публикация результатов. Основные результаты диссертации опубликованы в 11 статьях и 8 тезисах докладов Одна статья опубликована в журнале "Обозрение прикладной и промышленной математики" , входящем в список ВАК

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, списка литературы, заключения и трех приложений Общий объем диссертации составляет 145 страницы Список литературы содержит 125 наименований

СОДЕРЖАНИЕ РАБОТЫ

Во введении дан краткий обзор задачи графового моделирования, приведено обоснование актуальности темы диссертации, сформулированы ее цели и основные положения, выносимые на защиту.

В первой главе диссертации вводятся необходимые понятия и определения, касающиеся вопросов представления вероятностно -статистических зависимостей с помощью графов

Графом G называется упорядоченная пара (V,E), где V - конечное непустое множество элементов, называемых вершинами графа, а Е - множество ребер, определяемое различными ларами различных вершин графа В диссертации предпологается, что каждая пара вершин может определять ребро одного из трех видов неориентированное, ориентированное и двуориентированное (двунаправленное) Записи вида v\ — и2 6 Е, vi <-+ v<¿ € Е, i>i —» г>2 € Е и (V\,V2) £ Е означают, что вершины vj € V и v¡ € V соединены соответственно неориентированным, двуориентированным, ориентированным ребром (дугой, направленной из vi в v2) или ребром произвольного вида Граф, содержащий только неориентированные ребра, называется неориентированным, а только ориентированные — ориентированным Смешанным графом называется граф, содержащий различные виды ребер Множество вершин графа G = (V, Е), смежных с вершиной а 6 V, обозначено через Ad(a) Множество Ad(a) представляется в виде Ad(a) = Nе(а) U Sp(o) ü Pa(o) U Ch(a), где Nе(а) - множество вершин, соединенных с а неориентированными ребрами, Sp(a) - множество вершин, соединенных с а двуориентированными ребрами, Ра(а) - множество родителей вершины а, те множество вершин, из которых идут дуги в а, Ch(a) - множество непосредственных потомков вершины а, те множество вершин, в которые идут дуги из а

Пусть X = {A'i, ,Хп}~ непустое множество случайных величин (переменных), имеющих совместное распределение Рх Обозначим через Fy(y|Z = z) совместную условную функцию распределения элементов множества Y С X при заданном Z С X Рассмотрим три непересекающихся подмножества X Ъ — {Z\, , Zn¡], W — {W\, ,Wn2} и Y = {Yi, , Yn,} Множества случайных величин Z и W называются независимыми при данном Y, если для всех z = {zj, € Rni, w = {н;ь ,ш„2} € ЕП2 и почти всех

У = {¿/1. , Уп3} из области возможных значений случайного вектора У

™|У = у) = ВДУ = у)*\уНУ = у) (1)

Независимость Ъ и ЛУ при данном У обозначается как г±рх\¥|У Запись Ъ /Рх\У|У означает зависимость Ъ и при данном У

Пусть О = (V, Е) - неориентированный граф, вершинами которого являются элементы множества V = {1, ,п} 6? называется неориентированным графом зависимостей или марковской сетью для распределения Рх, если для любых различных 6 V одновременно выполнены два условия

• (м) если ЛМрхЛ-;|Х\{Х„Х3},

• (»,з) 6 Е, если X, ¿рхХ,|Х\{Х„Х,}

Пусть <7 = (V, Е) - ориентированный ациклический (не содержащий направленных циклов) граф Пусть элементы множества V упорядочены таким образом, что Ра(г) С {1, ,г - 1}, г > 1, г € V Граф (7 называется ориентированным графом зависимостей для распределения Рх, если для } > / (1,3 € V) одновременно выполнены два условия

• г -> з £ Е, если Х,±рхХ,|{Хь

• ( -» ! 6 Е, если Хг , -1} \ -^г

Пара (С, Рх), где С является ориентированным графом зависимостей для распределения Рх, определяемого набором условных плотностей {/х, (а",|Хра(,) = хРа(,)), г = 1, ,п} в случае абсолютно непрерывного распределения Рх или набором условных вероятностей {Рх, (X, = л,|Хра(,) = хРа(,)), I = 1, ,»} в случае дискретного распределения Рх, называется байесовской сетью для множества случайных величин X

Пусть б = (V, Е) - смешанный граф Вершина а е V называется предшественником вершины Ь Е V, если существует простая цепь Р(а,Ъ) = (а = VI, ,Ук — Ь), в которой ребро, соединяющее вершины уг и г = \, , к - 1, является либо неориентированным (те г;, — г>,+1 € Е), либо ориентированным, направленным из уг в р,+1 (те с, —► «¡+1 6 Е) Обозначим через Л^(С) множество всех предшественников вершин, составляющих множество С с V.

Смешанный граф б = (V, Е) называется а-графом, если для любой вершины а £ V одновременно выполнены два условия

• а ^ Ап4(Ра(а)У8р(а)),

• Если Nе(а) ф 0, то Ра(а) и®Р(а) = 0

Первое условие означает, что если вершина Ь соединена с вершиной а двуориентированным ребром или из вершины Ь идет дуга в вершину я, то а не является предшественником Ь Второе условие означает, что если вершина а является концевой для неориентированного ребра, то она не соединена ни с какой вершиной двуориентированным ребром и не существует дуги направленной в о

Мы будем говорить, что простая цепь Р(а. Ь) = (а = г ь , ни — Ь), соединяющая вершины а и Ь, содержит тупиковую вершину гч, если она содержит подцепь, одного из четырех видов —> уг <— г>г+ь г>»-1 Уг iVt.ii V,-! -» V, <-» «-» V, <-» уг+г Две различные

вершины а 6 V и Ь € V называются т-связанными при данном множестве вершин С С У\ {а, £»}, если существует такая простая цепь, соединяющая а и Ь, что одновременно выполнены два условия

• Каждая тупиковая вершина, принадлежащая этой цепи, принадлежит либо множеству С, либо множеству АпЦС),

• Нетупиковые вершины этой цепи не принадлежат С

Две различные вершины а € V и Ь е V называются т-отделимыми множеством вершин С с У\{а, /г}, если они не являются т-связанными при данном множестве вершин С

Два непересекающихся множества вершин А С V и В с V} т-отделимы множеством вершин С С V \ {А и В}, если для любых вершин а € А и Ь 6 В, а и Ь т-отделимы множеством вершин С ш-отделимость множеств А и В множеством С мы будем обозначать как (А,В|С)т

Пусть ^((7) - множество всех утверждений вида (А,В|С),„, где А, В, С непересекающиеся подмножества V, справедливых для аграфа О = (V, Е) Множество Лт(С) мы будем называть смешанной моделью независимостей Будем говорить, что распределение Рх удовлетворяет глобальному марковскому свойству относительно графа С = (V, Е), если для любых непересекающихся подмножеств

А,В>СС V, из справедливости утверждения (А,В|С)т € ,1т(С) следует справедливость утверждения Ха-1-рхХв|Хс Если распределение Рх удовлетворяет глобальному марковскому свойству относительно а-графа (7, то граф С называется смешанным графом зависимостей для распределения Рх Легко видеть, что неориентированные и ориентированные графы зависимостей являются смешанными графами зависимостей

Пусть 3,п(С) - смешанная модель независимостей, генерируемая а-графом й и пусть Ь - некоторое подмножество вершин графа С Определим маргинальную модель независимостей Лт(С)[ь, как множество утверждений об т-отделимостях, справедливых для подмножеств множества V \ Ь

•и<?)[ь= {(А, В|С)|(А, В|С)т € ША,В,ССУ\Ь}

Если граф б является смешанным графом зависимостей для распределения Рх, то для подмножеств множества случайных величин {Хг, г € V \ Ь} справедливо следующее множество утверждений об условных независимостях {Ха-1-рхХв|Хс, (А,В|С)т € Рассмотрим следующее преобразование графа С?

С - С[ь. (2)

где граф С[ь состоит из множества вершин V \ Ь и множества ребер Е[ь, которое определяется следующим образом Две различные вершины а, Ь 6 V \ Ь соединяются ребром только в том случае, когда для любого множества Ъ С V \ Ь

причем

если а € Antс(Ь) и Ь е Antc(a), to a — b € E[L,

если а Antа{Ь) и b £ Antc(a), to a b e e[l)

если а е Antc(i>) и b $ AntG(a), to a —> b € E[l,

если а $ Antc{b) и b ^ Ante (a) to a «-» be e[l

Преобразование (2) обладает важным свойством ЛГП(С)[Ь= Лт(С[ь) и граф ь является «-графом Таким образом, граф является смешанным графом зависимостей для распределения Рх\ь Данное свойство называется замкнутостью относительно операции маргинализации Заметим, что важным практическим следствием этого свойства является то, что зависимости между наблюдаемыми переменными байесовской сети с латентными переменными описывается смешанной графовой моделью, структура которой получается с помощью преобразования (2). Заметим, что что является одной из главных причин использования таких графов для представления зависимостей между переменными

Пусть (3 = (V, Е) а-граф с множеством вершин V = {1, ,п} и множеством ребер Е и пусть N((7) - множество всех невырожденных нормальных распределений, удовлетворяющих глобальному марковскому свойству относительно графа (л Будем считать, что порядок элементов множества V согласован с графом б так, что V = {V', V"}, где V' = {и е У[Ке(|)) ф 0} Обозначим через п' число элементов множества V' Если п' > 0, то мы будем полагать, что V' = {1, ,п'} Матрица ковариаций Ее любого распределения из N(0) может быть представлена в виде

ЕС = (/„ - В)"2 (Л0_1 ° ) (/„ - ВГ\ (3)

где

/„ - единичная пуп матрица,

В = (Ь,3) -пу.п матрица, причем Ьи — 0, если г«— у ^ Е, г,у = 1, ,п, Л = (Ач) - симметричная положительно определенная п' х п' матрица, причем = 0, если г - у £ Е, г ф 7, г, ] = 1, , п', П = (шг]) - симметричная положительно определенная (п - «') х (п -п') матрица, причем шг] = 0, если г ] £ Е, г ф ], г, ] = п' + 1, , п

Пусть Ре - множество всех положительно определенных п х п матриц, удовлетворяющих (3). Пару {С, Л, В, П)}, где

Ис{т, Л, В, О,) = N{m,YlG{^,BЯ)), £С(Л,В,П) е Рс, будем называть гауссовской смешанной графовой (генерируемой графом С) моделью с параметрами т, Л, П, В Смешанный граф зависимостей С? будем называть структурой модели

Частными случаями смешанной гауссовской графовой модели являются Ориентированная гауссовская графовая модель (гауссовская

байесовская сеть), Неориентированная гауссовская графовая модель (марковская гауссовская сеть), Ковариационная гауссовская графовая модель

В работе между множеством случайных величин X = , Хп}

и множеством вершин V = {1, ,п) графа зависимостей й — (V, Е) существует взаимно однозначное соответствие, поэтому вершины графа зависимостей будут обозначаться так же, как соответствующие случайные величины Таким образом, граф зависимостей будет состоять из множества вершин X = {Х1, , Хп} и множества ребер {(*„ *,),(»,.7) еЕ}

Во второй главе диссертации рассматриваются вопросы параметрической и структурной идентифицируемости смешанных гаус-совских графовых моделей с латентными переменными, структура которых является деревом Дня рассматриваемого класса моделей вводится новая, более удобная для целей интерпретации данных моделей, параметризация. Показано, что она эквивалентна стандартной параметризации модели В теореме 2 2 1 и в следствии к этой теореме сформулированы условия параметрической идентифицируемости рассматриваемой модели В теореме 2 2 2 получен простой "знаковый" критерий для проверки произвольной матрицы ковариаций на возможность быть матрицей ковариаций наблюдаемых переменных шуссовского дерева В главе вводится понятие приведенной структуры гауссовского дерева Необходимость введения данного понятия обусловлена тем, что структура гауссовского дерева не может быть однозначно восстановлена по матрице ковариаций наблюдаемых случайных величин В теоремах 2 4 1 - 243 получены условия, при которых приведенная структура дерева однозначно восстанавливается по матрице ковариаций наблюдаемых случайных величин

Описание класса рассматриваемых моделей Пусть С^ - множество всех «-графов с вершинами из множества X = {Хь , Хп}, а Т^ - множество всех смешанных деревьев с множеством вершин X Определим множество

всех смешанных деревьев с множеством вершин X, являющихся аграфами Граф Т 6 Т^ мы будем называть а-деревом

Пусть граф Т = (X Е) является «-деревом, а Рт - множество симметричных положительно определенных п х п матриц,

удовлетворяющих (3) Гауссовскую смешанную графовую модель {Т, Л, В, П)}, где Ыт{т, Л, В, £1) - п-мерное нормальное распределение с вектором математических ожиданий т е К" и матрицей ковариаций Ет(Л, В, О.) е Рт, определенной согласно (3), будем называть гауссовским деревом

Для гауссовских деревьев мы будем использовать несколько отличную, от введенной в первой главе, параметризацию гауссовской смешанной графововой модели

Пусть Т = (X, Е) - «-дерево Рассмотрим функционал

Ст ХиЕ-*К

и обозначим

схх-Ст(Хг), 1-1, ,п,

схг,х3 =СТ{Х„Х1), (Х„Х3)еЕ Определим матрицу £Сг = {(ГТ])?,]=-1

'(сх,)2,

О,

гт'-1

если г=з,

если простая цепь Р(Х%,Х]) содержит тупиковую вершину, если простая цепь Р{Х1,Х3) = (Х1 = У1. У^Х,) не содержит тупиковую вершину

Определим параметрическое множество

Ст = {с*„ с*,,Х3) € Ел,; = 1, ,п|ЕСг € РМ„},

где РМ„ множество положительно определенных пх п симметричных матриц

Поставим в соответствие дереву Т семейства нормальных распределений ГЧсг = {^ггпСт = Лг(т, Т,Ст)\т е К™, СТ <е Ст} и Г*т = {Нт(т, Л, В, П)|т 6 К", ЕГ(Л, В, П) £ Рт}-

Следующая теорема устанавливает эквивалентность двух параметризаций

Теорема 2.1.1. Справедливо соотношение

= N7-

Гауссовские деревья с латентными переменными Пусть {Т, МТтСт} - гауссовское дерево, где Т = (Х,Е) £ Т^, {тп,Ст) 6 К" х Ст Предположим, что множество случайных величин X = {Л'1, , Хп} представляется в виде объединения подмножества наблюдаемых случайных величин У = {У1, , УП1} и подмножества ненаблюдаемых (латентных) случайных величин Н = {Нх, , Я„2}

Основная проблема, возникающая при работе с моделями, содержащими латентные переменные, состоит в восстановлении распределения Рх по распределению Ру наблюдаемых случайных величин Так как элементы X имеют общее нормальное распределение, то задача идентифицируемости сводится к выяснению возможности однозначного определения параметров (тп,Ст) дерева Т по известному вектору математических ожиданий ту и известной положительно определенной матрице ковариаций £у наблюдаемых случайных величин

Вершина Не Н называется внутренней для дерева Т, если найдутся вершины У\, У-2 е У такие, что Я е Р(У\, Уг) Назовем распределение Рх связанным, если множество X не представляется в виде объединения таких двух подмножеств X' и X", что для любых X' е X' и любых X" £ X" Согг{Х',Х") = 0 Обозначим через [А] число элементов множества А Определим множество латентных случайных величин

Н(Г) = {Я 6 Н| [А<1(Я)] ^ 3, и СЬ(Я)] > 2}

Теорема 2.2.1 .Пусть {Т^ттСТ} ~ гауссовское дерево, где Т = (Х,Е) е Тх> (гп,Ст) € К" X Ст Н пусть X = УиН, где У - множество наблюдаемых, а Н - латентных случайных величин Если все вершины множества Н являются внутренними в дереве Т, Ру связанным, то по матрице ковариаций наблюдаемых случайных величин £у мы можем однозначно определить

• \Согг{У,Н)\, У € У, Не ЩТ),

• \Согг(Н„Н3)\, Н1,Н] еН(Г)

Без дополнительных ограничений, структура гауссовского дерева по матрице ковариаций наблюдаемых случайных величин восстанавливается неоднозначно, т е гауссовские наследственные деревья с различными структурами могут иметь одинаковую матрицу ковариаций наблюдаемых случайных величин Пусть {Г, NTmcT} ~ гауссовское дерево, где Т = (X, Е) € (тп, Ст) € Rn х Ст, причем X = Y и Н, где Y - множество наблюдаемых, а Н - латентных случайных величин Определим множество Н как множество таких вершин Я е Н, что не существует вершин Уь У2 6 У таких, что II е P(Yi,Y2) и цепь P{Yi, V2) не содержит тупиковых вершин

Рассмотрим для графа Т преобразование (2) Т Т|й Легко видеть, что граф Тполучается из Т с помощью удаления всех вершин, составляющих множество Н и инцидентных с ними ребер Очевидно, что T'lj-j является лесом В графе Т|д рассмотрим множество вершин Н, состоящее из таких И € Н \ Й, что либо (Ch(#) U Nе(Я)] = 1, либо [Ad(#)] = 2 и (Ch(#) U Ne(//)] = 2 Теперь рассмотрим преобразование

Пй->Т|йиН (4)

Легко видеть, что полученный граф T|fluH будет лесом В графе Лйин рассмотрим все вершины X е Y U Н \ (Н и Н) такие, что множество Sp(A') U Ра(Х) состоит из единственной вершины X'. Преобразуем граф Т|диН следующим образом. Заменим ребро X *- X' на X - X', а ребро X <-> X' на X —> X' Полученный граф Г = (YuH\ (Ни Н),Е) назовем приведенной структурой дерева Т Заметим, что Т не обязательно является a-графом Однако, легко видеть, что Jm(T|йиН) = Jm(T)

Обозначим h(Yl, Y„ Yk) = Corr(Yu Yk) - Corr(Yt Y3)Corr(Y3,Yk) и t(Y„Y3,Yk, Y,) = Corr(Ylt Yk)Corr(Yv Yt) - Corr(Yt, У,)Согг(У„ Yk)

Набор соотношений h{Yt,Yj Yk) - 0 Y¡,Yy,Yk e Y, будем обозначать через H(Y) Набор соотношений t(Yl} Y3,Yk, y¡) = О, Yl,Y3,Yk,Yi € У, будем обозначать через Т(У) Набор соотношений- Corr(YuY3) = 0, Уг,У, € Y, будем обозначать через €(У).

В следующей теореме найдены наиболее общие условия структурной идентифицируемости для гауссовского дерева с латентными переменными

Теорема 2.4.3.Пусть {T,NrmcT} - гауссовское дерево, где Т = (Х,Е) 6 Т^, {тп, Ст) € Rn х Ст, причем X = Y UH, где У - мно-

жестпво наблюдаемых, а Н - латентных случайных величин Тогда, если распределение Ру является связанным, то набор C(Y)UH(Y)U T(Y) однозначно определяет приведенную структуру Г дерева У

В третьей главе диссертации рассматриваются вопросы параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками В первом разделе главы рассматривается модель с зависимыми факторами, зависимость между остатками которой описывается ковариационной графовой моделью

Пусть Gy множество всех а-графов с п + к вершинами, каждый граф G = (X, Е) которого обладает следующими свойствами

1 X = Н U Y, где Н = {#i, ,Hk},&Y = {Y1, ,У„},

2 Вершины графа G, которые соединены неориентированными ребрами, составляют множество Н,

3 Любые две различные вершины множества Н соединены ребром,

4 Для любой вершины Я' 6 Н, СЬ(Я') ф 0,

5 Каждая вершина Y € Y имеет только одного родителя, причем

Ра(У) = {Я"}, Я" б Н

Пусть {G, Nc{m, Л, В, Г2)} - смешанная гауссовская графовая модель, где G = (X, Е) G G?, X = Н U Y, т е R"+fc, ЕС(Л, В, П) € PG, Н - множество латентных случайных величин, a Y - множество наблюдаемых случайных величин

Удалим в графе G все вершины множества Н и инцидентные с ними ребра Полученный двуориентированный граф S = (Y,ES) мы будем называть структурой модели

Мы можем представить зависимость между элементами множества Y в виде системы регрессионных уравнений

Yl = ml+alH(Yl)+£l, г = 1, ,п, (5)

где

Л(Уг) = Ра(У,),

т = {mi, ,тп} - вектор математических ожиданий наблюдаемых

случайных величин,

Зависимость между компонентами случайного вектора остатков е = {£], ,£„} описывается гауссовской ковариационной графовой моделью со структурой 5 Случайные величины Н\, , Н^ имеют общее нормальное распределение с матрицей ковариаций А = (ац), причем м(Я,) = 0 и Б(Я,) = 1, г = 1, ,к

Пусть в = {т, а,,г = 1, , п, П, Л} Определим параметрическое множество 0 = ЩИ, А — положительно определены }

Мы будем говорить, что модель (5) идентифицируема при в е 0' С ©, если при в € ©' С © по матрице ковариаций наблюдаемых случайных величин Еу параметры ш1}, Г, «-» К, £ Е<, определяются однозначно, а параметры {ах, , а„, а,}, 1 ^ г < ] ^ А;} с точностью до знака

Мы будем говорить, что модель (5) локально идентифицируема при в € 0" С 0, если для любого 9 6 0", модель будет идентифицируемой при в € Ид, где Ид - некоторая окрестность в

Определим к множеств У3 = {У 6 У]//, = Ра(К)} и пусть [У7] = п.,, ^ = 1, ,/с, п] = гг Пусть 5(У,Е) - дополнительный граф структуры 5

Пусть С подграф дополнительного графа, являющийся простым циклом, состоящим из вершин {Уь , V,.} е У, а С? подграф дополнительного графа, состоящий из простого цикла с вершинами {Уъ ,К,} £ простой цепи с вершинами {V,,, ,У,2} 6 У, и простого цикла с вершинами {У%2, , У$} £ У Для 1 ^ т < I ^ к определим функции

г— 1

г=1

.3 = 1 :7=ч

где Хш1{Уг,У3) = 1 если V, € Ут, У, 6 У' или V, € Ут, V, 6 У и Хт1(К, У]) = 0 п противном случае

Условия идентифицируемости при к = 2 Пусть множество Н состоит из двух вершин (те к = 2) и пусть а1} — а и /<\12(С) = 1'\(С), Щ2(Я) = (С?) Для этого случая нами получены необходимые и достаточные условия идентифицируемости модели (5)

Теорема 3.1.1. Пусть к = 2, о, ф 0, а / О, I — 1, ,п Модель (5) локально идентифицируема тогда и только тогда, когда одновременно выполнены следующие два условия

1 Каждая компонента связности дополнительного графа 6' содержит по крайней мере один нечетный цикл,

2 По крайней мере одна компонента связности дополнительного графа Ь' содержит либо четный цикл С, для которого Fl(C) ф О, или граф С}, состоящий из двух простых нечетных циклов, соединенных простой цепью, для которого ^(<5) Ф О

Теорема 3.1.2. Пусть условия теоремы 311 соблюдаются Если дополнительный граф является связным, то модель (5) является идентифицируемой

Теорема 3.1.3.Пусть условия теоремы 311 выполняются, причем щ ^ 4 и П2 ^ 4 Тогда, если граф структуры 5 является лесом, в котором нет вершины сп — 1 смежной вершиной, то модель будет идентифицируемой

Достаточные условия идентифицируемости при произвольном к

Теорема 3.1 Л.Пусть а, ф 0, г — 1, ,п, аг} Ф 0, г,] — 1, ,к Модель (5) локально идентифицируема, если следующие два условия выполнены одновременно

1 Каждая компонента связности дополнительного графа Я содержит по крайней мере один нечетный цикл,

2 Для 1 ^ г < ] < к подграф графа Б с множеством вершин У1 и У-3 содержит либо четный цикл С, для которого Ь^ (С) ф О, или граф (5, состоящий из двух простых нечетных циклов, соединенных простой цепью, для которого Р^ (С?) ф О

Модель с независимыми факторами Пусть

к

(б)

где Y = {Fi, , Yn} - вектор наблюдаемых случайных величин с вектором математических ожиданий т = {mi, ,тп} и ковариационной матрицей Еу,

Н = {#ь , Нк} — множество независимых в совокупности нормально распределенных латентных случайных величин (факторов), причем М(Н:) = 0, D(Hj) = 1, 3 = 1, ,к, А = (аг]) - матрица факторных нагрузок,

Z = {Z\, ,Zn}~ вектор остатков, имеющий невырожденное нормальное распределение с нулевым вектором математических ожиданий и ковариационной матрицей Ez, Z и Н независимы

Предположим, что между компонентами вектора Z существует зависимость, описываемая гауссовской смешанной графовой моделью {G, Ng{О, Л, В, ft)}, генерируемой графом G = (Z, Е), вершины которого отождествлены с компонентами вектора Z

Вектор параметров модели (6) в состоит из вектора математических ожиданий тп, множества факторных нагрузок а = {a%],i = 1, ,п, з — 1, . к] и параметров гауссовской смешанной графовой модели b = {bi,,Zt <- Zj е Е}, Л = {Лп, ,Л„<П',Лу, Zt - Z3 € Е}, ш = {wn'+i,T»'+i< .Wnn.Wij,Zt <-» Zj e E} Пусть n_, - со-

ответственно число ориентированных, неориентированных и двуори-ентированных ребер в графе G Параметрическое множество в модели (6) определим следующим образом 0 = {тп 6 Еп, а е Rnk,b е Rn-, Л е R"- +п',ш€ R"-+"-"•'|Л, S1 - положительно определены}

Условия идентифицируемости Мы будем говорить, что модель (6) идентифицируема при в 6 9' с 9 , если при 0 € 9' гю матрице Еу множество параметров {В, Л, П} определяется однозначно, а матрица факторных нагрузок А с точностью до ортогонального преобразования

Модель (6) почти всюду (п.в ) локально идентифицируема при в 6 0, если найдется е > 0 такое, что для любого в0 € 0" с 0 существует окрестность Ugo с 0" такая, что модель (6) идентифицируема при в 6 Ugo С ©" и при этом, множество 0 \ 0" имеет меру ноль

Заменим в графе G дуги и двуориентированные ребра на неориентированные ребра и каждой вершине добавим петлю Полученный граф U = (Z, Е[/) назовем сопутствующим для графа G

Пусть Gp = (Z,Eр) ~ полный граф с петлями и с вершинами из множества Z и ^z ~ множество графов, заданных с помощью

(к + 1) х (к + 1) подматриц матрицы смежности F графа Gp Подматрица

матрицы F задает подграф G'^' графа Gf с множеством вершин {Zn, , Ztk+l} U {Zn, , Z3k+1} и множеством ребер Е^' = {Ztm - Z3!\m,f =1, ,к + 1} Ребро Zlm - Z3I назовем дважды заданным, если гт ф jf и гт 6 {ju , jt+i}, J/ 6 {»ь

Теорема 3.2.1.Пусть s - число ребер графа U = (Z,Eц) Модель (6) п в локально идентифицируема при в € 9, если существует последовательность различных графов G\ = (Zi,E<jj), .Cs = (ZjjjEgJ, принадлежащих множеству Фа, таких, что для г = 1, ,s множество ((Egi U UEG>) ПЕу) \ ((Egj U UEc^JnEy) состоит из одного ребра и это ребро не является дважды заданным

Теорема 3.2.2.Пусть п ^ 4k + 1 Если G является лесом, в котором нет вершины с не менее чем сп — k смежными вершинами, то модель (6) п в локально идентифицируема при в € 6

В четвертой главе диссертации рассмотрены алгоритмы обучения гауссовских смешанных графовых моделей с латентными переменными и моделей факторного анализа г зависимыми остатками В начале главы приведена общая схема ЕМ алгоритма - итеративного метода нахождения оценок максимального правдоподобия параметров моделей, содержащих латентные переменные В разделе 3 приведен ICF алгоритм (М Drton, Т S Richardson, 2004), предназначенный для нахождения оценок максимального правдоподобия параметров гауссовских смешанных графовых моделей В разделе 4 приведен разработанный автором EMICF алгоритм, предназначенный для нахождения оценок максимального правдоподобия параметров гауссов-ской смешанной графовой модели с латентными переменными Представленный алгоритм является модификацией ЕМ и ICF алгоритмов Данный алгоритм применим для графовых моделей, рассмотренных во второй и третьей главах диссертации

В разделе 5 приведен также разработанный автором алгоритм поиска структуры и параметров модели факторного анализа с зависимыми остатками, при предположении, что класс возможных структур ограничен деревьями

В разделе 6 описана разработанная автором система программ LSF (Latent Structure Fmder), в которой реализованы описанные выше алгоритмы С помощью системы были решены две задачи психологии выявлены особенности недоразвития связной речи дошкольников с задержкой психического развития, а также выявлены особенности индивидуального стиля деятельности государственных служащих

В заключении сформулированы основные результаты диссертационной работы и направления дальнейших исследований

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи

1 Стафеев С.В. О модели факторного анализа с зависимыми остатками // Обозрение прикладной и промышленной математики. - 2007. - Т.14. - Вып. 6. - С. 10581064.

2 Ершова О А , Стафеев С В К вопросу об особенностях связной речи детей шестилетнего возраста с задержкой психического развития // Материалы международной научно - практической конференции "Ребенок и социум взгляд в третье тысячелетие" - 2001 - Петрозаводск КГПУ - С 149-151

3 Стафеев С В Об оценивании структуры байесовской сети с латентными признаками // Труды ИПМИ КарНЦ РАН - 2002 -Вып 3 - Петрозаводск - С 92-98

4 Илгунова О Е , Стафеев С В Некоторые особенности индивидуального стиля деятельности государственных служащих // Психология и жизнь - 2003 - Вып 5 - М МОСУ - С. 37-42

5 Стафеев С В К вопросу об оценивании параметров модели факторного анализа с зависимыми остатками // Труды ИПМИ КарНЦ РАН - 2003 - Вып 4 - Петрозаводск. - С. 98-105

6 Стафеев С В. Факторный анализ с зависимыми остатками проблема идентифицируемости и оценка параметров // Труды ИПМИ КарНЦ РАН - 2005 - Вып 6 - Петрозаводск - С 119-130

7 Стафеев С В О параметрической идентифицируемости модели факторного анализа с зависимыми факторами и остатками // Труды ИПМИ КарНЦ РАН - 2006 - Вып 7 - Петрозаводск -С 120-137

8 Stafeev S V Learning Bayesian Networks with Latent Variables // Proceedings of the Sixth International Minsk Conference Computer Data Analysis and Modeling Robustness and Computer Intensive Methods - 2001 - Minsk - P 238-243

9 Stafeev S V On the dimension of Bayesian networks with latent variables // Proceedings of the Fifth International Petrozavodsk Conference on Probabilistic Methods in Discrete Mathemathics -2002 - Utrecht VSP - P 367-370

10 Stafeev S V Structural EM algorithm for factor analysis model with correlated residuals // Proceedings of the Seventh International Minsk Conference Computer Data Analysis and Modeling Robustness and Computer Intensive Methods - 2004 - Minsk - V 1 - P 193196

11. Stafeev S V On the parameter estimation of recursive "bow -free" models with latent variables// Proceedings of the Eighth International Minsk Conference Computer Data Analysis and Modeling Complex Stochastic Data and Systems - 2007 - Minsk. -V 1 - P 178-181

Тезисы

1 Стафеев С В О размерности некоторых байесовских сетей с латентными признаками // Обозрение прикладной и промышленной математики - 2000 - Т. 7. - Вып 1 - С 200-201

2 Стафеев С В О параметрической и структурной идентифицируемости байесовских сетей с латентными признаками // Обозрение прикладной и промышленной математики - 2001 - Т 8 - Вып 1 - С 204-205

3 Стафеев С В Об идентифицируемости некоторых моделей с латентными признаками // Тезисы докладов научной конференции "Карелия-РФФИ" - 2002 - Петрозаводск - С 98-99

4 Стафеев С В Об одной модели с латентными признаками // Обозрение прикладной и промышленной математики - 2002 -Т 9 - Вып 2 - С 211-212

5 Стафеев С В О факторном анализе с зависимыми остатками // Обозрение прикладной и промышленной математики - 2003 -Т10 - Вып 1 - С 225-226

6 Стафеев С В Об оценивании параметров одной модели факторного анализа // Обозрение прикладной и промышленной математики - 2004 -ТИ- Вып 3 - С 584-585

7 Stafeev S V On the identifiability of a two-factor model with correlated residuals // Informational Processes - 2002 - V 2 -P 262-263

8 Stafeev S V On factor analysis models with correlated residuals // Extended Abstracts of Russian - Scandinavian Symposium 'Probability theory and applied probability". - 2006 - Petrozavodsk -P 59-61

Формат 60x84 V16 Бумага офсетная Гарнитура «Times» Уч-изд л 1,0 Уел печ л 1,3 Подписано в печать 16 04 08 Тираж 100 экз Изд № 70 Заказ № 724

Карельский научный центр РАН Редакционно-издательский отдел 185003, Петрозаводск, пр А Невского, 50

Оглавление автор диссертации — кандидата физико-математических наук Стафеев, Сергей Вячеславович

Введение

1 Представление вероятностно-статистических взаимосвязей с помощью графов

1.1 Основные определения и обозначения.

1.2 Моделирование условных независимостей с помощью графов

1.2.1 Условная независимость случайных величин

1.2.2 Неориентированный граф зависимостей.

1.2.3 Ориентированный граф зависимостей.

1.2.4 Смешанный граф зависимостей.

1.2.5 Маргинальная модель независимостей.

1.3 Смешанная гауссовская графовая модель.

1.4 Гауссовские графовые модели с латентными переменными

1.4.1 Классическая модель факторного анализа.

1.4.2 Модель факторного анализа с зависимыми остатками

2 Идентифицируемость гауссовских деревьев с латентными переменными

2.1 Описание класса рассматриваемых моделей.

2.2 Гауссовские деревья с латентными переменными.

2.3 Приведенная структура гауссовского дерева с латентными переменными.

2.4 Структурная идентифицируемость гауссовских деревьев с латентными переменными.

3 Модели факторного анализа с зависимыми остатками

3.1 Модель факторного анализа с зависимыми факторами

3.1.1 Описание класса рассматриваемых моделей.

3.1.2 Условия идентифицируемости при к = 2.

3.1.3 Примеры идентифицируемых моделей.

3.1.4 Условия идентифицируемости при произвольном к.

3.2 Модель с независимыми факторами.•.

3.2.1 Описание класса рассматриваемых моделей.

3.2.2 Условия идентифицируемости.

3.2.3 Условия идентифицируемости в случае, когда постулируются некоторые нули в матрице факторных нагрузок.

4 Обучение графовых гауссовских моделей с латентными переменными

4.1 ЕМ алгоритм.

4.2 ЕМ алгоритм для случая нормального распределения

4.3 Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели

4.4 Алгоритм нахождения оценок максимального правдоподобия для параметров гауссовской смешанной графовой модели с латентными переменными.

4.5 Структурный ЕМ алгоритм для модели факторного анализа с зависимыми остатками.

4.6 Система LSF.

4.6.1 Описание системы LSF

4.6.2 Модельные задачи.

4.6.3 Особенности связной речи детей шестилетнего возраста с задержкой психического развития.

4.6.4 Особенности индивидуального стиля деятельности государственных служащих.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Стафеев, Сергей Вячеславович

Одной из основных целей статистической обработки данных является выявление структуры зависимостей между изучаемыми переменными. Одним из интенсивно развивающихся в настоящее время подходов для достижения этой цели является графовое моделирование [91, 95,122] - направление прикладной статистики, в котором вероятностно - статистическая структура зависимостей между переменными представляется в виде графа, вершины которого отождествляются с изучаемыми переменными, а ребра графа указывают на наличие прямой зависимости между соответствующими переменными. По сути, графовая модель, это представление многомерного распределения переменных в виде графа.

Причиной, обусловившей развитие графового моделирования, является то, что большинство моделей, используемых при решении основных? задач прикладной статистики (сжатия информации, классификации, исследования зависимостей), могут быть представлены в виде графовой модели [63, 103]. Важным достоинством графовых моделей, отличающих их от большинства других статистических методов, является то, что с их помощью можно выдвигать и проверять гипотезы о причинн-следственных связях в изучаемых объектах [83, 103].

По видимому, впервые для представления вероятностно - статистической модели графы использовались в работах [123, 124]. Систематическое изучение графовых моделей началось в конце шестидесятых годов прошлого века с рассмотрения моделей, генерируемых неориентированными деревьями. Одной из первых работ в этом направлении является статья С1ю\\г([61]), в которой рассмотрен малопараметрический класс распределений, обобщающий многомерные распределения, которые возникают в цепях Маркова, получивший название "распределения с древообразной структурой зависимости". Позднее, данные модели были обобщены на случай моделей, генерируемых произвольными неориентированными графами [64]. Необходимо отметить, что существенный вклад в развитие этого направления был сделан в работах отечественных ученых [9, 15, 16, 17, 26]. В восьмидесятых годах наибольший интерес стали вызывать ориентированные графовые модели, обычно называемые байесовскими сетями [83, 84, 95]. Данный интерес был вызван, главным образом, тем, что байесовские сети являются удобной моделью представления знаний в области искусственного интеллекта (экспертные системы, системы принятия решений, диагностирующие системы и др.) [55, 102]. Отметим, что с одной стороны, для построения байесовской сети можно использовать информацию о причинных связях между переменными, а с другой стороны, с помощью построенной байесовской сети можно выдвигать и проверять гипотезы о причинных взаимосвязях между переменными [103]. Также отметим, что с помощью ориентированных графовых моделей удобно представлять регрессионные закономерности [51, 63, 96, 103]. В настоящее время байесовские сети нашли широкое применение при решении практических задач не только в области искусственного интеллекта, но и в различных областях экономики, социологии, телекоммуникаций и др. [5, 40, 56, 60, 72, 92, 114].

Вероятностно - статистическая модель может содержать как наблюдаемые, так и латентные (скрытые, ненаблюдаемые) переменные. Наиболее известной моделью с латентными переменными, является модель линейного факторного анализа [42], которая базируется на предположении, что зависимость между наблюдаемыми переменными может быть объяснена тем, что они зависят от меньшего числа латентных переменных.

В области прикладной статистики модели с латентными переменными давно и успешно применяются. Наиболее широкое применение они находят в психологии (где они первоначально и возникли), социологии, генетике, педагогике, экономике, биологии и многих других областях науки и техники [6,18, 88,103]. Отметим, что в Карельском научном центре РАН методы факторного анализа используются для решения различных задач на протяжении многих лет [8, 10, 43].

Основными целями использования моделей с латентными переменными являются: понижение числа переменных (снижение размерности), классификация переменных, косвенное оценивание переменных, не поддающихся непосредственному измерению, выявление скрытых влияющих факторов (причин) [3, б].

В области графового моделирования, в настоящее время наибольший интерес вызывают модели, возникающие при использовании смешанных графов, в которых вершины могут быть соединены различными видами ребер (неориентированными, ориентированными, двуориентирован-ными) [46, 52, 63, 87, 105]. Такие модели являются обобщением как ориентированных, так и неориентированных графовых моделей. В диссертации, в основном, рассматриваются графовые модели, описывающие зависимость между наблюдаемыми переменными байесовских сетей с латентными переменными [105]. Эти модели в диссертации названы смешанными графовыми моделями.

На практике, как правило, структура и параметры графовой модели неизвестны и их необходимо определять с помощью данных. Этот процесс называется обучением модели. Обучение графовой модели можно представить в виде двухэтапной процедуры:

1. Идентификация (определение) структуры модели;

2. Оценка параметров модели.

Проблеме обучения графовых моделей посвящено большое число работ [55, 62, 73, 74, 83, 89, 116, 117]. При обучении модели, как правило, для того, чтобы избежать эффекта переподгонки [20] модели (ситуации, при которой построенная по некоторой выборке вероятностно-статистическая модель описывает только саму эту выборку и непригодна в качестве модели всей генеральной совокупности), стремятся, с одной стороны -получить модель, которая адекватно описывает зависимости между переменными, а с другой стороны - получить модель с достаточно простой (содержащей небольшое число ребер) структурой. Модель с простой структурой обладает очевидными преимуществами, по сравнению с моделью, имеющей сложную структуру. Во первых, как правило, она имеет меньшее число параметров, а значит требует меньшее количество данных для их оценивания. Во вторых, простая структура, в большинстве ситуаций, допускает более точную и понятную интерпретацию. Одним-из наиболее простых и. часто используемых классов структур являются деревья [93]. Необходимо подчеркнуть, что часто упростить структуру модели удается с помощью введения в модель латентных переменных [56, 84, 103].

Одной из основных проблем, возникающих при построении графовых моделей, является то, что, как правило, одно и то же многомерное распределение переменных может быть представлено графовыми моделями с различными структурами. Следствием-того, что две различные графовые модели представляют одно распределение переменных, является невозможность различения таких моделей с помощью статистических методов. Данная проблема приводит к трудностям как при-обучении модели, так и при содержательной интерпретации ее структуры [91, 95]. Например, может возникнуть ситуация, при- которой в одной графовой модели, представляющей некоторое распределение переменных, две переменные напрямую связаны (соединены ребром), а в другой графовой модели, представляющей это же распределение, эти переменные напрямую не связаны (т.е. не соединены ребром). В связи с этим, важное значение имеет определение условий, при которых по распределению переменных возможно однозначное определение структуры графовой модели, представляющей данное распределение. Такие условия называют условиями структурной идентифицируемости модели. Условия структурной идентифицируемости для графовых моделей, как правило, заключаются в наложении ограничений на класс возможных структур [58, 118].

При фиксированной структуре графовой модели может возникнуть ситуация, когда две графовые модели с одной и той же структурой, но имеющие разные параметры, представляют одно и то же распределение переменных. В связи с этим, актуальное значение имеет определение условий, при которых по распределению переменных, при фиксированной- структуре, возможно однозначное определение параметров графовой модели, представляющей данное распределение. Такие условия называют условиями параметрической идентифицируемости модели. Как отмечалось С.А. Айвазяном [4], проблема параметрической идентифицируемости является одной из ключевых проблем, которую необходимо' решить при построении любой вероятностно - статистической модели. Это, главным образом, связано с тем, что следствием параметрической неидентифицируемости модели является невозможность оценивания параметров модели по статистическим данным, при котором, с ростом числа данных, оценки параметров приближаются к их истинным значениям (т.е. невозможность состоятельного оценивания параметров модели) [85]. Условия параметрической идентифицируемости для графовой модели, как правило, заключаются в наложении ограничений как на класс возможных структур, так и на параметры модели. Отметим, что при обучении графовых моделей, не содержащих латентных переменных, как правило, проблемы параметрической неидентифицируемости не возникает

91, 103]. В то же время, при обучении графовых моделей, содержащих латентные переменные, проблема идентифицируемости особенно актуальна. Это связано с тем, что, как правило, без дополнительных условий структура и параметры такой модели оказываются неидентифицируемы-ми [122]. Параметрическая неидентифицируемость графовых моделей с латентными переменными приводит к тому, что алгоритмы обучения, разработанные для графовых моделей без латентных переменных, становятся непригодными для обучения таких моделей [95, 99, 100]. Также, следствием параметрической неидентифицируемости модели может быть ошибочная содержательная интерпретация параметров модели [91, 103]. Несмотря на то, что вопросам структурной и параметрической идентифицируемости уделяется большое внимание ([76, 77, 81, 86]), для ряда моделей, в частности, для смешанных гауссовских графовых моделей с латентными переменными, условия структурной' и параметрической идентифицируемости к настоящему времени не найдены.

Как уже отмечалось, одной из наиболее известных моделей с латентными переменными является модель факторного анализа. Заметим, что данную модель можно представить в виде гауссовской графовой модели: с латентными переменными [83]. При применении стандартных методов факторного анализа1 [6, 18, 42] часто возникает ситуация, при которой не все извлеченные факторы поддаются содержательной интерпретации, а в то же время, если мы оставим в модели только хорошо интерпретируемые факторы, то полученная модель не будет адекватно описывать зависимости между наблюдаемыми переменными. В связи с этим, целесообразно переходить к моделям с зависимыми остатками. В работах [79,80,112,113,119] были получены условия параметрической идентифицируемости для моделей однофакторного анализа с зависимостью между остатками, описываемыми марковской сетью, байесовской сетью или ковариационной графовой моделью. Однако, важная с теоретической и практической точек зрения проблема параметрической идентифицируемости для многофакторных моделей с зависимыми остатками практически не исследовалась, за исключением работ [79, 80], в которых данная проблема сводится к проблеме идентифицируемости однофакторной модели.

Цель диссертации состояла в выявлении условий структурной и параметрической идентифицируемости и разработке алгоритмов обучения гауссовских графовых моделей с латентными переменными.

Объектами исследования были гауссовские графовые модели, условия параметрической и структурной идентифицируемости рассматриваемых моделей, а также итеративные алгоритмы нахождения оценок максимального правдоподобия параметров моделей.

В диссертации использовались методы теории вероятностей, математической и прикладной статистики, теории графов.

Диссертация состоит из введения, четырех глав, заключения, списка литературы и трех приложений.

Заключение диссертация на тему "Идентифицируемость и обучение гауссовских графовых моделей с латентными переменными"

Заключение

В диссертации были получены следующие результаты:

1. Условия параметрической и структурной идентифицируемости для гауссовских деревьев с латентными переменными. Предложена* новая более удобная параметризация для гауссовских деревьев. Получен критерий для проверки произвольной матрицы ковариаций на возможность быть матрицей ковариаций наблюдаемых случайных величин гауссовского дерева.

2. Условия параметрической идентифицируемости для моделей факторного анализа с зависимыми остатками. Были рассмотрены как модели с зависимыми факторами, так и модели с независимыми факторами.

3. Разработаны алгоритмы обучения гауссовских смешанных графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками. Предложен алгоритм (названный StS алгоритмом) для поиска структуры зависимостей между остатками модели факторного анализа, в которой множество возможных структур ограничено неориентированными деревьями.

4. Комплекс программ LSF, в котором реализованы разработанные алгоритмы обучения смешанных гауссовских графовых моделей с латентными переменными и моделей факторного анализа с зависимыми остатками. Комплекс программ использовался при решении двух задач психологии.

В дальнейшем предполагается изучить вопросы параметрической и структурной идентифицируемости для более общих графовых моделей с латентными переменными, а также предполагается рассмотреть применение моделей и разработанных алгоритмов для решение более широкого класса практических задач.

Библиография Стафеев, Сергей Вячеславович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз, 1963.

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. М: Финансы и статистика, 1985.

3. Айвазян С.А., Бухштабер В.М., Енюков И.О., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989.

4. Айвазян CA., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.

5. Белая Р.В., Стафеев C.B. Байесовская сеть для анализа структуры занятости // Мониторинг социально-экономических процессов Республики Карелия. 2000. - Петрозаводск: КарНЦ РАН. - С. 148-151.

6. Благуш П. Факторный анализ с обобщениями. М.: Финансы и статистика, 1989.

7. Болыпев Л.Н. Избранные труды. Теория вероятностей и математическая статистика. М.: Наука, 1987.

8. Ветчинникова Л.В., Харин В.Н., Спектор E.H., Бумагина З.Д. Многомерный анализ изменчивости признаков узорчатой текстуры древесины в гибридном потомстве карельской березы // Лесоведение.-2003. Вып. 4. - С. 70-74.

9. Гаврилец Ю.Н. Социально-экономическое планирование: Системы и модели. М.: Экономика, 1974.

10. Евстратова Л.П., Харин В.Н., Николаева Е.В. Статистический анализ устойчивости картофеля к болезням. Петрозаводск: ПетрГУ, 2002.

11. Ершова O.A. Новые подходы к подготовке специалистов, работающих в области1 специального (коррекционного) образования Карелии //По законам доброты. Информационно методический сборник. - 2002. - Вып. 1. - Петрозаводск. - С. 13.

12. Жук Е.Е., Харин Ю.С. Устойчивость в кластер анализе многомерных наблюдений. Минск: Белгосуниверситет, 1998.

13. Зайцева Л.М. Структурный подход к определению взаимосвязей в системе случайных величин // Известия АН СССР. Техническая кибернетика. 1984. - Вып. 4. - С. 61-82.

14. Заруцкий В.И. Классификация нормальных векторов простой структуры в пространстве большой размерности // Прикладноймногомерный статистический анализ. -1978. М.: Наука. - С. 3751.

15. Заруцкий В.И. О выделении некоторых графов связей для нормальных векторов большой размерности // Алгоритмическое и програмное обеспечение прикладного статистического анализа. -1980. М.: Наука. - С. 189-208.

16. Иберла К. Факторный анализ. М.: Статистика, 1980.

17. Илгунова O.E., Стафеев C.B. Некоторые особенности индивидуального стиля деятельности государственных служаших // Психология и жизнь. 2003. - Вып. 5. - М: МОСУ. - С. 37-42.

18. Колмогоров А.Н. К вопросу о пригодности найденных статистическим путем формул прогоноза// Геофизический журнал: 1933. -Т. 3. - Вып. 1. - С. 78-82.

19. Крамер Г. Математические методы статистики. М.: Мир, 1975.

20. Леман Э. Проверка статистических гипотез. М.: Наука, 1979.

21. Леман Э. Теория точечного оценивания. М.: Наука, 1991.

22. Литтл Р.Дж., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991.

23. Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.: Мир, 1967.

24. Михайлов В.Г. Явные оценки в предельных теоремах для сумм случайных индикаторов // Обозрение прикладной и промышленной математики. 1994. - Т. 1. - Вып. 4. - С. 580-617.

25. Ope О. Теория графов. М.: Наука, 1980.

26. Стафеев C.B. О критерии Шварца // Труды ИПМИ КарНЦ РАН.- 1999. Вып. 2. - Петрозаводск. - С. 41-50.

27. Стафеев C.B. О размерности некоторых байесовских сетей с латентными признаками // Обозрение прикладной и промышленной математики. 2000. - Т. 7. - Вып. 1. - С. 200-201.

28. Стафеев C.B. О параметрической и структурной идентифицируемости байесовских сетей с латентными признаками // Обозрение прикладной и промышленной математики. 2001. - Т. 8. - Вып. 1. -С. 204-205.

29. Стафеев C.B. Об оценивании структуры байесовской сети с латентными признаками // Труды ИПМИ КарНЦ РАН. 2002. - Вып. 3.- Петрозаводск. С. 92-98.

30. Стафеев C.B. Об идентифицируемости некоторых моделей с латентными признаками // Тезисы докладов научной конференции "Карелия-РФФИ". 2002. - Петрозаводск. - С. 98-99.

31. Стафеев C.B. Об одной модели с латентными признаками // Обозрение прикладной и промышленной математики. 2002. - Т. 9. -Вып. 2. - С. 211-212.

32. Стафеев C.B. О факторном анализе с зависимыми остатками // Обозрение прикладной и промышленной математики. 2003. - Т. 10.- Вып. 1. С. 225-226.

33. Стафеев C.B. К вопросу об оценивании параметров модели факторного анализа с зависимыми остатками // Труды ИПМИ КарНЦ РАН. 2003. - Вып. 4. - Петрозаводск. - С. 98-105.

34. Стафеев C.B. Об оценивании параметров одной модели факторного анализа // Обозрение прикладной и промышленной математики. -2004. Т. 11. - Вып. 3. - С. 584-585.

35. Стафеев C.B. Факторный анализ с зависимыми остатками: проблема идентифицируемости и оценка параметров // Труды ИПМИ КарНЦ РАН. 2005. - Вып. 6. - Петрозаводск. - С. 119-130.

36. Стафеев C.B. О параметрической идентифицируемости модели факторного анализа с зависимыми факторами и остатками // Труды ИПМИ КарНЦ РАН. 2006. - Вып. 7. - Петрозаводск. - С. 120137.

37. Стафеев C.B. О модели факторного анализа с зависимыми остатками // Обозрение прикладной и промышленной математики. 2007. - Т. 14. - Вып. 6. - С. 1058-1064.

38. Тулупьев A.JI. Алгебраические байесовские сети. Логико- вероят- ,*ностный подход к моделированию баз знаний с неопределенностью. СПб.: СПИИРАН, 2000.

39. Харари Ф. Теория графов. М.: Наука, 1973.

40. Харман Г. Современный факторный анализ. М.: Статистика, 1972.

41. Харин В.Н. Факторный анализ (подход с использованием ЭВМ). Петрозаводск: КарНЦ РАН, 1992.

42. Шлезингер М.И. О самопроизвольном различении образов // Читающие автоматы. Киев: Наукова думка, 1965.

43. Федорюк М.В.Асимтотика : Интегралы и ряды. М.: Наука, 1987.

44. Anderson S.A.,Madigan D., Perlman M.D. Alternative Markov properties for chain graphs // Scand. J. Statist. 2001. - V. 28. - P. 33-86.

45. Anderson T. W., Rubin H. Statistikal inference in factor analysis // Proc. 3rd Berkley Symp. Math. Statist. Prob. 1956. - V. 5. - Berkely: Univ. of California Press. - P. 111-150.

46. Becker A., Geiger D., Meek C. Perfect Tree-like Markovian Distributions // Proceedings of Sixteenth Conference on Uncertainty in Artificial Intelligence. 2000. - Stanford: Morgan Kaufmann. - P. 19-23.

47. Benedetti R., Risler J. Real algebraic and semi- algebraic sets. Paris: Herman, 1990.

48. Boollen K.A. Structural equations with latent variables. New York: John Wiley and Sons, 1990.

49. Breiman L., Friedman J., Olshen R., Stone C. Classification- and regression Trees. Monterey: Wadsworth and Brooks, 1989.

50. Brito C., Pearl J. A new identification condition for recursive models with correlated errors // Structural equation modeling.- 2002. V. 9. -P. 459-474.

51. Browne M.W. Factor analysis of multiple batteries by maximum likelihood // British J. of Math, and Statist. Psychology. 1980. -V. 33. - P. 184-199.

52. Buntine W. Learning classification trees // Artificial Intelligence Frontiers in Statistics: AI and statistics III. 1993. - New York: Chapman and Hall.

53. Buntine W. Operation for learning with graphical models // Journal of Artficial Intelligence Research. 1994. - V. 2. - P. 159-225.

54. Buntine W. A guide to the literature 011 learning graphical models // IEEE Transactions on Knowledge and Data Engineering. 1996. - V. 8. - P. 195-210.

55. Cheeseman P., Stutz J. Bayesian classification (AutoClass): Theory and results // Advances in Knowledge Discovery and Data Mining. -1995. Menlo Park: AAAI Press. - P. 153-180.

56. Chickering D. A transformational characterization of equilent Bayesian network structures // Proceedings of Eleventh Conference on Uncertainty in Artificial Intelligence. 1995. - Montreal: Morgan Kaufmann. - P. 87-98.

57. Chickering D., Heckerman D. Efficient approximations for the marginal likelihood of Bayesian networks with hidden variables // Machine Learning. 1997. - V. 29. - P. 181-212.

58. Chickering D., Heckerman D. Targeted Advertising with Inventory Management. Thechnical Report MSR-TR-00-49, Microsoft Research, 2000.j

59. Chow C.K., Liu C.N., Approximating discrete probability distributions with dependence trees // IEEE Transactions on Information Theory. -1968. IT-14(3). - P. 462-467.

60. Cooper G. A Bayesian method for the induction of probabilistic networks from data // Machine Learning. 1991. - V. 9. - P. 309-347.

61. Cox D.R., Wermuth N. Multivariate Dependencies. London: Chapman and Hall, 1996.

62. Dempster A.P. Covariance selection // Biometrika. 1972. - V. 28. -P. 157-175.

63. Dempster A., Laird N., Rubin D. Maximum likelihood from incomplete data via the the EM algorithm // Journal of the Royal Statistical Sosiety. 1997. - V. 39. - P. 1-38.

64. Drton M. Maximum Likelihood Estimation of Gaussian AMP Chain Graph Models and Gausian Ancestral Graph Models. PhD thesis, University of Washington, 2004.

65. Drton M., Richardson T.S. Iterative Conditional Fitting for Gaussian Ancestral Graph Models // Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.- 2004.- P. 130-137.

66. Edwards D.M. Introduction to Graphical Modelling. New York: Springer-Verlag, 1995.

67. Efron B. The geometry of exponential families // Annals of Statistics.- 1978. V. 6. - P. 362-374.

68. Friedman N. Learning belief networks in the presence of missing values and hidden variables // Proceedings of Fourteenth Conference on Machine Learning. 1997. - San Mateo: Morgan Kaufmann. - P. 156165.

69. Friedman N. The Bayesian Structural EM Algorithm // Proceedings of Fourteenth Conference on Uncertainty in Artificial Intelligence. 1998.- San Mateo: Morgan Kaufmann. P. 129-138.

70. Friedman N., Ninio M., Peer I., Pupko T., A Structural EM Algorithm for Phylogenetic Inference //Journal of Computational Biology. 2002.- V. 9. P. 331-352.

71. Geiger D., Heckerman D. Learning Gaussian networks. Technical Report MSR-TR-94-10, Microsoft Research, 1994.

72. Geiger D., Heckerman D. Likelihood and Parameter Priors for Bayesian Networks. Technical Report MSR-TR-95-54, Microsoft Research, 1995.

73. Geiger D., Heckerman D. A characterization of Dirichlet distribution through global and local parameter independence // Annals of Statistics. 1997. - V. 25. - P. 1344-1369.

74. Geiger D., Meek C. Graphical Models and Exponential Families // Proceedings of Fourteenth Conference on Uncertainty in Artificial Intelligence. 1998. - San Mateo: Morgan- Kaufmann. - P. 156-165.

75. Geiger D., Heckerman D., King H., Meek C. Stratified Exponential Families: Graphical Models and Model Selection // Annals of Statistics.- 2001. V. 29. - P. 505-529.

76. Gilula Z. Singular value decomposition of probability matrices: probabilistic aspects of latent dichotomous variables // Biometrika.- 1979. V. 61. - P. 339-344.

77. Giudici P., Stanghellini E. Bayesian inference for graphical factor analysis models. Technical Report 99(4-99), Pavia University,. 1999.

78. Grzebyk M., Wild P., Chouaniere D. On identification of multi-factor models with correlated residuals // Biometrika. 2004. - V. 91. - P. 141-151.

79. Goodman L. Exploratory latent structure analysis using both identifiable and unidentifiable models // Biometrika. 1974. - V. 61. -P. 215-231.

80. Haughton D. On the choice of a model to fit data from exponential family // Annals of Statistics. 1988. - V. 16. - P. 342-355.

81. Heckerman D. A Tutorial on Learning with Bayesian Networks. Technical Report MSR-TR-95-06, Microsoft Research, 1995.

82. Heckerman D., Geiger D., Chickering D. Learning Bayesian networks: The combination of knowledge and statistical data // Machine Learning. 1995. - V. 20. - P. 197-243.

83. Kass R.E., Vos P.W. Geometrical foundations of asymptotic inference. New York: Wiley and Sons, 1997.

84. Kocka T., Zhang N. Dimension- Correction for Hierarchical Latent Class Models // Proceedings of Conference on< Uncertainty in Artificial Intelligence. 2002. - San Mateo: Morgan Kaufmann. - P: 267-274.

85. Koster J.T.A. On the validity of the Markov interpretation of path diagrams of Gaussian structural equation systems with correlated errors // Scand. J. Statist. 1999. - V. 26. - P. 413-431.

86. Krogh A., Brown M., Mian I.S., Sjolander K., Haussler D.> Hidden Markov models in computational biology: Applications to protein modeling. Journal of Molecular Biology. 1994 - V. 235. P. 1501-1531.

87. Jordan M.I«. Learning in graphical models. Cambridge: MIT Press, 1998.

88. Lauritzen S. The EM algorithm for graphical association models with missing data // Computational Statistics and Data Analysis. 1995. -V. 19. - P. 191-201.

89. Lauritzen S. Graphical models. Oxford: Clarendon Press, 1996.

90. Madigan D., York J. Bayesian graphical models for discrete data //1.ternational Statistical Review. 1995. - V. 63. - P. 215-232.

91. Meila-Predoviciu M. Learning with Mixtures of Trees. PhD thesis, 1999, Massachusetts Institute of Technology.

92. Meng X.L., Rubin D.B. Maximum likelihood estimation via the ECM algorithm: A general framework // Biometrika. 1993. - V. 80. - P. 267-278.

93. Pearl J. Probabilistic Reasoning in Intelligent systems. San Mateo: Morgan-Kaufrnann, 1988.

94. Pearl J. Meshkat P. Testing Regression Models with Fewer Regressors. Technical Report, Cognitive Systems Laboratory, University of California, 1997.

95. Richardson T.S., Spirtes P. Ancestral graph Markov models // Annals of Statistics. 2002. - V. 30. - P. 962-1030.

96. Schwarz G. Estimating the demension of a model // Annals of Statistics. 1978. - V. 6. - P. 461-464.

97. Settimi R., Smith J. Geometry and identifiability in simple discrete bayesian models. Technical Report 324, University of Warwick, 1998.

98. Settimi R., Smith J. Geometry, Moments and Conditional independence trees with hidden variables // Annals of Statistics. 2000. - V. 28. - P. 1179-1205.

99. Shachter R., Kenley C. Gaussian influence diagrams // Management Science. 1989. - V. 35. - P. 527-550.

100. Spiegelhalter D., Dawid A., Lauritzen S., Cowell R. Bayesian analysis in expert systems // Statistical Science. 1993. - V. 8. - P. 219-282.

101. Spirtes P., Glymour C., Scheines R. Causation, Prediction, and Search. Springer-Verlag, 1993.

102. Spirtes P., Richardson T., Meek C. The dimensionality of mixed ancestral graphs. Technical Report CMU-PHIL-83, Carnegie Mellon University, 1997.

103. Spirtes P., Richardson T. Ancestral Graph Markov Models. Technical Report 375, University of Washington, 2002.

104. Stafeev S.V. Learning Bayesian Networks with Latent Variables // Proceedings of the Sixth International Minsk Conference Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods. 2001. - Minsk. - P. 238-243.

105. Stafeev S.V. On the dimension of Bayesian networks with latent variables // Proceedings of the Fifth International Petrozavodsk Conference on Probabilistic Methods in Discrete Mathemathics. 2002.- Utrecht: VSP. P. 367-370.

106. Stafeev S.V. On the identifiability of a two-factor mode! with correlated residuals // Informational Processes. 2002. - V. 2. - P. 262-263.

107. Stanghellini E., Wermuth N. On the identification of path analysis models with one hidden variable // Biometrika. 2005. - V. 92. - P. 400-410.

108. Swofford D.L., Olsen G.J., Waddell P.J., Hillis D.M. Phylogenetic inference // Molecular Systematics. 1996. - Sunderland: Sinauer Associates. - P. 407-514.

109. Tarantola C., Vicard P. Spanning trees and identifiability of a single-factor model. Technical Report 115, Pavia University, 2000.

110. Thiesson B., Meek C., Chickering D., Heckerman D. Learning Mixtures DAG. Technical Report MSR-TR-97-06, Microsoft Research, 1997.

111. Verma T., Perl J. Equivalence and synthesis of causal models // Proceedings of Sixth Conference on Uncertainty in,. Artificial Intelligence. 1990. - Boston: Morgan Kaufmann. - P. 220-227.

112. Vicard P. On the identification of a single-factor model with?correlated residuals // Biometrika. 2000. - V. 87. - P. 199-205.

113. Wermuth N. Analysing social science data with graphical Markovmodels // Highly Structured Stochastic Systems. 2003. - Oxford: University Press. - P. 47-52.

114. Wermuth N., Cox D.R.,Marchetti G.M. Covariance chains //

115. Bernoulli.- 2006. V. 12: - P. 841-862.1221 Whittaker J. Graphical Models in applied multivariate statistics.i

116. Chichester: John Wiley and Sons, 1990.i

117. Research. 1921. - V. 20. - P. 557-585.

118. Wright S. The method of path coefficients // Ann. Math. Statist. -1934. V. 5. - P. 161-215.

119. Wu C.F.J. On the convergence properties of the EM algorithm // Ann. Statist. 1983. - V. 11. - P. 95-103.