автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Выбор функций потерь в задачах неотрицательного матричного разложения

кандидата физико-математических наук
Рябенко, Евгений Алексеевич
город
Москва
год
2014
специальность ВАК РФ
05.13.18
Автореферат по информатике, вычислительной технике и управлению на тему «Выбор функций потерь в задачах неотрицательного матричного разложения»

Автореферат диссертации по теме "Выбор функций потерь в задачах неотрицательного матричного разложения"

Московский государственный университет пменп М. В. Ломоносова Факультет вычислительной математики и кибернетики

На правах рукописи

Рябенко Евгений Алексеевич

Выбор функций потерь в задачах неотрицательного матричного

разложения

05.13.18 — математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание учёной степени кандидата физико-математических наук

Научный руководитель д.ф.-м.п. К. В. Воронцов

Москва - 2014

1 8 СЕН 2014

005552469

Работа выполнена на кафедре математических методов прогнозирования факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.

Научный руководитель: доктор физико-математических наук

Воронцов Константин Вячеславович. Официальные оппоненты: Горнов Александр Юрьевич, доктор технических наук,

Федеральное государственное бюджетное учреждение науки Институт дпнампкн систем и теории управления Сибирского отделения Российской академии наук, лаборатория оптимального управления, главный научный сотрудпик; Трушкин Евгений Владиславович, кандидат биологических наук.

общество с огранпчетгттой ответственностью научно-технический центр «БиоКлшшкум», главный инженер Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В. А. Трапезникова Российской академии паук

оо

Защита состоится «^0» октября 2014 г. в Л2- на заседании диссертационного совета Д 002.017.04 при Федеральном государственном бюджетном учреждении науки Вычислительный центр им. А. А. Дородницына Российской академии наук по адресу: 119333, Москва, ул. Вавилова, д. 40, конференц-зал.

С диссертацией и авторефератом можно ознакомиться в библиотеке и на официальном сайте

(http://www.cca3.ru/) ВЦ РАН.

Автореферат разослан «3 > 2014 г.

Ученый секретарь диссертационного совета, доктор физико-математических наук, профессор

Н. М. Новикова

Общая характеристика работы

Диссертационная работа посвящена проблеме выбора функции, потерь в задаче неотрицательного матричного разложения. Предложен способ адаптивного выбора функции потерь из семейства АБ-дивергенций, основанный на методе согласования вклада, а также мультипликативный алгоритм получепия неотрицательного матричного разложения с гарантией сходимости. Полученные теоретические результаты применены к задаче анализа данных ДНК-микрочипов, для которой предложены новые модели, и на их основе создан программный комплекс, позволяющий получать более точные оценки экспрессип генов.

Актуальность темы. Развитие технологий сбора и хранения данных в последние десятилетия привело к увеличению объёмов данных и возникновению затруднений при использовании классических средств их обработки. Перед использованием индуктивных методов анализа к таким данным часто применяются сжимающие преобразования, которые позволяют уменьшить вычислительные затраты на обработку, выявить структурные особенности данных, уменьшить влпяпие погрешности. Одннм из наиболее распространённых способов такого преобразования является переход к аппроксимации данных в некотором подпространстве. Формально, если исходные данные можно записать в виде матрицы (где, например, строки — это различные сенсоры, а столбцы — различные объекты измерения), то их аппроксимация представляет собой произведение двух матриц меньшей размерности, одна из которых задаёт подпространство, а вторая — коэффициенты разложения по нему. Такое представление данных называют факторизованяым, а задачу его получения — задачей матричной факторизации.

Приложения, связанпые с получением и анализом факторизованных представлений матриц, могут разлетаться ограничениями, накладываемыми на факторы. Так, в методе главпых компонент факторы являются ортогональными (Pearson, 1901), в методе независимых компонент независимыми (Hyvarinen, Karhunen, Oja, 2001). В задаче неотрицательного матршшого разложения (non-negative matrix factorization, NMF), рассматриваемой в данной работе, ключевую роль играют ограничения на знак матриц-компонент. Впервые подобная задача была рассмотрена в работе (Paatero, Tapper, 1994) в приложении к задаче византийских генералов in теории отказоустойчивости, однако основной интерес к этой теме

возник после работ (Lee, Seung, 1999, 2001), авторы которых обобщили постановку задачи и предложили простой алгоритм получения её приближённого решения. Неотрицательные матричные разложения используются при анализе изображеиий, текстов, аудиозаписей, финансовых показателей, в вычислительной биологии, медицине и многих других прикладных областях. Подробный обзор применений можно найти в работе (Cichocki, Zdunek, Phan, 2009).

Задача неотрицательного матричного разложения ставится как оптимизационная: необходимо найти неотрицательные факторы, доставляющие минимум некоторому функционалу потерь. Выбор этого функционала оказывает существенное влияние на получаемое решение (Wang, Zhang, 2012). В разных прикладных областях для построения неотр[щатель-ного матричного разложения используются разные функции потерь: так, в тематическом моделировании используется дивергенция Кульбака-Лейблера (Hofmann, 1999), во многих биологических приложениях — норма Фробениуса (Pascual-Montano et al., 2006), в анализе аудиозаписей дивергенция Итакура-Саито (Ozerov, Févotte, 2010)), в некоторых задачах машинного зрения — метрика EMD (Sandler, Lindenbaum, 2009). Ясно, что оптимальность той пли иной функции потерь в конкретной прикладной задаче зависит от структуры глума, содержащегося в данных, однако часто модель шума в явном виде не задана.

Вопрос оптимального выбора функционала потерь в литературе практически не рассматривается: как правило, функция потерь считается заданной наперёд. В немногих работах, где поднимается этот вопрос, выбор между различными функциями потерь делается на основе некоторой дополнительной информации, имеющейся о структуре модели. Например, в работе (Févotte. Beitiii, Durrieu, 2009) сравниваются результаты использования нормы Фробениуса и дивергенций Кульбака-Лейблера и Итакура-Саито в применении неотрицательного матричного разложения к анализу музыкальных последовательностей. Разложения анализируются с точки зрения интерпретируемости получаемых матриц (ожидается, что восстанавливаемые компоненты будут соответствовать нотам); лучшие результаты показывает дивергенция Итакура-Саито. В работе (Choi, Choi, 2010) выбора оптимального функционала потерь делается в параметрическом семействе а-дивергенций, однако и там выбор делается на оспове априорной информации. Применелие критериев такого рода, как правило, невозможно в большинстве приложений, поскольку информация об ожидаемой структуре модели педоступпа. Универсальных методов выбора функционала потерь в задаче неотрицательного

матричного'разложения, не требующих дополнительной информации о структуре истинной модели, на настоящий момепт не существует.

В данной работе рассматриваются неотрицательные матричные разложения с использованием в качестве функции потерь семейства АБ-дивергенций, являющегося одним из наиболее обширных известных на сегодняшний день параметрических семейств функционалов потерь и включающего многие широко применяемые меры близости, оптимальные в условиях шума самой разной структуры. Данное семейство вместе с мультипликативным алгоритмом получения разложения были предложены в работе (Cichocki, Cruces, Amari, 2011). Однако предложенный алгоритм не имеет теоретических гарантий сходимости; более того, нетрудно показать, что он может сходиться к нестационарным точкам на границе области неотрицательности параметров. В то же время для нормы Фробениуса были получены более сильные результаты: предложен e-модифицированный мультипликативный алгоритм, любая предельная точка которого является стационарной точкой отделённой от нуля задачи, и показало, что эта точка близка к стационарной точке исходной задачи (GUlis, 2011). Для других функций потерь апалогичные результаты отсутствуют.

Одна из интересных прикладных задач неотрицательного матричного разложения — задача оценивания экспрессии генов по данным ДНК-микрочипов. Используя неотрицатель-хюе матричное разложение, можно построить новые модели таких дапных, учитывающие не рассматриваемые в стандартных моделях эффекты альтернативного сплайсинга и кросс-гибридизации. В то же время структура экспериментов с ДНК-микрочипами достаточно сложна, что не позволяет явно задать модель шума; в связи с этим вопрос оптимального выбора функционала потерь, с помощью которого будет оцениваться качество моделей, остаётся открытым.

Цель диссертационной работы — разработка метода неотрицательного матричного разложения с адаптивным выбором функции потерь и гарантией сходимости, а также создание па его основе новых моделей и методов оценивания экспрессии генов по данным ДНК-микрочипов.

Методы исследования. Задача выбора функция потерь была сведена к задаче подбора параметров АБ-дивергенний — обширного семейства, включающего многие широко при-

меняемые функционалы. Для решения последней применялся метод согласования вклада. Для получения неотрицательного матричного разложения с фиксированным функционалом потерь использовался мультипликативный блочно-иокоординатный алгоритм.

Основные положения, выносимые на защиту:

1. Метод адаптивного выбора функционала потерь в задаче неотрицательного матричного разложения, основанный на согласовании вклада.

2. Метод получения неотрицательного матричного разложения с АБ-дпвергенцией в качестве функции потерь, доказательство его глобальной сходимости к точке, сколь угодно близкой к стационарной.

3. Модели данных экспериментов с ДНК-микрочипами, учитывающие коэффициенты сродства, эффекты альтернативного сплайсинга и кросс-гибридизации, настроенные с помощью метода адаптивного выбора функционала потерь, а также комплекс программ, получающий оценки экспрессии генов на основе этих моделей.

Научная новизна настоящей диссертации заключается в разработке нового подхода к задаче неотрицательного матричного разложения, основанного на адаптивном выборе функции потерь из семейства АБ-дивергенций; разработке мультипликативного алгоритма неотрицательного матричного разложения и получения ряда теоретических результатов о его сходимости; применении предложенного подхода к задаче анализа данных ДНК-микрочипов, в рамках которой рассматриваются три новых модели, учитывающие ряд не рассматривавшихся ранее особенностей данных.

Теоретическая значимость. В работе впервые предложеп универсальный метод выбора функции потерь в задаче неотрицательного матричного разложения; предложен алгоритм разложения и показано, что гарантирована его глобальная сходимость к точке, близкой к стационарной.

Практическая значимость. Полученные результаты позволяют при решении прикладных задач неотрицательного матричного разложения адаптивно определять функцио-

нал потерь, оптимальный для имеющихся данных. Предложенные модели оценивания экспрессии генов но данным ДНК-микрочипов позволяют учитывать эффекты альтернативного сплайсинга и кросс-гибридизации, ранее в литературе не рассматривавшиеся. Реализованный программный комплекс позволяет использовать результаты настройки моделей для получения более точных оцепок экспрессии.

Степень достоверности. Достоверность результатов обеспечивается доказательствами теорем и описаниями проведённых экспериментов, допускающими их воспроизводимость.

Апробация работы. Результаты работы докладывались на научных семинарах и конференциях:

• всероссийская конференция «Математические методы распознавания образов» ММРО-15, Петрозаводск, 11-17 сентября 2011 г. [9, 8];

• международная конференция «International Conference on Bioinformatics and Biomedical Engineering» ICBBE, Шанхай, 17-20 мая 2012 г. [6]; .

• совместный семинар Независимого Московского университета и Московского физико-технического института «Стохастический анализ в задачах»;

• семинары отделов интеллектуальных систем и прикладных проблем оптимизации Вычислительного центра им. А. А. Дородницына Российской академии наук.

Публикации по теме диссертации в изданиях списка ВАК: [2, 3, 4, 5, 7]. Другие публикации по теме диссертации: [1, 6, 8. 9] Отдельные результаты включались в отчёты по проектам РФФИ №12-07-31200, №11-07-00480, министерства образования и науки (ГК № 1С.522.11.2004) и программы ОМН РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения».

Личный вклад диссертанта в работы, выполненные с соавторами, заключается в следующем:

• в работе [6] предложены критерии качества моделей ДНК-микрочипов, основанные на данных эксперимента со смесями РНК;

• в работах [8, 9] проведены вычислительные эксперименты для определения минимальной значимой комплементарности нуклеотидных последовательностей в модели данных ДНК-микрочипов, учитывающей кросс-гибридизацию;

• в работах [2, 4, 5, 7] модели ДНК-микрочипов применены для получения оценок экспрессии в проводимых экспериментах.

Структура и объём работы. Работа состоит из оглавления, введения, трёх глав, заключения, списка иллюстраций, списка таблиц и списка литературы. Общий объём работы составляет 101 стр.

Краткое содержание работы

В автореферате сохранена нумерация основных утверждений (определений, лемм, теорем), принятая в тексте работы. Нумерация формул сквозная.

Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, формулируется цель работы, её теоретическая и практическая значимость, приводится список положений, выносимых на защиту.

В первой главе рассматривается задача неотрицательного матричного разложения. В разделе 1.1 приводится общая постановка задачи и описываются её особенности, в частности, неединственность решения. Рассматриваются условия единственности с точпостыо до перестановок столбцов и строк матриц-факторов и их нормировки. В разделе 1.2 приводится постановка оптимизационной задачи неотрицательного матричного разложения. Дана матрица Р размера mxn с неотрицательными элементами н некоторое натуральное число г < min (то, п). Требуется найти матрицы А', X* размеров тхг и гхп соответственно, такие, что

(А\ X') = argmin D (Р, АХ). (1)

д» о.л'го

Далее рассматриваются функционалы потерь D (Р, АХ), используемые в данной оптимизационной задаче. Вводится класс АБ-дивергещий (Cichocki, Cruces, Amari, 2011), задаваемый

в виде двупараметрического семейства функционалов следующего вида:

(Р. = ЧмК

5? + - . а. в + 0 ^ О,

п^О, = О, а = ~РфО, а = 0, Р ф О, п = р = 0.

Рассматриваются свойства АБ-диверге1щий: влияние параметров а н /3 на получаемые оценки, условия выпуклости функции ¿лд^ (р, ?) по д. Приводятся значения параметров, при которых АБ-дивергенция задаёт некоторые широко используемые функционалы потерь.

В разделе 1.3 задача оптимального выбора функции потерь сводится к выбору параметров аир АБ-дивергенции. Для всех а а р множеству АБ-дивергенцнй ставится в соответствие обобщённое семейство распределений, задаваемых следующим образом:

1

р(Р,а,/8) =

Ро (/Л /3),

'(ЯД)

(2)

)4Х.

ро(Р,а,0) = е

г(т..р)= [ ро(Л-,л,/3)с Jx

Поскольку нормировочный множитель неизвестен и может даже не существовать,

для оценки оптимальных значений параметров аир нельзя применить метод максимального правдоподобия. Вместо этого предлагается использовать метод согласования вклада (Нууагшсп, 2006), для которого достаточно зпать только ро(Р,а,р). Максимизация логарифма правдоподобия соответствует мипимизации дивергепции Кульбака-Лейблера между истинной и модельной плотностями распределения данных. Аналогично, согласование вклада эквивалентно минимизации дивергенции Фишера между шага. Следующая теорема приводит к методу получения оптимальных значений параметров АБ-дпвергепции в задаче неотрицательного матричного разложения.

Теорема 1. Оценка согласования вклада в модели (2) определяется следующим выражени-

J{P,n,ft)= ■

(a*,/3*) = argminJ(P, a, /3),

о ,а

|EpS (é^S (pfi--pS(« + /* +1) + «S<« + г>) -

+ a + 0 = 0.

В разделе 1.4 рассматривается метод получения неотрицательного матричного разложения с АБ-дивергенцией при фиксированных значениях параметров а и /3. Поскольку оптимизационная задача (1) не является выпуклой по совокупности аргументов А и X, как правило, используются методы поочерёдной минимизации D (Р, АХ) по X ггрн фиксированном А и наоборот. При использовании блочно-покоордипатного спуска ограничения неотрицательности задачи (1) можно сохранять естественным образом за счёт такого выбора шага в направления градиента, чтобы обновления стали мультипликативными. Для АБ-ди-вергенция при а ф 0 обновления мультипликативного алгоритма записываются следующим образом:

X в {(ATZ) 0 (¿'''Q^-1!))1"1,

Ль/1® ((ZXT) 0 ,

где символом g обозначается поэлементное произведение (произведение Адамара) двух матриц, символом 0 операция поэлементного деления матриц, H поэлементное возведение в степень, а Z = Ры ® ÇP-Ч.

В разделе 1.5 рассматриваются вопросы сходимости данного мультипликативного алгоритма. Поскольку решаемая задача не является выпуклой, лучшее, что можно гарантировать это сходимость к стационарной точке, задаваемой условиями Каруша-Куна-Таккера. Оказывается, мультипликативный алгоритм (3) не обеспечивает сходимости к стационарной точке и может останавливаться вблизи границы области неотрицательности. В разделе 1.5.1 рассматриваются известные результаты для нормы Фробениуса, соответствующей случаю a = р = 1:

(Д*,Х*) = argmin ||Р —(4)

А>[>. Л">0

Определение 2. Для любого е > 0 £-.модификацией итерационного алгоритма с обновлениями х f (х) назовёлх алгоритм с обновлениями х тах (е, / (х)).

Для нормы Фробениуса z-модификация мультипликативного алгоритма имеет вид X <-max (е,Х ® ((ЛТР) 0 (ЛТ-4Х))) ,

А <- тах (е, А ® ((РХТ) 0 (.АХХТ))) ;

и обладает следующими свойствами (Gillis, 2011): в ходе обновлений функционал потерь монотонно невозрастает; любая предельная точка является стационарной точкой оптимизационной задачи, переформулированной в отделённой от пуля области А ^ е, X ^ е.

Определение 3. Назовём е-прореживанием операцию обнуления элементов матрицы, в точности равных е.

Показано, что матрицы, полученные ^-прореживанием предельной точки алгоритма (5), близки к стационарной точке исходной оптимизационной задачи (4): условия Каруша-Ку-на-Таккера для них выполняются с точностью до О (е). В диссертационной работе получено следующее усиление утверждения о сходимости е-модифицированпого алгоритма (5).

Лемма 1. Мультипликативный е-модифицированный алгоритм с обновлениями (5) сходится к стационарной точке отделённой от нуля задачи

(А'С,Х'С) = argmin ||Р - AX\\2F.

В разделе 1.5.2 рассматривается сходимость мультипликативного алгоритма неотрицательного матричного разложения с ЛБ-дивергеицией, решающего задачу

(Д-, X*) = argmin D^f (Р, АХ) (6)

при произвольных naß. Для мопотонного убывания функции потерь необходимо модифицировать показатель степени обновлений (3):

X X ф {{ATZ) 0 ,

А «-А <8 ((.ZXT) 0 ,

i

1-3'

v ' t* • f» ^ L а ' IX1

Рассмотрим е-модификацию этого алгоритма.:

Л' <-max (е, X ® ((ATZ) 0 (Л^/М))^)! j , A *-max(£, А 0 {{Z.\т) 0 (Q^-1^))1"4^1) .

Теорема 4. Для любого е > 0 функционал D^f* (Р, АХ) монотонно невозрастает при обновлениях s-модифицированного алгоритма (7) для любого начального приближения

Теорема 5. Любая предельная точка по&гедователъности, порождаемой алгоритмом с обновлениями вида (7) для любого начального приблиэюения (Л°, Х°) ¡i £, является стационарной точкой отделённой от нуля задачи

(А^Х') = argmin D^f (Р, АХ). (8)

АЪ-е, А>£

Теорема 6. е-модифицированный мультипликативный алгоритм с обновлениями (7) сходится к стационарной точке отделённой от нуля задачи (8).

Поскольку норма Фробениуса — частный случай АБ-дивергенции, последняя теорема включает в себя утверждение леммы 1.

Пусть (Ае, Хс) предельная точка е-модифицированного алгоритма с обновлениями (7). Проведём е-прореживагше матриц Ае и ХГ\

А0 = Ас ® [Ас > е] , ,Y0 = X ® (A'f > е].

Теорема 7. Для матриц (До, Х0), полученных из (Ас,Хе) е-прореживанием, верно следующее:

Гяяшу = 0, [УхДЙ4^^^)]

>0, | [УхО^ (Р, Ло*о)] | ^ О(е), 12

то есть, е точке (Ло:-Хо) условия Каруша-Куна-Таккера д.пя исходной задачи (6) выполняются с точностью до О (е).

Таким образом, про предложенный е-модпфицированный мультипликативный алгоритм (7) неотрицательного матричного разложения с произвольной АБ-дпвергенцией в качестве функционала потерь показано, что он всегда сходится, а его предельная точка является стационарной точкой отделённой от нуля задачи (8) и лежит сколь угодно близко к пекоторой стационарной точке исходной задачи (6).

В разделе 1.0 рассматриваются практические особенности решения оптимизационной задачи: получение начального приближения, критерий останова, а также метод обработки пропусков и выбросов.

Во второй главе рассматривается применение описаипых в первой главе методов неотрицательного матричного разложения к задаче оценки экспрессии генов по данным экспериментов с ДНК-микрочипамп. В разделе 2.1 приводится постановка задачи с точки зрения предметной области и краткое описание существующих методов её решения. ДНК-мшсрочют представляет собой многомерный сенсор для одновременного измерения экспрессии десятков тысяч генов. Разным участкам каждого гена соответствует несколько десятков проб на поверхности микрочипа, интенсивность флуоресценции которых пропорциональна уровню экспрессии данного гена в исследуемом образце. Стандартные методы анализа сводятся к неотрицательному матричному разложению ранга г = 1:

1рк ~ 1рк — ОрСзИ*:- (9)

где к = 1,..., К — номер микрочипа, р = 1,..., Р — номер пробы, ц = I,... ,С — номер гена, д(р) номер гена, соответствующего пробе р, 1рк интенсивность флуоресценции пробы р на микрочипе к, сд(рц — уровень экспрессии гена д, которому проба р комплсмептарна, на микрочипе к, ар — коэффициент сродства пробы р своему гену. При этом распределение шума на микрочипах неизвестно и плохо описывается стандартными распределениями. В разделе 2.2 описываются методы получения и предварительной обработки данных.

В разделе 2.3 рассматривается пастройка модели (9) по выборке мнкрочипов, описанной в 2.2, с использованием метода адаптнвпого неотрицательного матричного разложения. Предлагаются функционалы для оценки качества моделей. Приводятся результаты численных экспериментов. Показывается, что оптимальная функция потерь соответствует модели

шума, несколько отличающейся от традиционной логнормальной.

В разделе 2.4 предлагается модель, учитывающая эффект альтернативного сплайсинга, в результате которого некоторые участки генов могут отсутствовать, а соответствующие им пробы могут вызывать занижение оценок эхсспрессии. Эффект предлагается учитывать с помощью бинарной матрицы весов XV 6 {0,1}РхА, заполненной следующим образом:

_ 1рк — ¡рк Срк т ' сд(р)к]

1рк

¡1, ерк < е0.95, О, ерк > еи.эг-

Здесь ео.95 ~~ 95% выборочный квантиль с.рк. Полученные веса встраиваются в обновления мультипликативного алгоритма неотрицательного матричного разложения:

X *- шах (е, X в {{Ат (2 0 IV)) 0 {Ат (<з!°+«-Ч ® ,

А «- тах (е, А ® (((Я ® IV) Хт) 0 ((О^1! ® IV) .

Процесс настройки модели с учётом весов и их переопределение повторяется несколько раз. Приводятся результаты численных экспериментов.

В разделе 2.5 предлагается модель, учитывающая эффект кросс-гибридизации, в результате которого флуоресценция пробы может быть вызвана экспрессией неспецифических генов, частично комплементарных пробе. Задача настройки такой модели сводится к получению неотрицательного матричного разложения ранга б:

с

1рк ~ 1рк = У^.аудСдк-а=1

Для уменьшения числа параметров перед настройкой модели производится сравнение последовательностей рассматриваемых проб и генов и создаётся бинарная матрица весов 1УЛ € {0,1}РхС, нули в которой соответствуют парам проба-ген, с большой вероятностью не вступающим в реакцию кросс-гибридизации. Полученная матрица была встроена в обновления А мультипликативного алгоритма неотрицательного матричного разложения:

А<- УГА® тах (е, А 8 ((гХт) 0 (^З-Чх^К^ _ 14

В результате на каждой итерации алгоритма элементы, соответствующие существенно различным пробе и гену, обнуляются. В рассматриваемой модели выполняются условия единственности неотрицательного матричного разложения, описанные в разделе 1.1: матрица А содержит диагональную подматрицу, поскольку для каждого гена существует хотя бы одна проба, комплементарная ему. Приводятся результаты численных экспериментов.

В третьей главе описывается комплекс программ, реализующий рассматривавшиеся в работе алгоритмы неотрицательного матричного разложения с функционалом потерь пз семейства АБ-дивергенций, предназначенный для обработки данных экспериментов с ДНК-микрочипами с использованием предложенных в главе 2 моделей. Программный комплекс состоит из следующих частей:

• модуль неотрицательного матричного разложения с фиксированным функционалом потерь АВКМКИхес!;

• модуль адаптивного неотрицательного матричного разложения АВИМРАварЦуе;

• модуль чтения и предобработки данных экспериментов с ДНК-микрочипами РгергосевзАггаув;

• модуль настройки параметров моделей, описанных в разделах 2.3, 2.4 и 2.5 ТипеМос1е1;

• модуль оценки экспрессии генов на основании настроенных моделей Е.-й1та1еЕхргевзюп.

Заключение

Основные результаты данной работы заключаются в следующем.

1. Предложен метод адаптивного выбора фупкцпп потерь в задаче неотрицательного матричного разложения из семейства АБ-дпвергепций, основшшый па согласовании вклада.

2. Предложен ^-модифицированный мультипликативный алгоритм неотрицательного матричного разложения с АБ-дивергепцией в качестве функцпи потерь; доказана его глобальная сходимость к стационарной точке отделённой от нуля оптимизационной задачи.

3. Предложен метод е-прореживания решения ^-модифицированного мультипликативного алгоритма; доказано, что в получаемой с его помощью точке условия стационарности исходной оптимизационной задачи выполняются с точностью до О (е).

4. Предложен ряд моделей данных экспериментов с ДНК-микрочипами, учитывающих коэффициенты сродства, эффекты альтернативного сплайсинга и кросс-гибридизации.

5. Создан программный комплекс обработки данных экспериментов с ДНК-микрочипами, позволяющий получать более точные оценки экспрессии генов по сравнению с существующими аналогами.

Публикации автора по теме диссертации

[1| Рябенко, Е.А. (2014). Мультипликативный метод неотрицательного матричного разложения с АБ-дивергенцией и его сходимость. Машинное обучение и анализ данных, 1(7), 800-816.

[2] Крайнова, H.A., Хаустова, H.A., Макеева, Д.С., Федотов, H.H., Гудим, Е.А., Рябенко, Б.А., Шкурников, М.Ю., Галатенко, В.В., Сахаров, Д.А., Мальцева, Д.В. (2013). Оценка потенциальных референсных генов для нормализации данных ПЦР-РВ в экспериментах с клетками линии HeLa. Биотехнология, 1, 42-50.

[3] Рябенко, Е.А. (2012). Настройка нелинейной модели данных экспериментов с экспрессионными ДНК-микрочипами. Математическая биология и биоип-форматика, 7(2), 554-566.

[4] Sakharov, D.A., Maltseva, D.V, Riabenko, E.A., Shkurnikov, M.U., Northoff, H., Tonevitsky, A.G., Grigoriev, A.I. (2012). Passing the anaerobic threshold is associated with substantial changes in the gene expression profile in white blood cells. European journal of applied physiology, 112(3), 963-972.

[5] Мальцева, Д.В., Рябенко, E.A., Сизова, C.B., Яшип, Д.В., Хаустова, С.А., Шкурников, М.Ю. (2012). Влияние физической нагрузки на экспрессию ге-

нов HSPBPl, PGLYRP1 и HSPA1A в лейкоцитах человека. Бюллетень экспериментальной биологии и медицины, 153(6), 846-850.

[6] Riabenko, Е.А., Kogadeeva, М., Gavrilyuk, К., Sokolov, Е., Shanin, I., Tonevitsky, A.G. (2012). Comparing Ailymetrix Human Gene 1.0 ST preprocessing methods on tissue mixture data. 6th International Conference on Bioinformatics and Biomedical Engineering (iCBBE) (pp. 631-634). Shanghai, China.

17] Riabenko, E.A., Tonevitsky, E.A., Tonevitsky, A.G., Grigoriev, A.I. (2011). Structural Peculiarities of Human Genes Which Expression Increases in Response to Stress. American Journal of Biomedical Sciences, 3(2), 90—94.

[8] Рябенко, E.A., Когадеева, M.C. (2011). Нижняя граница числа комплементарных нук-леотидов при моделировании кросс-гибрпдизации. Математические методы распознавания образов: 15-я Всероссийская конференция, г.Петрозаводск, 11 17 сентября 2011 г.: Сборник докладов, (сс. 540-542). Петрозаводск: МАКС Пресс.

¡0] Когадеева, М.С., Рябенко, Е.А. (2011). Математическая модель данных микрочипов ДНК, учитывающая эффекты кросс-гибридизации и насыщения. Математические методы распознавания образов: 15-я Всероссийская конференция, г.Петрозаводск, 11-17 сентября 2011 г.: Сборник докладов, (сс. 536-539). Петрозаводск: МАКС Пресс.

Подписано в печать:

21.08.2014

Заказ № 10166 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru