автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей для задач биомедицины

кандидата физико-математических наук
Федулова, Ирина Александровна
город
Москва
год
2007
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических моделей для задач биомедицины»

Автореферат диссертации по теме "Разработка математических моделей для задач биомедицины"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ2 9 МДР 2007

имени М В Ломоносова

Факультет вычислительной математики и кибернетики кафедра автоматизации научных исследований

На правах рукописи УДК 519 6 612 822 3 577 112 5

Федулова Ирина Александровна

Разработка математических моделей для задач биомедицины

Специальность 05 13 18 - математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Москва

2007

003055629

Работа выполнена на факультете вычислительной математики и кибернетики Московского государственного университета имени М В Ломоносова

Научный руководитель доктор физико-математических наук,

профессор Попов Александр Михайлович

Официальные оппоненты доктор физико-математических наук,

профессор Флеров Юрий Арсениевич

кандидат биологических наук, старший научный сотрудник Курова Наталия Святославовна

Ведущая организация Институт математического

моделирования РАН

Защита состоится 20 апреля 2007 г в 14 час 30 мин на заседании диссертационного совета К 501 001 07 в Московском государственом университете имени М В Ломоносова по адресу 119899, Москва, Воробьевы горы, МГУ, факультет вычислительной математики и кибернетики, ауд 685

С диссертацией можно ознакомиться в библиотеке факультета вычислительной математики и кибернетики МГУ

Автореферат разослан 15 марта 2007 г

Ученый секретарь диссертационного совета

доцент

Ъворов В М

Общая характеристика работы Актуальность темы.

В диссертации рассматриваются и решаются две актуальные проблемы биологии и медицины Первая связана с развитием моделей электрической активности мозга, регистрируемой в виде электроэнцефалограммы (ЭЭГ) Вторая проблема связана с разработкой алгоритмов и программ для решения задачи идентификации протеинов по аминокислотной последовательности, восстановленной из масс-спектра

Задача автоматического анализа сигнала ЭЭГ является актуальной как в медицинских и научно-исследовательских приложениях, так и благодаря интенсивно развивающемуся направлению в информатике - созданию так называемого интерфейса "мозг-компьютер" (Bram-Computer Interface, BCI) В медицинских приложениях локализация источников электрической активности применяется в диагностике и лечении эпилепсии При создании интерфейса "мозг-компьютер" на основе анализа ЭЭГ сигнала строится обратная связь, дающая человеку возможность управлять устройствами без применения мышечных усилий В качестве примеров приложений BCI можно привести создание системы круиз-контроля для автомобилей, а также системы распознавания образов, связанной непосредственно с мозгом человека

В нашей стране первые работы по математической обработке электроэнцефалографических данных проводились под руководством Е В Захарова Ведущими научными центрами Германии и США разработаны программы анализа ЭЭГ сигнала, такие как BESA, CURRY, BrainLoc Однако, несмотря на множество предложенных методов, все еще необходимы математические модели и методы, позволяющие определять изменяющиеся во времени источники электрической активности, а также идентифицировать появление новых активных зон, сигнализирующих о реакции мозга на некоторое событие

Изучение взаимодействия протеинов и процессов их модификации в организме человека позволит значительно ускорить диагностику различных болезненных состояний, а также помочь в разработке эффективных лекарственных средств Одним из основных методов, использующихся для

получения информации об аминокислотной последовательности протеинов, является масс-спектрометрия По масс-спектру может быть восстановлена последовательность протеина, но из-за несовершенства существующих моделей и алгоритмов восстановленные последовательности содержат ошибки Необходимы алгоритмы поиска, позволяющие идентифицировать протеины с учетом ошибок, вносимых алгоритмами восстановления

В настоящее время в мире существует несколько программ для идентификации протеинов по аминокислотной последовательности, восстановленной из масс-спектра, например SPIDER, CIDentify Однако результаты, выдаваемые этими программами требуют экспертной оценки для выбора ответа из множества предлагаемых Необходимы модели и алгоритмы для автоматического выделения единственного решения

Цель диссертации

1 Разработка метода решения прямой задачи ЭЭГ для реалистичной модели головы с учетом сильно различающихся проводимостей тканей, окружающих мозг

2 Разработка модели, позволяющей определять изменяющиеся во времени зоны активности нейронных источников

3 Разработка алгоритмов идентификации протеинов по аминокислотной последовательности восстановленной из масс-спектра, устойчивых к возможным модификацям протеинов и ошибкам, вносимым алгоритмами восстановления

Научная новизна и практическая ценность

1 Предложен и исследован метод решения прямой задачи ЭЭГ, позволяющий проводить расчеты электрического потенциала в реалистичной модели головы с учетом сильно различающихся проводимостей тканей головы Метод основан на использовании общего решения уравнения Лапласа в виде разложения в ряд по сферическим гармоникам Граничные условия и условия сшивки на границах проводимости удовлетворяются методом наименьших квадратов При этом сохраняется явная

аналитическая зависимость решения от пространственных координат, что позволяет строить удобную переходную функцию, связывающую нейронные источники и регистрируемый потенциал

2 На основе генетического алгоритма предложена модель, позволяющая определять изменяющиеся во времени зоны активности нейронных источников Показано, что данная модель позволяет определять как несколько активных зон, так и появление новых зон электрической активности в процессе временного развития ЭЭГ сигнала При этом число источников подбирается автоматически

3 Предложен алгоритм идентификации протеинов по аминокислотной последовательности, восстановленной из масс-спектра, основанный на приближенном поиске строк Алгоритм учитывает возможные модификации протеинов и типичные ошибки, вносимым алгоритмами восстановления Для получения единственного решения задачи предложена функция оценки результатов приближенного поиска Разработанная программа превышает по качеству поиска имеющиеся в мире программы

Апробация работы

Основные результаты работы докладывались на

• 53-й международной конференции американского общества по масс-спектрометрии (США, Сан Антонио, Техас, Июнь 2005),

• 54-й международной конференции американского общества по масс-спектрометрии (США, Сиэтл, Вашингтон, Июнь 2006),

• семинаре студенческой исследовательской лаборатории Intel факультета ВМиК МГУ,

• семинаре лаборатории нейроинформатики Siemens AG (Мюнхен, Германия),

• научном семинаре кафедры автоматизации научных исследований под руководством зав кафедры чл -корр РАН Д П Костомарова

Публикации. Основные результаты диссертации опубликованы в работах [1-7]

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения, содержащего рисунки Текст изложен на 130 страницах, диссертация содержит 28 рисунков Список литературы включает 120 наименований

Содержание работы

Введение посвящено краткому описанию проблем и результатов, относящихся к теме диссертации Рассмотрены проблемы, возникающие при численном решении прямой и обратной задач электроэнцефалографии (ЭЭГ), а также при решении задачи идентификации протеинов по аминокислотной последовательности, восстановленной из масс-спектра Приведен обзор существующих методов решения прямой и обратной задач ЭЭГ и обзор алгоритмов идентификации протеинов

Первая глава диссертации посвящена развитию моделей и алгоритмов решения прямой задачи ЭЭГ Основные проблемы, которые решаются в первой главе, связаны с учетом реальной геометрии головы и различной проводимости тканей, окружающих мозг Разработан метод решения прямой задачи ЭЭГ, которая заключается в определении электрического потенциала на поверхности головы, генерируемого внутренними нейронными источниками Рассматривается дипольная модель, в которой голова представляется как объемный проводник, а нейронные источники моделирутся токовыми диполями Математически задача сводится к решению задачи Неймана для неоднородного эллиптического уравнения в области сложной формы и с неоднородной проводимостью В диссертации предложен метод решения прямой трехмерной задачи ЭЭГ, основанный на представлении функций источников в виде разложения в ряд по сферическим функциям Показана возможность использования метода в случае реалистичной формы граничных поверхностей и сложной пространственной зависимости электропроводности При этом сохраняется явная аналитическая зависимость решения от пространственных координат Вычислительные затраты в предложенном методе

на порядки меньше, чем в методах конечных и граничных элементов, что позволяет применять его для итеративного решения обратной задачи

В §1 1 приведены базовые сведения об устройстве и функционировании нервных клеток В §1 2 описана дипольная модель ЭЭГ активности В ди-польной модели мозг рассматривается как объемный трехмерный проводник Уьг Источниками электрической активности являются электролитические токи внутри нервных клеток коры головного мозга Источники тока помещены в проводящую среду с неоднородной электронной проводимостью ст(г) Полная плотность тока состоит из двух составляющих плотности кулоновского тока сгЕ, порождаемого в проводнике действием собственно электрического поля Е, и плотности стороннего тока Лт, порождаемого нейронными источниками 3 — Лш + аЕ Емкостными и индуктивными эффектами, а также конечностью скорости распространения поля при анализе ЭЭГ можно пренебречь 1 Это означает переход к квазистационарным условиям, в которых временная и пространственная составляющие уравнений могут быть разделены, и пространственная часть в каждый момент времени удовлетворяет стационарному уравнению Вопрос сравнения пространственных распределений в различные моменты времени обсуждается в главе 2 Вне источников для потенциала электрического поля, создаваемого нейронами, справедливо эллиптическое уравнение (V аУС/(г)) = (V .¡,п) Хорошей моделью для источника электрической активности мозга является токовый диполь, у которого момент V пропорционален плотности тока ¡гп, порождаемого источником, поэтому множество источников моделируется набором диполей

Далее для упрощения записи будем обозначать суммарный потенциал от всех диполей как \У{тм | тр)

Постановка прямой задачи ЭЭГ, условия сшивки и граничные условия приведены в §1 3 Постановка сводится к решению трехмерной задачи Ней-

1Титомир ЛИ , Кнеппо П Математическое моделирование биоэлектрического генератора сердца — М Наука Физматлит, 1999 — 448 с

мана для неоднородного эллиптического уравнения с неоднородными коэффициентами и с правой частью в виде дельта-образных источников в произвольной области Модель головы состоит из слоев Бк,к = ^ причем к = 1 обозначает самую внутреннюю поверхность, к = К - внешнюю поверхность (кожа головы) В каждом слое проводимость ак считается постоянной Форма слоев в общем случае произвольная, не обязательно сферическая Вне источников тока справедливо однородное уравнение для потенциала (V г, ¿)) = 0 Задача состоит в вычислении потенциала II как суммы и (г) = \У( г) + У(г), где где IV - потенциал, создаваемый диполями (1), и У(г) - неизвестный потенциал индуцированного поля, который создается из-за наличия границ и неоднородной электропроводности Тогда в областях однородности проводимости для функции У(г) имеем задачу Неймана для однородного уравнения Лапласа

Д\/(г,г)=0 (2)

с неоднородным граничным условием на поверхности головы (граница с непроводящей средой)

ят/ ям/

(3)

дУ _ дУ/ дп дп

Як

и условиями сшивки на каждой поверхности Бк разрыва проводимости

= (4)

(5)

дУк дУк+, . дУ/

ак ~д^ = аш + (аш ~ ак)'

&

Заметим, что У/ непрерывно вместе со своими производными во всем пространстве, за исключением точек расположения источников

Численному решению прямой задачи ЭЭГ посвящен §14 Метод решения основан на использовании общего решения уравнения Лапласа в виде разложения в ряд по сферическим гармоникам На произвольной границе коэффициенты разложения разыскиваются методом наименьших квадратов для удовлетворения граничному условию Неймана и условиям сшивки на

границах раздела областей с различными проводимостями В общем случае будем считать, что к = 1,2,3, . ,К поверхностей, заданных уравнениями Пс = Гк{&, ф) в сферических координатах, разделяют области с различными проводимостями Ищем решение в к-й области в виде разложения по сферическим гармоникам

У*(У, 0, у) = ^ I г" ¿(Л*т со8 ту + В*т БШ ттр)Р£") {сов ■&)+ (б)

п=0 I т=0

¿1) Е «&» соз + £>*т 8Ш (С08 Я)

+ г(п+1)

т=0

Для любых коэффициентов А, В, С и £> функции V* удовлетворяют уравнению Лапласа (2) Коэффициенты Акпп, В*т, Скт, к = 1, , К находятся из условий сшивки (4)- (5) на произвольной поверхности г^

Для к = 1 коэффициенты С£т == П\т = 0 из требования ограниченности в нуле, и для к = К А„т = = 0 из ограниченности на бесконечности Остальные коэффициенты находятся из условий сшивки (4)-(5) в смысле наименьших квадратов

В, С, В) = Л (V* - Vм)2 тщ (7)

с,Щ = 1£ - - <* - 1)^)2 ДЬ - шш (8)

где % = ^ Для определения коэффициентов Акт, Вкт, С*т, используется функционал

гк(А, В, С, Б) = е\{А, В, С, О) + ек2(А, В, С, 0) (9)

Необходимые условия минимума функционала ек приводят к системе линейных алгебраических уравнений относительно Акт, Вкт, Скт, Окпт ДЛЯ уменьшения расходимости ряда сферических гармоник предлагается вместо обычных полиномов Лежандра использовать полунормализованные полиномы Шмидта Полиномы Шмидта связаны с полиномами Лежандра

следующим соотношением б1Г\х) = В § 1.5 исследо-

вана сходимость предложенного метода решения прямой задачи В п 15 1 приведены некоторые аналитические решения прямой задачи для сферических моделей Сходимость метода на случаях, имеющих аналитическое решение, исследована в п 1 5 2 Так как при решении обратной задачи необходимо восстанавливать потенциал на поверхности, то была исследована зависимость отклонения потенциала на поверхносги от точного аналитического решения е\ ~ 11^ ~ иаПа1уиса1\\2 Показано, что при числе гармоник N — 25 ошибка

может быть уменшена до 10~б Вп 153 проведено исследование сходимости метода на сфероидальной модели головы Исследована зависимость точности удовлетворения граничному условию Для трех различных форм поверхности Были исследованы (а) сфера, (б) сфероид с отношением полуосей а/Ь = 1 1, и (в) сфероид с отношением полуосей а/Ь =13 Естественно, при отклонении формы поверхности от сферической точность снижается, но уже при N = 20 гармониках может быть достигнута точность порядка Ю-1 для на сфероиде с отношением полуосей а/Ь =13 Отметим, что такая эллиптичность характерна для человеческой головы П 15 4 посвящен исследованию влияния модели головы на решение Показано, что метод позволяет проводить расчеты с использованием поверхностей, моделирующих реалистичную форму мозга и учитывать реальные значения проводимостей окружающих мозг оболочек В п 1 5 5 обсуждаются результаты распараллеливания программы решения прямой задачи ЭЭГ Показано, что может быть получено ускорение до 10 раз на 16 процессорах Выводы сформулированы в§ 16

Во второй главе предлагается модель изменяющихся во времени зон активности нейронных источников Решается обратная пространственная задача ЭЭГ с учетом временнбго развития ЭЭГ сигнала Подход основан на генетическом алгоритме, эволюция которого согласована с временным развитием сигнала и приводит к минимуму функционала ошибки по потенциалу

Методика измерения ЭЭГ сигнала описана в §2 1 В §2 2 приводится постановка обратной задачи в рамках дипольной модели и ее вариационная

формулировка, обсуждается корректность постановки Обратная задача ЭЭГ состоит в определении положений источников по потенциалам, измеренным экспериментально с помощью электродов, расположенных на поверхности головы Пусть имеется объем Vbr с набором сторонних источников тока внутри него Объем ограничен поверхностью S^eas В точках сетки Птеаз = {(tf„ = 1, ,jV™as,j = 1, ,N™eas} измеряется потенциал электрического поля Uexp(t), зависящий от времени t Объем проводника разделен на К слоев с различными электропроводностями ак, к = 1,2, , К Поверхности раздела обозначим S* Последняя поверхность Sk с номером к = К совпадает с

Измерения моделируются потенциалом Um0d(rp,ut,i = 1, кото-

рый в каждый фиксированный момент времени t представляет собой решение прямой задачи (2)-(5), взятое па поверхности Sk &mod = Uk

UmQ¿{vlp, vu г = 1, ,Nd\t) = W(TlP,uut = l1 ,Nd\t) + VK(t) (10)

Обратная задача состоит в определении числа диполей Д^, их координат ггр и моментов иг для наилучшего приближения потенциала иеХр(£)

Норма || ||п».ео» в функционале (11) определяется как сумма квадратов значений потенциала в точках измерительной сетки fimcos и отвечает за регуляризацию по А Н Тихонову

Для определения параметров диполей глР,и%,г = 1, ,N¿ необходимо решать нелинейную задачу минимизации, для которой строится итерационный процесс На каждой итерации при изменении параметров диполя решается прямая задача и определяется модельный потенциал Um0d{rlp,vui = 1, ,Nd\t)

Параграф §2 3 посвящен разработке метода решения обратной задачи ЭЭГ на основе генетического алгоритма Общее определение генетического

е(ггР,иг,г = 1, ,Nd\t) =

_ ||C/exp(¿) - EUdfó». Vi, t = l, ,Nd\t)\\

(И)

алгоритма приведено вп 231 Вп 232 приведена схема генетического алгоритма для решения обратной задачи ЭЭГ при фиксированном моменте времени

Функция качества для генетического алгоритма определяется следующим образом

Дх1^2, |г) = £тах~£(^'х2' |г) (12)

^тах ^шш

где £Шах,£тт ~ константы, ограничивающие соответственно максимальное и минимальное значение функционала е Минимум е соответствует максимуму функции качества / Здесь х1 = х'(£) - параметры диполей

= (13)

Набор параметров хг принадлежит г-му диполю Каждый диполь создает свой собственный вклад в функционал

£(х\х2, Ю= (14)

|| т2 Д.. „2

1=1

Откуда, с учетом (10)

£(х\х2, Ю= (15)

_ Над)-Ук--и*2>(*) -

иад)н2

Л* 1=1

где И^(£) = Ш(хг\Ь) - вклад г-го диполя

Задача состоит в поиске для каждого момента времени t такого набора параметров, который доставляет максимум функции качества

Алгоритм поиска координат и моментов диполя приведен в п 2 3 3 Так как параметры моментов диполей и% входят в потенциал линейно, то при минимизации функционала е можно решать нелинейную задачу только для трех переменных положения диполя г}>, ■вр, 1ргР Для любых заданных параметров

положения параметры момента иг определяются из линейной системы, соответствующей необходимым условиям минимума функционала е Сходимость генетического алгоритма для решения обратной задачи в одном временном срезе исследована в п 2 3 4 Показано, что, начиная со случайного начального приближения за 200 итераций генетический алгоритм сходна ся к = 0 04

В §2 4 рассматривается проблема уче!а временного развития ЭЭГ сигнала Предложена модель, позволяющая определять изменяющиеся во времени зоны активности нейронных источников Модель основана на генетическом алгоритме, эволюция которого согласована с временным развитием ЭЭГ сигнала При переходе к следующему моменту времени сохраняется популяция решений генетического алгоритма Это позволяет автоматически определять необходимое число дипольных источников, а также учитывать появления новых зон активности в процессе временного развития ЭЭГ сигнала Для поиска оптимального набора в фиксированный момент времени I предлагается следующий иерархический алгоритм

1 Генетическим алгоритмом подбираются параметры одного диполя х

2 Найденные параметры фиксируются и добавляются в функцию качества как постоянное слагаемое И^1)

3 На основании апостериорной оценки точности принимается решение о необходимости добавления в функционал следующего диполя Разыскиваются его оптимальные параметры с учетом фиксированного вклада первого диполя

4 Фиксируются параметры первого и второго диполя и разыскивается третий, и тд

Останов алгоритма осуществляется по достижении требуемой точности Ясно, что первый диполь будет давать основной вклад в уменьшение е В случае, когда активными являются две области, два диполя будут давать основной вклад в функцию качества Таким образом, алгоритм позволяет оценить число наиболее важных зон активности и их расположение

го пептида, и модельного спектра пептида-кандидата из базы данных В биоинформатике такая функция качества называется скоринг-функцией

F(Т9[г9 /]) = wpfp + wMfM wsfs (16)

где wp, wm ys-Ws - веса, удовлетворяющие уравнению wp + wm + ws = 1,

fp - строковая компонента, отражающая de novo устойчивое расстояние ар между de novo последовательностью Р и последовательностью Т"[г" Л

/м - массовая компонента, отражающая разность между массами пептидов Р и Ti[ii j«],

fs - спектральная компонента, отражающая степень сходства между экспериментальным масс-спектром идентифицируемого пептида (по которому была восстановлена последовательность Р) и модельным спектром последовательности пептида-кандидата Тд[гч f]

Компоненты /р, /м и /5 построены таким образом, что удовлетворяют неравенствам 0 < /р,м,5 < 1, следовательно, функция качества также нормирована 0 < F < 1 и бблыние значения функции качества соответствуют лучшему качеству сходства

Повышение скорости работы алгоритма приближенного поиска обсуждается в §3 4 На основе предложенного алгоритма была разработана программа PepTiger, которая ставит в соответствие протеины из базы данных последовательностям, полученным алгоритмами de novo секвенирования из экспериментального масс-спектра Основным отличием программы PepTiger от других программ идентификации по de novo последовательности является то, что PepTiger использует информацию об экспериментальном спектре на этапе оценки результатов В §3 5 проведено сравнение предложенного алгоритма с другими алгоритмами идентификации протеинов по de novo последовательностям Показано, что на тестовом наборе данных разработанная программа превышает по качеству поиска имеющиеся в мире программы Выводы по третьей главе приведены в §3 6

В заключении перечислены основные результаты диссертации

Основные результаты работы

1 Предложен и исследован мегод решения прямой задачи ЭЭГ, основанный на представлении решения в виде разложения в ряд по сферическим гармоникам Показано, чао метод позволяет проводить расчеты электрического потенциала в реалистичной модели головы с учетом сильно различающихся проводимостей тканей мозга и окружающих его оболочек

2 Разработана модель, позволяющая определять изменяющиеся во времени зоны активности нейронных источников Модель основана на генетическом алгоритме, эволюция которого согласована с временным развитием сигнала Показано, что в отличие от ранее предложенных методов, данный подход позволяет определять как несколько нейронных зон, активных одновременно, так и появление новых зон электрической активности в процессе временного развития сигнала

3 Предложена модель приближенного поиска аминокислотной последовательности в базе данных протеинов на которой функция качества принимает максимальное значение Для получения единственного решения задачи предлагается новая функция качества, учитывающая степень совпадения модельного и экспериментального спектров последовательности Разработанная программа превышает по качеству поиска имеющиеся в мире программы

Публикации

Основные результаты диссертации опубликованы в работах

1 Хоффманн К , Попов А М , Федулова И А , Певцов С Е Численное решение прямых математических задач электроэнцефалографии // Вестн Моек Ун-та Сер 15 Вычисл матем и киберн — 2004 — N2 -С 17-28

2 Хоффманн К , Попов А М , Федулова И А , Певцов С Е Численное решение обратных математических задач электроэнцефалографии // Вестн Моек Ун-та Сер 15 Вычисл матем и киберн — 2004 — N4

- С 33-45

3 Хоффманн К , Попов А М , Федулова И А , Певцов С Е Моделирование пространственно-временной активности нейронных источников // Сб трудов факультета ВМиК МГУ "Прикладная математика и информатика" - 2004 - N17 - С 55-71

4 Федулова И А Идентификация протеинов по аминокислотной последовательности, восстановленной из масс-спектра // Тематич сб под ред чл -корр РАН Л Н Королева "Программные системы и компоненты"

- 2005 — N6 — С 123-138

5 Fedulova I, Pevtsov S , Zhang M , Ouyang Z , Cooks R G , Davisson J , Prabhakar S , Zhang X InProID an Integrated Protem Identification System // 53rd ASMS Conference on Mass Spectrometry, San Antonio, TX, 2005 - WP393 - http //www asms org/asms05pdf/A052606 pdf

6 Fedulova I, Mirzaei H , Pevtsov S , Ouyang Z , Zhang X PepTiger Search Engine for Error-Tolerant Protein Identification from de novo Sequences // 54th ASMS Conference on Mass Spectrometry, Seattle, WA, 2006 — MP337 - http //www asms org/asms06pdf/A060362 pdf

7 Pevtsov S , Fedulova I, Mirzaei H , Buck С , Zhang X Performance evaluation of existing de novo sequencing algorithms // J Proteome Res

- 2006 - Vol 5 - N11 - P 3018-3028

Принято к исполнению 12/03/2007 Исполнено 13/03/2007

Заказ №169 Тираж 100 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш , 36 (495)975-78-56 www autoreferat ru

Оглавление автор диссертации — кандидата физико-математических наук Федулова, Ирина Александровна

Введение

Глава 1. Прямая задача ЭЭГ

§ 1.1. Происхождение электрической активности мозга.

§ 1.2. Дипольная модель ЭЭГ активности.

§ 1.3. Постановка прямой задачи ЭЭГ.

1.3.1. Условия сшивки и граничные условия.

1.3.2. Постановка прямой задачи.

§ 1.4. Численное решение прямой задачи ЭЭГ

§ 1.5. Исследование сходимости метода решения прямой задачи ЭЭГ

1.5.1. Некоторые аналитические решения.

1.5.2. Сходимость метода на сферической модели

1.5.3. Сходимость метода на сфероидальной модели

1.5.4. Влияние модели головы на решение.

1.5.5. Параллельная версия, ускорение.

1.5.6. Структура программы для решения прямой задачи

§ 1.6. Выводы.

Глава 2. Исследование стохастических методов локализации нейронной активности по временному сигналу ЭЭГ

§ 2.1. Методика измерения ЭЭГ сигнала.

§ 2.2. Постановка обратной задачи ЭЭГ с учетом временной зависимости ЭЭГ сигнала.

§ 2.3. Генетический алгоритм для численного решениия обратной задачи ЭЭГ.

2.3.1. Определение генетического алгоритма.

2.3.2. Схема генетического алгоритма для решения обратной задачи в одном временном срезе.

2.3.3. Алгоритм поиска координат и моментов диполя

2.3.4. Сходимость генетического алгоритма для решения обратной задачи в одном временном срезе.

§ 2.4. Учет временнбго развития ЭЭГ сигнала.

§ 2.5. Результаты анализа экспериментальных данных.

§ 2.6. Выводы.

Глава 3. Создание и исследование алгоритмов для решения задачи идентификации протеинов

§ 3.1. Постановка задачи идентификации протеинов по de novo последовательностям.

§ 3.2. Определение функции расстояния между аминокислотными последовательностями

3.2.1. Обычное расстояние редактирования между строками

3.2.2. Построение выравнивания между строками

3.2.3. Расстояние, учитывающее типичные ошибки de novo секвенирования.

3.2.4. Постановка задачи идентификации протеина в терминах функции расстояния.

§ 3.3. Оценка качества результатов поиска.

3.3.1. Строковая компонента.

3.3.2. Массовая компонента.

3.3.3. Спектральная компонента.

3.3.4. Постановка задачи идентификации пептида с учетом функции качества.

§ 3.4. Повышение скорости работы алгоритма приближенного поиска.

§ 3.5. Результаты сравнения с другими программами идентификации

§ 3.6. Выводы.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Федулова, Ирина Александровна

Диссертация посвящена разработке и исследованию алгоритмов для решения задач математического моделирования в молекулярной биологии и медицине. Основное внимание уделено двум проблемам. Первая - создание математических моделей для анализа сигналов электроэнцефалографии (ЭЭГ) мозга, в частности для локализации нейронных источников. Вторая - создание моделей и программ для задачи идентификации протеинов в биоинформатике.

В последние годы интерес к моделированию работы головного мозга возрос не только из-за медицинских и исследовательских приложений, но и благодаря интенсивно развивающемуся направлению в информатике - созданию так называемого интерфейса "мозг-компьютер" (brain-computer interface, BCI). Одним из методов исследования мозга является электроэнцефалография, то есть регистрация слабых (порядка 5-100 fiV) электрических потенциалов на поверхности головы, генерируемых нейронами мозга. Впервые электрическая активность мозга человека была зарегистрирована немецким психиатром Г. Бергером [1]. ЭЭГ сигнал представляет собой запись временного развития разности потенциалов между электродами, размещенными на поверхности головы. Электроэнцефалография - один из немногих неинвазивных способов получения информации о деятельности головного мозга. Основной целью исследования ЭЭГ сигнала является получение информации о структуре нейронных источников, порождающих измеряемые потенциалы. В нашей стране первые работы по выделению потенциала источников электрической активности мозга проводились Е. В. Захаровым и Ю. М. Коптеловым [2].

Информация об областях мозга, ответственных за обработку внешнего стимула (например, визуального), важна при изучении функционирования мозга. В клинических приложениях электроэнцефалография применяется для диагностики очаговых и органических поражений головного мозга. Одним из наиболее важных клинических приложений ЭЭГ является диагностика эпилепсии [3]. На основе ЭЭГ данных можно определить локализацию эпилептогенного очага, что является очень важной информацией при лечении. В настоящее время большое число исследований посвящено созданию интерфейса "мозг-компьютер", работающего на основе анализа ЭЭГ сигнала. Интерфейс "мозг-компыотер" представляет собой новый канал связи, позволяющий человеку передавать команды компьютеру непосредственно на основе активности мозга, без использования мышечных усилий. Формальное определение термина "интерфейс "мозг-компыотер") приведено в [4]:

Интерфейс "мозг-компьютер" - это коммуникационная система, не зависящая от обычных путей вывода реакции мозга через периферические нервы и мышечные реакции".

Исследования показали, что при определенной обработке ЭЭГ сигнал может обеспечить возможность управления движением курсора на двумерной плоскости [5], а также достаточно достоверного распознавания на основе ЭЭГ, какую именно мыслительную деятельность из фиксированного набора возможных альтернатив развивает испытуемый [6]. Среди наиболее значимых достижений последних лет необходимо также отметить работу группы профессора Нильса Бирбаумера [7] с описанием принципов работы устройства, "передающего мысли" ("The Thought Translation Device"), использующего ЭЭГ сигнал. Устройство, созданное группой

Бирбаумера, позволило полностью парализованному пациенту самостоятельно написать электронное письмо. Несколько лет назад в Германии на заводе Даймлер-Крайслер началась разработка системы круиз-контроля для автомобилей, основанная на анализе ЭЭГ водителя. Система позволяет автоматически определять возникновение опасных для водителя ситуаций (например, появление неожиданного препятствия) и снижать скорость автомобиля. Также анализ ЭЭГ используется для контроля снижения внимания и состояния сонливости у водителей.

В настоящее время весьма актуальной является разработка алгоритмов и программ для быстрой автоматической обработки записей ЭЭГ сигналов. В [8] показано, что использование новых алгоритмов анализа ЭЭГ позволяет достичь такой же высокой скорости и точности передачи команд из мозга в компьютер, как и при использовании инвазивных (вживленных) электродов. При этом использование обычных, неинвазив-ных ЭЭГ измерений является гораздо более дешевым и безопасным.

Наиболее распространенной моделью для анализа ЭЭГ является представление головного мозга как проводящей среды, в объеме которой распределено множество электрически активных элементов - нейронов. Формулируемые при моделировании электрической активности мозга математические задачи сводятся к решению обратной задачи для эллиптического уравнения с граничными условиями, заданными на поверхности головы: задан потенциал и его нормальная производная. По измеренным граничным условиям требуется восстановить правую часть эллиптического уравнения, которая представляет собой ток, порождаемый нейронными источниками [9]. Известно, что такая задача не имеет единственного решения, т.к. бесконечно много конфигураций источников могут создать одно и то же распределение потенциала на поверхности [10]. Для выделения единственного решения необходима формулировка дополнительных условий в обратной задаче. Одно из основных предположений касается модели источников. Наиболее распространенной является дипольная модель, в которой предполагается, что конфигурация источников представляет собой набор токовых диполей. Однако, в случае многих диполей количество разыскиваемых параметров намного превышает число точек измерения, поэтому для единственности решения требуется либо учет временного развития сигнала, либо необходимо привлечение дополнительных условий и модельных предположений. Основным методом решения обратной задачи ЭЭГ является решение многих прямых задач ЭЭГ и отбор лучших решений. Прямая задача ЭЭГ состоит в вычислении потенциала, создаваемого нейронными источниками. Итеративно подбирая параметры дипольных источников, можно добиваться совпадения экспериментального потенциала с модельным. Привлечение максимально полной информации о модели внутренней структуры головы позволит снизить число возможных решений обратной задачи. Математически прямая задача ЭЭГ сводится к решению трехмерного эллиптического уравнения в области сложной формы с различными проводимостями, соответствующими тканям мозга и окружающих его оболочек [11-13]. Две проблемы являются важными в развитии методов решения прямой задачи ЭЭГ: учет реальной геометрии головы, и учет неоднородной проводимости различных областей мозга и окружающих его тканей. Методы решения прямой задачи должны быть достаточно быстрыми, чтобы их можно было применять для итеративного решения обратной задачи [14].

Первая глава диссертации посвящена развитию моделей и алгоритмов решения прямой задачи ЭЭГ. Основные проблемы, которые решаются в первой главе, связаны с учетом реальной геометрии головы и различной проводимости тканей, окружающих мозг. Кожа головы, кость черепа, цереброспинальная жидкость имеют сильно различающиеся проводимости и искажают сигнал нейронных источников, измеряемый на поверхности головы. Это оказывает существенное влияние на определение структуры нейронных источников в обратной задаче.

В настоящее время широко используются многослойная сферическая и реалистичная модели головы. Несмотря на свою упрощенность, сферическая модель часто используется до сих пор, благодаря тому, что прямая задача в ней решается очень быстро. Сферическая модель с однородной проводимостью позволяет получить аналитическое решение прямой задачи. Однако реальная голова не является сферической и обладает неоднородной проводимостью. Точность решения обратной задачи ЭЭГ (локализации источников) при использовании однородной сферической модели, таким образом, ограничена адекватностью этой модели. Многослойная модель, состоящая из концентрических сфер, учитывает различие проводимости у мозга и его оболочек ([15-18]). Часто используется модель, состоящая из трех концентрических сфер, представляющих мозг, кость черепа и кожу головы [19,20]. Проводимость в этих моделях принимается кусочно постоянной. В работах [21,22] рассматриваются сферические модели, учитывающие анизотропию проводимости головы. Многочисленные сравнительные исследования показали, что адекватная локализация источников возможна только при использовании реалистичных моделей головы ([23-32]). В работе [33] показано, что анизотропия проводимости внутри головы играет важную роль при локализации источников.

Наиболее популярными методами решения прямой задачи ЭЭГ для реалистичной модели головы являются: метод граничных элементов (boundary element method, ВЕМ), метод конечных элементов finite element method, FEM), метод конечных разностей (finite difference method, FDM). В методе граничных элементов [14, 26, 28] в качестве геометрической модели используются триангуляции границ между областями с различной проводимостью. Граничные поверхности должны быть замкнуты, а проводимость внутри областей считается однородной и изотропной, то есть метод граничных элементов не позволяет учесть анизотропию проводимости и определить внутренние источники. В методе конечных элементов [34-36] весь объем головы разбивается на тетраэдры, что позволяет учитывать индивидуальные проводимости для каждого элемента. В методе конечных разностей [37] производные в эллиптическом уравнении заменяются конечными разностями. В этом случае обычно используют декартовы координаты, и при рассмотрении сложной (реалистичной) формы области происходит потеря точности решения на границе. Методы конечных разностей и конечных элементов позволяют учитывать анизотропию электропроводности. В то же время, применение этих методов связано с большими вычислительными затратами. К тому же, так как подробная анатомическая информация о проводимости живых тканей трудно определима [38], преимущества методов конечных и граничных элементов пока не используются в полной мере.

Построение реалистичных геометрических моделей - задача нетривиальная, так как требует проведения сегментации изображений [39], полученных с помощью магнито-резонансной томографии конкретного пациента (MPT (magnetic resonance imaging, MRI)) и построения объемных моделей для различных тканей головы (белое вещество, серое вещество, цереброспинальная жидкость, кость черепа, кожа головы). Дополнительной трудностью является выделение объемной модели кости черепа, которая не определяется на изображениях при обычном МРТ сканировании. Далее, форма головы и внутренних тканей должна быть геометрически описана либо при помощи триангуляции, либо параметрически. Однако, получение МРТ снимков является довольно длительной и дорогостоящей медицинской процедурой, и зачастую при решении обратной задачи ЭЭГ используются усредненные МРТ модели. Это также приводит к потере точности при решении обратной задачи.

Простота и скорость вычислений, обеспечиваемая сферической моделью, все еще делает ее наиболее часто используемой при решении обратной задачи ЭЭГ. Нелинейные алгоритмы локализации основываются на итеративном подборе положения диполя. Это означает, что при каждом изменении положения диполя (на каждой итерации) должна быть решена прямая задача. Эта процедура, в зависимости от сложности модели головы, может потребовать значительное число итераций для сходимости. Несмотря на то, что с развитием вычислительной техники эта проблема становится менее значимой, некоторые недавние исследования показали, что разница в локализации диполя при использовании сферической и реалистичной модели головы уменьшается с ростом шума в ЭЭГ сигнале [40,41]. В большинстве программных пакетов локализации источников электрической активности головного мозга реалистичная модель головы редко используется для итеративного поиска положения диполя. Из-за очевидных ограничений сферической модели с одной стороны, и вычислительных трудностей, связанных с применением реалистичных моделей, с другой стороны, в последние годы некоторые усилия были направлены на создание методов, которые бы сочетали в себе простоту вычислений, обеспечиваемую сферической моделью, и при этом лучше учитывали геометрические свойства головы и неоднородность проводимости. Сферическая модель с анатомическими ограничениями (spherical head model with anatomical constraints, SMAC) предложена в работе [42]. В этом подходе сначала по МРТ снимкам подбирается наилучшее в смысле наименьших квадратов положение сферы, аппроксимирующей поверхность головы. Затем вычисляются однородные операторы трансформации, отображающие реалистичную форму поверхности головы в сферу. Далее прямая задача решается аналитически в стандартной модели, состоящей из трех концентрических сфер [15]. Однако, форма поверхности мозга не повторяет форму поверхности головы, поэтому после трансформации, переводящей поверхность головы в сферу, форма поверхности мозга не будет сферической. Таким образом, применение аналитического решения для стандартной модели из трех концентрических сфер является в этом методе модельным упрощением.

В первой главе диссертации предлагается другой метод решения прямой трехмерной задачи ЭЭГ, также сочетающий в себе простоту вычислений, сравнимую с методами решения в сферической модели, и вместе с тем позволяющий учесть реалистичную геометрию и неоднородность проводимости головы. Метод основан на спектральном представлении численного решения по сферическим функциям. Показана возможность использования метода в случае реалистичной формы граничных поверхностей, неограниченных областей (учет конечной проводимости вне головы) и сложной пространственной зависимости электропроводности. При этом сохраняется явная аналитическая зависимость решения от пространственных координат. Вычислительная сложность предлагаемого метода на порядки меньше, чем в методах конечных и граничных элементов, что позволяет применять данный метод в итеративном решении обратной задачи.

Во второй главе диссертации разрабатывается модель для определения изменяющихся во времени зон нейронных источников по потенциалу, заданному на поверхности головы. Такая задача называется обратной задачей ЭЭГ. Основной акцент в этой главе делается на учете временной активности при локализации областей нейронной активности в квазистационарной модели источников. Рассматривается также вопрос о возможности локализации двух и более зон, активных одновременно. Кроме того, исследуется проблема учета появления новых зон активности в процессе временного развития ЭЭГ сигнала.

Обзор практических приложений обратной задачи ЭЭГ может быть найден в [43]. ЭЭГ измерения потенциала представляют собой пространственно-временные данные, регистрируемые в ряде точек (электродов) на поверхности головы, и каждый электрод регистрирует колебания потенциала во времени. В каждый момент времени нам дан потенциал, измеренный в точках поверхности головы, и может быть решена обратная пространственная стационарная задача для неоднородного эллиптического уравнения для потенциала по восстановлению конфигурации внутренних источников (правой части) при малом числе параметров для диполей. Связь между временными срезами не определяются данной моделью.

Известно, что существует бесконечное число конфигураций внутренних источников тока, которые могут создавать любое заданное на поверхности головы распределение потенциала [10]. Это означает, что обратная задача ЭЭГ в общей постановке не имеет единственного решения. Чтобы сделать решение задачи единственным, необходимо вводить некоторую модель источников тока [44]. От выбора модели зависит, будет ли решение задачи только интерпретировать экспериментальные данные, или же оно будет содержать в себе адекватную нейрофизиологическую информацию о реальных источниках. К сожалению, до конца еще не известно, как именно наблюдаемый ЭЭГ сигнал генерируется нейронными источниками.

В настоящее время широко распространены две модели генерации ЭЭГ сигнала: дипольная и распределенная. Основное предположение ди-полыюй модели состоит в том, что небольшое число диполей, размещенных внутри модели головы, могут адекватно моделировать измерения ЭЭГ сигнала на поверхности головы. Для единственности решения обратной задачи необходимо, чтобы число неизвестных было не больше, чем число измерений (т.е. электродов). В этом случае используется процедура, в которой положение диполя и его момент изменяются итеративно, пока не будет найдено минимальное различие между измеренными данными и модельным решением. Как правило, сравнение основано на вычислении квадрата разности между модельным и экспериментальным потенциалами. Положение диполей, минимизирующее квадрат разности между потенциалами, объявляется решением обратной задачи. Для решения этой задачи необходимо применение методов нелинейной оптимизации [45]. Градиентные методы нелинейной оптимизации сталкиваются с проблемой существования локальных минимумов и овражных эффектов у функционала ошибки. Кроме того, с ростом числа диполей (размерности пространства поиска) эта проблема становится более значимой. При использовании одного диполя неизвестных в задаче шесть: три пространственные координаты расположения диполя и три компоненты вектора тока, характеризующего направление и величину момента диполя. Однако во многих ЭЭГ приложениях несколько областей мозга могут быть активны одновременно и давать вклад в измеряемый сигнал. В этом случае модели с одним диполем недостаточно. В дипольной модели важно выбрать метод использования пространственно-временных ЭЭГ данных для локализации источников. Наиболее сложной проблемой является выделение такой информации из пространственно-временных данных, которая помогает найти объемную структуру нескольких источников, активных одновременно. Кроме того, в процессе временнбго развития ЭЭГ сигнала количество активных источников может изменяться, могут появляться новые зоны активности.

Несмотря на то, что наиболее широко распространена модель одного диполя, в работе [46] показано, что для моделирования сложных распределений потенциалов на поверхности головы одного диполя недостаточно, и необходимо моделировать несколько дипольных источников. Если диполи расположены далеко друг от друга, или их временное поведение сильно различается, то возможна их подгонка по отдельности. Тем не менее, возможны ситуации, когда сигналы от нескольких диполей перекрываются, и их потенциалы взаимно уничтожаются [47,48].

Ключевым вопросом при решении обратной задачи ЭЭГ в дипольной модели является вопрос о необходимом количестве диполей, которые будут разыскиваться. Проблема состоит в том, что количество активных нейронных областей в мозге заранее неизвестно. В большинстве случаев выбор необходимого числа диполей основан на априорных нейрофизиологических знаниях. Для автоматического определения оптимального количества диполей применяются несколько подходов, учитывающих временное развитие ЭЭГ сигнала [49-53]:

1) Диполи подбираются таким образом, чтобы минимизировать среднеквадратичную ошибку для нескольких подряд временных срезов, сооветствующих заданному интервалу времени. Процедура повторяется, и каждый раз число диполей увеличивается. Диполи добавляются до тех пор, пока дают значительный вклад в уменьшение ошибки [49,50].

2) Интервал времени анализируется последовательно, и новые диполи добавляются в каждом отдельном временном срезе, пока вклад нового диполя в уменьшение ошибки не станет сравним с уровнем шума в сигнале [51].

3) Модель многократной классификации сигнала MUSIC (Multiple Signal Classification) [52] определяет алгоритм поиска источников, являющихся независимыми друг от друга во времени. Активность, которая не может быть объяснена с помощью источников в фиксированных точках, считается шумом. Часть ЭЭГ сигнала, представляющая такой шум, отбрасывается. Оставшийся сигнал используется для того, чтобы оценить степень правдоподобия существования диполей в различных временно-независимых позициях. Результаты процедуры MUSIC неверны, если сигнал порожден несколькими синхронно активными источниками.

4) Существуют подходы, основанные на разделении ЭЭГ сигнала на совокупность статистически независимых составляющих. В работе [54] предлагается использовать метод главных компонент (principal components analysis, PC А), в работах [53, 55] - метод независимых компонент (independent components analysis, 1С А) для оценки минимального числа диполей. Затем для каждого выделенного подсигнала осуществляется поиск одного дипольного источника. Таким образом, методы позволяют выделять несколько статистически независимых дипольных источников.

Подходы (1) и (2) легли в основу коммерческого программного пакета анализа ЭЭГ сигнала BESA. В работе [56] подробно обсуждается важность априорных знаний о числе и возможном расположении дипольных источников, а также необходимость экспертной оценки для применения этих подходов. Подходы (3) и (4) основаны на том, что нейронные источники действуют независимо друг от друга, что не всегда верно. Явления синхронизации и взаимного влияния нейронных источников вызывают в последние годы все бблыиий интерес [57-59]. В основе подходов (1)-(4) лежит статистический анализ ЭЭГ сигнала в предположении стационарности сигнала, поэтому непригодны для учета появления новых активных зон в процессе временного развития ЭЭГ сигнала.

В распределенной модели генерации ЭЭГ сигнала предполагается, что источники расположены в каждой точке трехмерной сетки внутри модели головы. Таким образом, число диполей определяется числом точек сетки, и положения диполей зафиксированы. Тогда определение дипольных моментов (токов) приводит к линейной обратной задаче, которая называется задачей реконструкции тока [2,60-63]. В этом случае количество параметров - моментов диполей - обычно намного превышает количество измеренных данных. Задача оказывается недоопреде-ленной и требует регуляризации. Как правило, используется регуляризация функционала ошибки по А.Н.Тихонову [64,65]. Обычно используется критерий, согласно которому находится конфигурация источников, обладающая минимальной электрической энергией. В работах [66] и [67] предложен подход использования временных зависимостей ЭЭГ данных при реконструкции токов. Он основан на поиске пространственных реконструкций при условии минимальности изменения токов по времени. Недостатком этой модели является ее плохое пространственное разрешение. Требование минимальной энергии приводит к тому, что предпочтение отдается диполям, расположенным близко к поверхности, и глубокие источники не могут быть локализованы данным методом.

В диссертации предлагается модель, позволяющая определять изменяющиеся во времени зоны активности нейронных источников. Основная идея работы состоит в использовании генетического алгоритма [68] для учета временного развития ЭЭГ сигнала при пространственной реконструкции источников. При этом предлагается связать эволюцию генетического алгоритма с временным развитием ЭЭГ сигнала. Число эквивалентных диполей, т.е. число активных зон и их расположение подбирается автоматически и может изменяться в эволюционной модели в зависимости от степени необходимости этих диполей для аппроксимации потенциала. Это помогает найти различные пространственные зоны внутри мозга, активные одновременно, а также обнаруживать появление новых зон активности.

Третья глава диссертации посвящена разработке алгоритмов и программ для решения задачи идентификации протеинов в биоинформатике. Протеин представляет собой последовательность молекул аминокислот, соединенных в линейную цепочку. Аминокислотная последовательность протеина называется его первичной структурой. Протеины всех живых организмов построены из 20 различных аминокислот. Аминокислотные последовательности обычно кодируются буквенными строками, где каждая буква кодирует определенную аминокислоту.

Изучение взаимодействия протеинов и процессов их модификации в организме человека позволит значительно ускорить разработку и оценку новых эффективных лекарственных средств, действующих на клеточном уровне. В настоящее время существуют базы данных, хранящие аминокислотные последовательности большинства известных протеинов. Например, популярная база SwissProt [69] содержит последовательности около 200 ООО протеинов различных организмов. База данных протеинов представляет собой совокупность буквенных строк. Задача идентификации протеинов заключается в определении названия (или номера) протеина в базе данных по экспериментальному образцу, полученному из живого организма. Идентификация протеинов является важным средством диагностики различных болезненных состояний. Многие протеины являются биомаркерами, то есть свидетельствуют об определенных биологических процессах в организме. Таким образом, необходимы методы и алгоритмы, позволяющие получать информацию о структуре протеинов и идентифицировать их. Масштаб проблемы изучения структуры протеинов на порядок превосходит проблему секвенирования генома человека: число протеинов в человеческом теле оцениваете как 300 ООО и более, в то время как геном человека ограничивается 30 000-40 000 генов.

В настоящее время основным инструментом для определения аминокислотной последовательности протеинов является тандемная масс-спектрометрия [70,71]. При масс-спектрометрическом анализе протеины сначала разделяются на короткие фрагменты - пептиды - с помощью специальных энзимов. Энзимы разрывают связи между определенными аминокислотами. В масс-спектрометре пептиды подвергаются столкно-вителыюй диссоциации и разбиваются на более мелкие фрагменты, массы которых могут быть измерены. Масс-спектр представляет собой совокупность значений масс результирующих фрагментов пептидов. Во время эксперимента в масс-спектрометр поступает много одинаковых молекул пептидов из раствора, которые затем фрагментируются по-разному, так что каждый спектр отражает статистику фрагментации большого числа копий одного и того же пептида [72].

Идептификацей протеинов на основе данных масс-спектрометрии называется процесс, в котором по экспериментальным масс-спектрам пептидов, входящих в его состав, определяется название или номер протеина в базе данных.

При идентификации протеинов необходимо учитывать, что аминокислотные последовательности протеинов, взятых из живых организмов, могут отличаться своих от канонических версий в базе данных. В процессе жизни протеины живых организмов могут немного изменяться для расширения и модификации функциональных свойств протеинов. Пост-трансляционной модификацией протеина называется присоединение к одной или нескольким аминокислотам протеина биохимических функциональных групп, которые изменяют их свойства. Таким образом, масса модифицированной аминокислоты отличается от массы исходной аминокислоты на массу функциональной группы. Идентификация посттрансляционных модификаций, произошедших с протеином, чрезвычайно важна в диагностике заболеваний. Также, протеины живых организмов могут претерпевать мутации, то есть замены одних аминокислот другими. Мутации происходят из-за ошибок во время создания протеина на основе генетического кода. Биологам известна вероятность, с которой одни аминокислоты могут заменяться другими из-за мутаций.

В процессе столкновительной диссоциации чаще всего разрушаются связи между аминокислотами (пептидные связи), при этом аминокислоты не разрушаются. Таким образом, в экспериментальном спектре присутствуют пики, соответствующие массам фрагментов пептида, состоящим из целых (не разрушенных) аминокислот [72]. Это свойство можно использовать также для восстановления аминокислотной последовательности пептида по его экспериментальному масс-спектру. Изучая разницы между массами фрагментов (расстояние между пиками в спектре) можно определить аминокислотный состав пептида, а также последовательность, в которой располагались аминокислоты. Кроме того, это свойство делает возможным построение модельного спектра для пептида, аминокислотная последовательность которого известна: зная последовательность, можно предсказать, появление каких масс (пиков) ожидается в спектре.

В настоящее время используются два подхода к идентификации протеинов на основе данных масс-спектрометрии. Первый способ основан на том, что в базе данных разыскиваются такие подстроки (пептиды), для которых модельный спектр схож с экспериментальным [73,74].

Таким образом, в этом подходе при поиске в базе данных сравниваются спектры: экспериментальный и модельный, построенный по аминокислотной последовательности пептида из базы данных. Существенным недостатком алгоритмов, основанных на поиске по базе данных, является то, что они основаны на фильтрации пептидов-кандидатов по массе, то есть пептиды отбираются из базы данных, только если их масса близка к массе идентифицируемого пептида, измеренной экспериментально. Следовательно, такой подход не позволяет правильно идентифицировать пептид, если реальный пептид отличается от своей канонической версии в базе данных из-за мутаций, пост-трансляционных модификаций или ошибок в базе данных, так как масса пептида из базы данных не будет равна измеренной. Второй подход основан на восстановлении аминокислотной последовательности пептида по его масс-спектру без привлечения базы данных на этапе восстановления. Этот процесс называется de novo секвенированием. Последовательность, полученную таким методом, далее будем называть de novo последовательностью. После того, как по спектру восстановлена de novo , она разыскивается, как буквенная строка, в базе данных. В этом случае пептид отбирается из базы данных на основе сравнения строк, а не на основе фильтрации по массе. Таким образом, в первом подходе сравниваются спектры, а во втором - последовательности (строки).

В последние годы было разработано много алгоритмов de novo се-квенирования [70-72,75-77]. Однако существует несколько проблем, которые затрудняют точное восстановление последовательности. Процесс фрагментации пептида во время столкновительной диссоциации зависит от многих параметров, и является стохастическим [72]. Связи между некоторыми аминокислотами оказываются слишком сильными, чтобы разрушиться при столкновительной диссоциации. В результате статистика фрагментации получается неполной, и в спектре отсутствуют соответствующие пики. Некоторые пики в спектре могут быть, наоборот, результатом разрушения других (не пептидных) связей, или присутствия посторонних веществ (химического шума). Существуют две пары аминокислот с очень близкими массами, которые невозможно различить на большинстве использующихся спектрометров. Также, некоторые аминокислоты имеют массу, почти равную сумме масс двух других аминокислот. Кроме того, дополнительным источником ошибок являются модельные упрощения, которые необходимы при построении алгоритмов de novo секвенирования. Все это приводит к тому, что последовательности, восстановленные алгоритмами de novo секвенирования, содержат ошибки [78].

De novo ошибкой называется замена фрагмента последовательности реального пептида на другой фрагмент в предсказанном пептиде, имеющий такую же массу. Например, частным случаем de novo ошибки является перестановка двух соседних аминокислот. Неполнота информации в масс-спектре или присутствие шумов может привести к тому, что вместо одной тяжелой аминокислоты реального пептида алгоритм de novo секвенирования восстановит две более легкие или наоборот. Таким образом, длины заменяемых фрагментов могут не совпадать. Будем называть длиной de novo ошибки максимальную из длин двух фрагментов: фрагмента реальной последовательности пептида и соответствующего ему фрагмента de novo последовательности. Как указано в работе [79], для различных алгоритмов de novo секвенирования типичными являются различные длины de novo ошибок.

Таким образом, для идентификации протеинов по de novo последовательности необходимо использовать поисковые алгоритмы, устойчивые к ошибкам секвенирования. Необходима разработка алгоритмов приближенного поиска строк (approximate string matching), учитывающие специфику типичных ошибок секвенирования. Необходимо введение функции расстояния в пространстве последовательностей, которое бы позволило учитывать ошибки de novo секвенирования.

В настоящее время существует несколько программ, осуществляющих идентификацию протеинов по de novo последовательности: CIDentify [75], OpenSea [80] и SPIDER [81]. Все эти программы по-разному учитывают специфику типичных ошибок секвенирования. Программа CIDentify основана на свободно распространяемом коде FASTA [82], изначально предназначенном для оценки степени сходства между аминокислотными последовательностями на основе трех операций редактирования: замена аминокислоты, удаление и вставка аминокислоты. Авторами CIDentify код FASTA был изменен таким образом, что замена одной или двух аминокислоты на одну или две другие аминокислоты с такой же суммарной массой учитывались, как ошибки de novo секвенирования. Авторы OpenSea предложили подход, основанный на выравнивании последовательностей масс целых фрагментов, а не а не отдельных аминокислот. OpenSea допускает замены фрагментов произвольной длины, массы которых равны. Программа SPIDER также допускает замены фрагментов произвольной длины, но основана на выравнивании буквенных последовательностей и специальной функции расстояния между строками. Отметим, что программы OpenSea и SPIDER допускают замены фрагментов с эквивалентными массами произвольной длины. Однако, ясно, что с ростом длины число всевозможных последовательностей, имеющих заданную массу, растет. Таким образом, увеличивается вероятность случайных совпадений и ложных идентификаций.

Основная проблема при идентификации методом приближенного поиска заключается в том, что из-за величины базы данных решение не является единственным. Результат приближенного поиска представляет собой целый класс последовательностей, эквивалентных в смысле введенного расстояния. При этом кроме той последовательности, которая действительно соответствует последовательности исследуемого протеина (правильный ответ), в классе эквивалентности содержатся всевозможные другие последовательности, полученные с помощью эквивалентных преобразований. Для устранения неединственности необходимо привлечение дополнительной информации. Как правило, в алгоритмах идентификации протеинов по de novo последовательностям каждый протеин из найденного приближенным поиском класса эквивалентности оцениваются с помощью некоторой функции оценки - т.н. скоринг-функции. Затем протеины сортируются в соответствии со значением скоринг-функции, и эксперту на выбор предъявляется отсортированный список. В большинстве существующих на сегодняшний день программ идентификации по de novo последовательности скоринг-функции основаны на сравнении последовательностей. Для каждого протеина-кандидата из найденного класса эквивалентных последовательностей оценивается вероятность того, что искомая de novo последовательность является ошибочно восстановленной последовательностью данного протеина-кандидата. При оценке вероятности учитываются длины предполагаемых de novo ошибок и априорно известная статистика биологических мутаций. Однако, вся эта информация отчасти уже была использована при приближенном поиске, и действительно новой информации такая оценка не дает. Это приводит к тому, что зачастую правильный ответ получает низкое значение скоринг-функции и отбрасывается экспертом.

В третьей главе диссертации предложена функция расстояния между аминокислотными последовательностями, робастная по отношению к типичным ошибкам de novo секвенирования. Для устранения неединственности решения задачи идентификации предложена новая функция оценки результатов приближенного поиска, использующая экспериментальные масс-спектры идентифицируемых пептидов. Такая функция оценки позволяет полностью использовать известную информацию об исследуемом протеине.

Структура диссертации следующая. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Разработка математических моделей для задач биомедицины"

§3.6. Выводы

1. Предложена функция расстояния между аминокислотными последовательностями, робастная по отношению к некоторым типичным ошибкам de novo секвенирования.

2. Для устранения неединственности в задаче идентификации пептида по de novo последовательности предложена функция качества, учитывающая степень совпадения модельного и экспериментального спектров последовательности.

3. На основе предложенных функций расстояния и качества предложен алгоритм идентификации пептидов по аминокислотной последовательности, восстановленной из экспериментального масс-спектра программами de novo секвенирования. Проведено сравнение предложенного алгоритма с другими алгоритмами решения задачи идентификации пептида в базе данных. Показано преимущество предложенного алгоритма.

Заключение

• Предложен и исследован метод решения прямой задачи ЭЭГ, основанный на представлении решения в виде разложения в ряд по сферическим гармоникам. Показано, что метод позволяет проводить расчеты электрического потенциала в реалистичной модели головы с учетом сильно различающихся проводимостей тканей мозга и окружающих его оболочек.

• Разработана модель, позволяющая определять изменяющиеся во времени зоны активности нейронных источников. Модель основана на генетическом алгоритме, эволюция которого согласована с временным развитием сигнала. Показано, что в отличие от ранее предложенных методов, данный подход позволяет определять как несколько нейронных зон, активных одновременно, так и появление новых зон электрической активности в процессе временного развития сигнала.

• Предложена модель приближенного поиска аминокислотной последовательности в базе данных протеинов, на которой функция качества принимает максимальное значение. Для получения единственного решения задачи предлагается новая функция качества, учитывающая степень совпадения модельного и экспериментального спектров последовательности. Разработанная программа превышает по качеству поиска имеющиеся в мире программы.

Библиография Федулова, Ирина Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Berger Н. Uber das elektroenkephalogram des menschen // Arch. f. Psychiat. - 1929. - Vol. 87. - Pp. 527-570.

2. Захаров E.B., Коптелов Ю.М. О решении одной задачи математической обработки электроэнцефалографических данных // Докл. АН СССР. 1987. - Т. 292, № 3.

3. Huiskamp G.G.M., Maintz J.B.A., G.H.Wieneke, Viergever M.A., van Huffelen A.C. The influence of the use of realistic head geometry in the dipole localization of interictal spike activity in mtle patients // NFSI. 1997. - Vol. 97. - Pp. 84-87.

4. Wolpaw J.R., Birbaumer N., McFarland D.J., Pfurtscheller G., Vaugh-an T.M. Brain-computer interfaces for communication and control // Clinical Neurophysiology. 2002. - Vol. 112. - Pp. 767-791.

5. Vidal J.J. Real-time detection of brain events in eeg // IEEE Proceedings. 1977. - Vol. 65, no. 5. - Pp. 633-641.

6. Keirn Z.A., Aunon J.I. A new mode of communication between man and his surroundings // IEEE Transactions on Biomedical Engineering. 1990. - Vol. 37. - Pp. 1209-1214.

7. Birbaumer N et al. The thought translation device (TTD) for completely paralyzed patients // IEEE Trans Rehabil Eng. 2000. - Vol. 8, no. 2. - Pp. 190-193.

8. Tripp J. Physical concepts and mathematical models. — New York: Plenum, 1983. Pp. 101-139.

9. Nunez P.L. A study of origins of the time dependencies of scalp eeg: theoretical basis // IEEE Transactions on Biomedical Engineering. — 1981. Vol. 28. - Pp. 271-280.

10. Nunez P.L. Electrical Field of Brain. — New York: Oxford University Press, 1981.

11. Mosher John C., Leahy Richard M., Lewis Paul S. EEG and MEG: forward solutions for inverse methods // IEEE Transactions on Biomedical Engineering. — 1999. — Vol. 46, no. 3.

12. Ary J P, Klein S A, Fender D H. Location of sources of evoked scalp potentials: corrections for skull and scalp thicknesses // IEEE Trans Biomed Eng. 1981. - Vol. 28, no. 6. - Pp. 447-452.

13. Zhang Z, Jewett D L. Insidious errors in dipole localization parameters at a single time-point due to model misspecification of number of shells // Electroencephalogr Clin Neurophysiol. — 1993. — Vol. 88, no. 1. Pp. 1-11.

14. Rush S., Driscoll D.A. Eeg-electrode sensitivity an application of reciprocity // IEEE Transactions on Biomedical Engineering. — 1969. — Vol. 16, no. 1. - Pp. 15-22.

15. Zhang Zhi. A fast method to compute surface potentials generated by dipoles within multilayer anisotropic spheres // Phys. Med. Biol. — 1995. Vol. 40. - Pp. 335-349.

16. Cuffin В N. Effects of head shape on EEG's and MEG's // IEEE Trans Biomed Eng. 1990. - Vol. 37, no. 1. - Pp. 44-52.

17. Cuffin В N. Effects of local variations in skull and scalp thickness on EEG's and MEG's // IEEE Trans Biomed Eng. 1993. - Vol. 40, no. 1. - Pp. 42-48.

18. Cuffin В N. EEG localization accuracy improvements using realistically shaped head models // IEEE Trans Biomed Eng. — 1996. — Vol. 43, no. 3. Pp. 299-303.

19. Menninghaus E, Lutkenhoner B, Gonzalez S L. Localization of a dipolar source in a skull phantom: realistic versus spherical model // IEEE Trans Biomed Eng. 1994. - Vol. 41, no. 10. - Pp. 986-989.

20. Hamalainen M S, Sarvas J. Realistic conductivity geometry model of the human head for interpretation of neuromagnetic data // IEEE Trans Biomed Eng. 1989. - Vol. 36, no. 2. - Pp. 165-171.

21. Roth B.J., Balish M., Gorbach A., Sato S. How well does a three-sphere model predict positions of dipoles in a realistically shaped head? // Electroenc. Clin. Neurophysiol. 1993. - Vol. 87. - Pp. 175-184.

22. Stok С J. The influence of model parameters on EEG/MEG single dipole source estimation // IEEE Trans Biomed Eng. — 1987. — Vol. 34, no. 4. Pp. 289-296.

23. Thevenet M, Bertrand 0, Perrin F, Dumont T, Pernier J. The finite element method for a realistic head model of electrical brain activities:preliminary results // Clin Phys Physiol Meas. — 1991. — Vol. 12 Suppl A. Pp. 89-94.

24. Yvert B, Bertrand 0, Echallier J F, Pernier J. Improved dipole localization using local mesh refinement of realistic head geometries: an EEG simulation study // Electroencephalogr Clin Neurophysiol. — 1996. — Vol. 99, no. 1. Pp. 79-89.

25. Wolters C.H. et al. Influence of head tissue conductivity anisotropy on human EEG and MEG using fast high resolution finite element modeling, based on a parallel algebraic multigrid solver. — 2001.

26. Bertrand О et al. The finite element method for a realistic head model of electrical brain activities: preliminary results // Clin Phys Physiol Meas. 1991. - Vol. 12 Suppl A. - Pp. 89-94.

27. Miller С E, Henriquez С S. Finite element analysis of bioelectric phenomena // Crit Rev Biomed Eng. 1990. - Vol. 18, no. 3. - Pp. 207233.

28. Yan Y, Nunez P L, Hart R T. Finite-element model of the human head: scalp potentials due to dipole sources // Med Biol Eng Comput. 1991. - Vol. 29, no. 5. - Pp. 475-481.

29. Самарский A.A., Гулин A.B. Численные методы. — M.: Наука, 1989.

30. Hoekema R et al. Measurement of the conductivity of skull, temporarily removed during epilepsy surgery // Brain Topogr. — 2003. — Vol. 16, no. 1. Pp. 29-38.

31. Heinonen T, Eskola H, Dastidar P, Laarne P, Malmivuo J. Segmentation of T1 MR scans for reconstruction of resistive head models //

32. Comput Methods Programs Biomed. — 1997. — Vol. 54, no. 3. — Pp. 173-181.

33. Vanrumste Bart et al. Comparison of performance of spherical and realistic head models in dipole localization from noisy EEG // Med Eng Phys. 2002. - Vol. 24, no. 6. - Pp. 403-418.

34. Zanow F, Peters M J. Individually shaped volume conductor models of the head in EEG source localisation // Med Biol Eng Comput. — 1995. Vol. 33, no. 4. - Pp. 582-588.

35. Spinelli L, Andino S G, Lantz G, Seeck M, Michel С M. Electromagnetic inverse solutions in anatomically constrained spherical head models // Brain Topogr. 2000. - Vol. 13, no. 2. - Pp. 115-125.

36. Andra W., Nowak H. Magnetism in medicine a handbook. — Wiley-VCH, 1998.

37. Fender D.H. Source localization of brain electrical activity // A. Gevins, A. Redmond, eds., Handbook of electroencephalography and clinical neurophysiology. — Elsevier, 1987. — Vol. 1. — Pp. 355-399.

38. Uutela K, Hamalainen M, Salmelin R. Global optimization in the localization of neuromagnetic sources // IEEE Trans Biomed Eng. — 1998. Vol. 45, no. 6. - Pp. 716-723.

39. Supek S., Aine C.J. Simulation studies of multiple dipole neuromagnetic source localization: model order and limits of source resolution // IEEE Transactions on Biomedical Engineering. — 1993. — Vol. 40. — Pp. 354-361.

40. Koles Z.J. Trends in eeg source localization // Electroenc. Clin. Neu-rophysiol. 1998. - Vol. 106. - Pp. 127-137.

41. Achim A., Richter F., Saint-Hilaire A. Methods for separating temporally overlapping sources of neuroelectric data // Brain Topography. — 1988. Vol. 1. - Pp. 22-28.

42. Scherg M., von Cramon D. Evoked dipole source potentials of the human auditory cortex // Electroenc. Clin. Neurophysiol. — 1986. — Vol. 65. Pp. 344-360.

43. Scherg M, Bast T, Berg P. Multiple source analysis of interictal spikes: goals, requirements, and clinical value // J Clin Neurophysiol. — 1999.- Vol. 16, no. 3. Pp. 214-224. - Case Reports.

44. Scherg M, Picton T W. Separation and identification of event-related potential components by brain electric source analysis // Electroencephalogr Clin Neurophysiol Suppl. — 1991. — Vol. 42. — Pp. 24-37.

45. Mosher J C, Lewis P S, Leahy R M. Multiple dipole modeling and localization from spatio-temporal MEG data // IEEE Trans Biomed Eng. 1992. - Vol. 39, no. 6. - Pp. 541-557.

46. Kobayashi Katsuhiro, Yoshinaga Harumi, Oka Makio, Ohtsuka Yoko, Gotman Jean. A simulation study of the error in dipole source localization for EEG spikes with a realistic head model // Clin Neurophysiol.- 2003. Vol. 114, no. 6. - Pp. 1069-1078.

47. Koles Z J, Soong A C. EEG source localization: implementing the spatio-temporal decomposition approach // Electroencephalogr Clin Neurophysiol. 1998. - Vol. 107, no. 5. - Pp. 343-352.

48. Zhukov L.E., Weinstein D.M., Johnson C.R. Independent component analysis for eeg source localization in realistic head models // IEEE Eng. in Medicine and Biology. 2000. - Vol. 19. - Pp. 87-96.

49. Hoechstetter Karsten et al. Besa source coherence: A new method to study cortical oscillatory coupling // Brain Topography. — 2004. — Vol. 16, no. 4.

50. Nunez P L et al. EEG coherency II: experimental comparisons of multiple measures // Clin Neurophysiol — 1999. — Vol. 110, no. 3. — Pp. 469-486.

51. Knyazeva M G, Innocenti G M. EEG coherence studies in the normal brain and after early-onset cortical pathologies // Brain Res Brain Res Rev. 2001. - Vol. 36, no. 2-3. - Pp. 119-128.

52. Nenonen J T, Hamalainen M S, Ilmoniemi R J. Minimum-norm estimation in a boundary-element torso model // Med Biol Eng Comput. 1994. - Vol. 32, no. 1. - Pp. 43-48.

53. Grave de Peralta-Menendez R, Gonzalez-Andino S L. A critical analysis of linear inverse solutions to the neuroelectromagnetic inverse problem // IEEE Trans Biomed Eng. 1998. - Vol. 45, no. 4. - Pp. 440448.

54. Pascual-Marqui R.D., Michel C.M., Lehmann D. Low resolution electromagnetic tomography: a new method for localizing electrical activity in the brain // International Journal of Psychophysiology. — 1994. — Vol. 18. Pp. 49-65.

55. Wagner Michael, Fuchs Manfred, Kastner Jorn. Evaluation of sLORE

56. ТА in the presence of noise and multiple sources // Brain Topogr. — 2004. Vol. 16, no. 4. - Pp. 277-280. - Evaluation Studies.

57. Тихонов A.H., Арсении В.Я. Методы решения некорректных задач.- М.: Наука, 1979.

58. Морозов В.А. Регулярные методы решения некорректно поставленных задач. — М.: Наука, 1987.

59. Schmidt U., Louis А.К. Efficient algorithms for the regularization of dynamic inverse problems, part i: Theory // Inverse Problems. — 2002.- Vol. 18. Pp. 645-658.

60. Schmidt U., Louis A.K., Wolters C., Vauhkonen M. Efficient algorithms for the regularization of dynamic inverse problems, part ii: Applications // Inverse Problems. 2002. - Vol. 18. - Pp. 659-676.

61. Goldberg D.E. Genetic algorithms in search, optimization and machine learning. — Addison Wesley, 1989.

62. Url: http://www.expasy.org/sprot/.

63. A. Frank, P. Pevzner. Pepnovo: de novo peptide sequencing via probabilistic network modeling // Anal. Chem. — 2005. — Vol. 77, no. 4.- Pp. 964-973.

64. B. Ma et al. Peaks: powerful software for peptide de novo sequencing by tandem mass spectrometry // Rapid Commun. Mass Spectrom. — 2003. Vol. 17. - Pp. 2337-2342.

65. V. Bafna, N. Edwards. Scope: a probabilistic model for scoring tandem mass spectra against a peptide database // Bioinformatics. — 2001. — Vol. 17, no. 1. Pp. 13-21.

66. К. Eng J., L. McCormack A., R. Yates J. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database // J. Am. Soc. Mass. Spectrom. — 1994. — Vol. 5. — Pp. 976-989.

67. D.N. Perkins, J.D.C. Pappin, D.M. Creasy, J.S. Cottrell. Probability-based protein identification by searching sequence databases using mass spectrometry data // Electrophoresis. — 1997. — Vol. 20. — Pp. 35513567.

68. J.A. Taylor, R.S. Johnson. Sequence database searches via de novo peptide sequencing by tandem mass spectrometry // Rapid Commun. Mass Spectrom. 1997. - Vol. 11. - Pp. 1067-1075.

69. J.A. Taylor, R.S. Johnson. Implementation and uses of automated de novo peptide sequencing by tandem mass spectrometry // Anal. Chem. 2001. - Vol. 73. - Pp. 2594-2604.

70. V. Dancik, T.A. Addona, K.R. Clauser, J.E. Vath, P.A. Pevzner. De novo peptide sequencing via tandem mass spectrometry // J. Comput. Biol. 1999. - Vol. 6. - Pp. 327-342.

71. R.S. Johnson, M.T. Davis, J.A. Taylor, S.D. Patterson. Informatics for protein identification by mass spectrometry // Methods. — 2005. — Vol. 35. Pp. 223-236.

72. S. Pevtsov, I. Fedulova, H. Mirzaei, C. Buck, X. Zhang. Performance evaluation of existing de novo sequencing algorithms // J. Proteome Res. 2006. - Vol. 5, no. 11. - Pp. 3018-3028.

73. B.C. Searle et al. High-throughput identification of proteins and unanticipated sequence modifications using a mass-based alignment algorithm for ms/ms de novo sequencing results // Anal Chem. — 2004. Vol. 76. - Pp. 2220-2230.

74. Y. Han, B. Ma, K.J. Zhang. Spider: software for protein identification from sequence tags with de novo sequencing error // Bioinform. Comput Biol 2005. - Vol. 3. - Pp. 697-716.

75. W.R. Pearson, D.J. Lipman. Improved tools for biological sequence comparison // Proc. Natl Acad. Sci. USA. 1988. - Vol. 8. -Pp. 2444-2448.

76. Хоффманн К., Попов A.M., Федулова И.А., Певцов С.Е. Численное решение прямых математических задач электроэнцефалографии // Вестн. Моск. Ун-та Сер. 15 Вычисл. матем. и киберп. — 2004. Т. 2. - С. 17-28.

77. Хоффманн К., Попов A.M., Федулова И.А., Певцов С.Е. Численное решение обратных математических задач электроэнцефалографии // Вестн. Моск. Ун-та Сер. 15 Вычисл. матем. и киберн. — 2004. Т. 4. - С. 33-45.

78. Хоффманн К., Попов A.M., Федулова И.А., Певцов С.Е. Моделирование пространственно-временной активности нейронных источников // Сб. трудов факультета ВМиК МГУ "Прикладная математика и информатика". — 2004. — Т. 17. — С. 55-71.

79. Федулова И.А. Идентификация протеинов по аминокислотной последовательности, восстановленной из масс-спектра // Тематич. сб. под ред. чл.-корр. РАН JI.H. Королёва "Программные системы и компоненты". 2005. - Т. 6. - С. 123-138.

80. Fedulova I. et al. Inproid: an integrated protein identification system //53rd, ASMS Conference on Mass Spectrometry. — San Antonio, TX: 2005.

81. Fedulova I., Mirzaei H., Pevtsov S., Ouyang Z., Zhang X. Peptiger: Search engine for error-tolerant protein identification from de novo sequences // 54th ASMS Conference on Mass Spectrometry. — Seattle, WA: 2006.

82. Титомир JI.И., Кнеппо П. Математическое моделирование биоэлектрического генератора сердца. — М.: Наука. Физматлит, 1999.

83. Plonsey R., Heppner D.B. Considerations of quasistationarity in electrophysiological systems // Bull. Math. Biophys. — 1967. — Vol. 29, no. 4. Pp. 657-664.

84. Malmivuo J., Plonsey R. Bioelectromagnetism Principles and Applications of Bioelectric and Biomagnetic Fields. — New York: Oxford University Press, 1995.

85. Speckmann E.J., Elger C.E. Introduction to the neurophysiology, basis of the EEG and DC potentials. — Urban and Schwarzenberg, 1987. — Pp. 1-13.

86. Гнездицкий В.В. Обратная задача ЭЭГ и клиническая электроэнцефалография. Таганрог: ТРТУ, 2000.

87. Jasper H.H. The ten-twenty electrode system of the international federation // ELECTROCLNEUR. 1958. - Vol. 10. - Pp. 371-375.

88. Desmedt J.E., Tomberg C., Noel P., Ozaki I. Beware of the average reference in brain mapping (review) // Electroencephalogr Clin Neurophysiol Suppl. 1990. - Vol. 41. - Pp. 22-27.

89. Gencer N.G., Williamson S.J., Gueziec A., Hummel R. Optimal reference electrode selection for electric source imaging // Electroencephalogr Clin Neurophysiol Suppl. 1996. - Vol. 99. - Pp. 163-173.

90. Junghofer, M. and Elbert, T. and Tucker, D.M. and Braun, C. The polar average reference effect: a bias in estimating the head surface integral in eeg recording // Clin Neurophysiol. — 1999. — Vol. 110. — Pp. 1149-1155.

91. Pasqual-Marqui R.D., Lehmann D. Comparison of topographic maps and the reference electrode: comments on two papers by desmedt and collaborators // Electroencephalogr Clin Neurophysiol. — 1993. — Vol. 88. Pp. (530/531):534-536.

92. Tomberg C., Noel P., Ozaki I., Desmedt J.E. Inadequacy of the average reference for the topographic mapping of focal enhancements of brain potentials // Electroencephalogr Clin Neurophysiol. — 1990. — Vol. 77. Pp. 259-265.

93. Э.Э. Малютина. Разработка и применение генетических алгоритмов для анализа сложных динамических систем: дисс. на соискание уч. степени канд. физ.-мат. наук / МГУ им.Ломоносова, ф-т ВМиК. 2001.

94. Rudolph G. Convergence analysis of canonical genetic algorithm //

95. EE Trans, on Neural Networks. 1994. - Vol. 5, no. 1. - Pp. 96101.

96. Eiben A.E., Aarts E.H.L, Van Нее K.M. Global convergence of genetic algorithms: a markov chain analysis // Parallel Problem Solving from Nature, 1st Workshop PPSN. Springer-Verlag. — 1991. - Pp. 4-12.

97. Wright A.H. Genetic algorithms for real parameter optimization // Foundations of Genetic Algorithms. — 1991. — Pp. 205-218.

98. Скурихин A.H. Генетические алгоритмы // Новости искусственного интеллекта. — 1995. — N5 4. — С. 6-46.

99. Gulrajani R.M. Bioelectricity and Biomagnetism. — John Wiley and Sons, 1998.

100. Vavak F., Fogarty Т.О., Jukes K.A. Genetic algorithm with variable range of local search for tracking changing environments // Parallel Problem Solving from Nature. — 1996. — no. 4. — Pp. 376-385.

101. B.B. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. — 1965. — Т. 163, № 4. С. 845-848.

102. F. Damerau. A technique for computer detection and correction of spelling errors // Comm. of the ACM. — 1964. Vol. 7. - Pp. 171176.

103. R. Wagner, M. Fisher. The string-to-string correction problem // Journal of the ACM. 1974. - Vol. 21. - Pp. 168-178.

104. Smyth B. Computing patterns in strings. — Pearson Education, 2003.

105. B.C. Searle et al. Identification of protein modifications using ms/ms de novo sequencing and the opensea alignment algorithm // J. Proteome Res. 2005. - Vol. 4. - Pp. 546-554.

106. Jones N.C., Pevzner P.A. An introduction to bioinformatics algorithms. — Cambridge, Massachusetts: MIT Press, 2004.

107. M. Gentzel, T. Kocher, S. Ponnusamy, M. Wilm. Preprocessing of tandem mass spectrometric data to support automatic protein identification // Proteomics. 2003. - Vol. 3. - Pp. 1597-1610.

108. M. Wehofsky, R. Hoffmann. Automated deconvolution and deisotoping of electrospray mass spectra // Eur. J. Mass Spectrom. — 2001. — Vol. 7. Pp. 39-46.

109. E. Ukkonen. Finding approximate patterns in strings // J. Algor. — 1985. Vol. 6. - Pp. 132-137.

110. H. Hyyro. A bit-vector algorithm for computing levenshtein and dam-erau edit distances // Proc. of the Prague Stringology Conference. — 2002.

111. G. Navarro. A guided tour to approximate string matching // ACM Computing Surveys. 2001. - Vol. 33. - Pp. 31-88.

112. G. Myers. A fast bit-vector algorithm for approximate string matching based on dynamic programming // J. ACM. — 1999. — Vol. 46. — Pp. 395-415.

113. Url: http://www.math.montana.edu/~pernarow/M591/2001/.