Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий

Деменков, Павел Сергеевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий

кандидата технических наук: Деменков, Павел Сергеевич
город: Новосибирск
год: 2008
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий»

Автореферат диссертации по теме "Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий"

На правах рукописи

Деменков Павел Сергеевич

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

ДЛЯ РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ МОЛЕКУЛЯРНО-ГЕНЕТИЧЕСКЙХ ВЗАИМОДЕЙСТВИЙ

05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат диссертации на соискание учёной степени кандидата технических наук

Томск - 2008

003453082

Работа выполнена в Институте математики им. С. Л. Соболева СО РАН.

Научный руководитель: доктор физико-математических наук

профессор, чл.-корр. РАН Гончаров Сергей Савостьянович

Официальные оппоненты: доктор технических наук, доцент

Тузовский Анатолий Фёдорович (Томский политехнический университет, г. Томск)

Защита состоится " 10 " декабря 2008 г. в 14 ч. 30 мин. на заседании совета по защите докторских и кандидатских диссертаций Д 212.269.06 при Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84, институт "Кибернетический центр" ТПУ

С диссертацией можно ознакомиться в Научно-технической библиотеке Томского политехнического университета по адресу: 634034, г. Томск, ул. Белин-

капдидат физико-математических наук Мурзин Фёдор Александрович (Институт систем информатики СО РАН, г. Новосибирск)

Ведущая организация: Иркутский государственный университет

ского, 55.

Автореферат разослан

» ^2008.

Учёный секретарь Совета кандидат технических наук, доцент

Сонькин М. А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Объект исследования и актуальность темы. Активное применение современных информационных технологий, средств вычислительной техники и методов прикладной математики в области молекулярно-биологичеких и биомедицинских исследований заложили фундаментальную основу развития такого направления как биоинформатика.

Широкомасштабное секвенирование геномов, экспериментальные методы нротеомики, геномики и транскриптомики обеспечивают колоссальный рост молекулярно-биологической информации, которую принципиально невозможно осмыслить и переработать без использования специальных программно-пнформациониых средств. Во всем мире интенсивно ведутся исследования в области организации биологических систем и технологий, в частности: высокопроизводительных биочиповых (ДНК-микрочипы, белковые, клеточные и тканевые микрочипы, микрочипы на основе малых молекул); прогеомных и метаболомных экспериментальных технологий, широко используемых в биомедиципе, фармакологии, биотехнологии, агробиологии и других областях. При этом следует отметить, что в настоящее время активное развитие экспериментальных методов идентификации молекулярных взаимодействий на самых разных уровнях организации биологических систем значительно опережает развитие биоинформатических средств поддержки, анализа и интерпретации результатов экспериментов. Всё большую актуальность приобретают вопросы интеграции результатов анализа и интерпретации молекулярно-генетических данных, состоящие в выяснении связи генов, белков и метаболитов с функционированием молекулярно-генетических систем, с молекулярно-биологическими информационными ресурсами при формировании новых знаний в рассматриваемой области. Следует отметить, что знания о молекулярно-генетических взаимодействиях в клетке необходимы для решения широкого круга практически важных задач в области биотехнологии и агробиологии, биомедицины и фармакологии, в частности:

• поиск мишеней для создания лекарственных препаратов;

• оценка потенциальной эффективности и токсичности новых препаратов в доклинических испытаниях;

• идентификация биомаркерных молекул для создания эффективных диагностических систем;

• идентификация важных для продуктивности сельскохозяйственных культур генов;

• выбор генов-кандидатов для генотипирования.

Создание новых и идентификация существующих знаний, их применение на практике для диагностики, предупреждения и лечения различных заболеваний — одна из целей молекулярно-биологических и биомедицинских исследований, а разработка эффективных систем поддержки этих процессов на основе современных информационных технологий и концепции систем управления знаниями — одна из приоритетных задач биоинформатики.

На современном этапе из-за высоких темпов роста публикаций и электронных баз данных (БД) в области исследований биологических систем и разработки технологий особую актуальность приобретают вопросы создания адекватного инструментария для систематизации проблемной информации и решения задач идентификации существующих знаний. В частности, в условиях большого потока информации становится все сложнее восстанавливать недостающие связи между молекулярно-генетическими объектами, которые могут приводить к практическому использованию накопленных знаний.

Например, БД данных рефератов научных статей по современным исследованиям в области генетики, молекулярной биологии и биомедицины Pubmed содержит около 15 миллионов публикаций на конец 2006 года и их объем увеличивается в среднем на 500 тысяч статей в год. Созданные в мире тысячи фактографических медико-биологических БД содержат разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объёмы этих БД чрезвычайно велики. Так, БД NCBI Gene содержит 1933023 записей (2006 год), количество которых постоянно увеличивается. Существуют базы данных содержащие информацию о полиморфизмах, связанных с заболеваниями человека, животных и рас-

тений (например, база данных OMIM содержит информацию о 17212 генах, связанных с патологиями человека). В базе данных Gene Ontology представлено формализованное описание молекулярных функций белков и генов, процессов, в которых они участвуют (130696 биологических процессов и 128548 молекулярных функций для 107701 клеточных компонент). В базах данных KEGG, ЕсоСус, MetaCyc, GeneNet и др. представлены миллионы фактов о биомедицински и блотехнологически значимых молекулярно-генетических взаимодействиях, генных сетях, метаболических путях, путях передачи сигналов и др. Если учесть, что заметная часть информации в БД по данному направлению слабо структурирована и представлена в текстовом виде, то становится ещё более очевидной актуальность соответствующего математического и программного инструментария.

Создание новых и идентификация существующих знаний как базовые виды деятельности в жизненном цикле знаний рассматриваются в качестве системообразущих объектов в системах управления знаниями (СУЗ). Активные исследования в области создания СУЗ начались с 90-х годов прошлого столетия. Среди авторов публикаций следует выделить исследования О. Bodenreider, K.M. Wiig, Т.Н. Davenpoit, L. Prusak, S.B. Martins, H. Takeuchi, J.M. Firestone, I. Nonaka, C.M. Климова, T.A. Гавриловой, А.Ф. Тузовского и В.З. Ямпольского.

Анализ работ этих авторов показывает, что одним из основных подходов к созданию СУЗ и его компонент является семантический подход, который основан на использовании методов и технологий по работе со смыслом, семантикой данных, информации и знаниями, таких как онтологии предметных областей, технологии их построения и сопровождения, семантические метаданные, семантический поиск, системы логического вывода, семантическое профилирование знаний экспертов, семантические порталы и сети и т.п. И все это с соответствующей технологической поддержкой в части языков описания, моделей, программных инструментов и систем.

Существуют различные методы представления накопленных знаний, в число которых входят продукционные модели, семантические сети, фреймы

и онтологии. Из перечисленных наиболее часто для описания биологических систем применяются семантические сети и онтологии.

Цель работы: разработка комплекса методов, моделей и алгоритмов для создания информационно-программной системы обеспечения поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований на основе автоматизации процесса реконструкции сетей ассоциативных взаимосвязей между молекулярно-генетическими объектами из научных текстов и фактографических баз данных.

Для достижения поставленной цели исследования были поставлены и решены следующие задачи:

1. Выявление состава и структуры знаний с созданием онтологической модели их представления для исследований в области молекулярно-генетических взаимодействий.

2. Разработка подходов и методов извлечения знаний из текстовых источников информации для заданной предметной области.

3. Разработка средств интеграции информации, накопленной в существующих открытых фактографических базах данных.

4. Разработка архитектуры программно-информационной системы для автоматизации реконструкции сетей ассоциативных связей на основе созданной онтологической модели, реализация её в виде программно-информационного комплекса с графическим пользовательским интерфейсом.

5. Апробация технологии применения разработанной программно-информационной системы на примере решения задачи анализа особенностей ассоциативных белковых сетей человека.

Методы исследования. Для решения поставленных задач в работе используются методы системного анализа, теории графов, теории создания систем управления знаниями, объектно-ориентированного проектирования и программирования.

Научная новизна. В диссертационной работе предложен подход к решению задач по обеспечению одного из базовых видов деятельности в жиз-

ценном цикле знаний: поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований, который реализован в виде проблемно-ориентированной информационно-программной системы — одной из основных подсистем системы управления знаниями в рассматриваемой области.

Получены следующие основные результаты, обладающие научной новизной:

1. Предложена онтологическая модель для описания молекулярно-генетических объектов, процессов, заболеваний и взаимоотношений между ними.

2. Разработан новый метод извлечения информации о молекулярно-генетических взаимодействиях из текстов рефератов научных статей и общедоступных фактографических баз данных, ориентированных на фармакологию, биотехнологию и биомедицину.

3. На основе предложенных онтологической модели, методов и алгоритмов разработана первая отечественная информационная система Associative Network Discovery (ИС AND), которая rio полноте представления типов взаимодействий и извлечённых фактов превосходит аналогичные зарубежные разработки.

4. Разработан метод машинного обучения на основе известного алгоритма КРАБ, адаптированный для предсказания изменения термодинамической стабильности бачка при одиночной аминокислотной замене.

5. С использованием созданной ИС и адаптированного метода КРАБ проведён анализ человеческого протеома на предмет влияния аминокислотных замен на термодинамическую стабильность белков. Научная и практическая ценность. Разработанная на основе предложенных методов, моделей и алгоритмов ИС AND обеспечивает компьютерную поддержку исследований в таких областях современной науки как молекулярная биология, генетика, биотехнологии, биомедицина, фармакология, агробиология и др. Система позволяет проблемным специалистам легко ориентироваться в огромных гетерогенных хранилищах знаний в области

биологии и медицины, быстро извлекать необходимую информацию с достаточно высокой точностью и осуществлять своевременный мониторинг вновь появляющихся фактов. Она может быть полезна для студентов, аспирантов и молодых учёных для быстрого погружения в предметную область и ознакомления с новейшими открытиями, связанными с интересующими исследователя биологическими объектами. ИС AND закладывает базу для создания СУЗ в области молекулярно-биологических исследований.

Реализация и внедрение результатов работы. Система AND внедрена в Институте цитологии и генетики СО РАН (г. Новосибирск) с целью получения новых знаний, проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскриптомика, протео-мика, метаболомика и др.

Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:

• международная конференция «The Sixth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2008)» (Новосибирск, Россия, 2008 г.);

• международная конференция «З-rd Moscow Conference on Computational Molecular Biology» (Москва, Россия, 2007 г.);

• международная конференция «The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development»(Москва, Россия, 2007 г.);

• международная конференция «8th Meeting German / Russian Virtual Network on Computational Systems Biology» (Билефельд, Германия, 2007 г.);

• международная конференция «3-rd International Conference: Basic Science for Medicine» (Новосибирск, Россия, 2006 г.);

• международная конференция «The Fifth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2006)» (Новосибирск, Россия, 2006 г.);

• российская конференция «VI Всероссийской научно — практической конференции AS'2007 (СИСТЕМЫ АВТОМАТИЗАЦИИ с образовании, науке и производстве)» (Новокузнецк, Россия, 2007 г.). Публикации. По теме диссертационной работы опубликовано 12 печатных работ , из которых 2 работы [2,8] опубликовано в журналах из списка ВАК РФ.

Структура и объем работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка использованной литературы из 77 наименований. Основная часть работы изложена на 122 страницах машинописного текста, содержит 34 рисунка, 2 таблицы и 8 приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность исследуемой проблемы, сформулирована цель и задачи диссертационной работы, перечислены полученные в диссертации новые результаты, их практическая ценность, представлены положения, выносимые на защиту и описана структура диссертации.

В первой главе представлен аналитический обзор способов представления знаний, методов извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций, а также основные понятия технологии Text-mining. Рассматривается только часть задач, которые решаются в рамках технологии Text-mining. Это связано с тем, что главные цели настоящей работы связаны с извлечением знаний о молекулярных взаимодействиях из текстовых данных.

На основе анализа существующих методов извлечения информации о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций выявлено, что для экстракции информации из фактографических баз данных необходима комбинация экспертного анализа структуры и формата базы данных и автоматического извлечения этих данных с помощью программы-конвертора. Работа с каждой базой данных подразумевает индивидуальный подход в связи с существенными различиями между способами хранения фактов в базах данных, форматах представления данных, а также режимах доступа к ним.

Задача извлечения информации о взаимодействиях из текстов существенно сложнее предыдущей. При решении этой задачи существующие подходы проходят следующие этапы: создание выборки текстов, заведомо содержащих информацию о молекулярных взаимодействиях; создание словарей и онтологий, описывающих объекты предметной области, то есть белки, гены, метаболиты и другие объекты; предварительная подготовка текста с разметкой на нем слов и выражений, соответствующих названиям объектов, нормализацией текста, синтаксическим разбором предложений; обработка подготовленных текстов, с цельго извлечения фактов о взаимосвязях между объектами; верификация полученных результатов.

На основе анализа эффективности существующих систем для обработки подготовленного текста был выбран метод шаблонов, обладающий с одной стороны достаточной точностью распознавания, а с другой стороны не требующий больших затрат времени на разработку и применение.

Данные, полученные из фактографических и текстовых баз данных необходимо интегрировать, с учётом дублирования, то есть наличия одинаковых взаимодействий, выявленных из различных источников.

Во второй главе описывается онтологическая модель представления знаний о взаимосвязях между молекулярпо-генетическими объектами, заболеваниями и процессами.

Под онтологией в данной работе понимается набор О =< С, R, F >,

где

С = С( U С о U Csp U Си U С i U Ст — множество понятий предметной области. С( — это множество типов объектов, С0 — множество молекулярно-генетических объектов, заболеваний, процессов и клеточных компонент. Csp — множество организмов. C<¡ — множество типов взаимосвязей между объектами. Сг — множество взаимосвязей между объектами. С,. — множество ролей объектов во взаимосвязях;

R = {¿s_a, role, present, exists_in} U fíj — множество отношений между понятиями заданной предметной области. R\ — множество отношений определяющих взаимосвязи различных типов между объектами, present

— отношение определяющее допустимые роли объектов во взаимосвязях конкретного типа, role — отношение указывающее на роль объекта во взаимосвязи. exists_in — отношение связывающее молекулярно-генетические объекты с организмами, в которых они встречаются.

F = {/ : Ri —> С,} — множество функций интерпретации, состоящее из взаимно однозначного отображения множества отношений Ri на множество

Рис. 1. Структура онтологической модели знаний о молекулярно-генетических взаимодействиях

Ассоциативной семантической сетыо(ассоциативпой сетью) будем называть двудольный граф, построенный по онтологии, описанной выше. Вершинами такого графа являются молекулярно-генетические объекты: (белки, гены, низкомолекулярные вещества, микроРНК), заболевания, клеточные компоненты, биопроцессы (реакции, регуляторные события), регуляторные, транспортные и метаболические пути (обозначим множество таких вершин V), а также особый тин объекта — «взаимодействие» (/). Объекты характеризуются типом, именем, списком синонимов, ссылками на базы данных,

С4.

в которых имеется информация об объекте, а также организмом, в котором встречается объект. Для объектов различного типа задаются ограничения на связи с другими объектами. Рёбрами графа являются отношения взаимодействия или ассоциации между объектами. Каждое взаимодействие и ассоциация характеризуется набором атрибутов, которые могут включать, в частности: список участвующих в нем объектов, роли участников (регулятор, объект подверженный регуляции, катализатор, субстрат, продукт и др.), тип взаимодействия и т.д.

Описываются алгоритмы составления словарей названий молекулярно-генетических объектов, химических веществ, биопроцсссов и др. Методы анализа текстовых источников информации с целью составления словарей для описания знаний о молекулярно-генетических объектах и системах основываются на следующих подходах:

• анализ баз данных, в которых встречаются названия молекулярно-генетических объектов и отношений, применяемых для описания молекулярных взаимодействий;

• анализ текстов научных публикаций с целью выявления имён молекулярно-генетических объектов и отношений.

В главе представлен алгоритм для извлечения знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями и процессами из текстов рефератов научных статей, основанный на использовании шаблонов. Также описаны алгоритмы для извлечения информации о взаимодействиях из фактографических баз данных MINT, IntAct, TRRD и GeneNet.

Функциональная схема системы извлечения знаний о молекулярных взаимодействиях в клетке представлена на рис. 2.

Исходными данными являются внешние источники данных, включающие:

• фактографические базы данных, которые используются для составления словарей;

• фактографические базы данных, которые используются для извлечения знаний о молекулярно-генетических объектах;

Фактографические БД для составления словарей

БД научных статей

; Истсиники данных

Фактографические

БД по взаимодействиям

Экстракция данных

Синтаксические

и семантические правила

Извлечение информации о молекулярно- .— генетических '—у взаимодействиях и генетической регуляции в клетке

Анализ противоречий

Хранилище) данных I

Рис. 2. Функциональная схема системы извлечения и интеграции знаний о молекулярных взаимодействиях в клетке.

• фактографические базы данных, которые используются для извлечения знаний о молекулярных взаимодействиях в клетке и генных сетях;

• базы библиографических данных (PubMed), которые используются для извлечения знаний о молекулярных взаимодействиях в клетке. Экстрагированная информация в виде фрагментов текстовых данных

накапливаются в системе для дальнейшего анализа и извлечения из неё знаний о молекулярно-генетических объектах и молекулярных взаимодействиях в клетке.

Алгоритмы извлечения знаний из текстовых данных используют словари, синтаксические и семантические правила, а также шаблоны, которые являются частью базы знаний системы Associative Network Discovery (AND). В третьей главе представлено описание клиент-серверной архитектуры

информационной системы AND.

База данных ANDCell СУБД MySQL 5.0

& /

>

г

:Клиент, Клиент I

Вебсервис.

Интернет

Внешние

ИСТОЧНИКИ

данных

Клиент

; Клиент

Рис. 3. Схема программного комплекса

В разработанной системе предусмотрено два типа доступа к БД: прямой доступ с компьютеров локальной сети, где расположен сервер БД системы; доступ с клиентских рабочих мест через сеть Интернет. Предложенная схема обеспечивает необходимый уровень безопасности.

Прямой доступ из локальной сети используется для администрирования системы и проведения работ по её развитию. Доступ через Интернет реализован через Web-сервис со специализированной системой авторизации и аутентификации пользователей. Одновременно, Web-сервис осуществляет контроль за количеством одновременных соединений для каждого пользователя, а также за количеством выполненных запросов для построения сетей. Эти возможности сервиса используются для ограничений демонстрационного режима использования системы.

Клиентское приложение ANDVisio для графического представления ассоциативных сетей написано на языке программирования ObjectPascal с использованием библиотеки LCL (Lazarus Component Library) для создания кроссплатформенного графического пользовательского интерфейса. Для работы с базой данных использовался набор компонент ZeosDBO, поз-

воляющий организовать унифицированный интерфейс доступа к различным СУБД. Отображение графа производится средствами библиотеки OpenGL, использование которой дало возможность работать с графами с огромным количеством вершин не испытывая при этом неудобств, связанных со скоростью визуализации.

"Л AND Visio - Alpha version

Файл Редактировать Вид Раскладка Анализ Настройка Помощь

^ "Г -, *>f Поиск...

В j Protein (ï) : S- ^IPPARG • (0) |Й .¿¿Metabolite (1) El .«¿Ltroglitazone

|B "^Disease (1)

S"¿p'king neoplasms I -'^>miRNA (0) IВ -¿pathway (3)

0 ^cholesterol biosynthe 0 W^ regulation of transcrii ; S- ^transcription component Î1) El C' / nucleus ■ В Взаимодействия (8) В association (4) s downregulatton (1) В involvement (3)

Весь граф j Пути ; Циклы Пойся

■ рцщ m

tik ; ,уГ

regutetttsi tràhscriptîun, DNA-cfepenfteirt

trenWCtfVt'Wi

wieiaiis

troglitarott? shirte<twtt( Mosynthetlc ¡pernse«*

Рис. 4. Главное окно программы АКОУЪю

На рисунке 4 приведено главное окно приложения. В левой части окна находится древовидное представление объектов текущего графа. Все объекты разбиты на группы по типам. В скобках приведено количество объектов каждого типа. Объекты характеризуются названием, списком синонимов и организмом. «Взаимодействия» разбиты по типам, в скобках указано количество «взаимодействий» каждого типа. Для каждого взаимодействия можно посмотреть список всех его участников. Программа позволяет строить

сети по списку синонимов интересующих объектов и/или ссылок на базы данных, с указанием для каждого объекта уровня сети. Под уровнем сети подразумевается максимальное удаление объектов графа от заданных в запросе объектов. Также возможно настроить фильтрацию сети: указать типы интересующих объектов, список организмов, типы «взаимодействий», множество баз данных, из которых извлечены факты взаимодействия. С загруженным в приложение графом можно осуществлять следующие действия: отфильтровать объекты по указанным' критериям, удалить выделенные объекты, расширить граф от выделенных объектов. В программе реализованы классические алгоритмы поиска кратчайших путей в графе между двумя объектами, минимальных циклов, содержащих указанный объект, а также алгоритм построения множества фундаментальных циклов. Программа позволяет искать кратчайшие пути между объектами, минимальные циклы, в которые входит объект, строить множество фундаментальных циклов. Реализован функционал по сохранению сетей в различные форматы (XML, GenNet, бинарный файл). Возможно сохранить изображение сети в различных графических форматах. Реализована загрузка графа из файлов в бинарном и XML форматах. Также в этой главе описывается реализованный вебсервис, для доступа к данным. Использование сервиса позволяет более безопасно предоставить доступ к данным через сеть Интернет. В вебсерви-се реализованы средства авторизации, аутентификации и учёта активности пользователей. Один раздел в главе посвящен описанию разработанных алгоритмов раскладки графов в пространстве. Идея обоих алгоритмов состоит в построении модели, описывающей взаимосвязи между вершинами графа. Основное свойство этих систем - саморегуляция, т.е. способность системы самостоятельно находить оптимальное состояние. Первая модель использует принципы взаимодействия заряженных частиц, а во второй все вершины в графе связаны между собой пружинками с разными длинами в состоянии покоя. Обе модели описываются системами уравнений, которые решаются методом простой релаксации.

Пусть все вершины в графе пронумерованы от 1 до N, 1у — множество

индексов вершин из V, 7/ — множество индексов вершин из I, а — множество индексов вершин, инцидентных вершине с индексом к. Тогда система уравнений, описывающая взаимодействие вершин графа в первой модели, будет выглядит следующим образом:

Рд(хк, Хт) + X] +

к/т

к^т Шу

+ ]Г Рр(хк,хт) + Рг(хт) = О,

Утл. € 1у

Рх{?к, Хт) + Хт) +

к ¿т Шт Чтп е 7/

= О,

где силы действующие между вершинами определены так:

К

||ж2-11||2 ||Х2-а;1

РЯ{Х1,Х2) =

Рр{хиХ2) = Р^||12-Х1|| +

Рг(х1,Х2) = 77^-

11^2 - ®1|| ЦХ2-Ж1

Х2-Х1

ГГ77,ГДе К > О

Х2 - XI Х2 — Х\

И ^,,,гдеР<0

\\х2 — II

, где Ь > О

Рг(£) = ||ргдеЛ/<0.

Система уравнений второй модели раскладки:

Ри{хк,хт) + ^2 +

Р{Х) =

кфт ке!у

Шт

Ут € /V

+ РТ{хт) = О,

где силы действующие между вершинами заданы следующими выражения-

Р<а{х1>хг)

Ррг(х1,Х2)

К(Ь - ||г2 - ЙЦ)/2 где К, Ь > О

Хп — XI „ „

Рф- цга-11|| 17

\\хг-хи

Рис. 5. Схема работы параллельного алгоритма решения системы нелинейных уравнений методом релаксаций.

Расчеты по каждому алгоритму разбиваются на N параллельных потоков, схема работы алгоритмов представлена на рис. 5.

Четвёртая глава посвящена описанию применения разработанной информационной системы AND для анализа человеческого протеома. В главе описывается метод машинного обучения на основе алгоритма КРАБ. Алгоритм адаптирован и используется для оценки изменения стабильности белков при одиночных заменах аминокислот в его последовательности. Проводится оценка чувствительности белков человека к мутациям. Результаты оценки накладываются на ассоциативную сеть взаимосвязи белков человека между собой. Кластеризация графа методом спектрального анализа показала наличие групп белков, тесно связанных между собой. Выявлено, что белки чувствительные к мутациям находящиеся в одном кластере отвечают за схожие

процессы жизнедеятельности клетки.

ОСНОВНЫЕ ВЫВОДЫ 1/1 РЕЗУЛЬТАТЫ РАБОТЫ В ходе выполнения работы были получены следующие результаты:

1. Впервые в России разработана информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из большинства доступных гетерогенных источников информации: научных публикаций, разнородных экспериментальных данных, представленных в фактографических базах данных. Система по многим параметрам (полноте представления типов взаимодействий, количеству извлечённых фактов и др.) превосходит зарубежные аналоги.

2. Разработана онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.

3. Разработан метод и основные технологии извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.

4. Разработана клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели. Предложенная архитектура реализована в виде программно-информационного комплекса с платформо-независимым графическим пользовательским интерфейсом для представления ассоциативных сетей молекулярно-генетических взаимодействий.

5. Разработаны алгоритмы раскладки графа ассоциативных сетей на плоскости. Реализация алгоритмов позволяет использовать вычислительные возможности современных многопроцессорных систем и/или выполнять вычисления с использованием графических ускорителей.

6. Разработан метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ. Применение созданной ИС и предложенного метода позволило выявить, что белки чувствительные к му-

тациям, находящиеся в одном кластере, отвечают за схожие процессы жизнедеятельности клетки.

Результаты применения созданной на основе разработанных моделей, методов и алгоритмов ИС AND показали их эффективность, в части обеспечения поддержки процессов поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований. По результатам апробации ИС AND можно сделать вывод о перспективности её применения для:

• реконструкции и анализа сетевых моделей сложных молекулярно-геветическцх взаимодействий (генные сети), которые, как показывает опыт работы с российскими и зарубежными коллегами, востребованы в области биоинформационных, биотехнологических и биомедицинских исследований;

• проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскрип-томика, протеомика, метаболо-мика:

• решения прикладных задач в области фармакологии, биомедицины и биотехнологии для поиска новых лекарственных средств и оценки их действия на организм: реконструкция г енных и метаболических сетей, описывающих на молекулярно-генетическом уровне функционирование клеток нормального и больного организма, пути проникновения патогена в клетку и взаимодействия с клеткой хозяина, пути и варианты воздействия лекарственных средств;

• построение ассоциативных семантических сетей, связывающих симптомы и наблюдения за пациентом с заболеваниями и методами лечения (в медицине).

Автор выражает искреннюю благодарность своим научным руководителям С. С. Гончарову и В. А. Иванисенко за постановку задач, всестороннюю поддержку и внимание к работе.

Список работ автора по теме диссертации

[1] Деменков П. С., Аман Е. Э., Иванисепко В. A. Associative network discovery (and) - компьютерная система для автоматической реконструкции ассоциативных сетей молекулярно-генетических взаимодействий // Труды VI Всероссийской научно - практической конференции AS'2007 (СИСТЕМЫ АВТОМАТИЗАЦИИ в образовании, науке и производстве).-2007,-С. 51.

[2] Деменков П. С., Аман Е. Э., Иванисенко В. A. Associative network discovery (and) - компьютерная система для автоматической реконструкции сетей ассоциативных знаний о молекулярно-генетических взаимодействиях //' Вычислительные технологии. — 2008. — Т. 13, № 2. — С. 15-19.

[3] Деменков П. С., Яркова Е. Э., Иванисенко В. А., Колчанов Н. А., Гончаров С. С. Предсказание изменения термодинамической стабильности белков при одиночных аминокислотных заменах // Системная компьютерная биология / Под ред. Н. А. Колчанова, С. С. Гончарова. — Новосибирск: Издательство СО РАН, 2008.- С. 269-275.

[4] Атап Е. Е., Demenkov P. S., Ivanisenko V. A. Analysis of the tertiary structure of the ppar and ra transcriptional factors and t.heir mutant variants // Proceedings of the BGRS-2006. - Vol. 1. - 2006. - Pp. 227-230.

[4] Аман E. Э., Деменков П. С., Иванисенко В. А. Анализ третичной структуры транскрипционных факторов рраг и гхг и их мутантных вариантов // Труды БГРС-2006. - Т. 1. - 2006. - С. 227-230.

[5] АтапЕ. Е., Demenkov P. S., Ivanisenko V. A. Textomics: the instrument for biological knowledge discovery // The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development. — Vol. 2. — 2007.- P. 391.

[5] Аман E. Э., Деменков П. С., Иванисенко В. А. Текстомика: инструмент поиска биологических знаний // Пятый московский международный биотехнологический конгресс. — Т. 2. — 2007. — С. 391.

[6] Ivanisenko V. A., Demenkov P. S., Атап Е. Е., Pintus S. S Kolchanov N. A. Associative network and protein structure discovery: a soft-

ware complex for facilitating search of targets for drugs, drug design, and evaluation of molecular toxicity // 3rd International conferencc "Basic science for medicine". — 2007. — P. 92.

[6] Иванисенко В. А., Деменков П. С., Аман Е. Э., Пинтус С. С., Колчано-ev Н. A. Associative network and protein structure discovery: программный комплекс для облегчения поиска лекарственных целей, создания лекарств и оценки токсичности молекул // 3-й международная конференция "Основы науки для медицины". — 2007. — С. 92.

|7] Aman Е. Е., Demenkov P. S., Nemiatov A. I., Ivanisenko V. A. Associative network discovery (and) - software package for automated reconstruction of molecular-genetic association networks // Proceedings of the 3-rd Moscow Conference on Computational Molecular Biology. — 2007. — Pp. 33-34.

[7] Аман E. Э., Деменков П. С., Немятов А. И., Иванисенко В. А. Associative network discovery (and) - программный пакет для автоматической реконструкции молекулярно-генетических ассоциативных сетей // Труды 3-й московской конференции по вычислительной молекулярной биологии. - 2007. - С. 33-34.

[8] Demenkov P. S., Aman Е. Е., Ivanisenko V. A. Prediction of the changes in thermodynamic stability of proteins caused by single amino acid substitutions // Biophysics, - 2006. - Vol. 51, no. Suppl. 1. - P. 49.

[8j Деменков П. С., Аман Е. Э., Иванисенко В. А. Предсказание изменения термодинамической стабильности белков при одиночной аминокислотной замене // Биофизика. — 2006. — Т. 51. — С. 49.

[9] Demenkov P. S., Ivanisenko V. A. Prediction in changes of protein thermodynamic stability upon single mutations // Proceedings of the BGRS-20Q6. — Vol. 1. - 2006.- Pp. 256-259.

[9] Деменков П. С., Иванисенко В. А. Предсказание изменения термодинамической стабильности белка при одиночных мутациях // Труды БГРС-2006. - Т. 1. - 2006. - С. 256-25?.

[10] Aman Е. Е., Dem,enkov P. S., Pintus S. S., Nemiatov A. I., Apasieva N. V., Korotkov R. ОIgnatieva E. V., Podkolodny N. L., Ivanisenko V. A. Devel-

opment of a computer system for the automated reconstruction of molecular-genetic interaction networks // Proceedings BGRS-2006. — Vol. 3. — 2006. — Pp. 15-18.

[10] Аман E. Э., Деменков П. С., Пиитус С. С., Немятов А. И., Апасье-ва Н. В., Короткое Р. О., Игнатьева Е. В., Подколодный Н. Л., Ивапи-сеико В. А. Разработка компьютерной системы для автоматической реконструкции сетей молекулярно-генетических взаимодействий // Труды БГРС-2006. - Т. 3. - 2006. - С. 15-18.

[11] Ivanisenka V. A., Pintus S. S., Demenkov P. S., Krestyanova M. A., Litvenko E. K., Grigorovich D. A., Debelov V. A. Fastprot: a computational workbench for recognition of the structural and functional determinants in protein tertiary structures // Bioinformatics of Genome Regulation and Structure II / Ed. by N.Kolchanov, R. Hofestaedt. — Springer Science+Business Media, Inc, 2006. - Pp. 305-316.

[11] Иванисемко В. А., Пинтус С. С., Деменков П. С., Крестъянова М. А., Литвенко Е. К., Григорович Д. А., Дебелое В. A. Fastprot: автоматизированное рабочее место для распознавания структурных и функциональных детерминант в третичной структуре белка // Биоинформатика регуляции генома и структуры II / под. ред. Н. Колчанова, Р. Хофештад-та. — Springer Science+Business Media, Inc, 2006. — С. 305-316.

[12] Ivanisenko V. A., Demenkov P. S., Aman E. E., Pintus S. S., Fomin E. S. Structure discovery - computer tools for protein analysis and search of drug target // The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development. - Vol. 2. - 2007. - P. 395.

[12] Иванисенко В. А., Деменков П. С., Аман Е. Э., Пинтус С. С., Фомин Э. С. Structure discovery - компьютерные утилиты для анализа белков и поиска лекарственных целей // Пятый московский международный биотехнологический конгресс. — Т. 2. — 2007. — С. 395.

Деменков Павел Сергеевич

Математическое и программное обеспечение

для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий

Автореферат диссертации на соискание учёной степени кандидата технических наук

Подписано в печать 15.10.08. Формат 60x84 1/16. Усл. печ. л. 1,5. Уч.-изд. л. 1,5. Тираж 100 экз. Заказ №187.

Отпечатано в ООО "Омега Принт" 630090, Новосибирск, пр. Лаврентьева, 6

Оглавление автор диссертации — кандидата технических наук Деменков, Павел Сергеевич

Введение

1 Методы извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций

1.1 Знания и онтологии.

1.2 Введение в технологию Text-rriiriirig.

1.3 Извлечение знаний из фактографических баз данных

1.4 Классификация документов.

1.5 Распознавание имён в текстах.

1.6 Экстрагирование из текстов информации о взаимоотношениях сущностей.

1.7 Генерирование гипотез.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Деменков, Павел Сергеевич

4.1.2 Кодирование данных для предсказания изменения термодинамической стабильности.100

4.1.3 Алгоритм модифицированный КРАБ .103

4.2 Алгоритм кластеризации графа .105

4.3 Построение сети взаимосвязи человеческих белков.107

Заключение 111

Литература 114

А Приложения 124

А.1 Пример записи из базы данных KEGG-compound .124

А.2 Пример записей базы данных ChEBI.130

А.З Пример записи из базы данных SwissProt.130

А.4 фрагмент таблицы Gene-info.138

А.5 Пример записи базы данных MINT .138

А.6 Пример описания гена в базе данных TRRD.141

А.7 Пример описания белка в формате GeneNet.143

А.8 Пример описания взаимодействия двух объектов в формате

GeneNet.144

Введение

Объект исследования и актуальность темы. Активное применение современных информационных технологий, средств вычислительной техники и методов прикладной математики в области молекулярно-биологичеких и биомедицинских исследований заложили фундаментальную основу развития такого направления как биоинформатика [15].

Широкомасштабное секвепирование геномов, экспериментальные методы протеомики, геномики и транскриптомики обеспечивают колоссальный рост молекулярно-биологической информации, которую принципиально невозможно осмыслить и переработать без использования специальных программно-информационных средств. Во всем мире интенсивно ведутся исследования в области организации биологических систем и технологий, в частности: высокопроизводительных биочиповых (ДНК-микрочипы, белковые, клеточные и тканевые микрочипы, микрочипы на основе малых молекул); иротеомных и метаболомных экспериментальных технологий, широко используемых в биомедицине, фармакологии, биотехнологии, агробиологии и других областях. При этом следует отметить, что в настоящее время активное развитие экспериментальных методов идентификации молекулярных взаимодействий на самых разных уровнях организации биологических систем значительно опережает развитие биоинформатических средств иоддержки, анализа и интерпретации результатов экспериментов [15]. Всё большую актуальность приобретают вопросы интеграции результатов анализа и интерпретации молекулярно-генетических данных, состоящие в выяснении связи генов, белков и метаболитов с функционированием молекулярно-генетических систем, с молекулярно-биологическими информационными ресурсами при формировании новых знаний в рассматриваемой области. Следует отметить, что знания о молекулярно-генетических взаимодействиях в клетке необходимы для решения широкого круга практически важных задач в области биотехнологии и агробиологии, биомедицины и фармакологии, в частности:

• поиск мишеней для создания лекарственных препаратов;

• оценка потенциальной эффективности и токсичности новых препаратов в доклинических испытаниях;

• идентификация биомаркерных молекул для создания эффективных диагностических систем;

• идентификация важных для продуктивности сельскохозяйственных культур генов;

• выбор генов-кандидатов для генотипирования.

Создание новых и идентификация существующих знаний, их применение на практике для диагностики, предупреждения и лечения различных заболеваний — одна из целей молекулярно-биологических и биомедицинских исследований, а разработка эффективных систем подцержки этих процессов на основе современных информационных технологий и концепции систем управления знаниями — одна из приоритетных задач биоинформатики [15].

На современном этапе из-за высоких темпов роста публикаций и электронных баз данных (БД) в области исследований биологических систем и разработки технологий особую актуальность приобретают вопросы создания адекватного инструментария для систематизации проблемной информации и решения задач идентификации существующих знаний. В частности, в условиях большого потока информации становится все сложнее восстанавливать недостающие связи между молекулярно-генетическими объектами, которые могут приводить к практическому использованию накопленных знаний.

Например, БД данных рефератов научных статей по современным исследованиям в области генетики, молекулярной биологии и биомедицины Pubmed [1] содержит около 15 миллионов публикаций на конец 2006 года и их объем увеличивается в среднем на 500 тысяч статей в год [1]. Созданные в мире тысячи фактографических медико-биологических БД содержат разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объёмы этих БД чрезвычайно велики. Так, БД NCBI Gene [26] содержит 1933023'записей (2006 год), количество которых постоянно увеличивается.

Существуют базы данных содержащие информацию о полиморфизмах, связанных с заболеваниями человека, животных и растений (например, база данных OMIM [48] содержит информацию о 17212 генах, связанных с патологиями человека).

В базе данных Gene Ontology [29] представлено формализованное описание молекулярных функций белков и генов, процессов, в которых они участвуют (130696 биологических процессов и 128548 молекулярных функций для 107701 клеточных компонент).

В базах данных KEGG [28], ЕсоСус [25], MetaCyc [42], GeneNet [30] и др. представлены миллионы фактов о биомедицински и биотехнологиче-ски значимых молекулярио-генетических взаимодействиях, генных сетях, метаболических путях, путях передачи сигналов и др.

Если учесть, что заметная часть информации в БД по данному направлению слабо структурирована и представлена в текстовом виде, то становится ещё более очевидной актуальность соответствующего математического и -программного инструментария.

Создание новых и идентификация существующих знаний как базовые виды деятельности в жизненном цикле знаний рассматриваются в качестве системообразущих объектов в системах управления знаниями (СУЗ). Активные исследования в области создания СУЗ начались с 90-х годов прошлого столетия. Среди авторов публикаций- следует выделить исследовау ния О. Bodenreider, К.М. Wiig, Т.Н. Davenport, L. Prusak, S.B. Martins, H. Takeuchi, J.M. Firestone, I. Nonaka, C.M. Климова, T.A. Гавриловой, А.Ф. Тузовского и В.З. Ямпольского.

Анализ работ этих авторов показывает, что одним из основных подходов к созданию СУЗ и его компонент является семантический подход, который основан на использовании методов и технологий по работе со смыслом, семантикой данных, информации и знаниями, таких как онтологии предметных областей, технологии их построения и сопровождения, семантические метаданные, семантический поиск, системы логического вывода, семантическое профилирование знаний экспертов, семантические порталы и сети и т.п. И все это с соответствующей технологической поддержкой в части языков описания, моделей, программных инструментов и систем.

Существуют различные методы представления накопленных знаний, в число которых входят продукционные модели, семантические сети, фреймы и онтологии. Из перечисленных наиболее часто в биологических системах применяются семантические сети и онтологии [13,49,55,65].

Цель работы: разработка комплекса методов, моделей и алгоритмов для создания информационно-программной системы обеспечения поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований на основе автоматизации процесса реконструкции сетей ассоциативных взаимосвязей между молекулярно-генетическими объектами из научных текстов и фактографических баз данных.

Для достижения поставленной цели исследования были поставлены и решены следующие задачи:

1. Выявление состава и структуры знаний с созданием онтологической модели их представления для исследований в области молекулярно-генетических взаимодействий.

2. Разработка подходов и методов извлечения знаний из текстовых ис точников информации для заданной предметной области.

3. Разработка средств интеграции информации, накопленной в существующих открытых фактографических базах данных.

4. Разработка архитектуры программно-информационной системы для автоматизации реконструкции сетей ассоциативных связей на основе созданной онтологической модели, реализация её в виде программно-информационного комплекса с графическим пользовательским интерфейсом.

5. Апробация технологии применения разработанной программно-информационной системы на примере решения задачи анализа особенностей ассоциативных белковых сетей человека.

Методы исследования. Для решения поставленных задач в работе используются методы системного анализа, теории графов, теории создания систем управления знаниями, объектно-ориентированного проектирования и программирования.

Научная новизна. В диссертационной работе предложен подход к решению задач по обеспечению одного из базовых видов деятельности в жизненном цикле знаний: поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований, который реализован в виде проблемно-ориентированной информационно-программной системы — одной из основных подсистем системы управления знаниями в рассматриваемой области.

Получены следующие основные результаты, обладающие научной новизной:

1. Предложена онтологическая модель для описания молекулярно-генетических объектов, процессов, заболеваний и взаимоотношений между ними.

2. Разработан новый метод извлечения информации о молекулярно-генетических взаимодействиях из текстов рефератов научных статей и общедоступных фактографических баз данных, ориентированных на фармакологию, биотехнологию и биомедицину.

3. На основе предложенных онтологической модели, методов и алгоритмов разработана первая отечественная информационная система Associative Network Discovery (ИС AND), которая по полноте представления типов взаимодействий и извлечённых фактов превосходит аналогичные зарубежные разработки.

4. Разработан метод машинного обучения на основе известного алгоритма КРАБ, адаптированный для предсказания изменения термодинамической стабильности белка при одиночной аминокислотной замене.

5. С использованием созданной ИС и адаптированного метода КРАБ проведён анализ человеческого протеома на предмет влияния аминокислотных замен на термодинамическую стабильность белков.

Научная и практическая ценность. Разработанная на основе предложенных методов, моделей и алгоритмов ИС AND обеспечивает компьютерную поддержку исследований в таких областях современной науки как молекулярная биология, генетика, биотехнологии, биомедицина, фармакология, агробиология и др. Система позволяет проблемным специалистам легко ориентироваться в огромных гетерогенных хранилищах знаний в области биологии и медицины, быстро извлекать необходимую информацию с достаточно высокой точностью и осуществлять своевременный мониторинг вновь появляющихся фактов. Она может быть полезна для студентов, аспирантов и молодых учёных для быстрого погружения в предметную область и ознакомления с новейшими открытиями, связанными с интересующими исследователя биологическими объектами. ИС AND закладывает базу для создания СУЗ в области молекулярно-биологических исследований.

Реализация и внедрение результатов работы. Система AND внедрена в Институте цитологии и генетики СО РАН (г. Новосибирск) с целью получения новых знаний, проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскриптомика, про-теомика, метаболомика и др.

Структура работы. Работа состоит из введения, четырёх глав, заключения, выводов, восьми приложений и списка литературы.

В первой главе содержится обзор литературы по способам представления знаний, методам извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций, а также основные понятия технологии Text-mining и систем поддержки принятия решений. Рассматривается только часть задач, которые решаются в рамках технологии Text-mining.

Глава 2 содержит описание онтологической модели представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями и процессами. В главе описываются методы извлечения информации из доступных фактографических баз данных. А также способы расширения словарей названий молекулярно-генетических объектов, процессов и заболеваний и алгоритмы извлечения фактов взаимодействия между ними из текстов научных статей.

Глава 3 содержит описание архитектуры информационной системы AND. Описаны средства разработки, используемые при создании информационной системы, и графический интерфейс пользователя для взаимодействия с базой данных ANDCell. А также дано описание алгоритмов раскладки ассоциативных сетей в пространстве, реализованные в системе.

Четвёртая глава содержит описание применения разработанной информационной системы AND для анализа человеческого протеома. В главе описаны метод машинного обучения модифицированный КРАБ и алгоритм кластеризации графов. А также проведён анализ кластеров чувствительных к мутациям белков.

В заключении осуждаются и обобщаются основные результаты исследования.

Положения, выносимые на защиту.

1. Онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.

2. Метод извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.

3. Информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из гетерогенных источников информации.

4. Клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели.

5. Алгоритмы раскладки графа ассоциативных сетей на плоскости.

6. Метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ.

Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:

• международная конференция «The Sixth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2008)» (Новосибирск, Россия, 2008 г.);

• международная конференция «З-rd Moscow Conference on Computational Molecular Biology» (Москва, Россия, 2007 г.); международная конференция «The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development» ( Москва, Россия, 2007 г.); международная конференция «8th Meeting German / Russian Virtual Network on Computational Systems Biology» (Билефельд, Германия, 2007 г.); международная конференция «З-rd International Conference: Basic Science for Medicine» (Новосибирск, Россия, 2006 г.); международная конференция «The Fifth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2006)» (Новосибирск, Россия, 2006 г.); российская конференция «VI Всероссийской научно — практической конференции AS'2007 (СИСТЕМЫ АВТОМАТИЗАЦИИ в образовании, науке и производстве)» (Новокузнецк, Россия, 2007 г.).

Заключение диссертация на тему "Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий"

Заключение

В ходе выполнения работы были получены следующие результаты:

1. Впервые в России разработана информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из большинства доступных гетерогенных источников информации: научных публикаций, разнородных экспериментальных данных, представленных в фактографических базах данных. Система по многим параметрам (полноте представления типов взаимодействий, количеству извлечённых фактов и др.) превосходит зарубежные аналоги.

2. Разработана онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.

3. Разработан метод и основные технологии извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.

4. Разработана клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели. Предложенная архитектура реализована в виде программно-информационного комплекса с платформо-независимым графическим пользовательским интерфейсом для представления ассоциативных сетей молекулярно-генетических взаимодействий.

5. Разработаны алгоритмы раскладки графа ассоциативных сетей на плоскости. Реализация алгоритмов позволяет использовать вычислительные возможности современных многопроцессорных систем и/или выполнять вычисления с использованием графических ускорителей.

6. Разработан метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ. Применение созданной ИС и предложенного метода позволило выявить, что белки чувствительные к мутациям, находящиеся в одном кластере, отвечают за схожие процессы жизнедеятельности клетки.

Результаты применения созданной на основе разработанных моделей, методов и алгоритмов ИС AND показали их эффективность, в части обеспечения поддержки процессов поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований. По результатам апробации ИС AND можно сделать вывод о перспективности её применения для:

• реконструкции и анализа сетевых моделей сложных молекулярно-генетических взаимодействий (генные сети), которые, как показывает опыт работы с российскими и зарубежными коллегами, востребованы в области биоинформационных, биотехнологических и биомедицинских исследований;

• проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскрип-томика, протеомика, метабо-ломика;

• решения прикладных задач в области фармакологии, биомедицины и биотехнологии для поиска новых лекарственных средств и оценки их действия на организм: реконструкция генных и метаболических сетей, описывающих на молекулярно-генетическом уровне функционирование клеток нормального и больного организма, пути проникновения патогена в клетку и взаимодействия с клеткой хозяина, пути и варианты воздействия лекарственных средств;

• построение ассоциативных семантических сетей, связывающих симптомы и наблюдения за пациентом с заболеваниями и методами лечения (в медицине).

Библиография Деменков, Павел Сергеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. База данных рефератов научных статей: Entrez-pubmed. http://pubmed.gov.

2. Бухбиндер В. А. Двуединый статус текста // Проблемы текстуальной лингвистики. — 1983.

3. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — СПб.: Питер, 2001.

4. Дэюарратано Д., Райли Г. Экспертные системы: принципы разработки и программирование. — 4-е издание изд. — Издательский дом Вильяме, 2006.

5. Загоруйко Н. Г. Прикладные методы анализа данных и знаний.— Новосибирск: Изд-во Ин-та математики, 1999.

6. Иванов Б. Н. Дискретная математика. Алгоритмы и программы. — Москва: Лаборатория Базовых данных, 2003.

7. Кузнецов И. П. Семантические представления / Под ред. Е. В. Золотое. — М.: Наука, 1986.

8. Прим Р. К. Кратчайшие связывающие сети и некоторые обобщения // Кибернетический сборник. — 1961. — № 2. — С. 95-107.

9. Тузовский А. Ф., Чириков С. В., Ямпольский В. 3. Системы управления знаниями (методы и технологии) / Под ред. В. 3. Ямпольского. — Томск: Издательство НТЛ, 2005. С. 260.

10. Altman R. PharmGKB: Capturing knowledge to catalyze phar-macogenomics research. — Available from Nature Precedings. http://dx.doi.org/10.1038/npre.2006.8.1.

11. Bairoch A., Apweiler R. The swiss-prot protein sequence data bank and its new supplement trernbl // Nucleic Acids Research. — 1996. — Vol. 24, no. 1.- Pp. 21-25.

12. Blaschke C., Valencia A. The frame-based module of the suiseki information extraction system // IEEE Intelligent Systems.— 2002.— Vol. 17, no. 2.- Pp. 14-20.

13. Bodenreider 0. Biomedical ontologies in action: role in knowledge management, data integration and decision support // Yearb Med Inform. — 2008. Pp. 67-79.

14. Brinda К. V., Kannan N. Protein structure: insights from graph theory // Journal of teoretica and computational chemistry. — 2002. — Vol. 1, no. 1.

15. Системная компьютерная биология / Под ред. Н. А. Колчанова, С. С. Гончарова. — Новосибирск: Издательство СО РАН, 2008.

16. Capriotti Е., Fariselli P., Casadio R. A neural-network-based method for predicting protein stability changes upon single point mutations // Bioin-formatics. 2004. - Vol. 20, no. Suppl 1. - Pp. i63-i68.

17. Capriotti E., Fariselli P., Casadio R. I-mutant2.0: predicting stability changes upon mutation from the protein sequence or structure // Nucleic Acids Research. 2005. - Vol. 33. - Pp. W306-W310. - Web Server issue.

18. Chen D., Muller H. M., Sternberg P. W. Automatic document classification of biological literature // BMC Bioinformatics. — 2006.— Vol. 7.— P. 7:370.

19. Cheng J., Randall A., Baldi P. Prediction of protein stability changes for single site mutations using support vector machines // Proteins. — 2006. — Vol. 62, no. 4.- Pp. 1125-1132.

20. Prevost M., Wodak S. J., Tidor В., Karplus M. Contribution of the hydrophobic effect to protein stability: analysis based on simulations of the ile-96-ala mutation in barnsase // Proc. Natl. Acad. Sci.— 1991.— no. 88.— Pp. 10880-10884.

21. Cooper J., Kershenbaum A. Discovery of protein-protein interactions using a combination of linguistic, statistical and graphical information // BMC Bioinformatics. 2005. - Vol. 6, no. 1. - P. 143.

22. Dang L. X., Merz К. M., Kollman P. A. Freeenergy calculations on protein stability: Thr-157 val-157 mutation of t4 lysozyme / / J. Am Chem Soc. — 1989.- Vol. 111. Pp. 8505-8508.

23. DuBois P. MySQL cookbook Second Edition. O'Relly, 2006.

24. Keseler I., Collado-Vides J., Gama-Castro S., Ingraham J., Paley S., Paulsen I. TPeralta-Gil M., Kavp P. D. Ecocyc: A comprehensive database resource for escherichia coli // Nucleic Acids Research. — 2005. — Vol. 33. Pp. D334-D337.

25. Maglott D., Ostell J., Praitt K. D., Tatusova T. Entrez gene: gene-centered information at ncbi // Nucleic Acids Res. — 2005. — Vol. 33, no. Suppl. 1. — Pp. D54-D58. — Database Issue.

26. Frishman D., Argos P. Knowledge-based protein secondary structure assignment 11 Proteins. — 1995. — Vol. 23, no. 4.- Pp. 566-579.

27. Kanehisa M., Goto S., Hattori M., Aoki-Kinoshita K. F., Itoh M., Kawashima S., Katayama TAraki M., Hirakawa M. From genomics to chemical genomics: new developments in kegg // Nucleic Acids Res. — 2006. Vol. 34. - Pp. D354-D357.

28. Ananko E. A., Podkolodny N. L., Stepanenko I. L., Podkolodnaya O. A., Rasskazov D. A., Miginsky D. S., Likhoshvai V., Ratushny A. V., Podkolodnaya N. N., Kolchanov N. A. Genenet in 2005 // Nucleic Acids Res. — 2005. Vol. 33. - Pp. D425-D427.

29. Gilis D., Rooman M. Prediction of stability changes upon single-site mutations using database-derived potentials // Theor Chem Acc. — 1999. — Vol. 101, no. 46-50.

30. Gruber T. R. Torwards principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. 1995. - Vol. 43, no. 5/6. - Pp. 907-928.

31. Guerois R., Nielsen J., Serrano L. Predicting changes in the stability of proteins and protein complexes: a study of more than 1000 mutations // J. Mol. Biol 2002. - Vol. 320, no. 2. - Pp. 369-387.

32. Friedler A., Veprintsev D. В., Hansson L. 0., Fersht A. R. Kinetic instability of p53 core domain mutants: implications for rescue by small molecules // J Biol Chem. 2003. - Vol. 26, no. 278. - Pp. 24108-24112.

33. Lcl (lazarus component library), http://www.lazarus.freepascal.org/.

34. Lehmann M., Wyss M. Engineering proteins for thermostability: the use of sequence alignments versus rational design and directed evolution // Curr Opin Biotechnol — 2001. — August. Vol. 4, no. 12. — Pp. 371-375.

35. Gorshkova /. N., Liu Т., Zannis V. I., Atkinson D. Lipid-free structure and stability of apolipoprotein a-i: probing the central region by mutation // Biochemistry. 2002. - Vol. 33, no. 41. - Pp. 10529-10539.

36. Jenssen Т. K., Laeyreid A., Komorowski J., Hovig E. A literature network of human genes for high-throughput analysis of gene expression // Nat Genet. 2001. - Vol. 28, no. 1. - Pp. 21-28.

37. Mertins K., Heisig P., Vorbeck J. e. Knowledge managment: concepts and best practices (2nd ed.) // Berlin: Springer Verlag. — 2003. — P. 383.

38. Chatr-aryamontri A., Ceol A., Palazzi L. M., Nardelli G., Schneider M. V., Castagnoli L., Cesareni G. MINT: the Molecular INTeraction database 11 Nucl. Acids Res. 2007. - Vol. 35, no. Suppl. 1. - Pp. D572-D574.

39. Griffiths-J ones S., Grocock R. J., van Dongen S., Bateman A., En-right A. J. miRBase: microRNA sequences, targets and gene nomenclature 11 Nucl. Acids Res. 2006. - Vol. 34, no. Suppl. 1. - Pp. D140-D144.

40. Mysql. http://www.mysql.com/.

41. Nakai K., Kidera A., Kanehisa M. Cluster analysis of amino acid indices for prediction of protein structure and function // Prot. Eng. — 1988. — Vol. 2.-Pp. 93-100.

42. Novichkova S., Egorov S., Daraselia N. MedScan, a natural language processing engine for MEDLINE abstracts // Bioinformatics. — 2003. — Vol. 19, no. 13. Pp. 1699-1706.

43. Shankar R. D., Martins S. В., O'Connor M., Parrish D. В., Das A. K. An ontology-based architecture for integration of clinical trials management applications // AM I A Annu Symp Proc. 2007. — no. 11. — Pp. 661-665.

44. Opengl (open graphic library), http://www.opengl.org/.

45. Nikitin A., Egorov S., Daraselia N., Mazo I. Pathway studio the analysis and navigation of molecular networks // Bioinformatics. — 2003. — Vol. 19, no. 16. - Pp. 2155-2157.

46. Pitera J. W., Kollman P. A. Exhaustive mutagenesis in silico: multico-ordinate free energy calculations on proteins and peptides // Proteins. — 2000. Vol. 41. - Pp. 385-397.

47. Hanisch D., Fluck J., Mevissen H. Т., Zimmer R. Playing biology's name game: Identifying protein names in scientific text // Proceedings of the 8th Pacific Symposium on Biocomputing. — 2003. — January. — Pp. 403-414.

48. Capriotti E., Fariselli P., Calabrese R., Casadio R. Predicting protein stability changes from sequences using support vector machines // Bioinfor-matics. 2005. - Vol. 21, no. Suppl 2. - Pp. ii54-ii58.

49. Cho Y. R., Shi L., Ramanathan M., Zhang A. A probabilistic framework to predict protein function from interaction data integrated with semantic knowledge // BMC Bioinformatics. 2008. - Vol. 1, no. 9. - P. 382.

50. Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weis-sig H., Shindyalov I. N., Bourne P. E. The protein data bank // Nucleic Acids Research. 2000. - Vol. 28, no. 1. - Pp. 235-242.

51. Bava K. A., Gromiha M. M., Uedaira H., Kitajima K., Sarai A. Protherm, version 4.0: thermodynamic database for proteins and mutants // Nucleic Acids Res. 2004. - Vol. 32. - P. D120-D121.

52. Zhou G., Zhang J., Su J., Shen D., Tan C. Recognizing names in biomedical texts: a machine learning approach // Bioinformatics.— 2004.— Vol. 20, no. 7.- Pp. 1178-1190.

53. Swanson D. Fish oil, raynaud's syndrome, and undiscovered public knowledge 11 Perspect Biol Med. — 1986. Vol. 30, no. 1. — Pp. 7-18.

54. Tanabe L., Wilbur W. Tagging gene and protein names in biomedical text 11 Bioinformatics. — 2002. — Vol. 18, no. 1.- Pp. 1124-1132.

55. Topham С. M., Srinivasan N., Blundell Т. L. Prediction of the stability of protein mutants based on structural environment-dependent amino acid substitution and propensity tables // Prot. Eng.— 1997.— Vol. 101. — Pp. 46-50.

56. Zawodny J. MySQL Optimization.— O'Reilly, 2002.http://jeremy.zawodny.com/mysql/mysql-optimization.html.

57. Zeoslib open-source tools for your database solutions, http://zeos.firmos.at/.

58. Zheng В., Lu X. Using protein-semantic network metrics to evaluate functional coherence of protein groups // AMIA Annu Symp Proc. — 2007. — no. 11.-P. 1174.

59. Работы автора по теме диссертации

60. Атап E. E., Demenkov P. S., Ivanisenko V. A. Textomics: the instrument for biological knowledge discovery // The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development. Vol. 2. - 2007. - P. 391.

61. Demenkov P. S., Атап E. E., Ivanisenko V. A. Prediction of the changes in thermodynamic stability of proteins caused by single amino acid substitutions // Biophysics. 2006. — Vol. 51, no. Suppl. 1. - P. 49.

62. Demenkov P. S., Ivanisenko V. A. Prediction in changes of protein thermodynamic stability upon single mutations // Proceedings of the fifth international conference on bioinformatics of genome regulation and structure. — Vol. 1,- 2006.- Pp. 256-259.