автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК

кандидата физико-математических наук
Черемушкин, Евгений Сергеевич
город
Новосибирск
год
2006
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК»

Оглавление автор диссертации — кандидата физико-математических наук Черемушкин, Евгений Сергеевич

ВВЕДЕНИЕ.

1. АЛГОРИТМЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ РЕГУЛЯТОРНЫХ

ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК.

1.1. Биологическая постановка задачи.

1.2. Обзор подходов к распознаванию ССТФ.

1.3. Поиск шумоподобных сигналов на последовательности ДНК.

Преобразование последовательности ДНК к сигналу.

Алгоритм поиска сигналов Баркера.

Визуализация автокорреляционной функции цепочек ДНК.

Анализ разброса АКФ в различных участках ДНК.

Изучение зависимости скоррелированности регуляторных участков от положения в гене.

1.4. Обобщенные сигналы Фрэнка в применении к анализу последовательностей

Применение сигналов Фрэнка к анализу последовательностей ДНК.

Результаты.

1.5. Исследование последовательностей ДНК с помощью кода Голея и кода

Хэмминга (4,7).

Коды Хэмминга.

Коды Голея.

Анализ последовательностей ДНК с помощью сигналов Голея.

Результаты анализа последовательностей с помощью одного из кодов Хэмминга.

Результат анализа последовательностей с помощью кода Голея.

1.6. Алгоритмы визуализации ДНК на основе вейвлет-преобразования.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Черемушкин, Евгений Сергеевич

Биоинформатика - это наука о компьютерных методах решения биологических задач. В настоящее время научная деятельность в биоинформатике активизируется, что связано, прежде всего, с появлением в молекулярной биологии и генетике очень больших объемов данных, обработку которых необходимо автоматизировать[1,2].

Исследования в биоинформатике и создание соответствующего программного обеспечения являются актуальными в связи с решением прикладных задач: изучением болезней, в том числе наследственных, созданием высокотехнологичных лекарственных средств и др.[3,4]

Одной из актуальных задач является задача разработки алгоритмов распознавания сайтов связывания с транскрипционными факторами (ССТФ). Специфические белки, называемые транскрипционными факторами, осуществляют регуляцию экспрессии генов. Транскрипционные факторы определенных типов связываются с ССТФ, расположенными в промоторных районах генов и стимулируют транскрипцию (производство РНК) этих генов[5,6,7,8].

Опишем упрощенную биологическую постановку задачи. Белком Pj назовем следующий объект:

Pt=(S,C,R), где

S е ^Г - структура белка,

С е {"+","-"} - концентрация белка в клетке (ядре),

R е {1,0} - информация от том, является ли белок регуляторным.

В ядре клетки присутствуют белки, называемые транскрипционными факторами. Для них R=l, для остальных - 0. Белки имеют различные структуры и присутствуют в различных концентрациях. Концентрация белков может меняться.

Введем понятие гена. Ген Gj - это участок ДНК, «с которого производится белок». Ген задается следующими параметрами:

Gj=(s,e,chr) ( где s,eeN - координаты гена хромосоме, chr е jV - номер хромосомы.

Для простоты будем считать, что одному гену соответствует один белок. Зададим отображение f, соответствующее процессам транскрипции и трансляции. "Функция f производит белки из генов".

Ген определяется позициями начала гена и конца гена на хромосоме, а также номером хромосомы.

Более внимательному рассмотрению подлежат районы, расположенные на ДНК до начала гена, называемые промоторами. В упрошенной модели каждому гену соответствует один промотор: где spj = Sj -1 ООО - начало промотора, ерj = Sj - конец промотора.

Конец промотора совпадает со стартом гена, а старт промотора обычно берется как старт гена-1000. Таким образом, длина промотора 1000 букв.

Промотор содержит набор цис-элементов (сайтов). Набор цис-элементов промотора PRj задается как f'Gj^Pr

Gj PR

PRj=(sp,ep,chrp,C),

Цис-элементом (или сайтом) назовем подцепочку промотора ДНК: где i - номер белка Pi который присоединяется к с^ s,e - относительные координаты цис-элемента. Рассмотрим следующий пример (рис. 1): т ci =(ii,si,ei)

1г =1 sf =200 ei =225 t t t

PR,=(sp,ep,chrp,C) sp=122456 ep=123456 chrp=5 С=(сьс2)

Gi=(s,e,chr) s=123 456 e=126 543 chr=5

Рис. 1. Пример схематичного представления одного гена

В данном примере рассмотрен один ген с Gi. Промотор этого гена содержит два цис-элемента (сайта) С] и сг. Эти цис-элементы «распознаются» белками Pj и Рг соответственно. Заметим, что белки Pi и Рг должны быть регуляторами, а белок Рз может быть и регулятором, и не регулятором.

Работу этого гена можно схематично представить как операцию проверки (рис. 2):

ЕСЛИ (Pi.C = "+" и

Р2.С = "+") ТОГДА

Увеличить (Р3.С) Рис. 2. Схематичное представление производства белка

Заметим, что эта схема очень приблизительная. В природе все сложнее, и многое еще не исследовано.

Набор сайтов совместно с информацией о влиянии связывания определенного набора транскрипционных факторов на экспрессию гена назовем регуляторной моделью гена.

Разработан целый ряд алгоритмов распознавания ССТФ. К ним относятся алгоритмы построения консенсуса [9,10], весовых матриц [10], олигонуклеотидных матриц [11], оценки физико-химических свойств [12], построения информационной меры [13,14], а также нейронные сети [15], различные статистические модели [16] и др.

Несмотря на разнообразие подходов, проблема построения точных алгоритмов распознавания ССТФ в настоящее время не может считаться окончательно решенной [17]. Причина этого состоит в большом разнообразии контекстных, физико-химических и конформационных особенностей ССТФ; механизмов ДНК-белковых взаимодействий между ССТФ и транскрипционными факторами; специфичности контекста, окружающего ССТФ, степени консервативности нуклеотидного контекста в эволюции.

Технология анализа данных генетической информации требует создания и сопровождения сложных программных средств, а также алгоритмов, обеспечивающих предсказание и достоверность выводов.

В данной области применяются специальные процессы проектирования и анализа алгоритмов и программ, специальные форматы данных, редакторы генетических данных, базы данных и знаний, графические интерфейсы взаимодействия человека и компьютера.

Ввиду комплексной структуры активно исследуемых в настоящее время заболеваний, таких как рак и др, задача распознавания сайтов связывания с ТФ и построения регуляторной модели промоторов становится еще более актуальной. Эти заболевания нарушают регуляторную функцию большого количества генов, которая может быть исправлена с помощью воздействия одного или нескольких транскрипционных факторов.

Для понимания, какие транскрипционные факторы вовлечены в регуляторный процесс, необходимо создание алгоритмов и программ для распознавания соответствующих сайтов.

В последнее время стали появляться новые типы биологических данных, таких как микрочипы, однонуклеотидные полиморфизмы и др. Эта информация, наряду с последовательностью ДНК, может быть использована для распознавания ССТФ и, таким образом, может улучшить его.

Поэтому, в частности, является актуальной разработка новых алгоритмов и программных средств для анализа микрочиповых данных.

Целью данной работы являлась разработка новых и улучшение имеющихся алгоритмов и программ для приближенной идентификации подцепочек в последовательностях ДНК, называемых цис-элементами или сайтами связывания транскрипционных факторов с ДНК (ССТФ). Разрабатываемые алгоритмы в каждом конкретном случае ориентированны на специфическую информацию, которой обладает биолог.

В результате был разработан комплекс алгоритмов предварительной фильтрации и затем последующей идентификации цис-элементов и объектно-ориентированная среда, реализующая эти алгоритмы.

Все алгоритмы, рассмотренные в работе, разбиваются на три большие группы: алгоритмы предварительной обработки ДНК, алгоритмы последующей обработки и алгоритмы визуализации. В ряде алгоритмов осуществляется переход от нуклеотидного уровня анализа ДНК на уровень анализа сигналов.

Методы исследования. Методы объектно-ориентированного программирования, проектирования и анализа алгоритмов и программ, разработки человеко-машинных интерфейсов; методы обработки сигналов специального вида и приближенной идентификации подцепочек.

Также при разработке программно-аппаратных систем учитывалось требование платформенной независимости. В связи с тем что системы создавались для проведения исследований биологами-экспериментаторами, работающими на различных вычислительных системах, большое внимание уделялось графическому представлению результатов анализа.

Научная новизна

Проведены исследования, направленные на изучение возможностей применения для анализа ДНК различных алгоритмов обработки сигналов. В частности, изучались корреляционные функции между сигналами, ассоциированными различными методами с ДНК, и сигналами, построенными на основе некоторых замечательных кодовых последовательностей.

В результате проведенных исследований был реализован ряд программных систем, полезных для исследования генетической информации, базирующихся на алгоритмах приближенной идентификации подцепочек в последовательностях ДНК. Как результат, разработан набор алгоритмов поиска цис-элементов в регуляторных последовательностях ДНК, которые используют экспериментальные биологические данные различных типов.

Предложена библиотека классов, функций и структур для обработки генетической информации: промоторов генов, цис-элементов, весовых матриц, промоторных моделей и др. На ее основе реализована программная система GRESA, нашедшая применение на практике.

Для анализа данных экспрессии генов и построения промоторной модели разработана программная система ExPIain. Система использует некоторую формализованную модель регуляторных генетических процессов в клетке.

Практическая ценность

Создан ряд алгоритмов, которые переданы отечественным и зарубежным заказчикам и применяются в коммерческих приложениях. В частности, программный продукт ExPIain внедрен и используется немецкой компанией Biobase.

По результатам работы была написана глава в книге "Analytical Tools for DNA, Genes and Genomes", изданной в издательстве "DNA Press".

Апробация работы

Результаты работы докладывались на различных конференциях: ЕССВ'2003 (Париж, Франция); Pacific Symposia on Biocomputing (Гаваи, США); "Genome Informatics", (Cold Spring Harbor Laboratory); на Дне молодых ученых Samsung (Новосибирск); Конференции естественных вычислений ICNC'05 (Чаньша, Китай); Немецкой конференции по биоинформатике GCB'05 (Гамбург, Германия); конференции «Технологии Майкрософт в информатике и программировании» в 2004 - 2006 гг. (Новосибирск).

Автором по теме диссертации опубликовано 35 печатных работ. Структура и объем работы

Диссертационная работа состоит из введения, трех глав и списка литературы. Объем диссертации - 140 стр. Список литературы содержит 97 наименований. Работа включает 50 рисунков и графиков, полученных в результате расчетов на ЭВМ, а также 12 таблиц.

Заключение диссертация на тему "Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. Проведены комплексные исследования, позволившие разработать и реализовать ряд новых алгоритмов и усовершенствовать имеющиеся алгоритмы обработки сигналов с целью применения их для анализа регуляторных последовательностей ДНК.

2. Разработан набор алгоритмов поиска цис-элементов в регуляторных последовательностях ДНК, которые используют экспериментальные биологические данные различных типов, такие как данные по экспрессии генов, данные об однонуклеотидных полиморфизмах, данные о гомологичных последовательностях.

3. Создана программная система GRESA, содержащая набор классов для обработки генетической информации: промоторов генов, цис-элементов, весовых матриц, промоторных моделей и предоставляющая широкие возможности для анализа генетической информации.

4. Разработана программная система ExPlain для анализа данных экспрессии генов и построения промоторной модели в соответствии с предложенной формализованной обобщенной регуляторной моделью гена.

ЗАКЛЮЧЕНИЕ

В рамках настоящей работы разработан ряд новых и улучшены имеющиеся алгоритмы и разработаны программные системы для приближенной идентификации подцепочек в последовательностях ДНК, называемых цис-элементами или сайтами связывания транскрипционных факторов с ДНК (ССТФ).

Автором было изучено применение теории шумоподобных сигналов к анализу регуляторных последовательностей ДНК. Аналогичных исследований других научных коллективов в мире автором не обнаружено.

Было изучено применение вейвлетов к анализу последовательностей ДНК.

Алгоритмы предварительной обработки ДНК основываются на принципах обработки шумоподобных и других сигналов. Последовательность ДНК преобразуется в сигнал, протяженный во времени. Затем этот сигнал анализируется несколькими алгоритмами: алгоритмом поиска сигналов Баркера, сигналов Фрэнка, алгоритмом декодирования кодами Голея, алгоритмом вейвлет-преобразования.

Рассмотрены алгоритмы идентификации цис-элементов (подцепочек в регуляторных районах ДНК) с использованием известной заранее информации об этих подцепочках. Рассмотрен алгоритм весовых матриц. Новый алгоритм распознавания двойных сайтов, разработанный автором.

Авторами исследован существующий и предложен новый модифицированный алгоритм филогенетического футпринта, реализующий лучший по сравнению с существовавшими ранее методами поиск сайтов в гомологичных регуляторных последовательностях.

Изначально алгоритм филогенетического футпринта был предложен в 1991-1992 гг., когда появилось достаточно информации о последовательностях регуляторных районов генов различных организмов.

Нами предложен новый алгоритм анализа данных по экспрессии генов (микрочипов) с целью определения регуляторной промоторной модели гена. Также нами предложен алгоритм выявления регуляторных свойств однонуклеотидных полиморфизмов.

В ходе работы были разработаны несколько программных продуктов, объединяющих все описанные выше алгоритмы. История разработки этих программных продуктов содержит несколько экспериментальных версий, которые были использованы для апробирования набора классов, реализованных в окончательной версии.

Реализован алгоритм филогенетического футпринта, создана база данных консервативных некодирующих последовательностей. Пакет программ SNPResearch, производящий анализ однонуклеотидных полиморфизмов в последовательностях ДНК. Далее разработана интегральная система GRESA, включающая различные алгоритмы поиска ССТФ: алгоритм поиска сайтов ядерных рецепторов, алгоритм поиска ССТФ при имеющихся данных по экспрессии генов, алгоритм поиска сайтов в наборе последовательностей промоторов одного вида, различающихся по фенотипу, алгоритм анализа однонуклеотидных полиморфизмов, улучшенный алгоритм филогенетического футпринта.

Для обработки информации с помощью алгоритмов, запрограммированных в системе GRESA, реализовано несколько интерфейсов.

Каждый алгоритм имеет интерфейс командной строки, принимающий входные файлы в качестве параметров.

Для комплексного анализа данных по экспрессии генов (микрочипов) с целью распознавания регуляторных молекул, задействованных в регуляции экспериментов, проведенных пользователем, нашей группой разработана объединенная информационная система ExPlain - система по анализу результатов микрочипов с целью выявления функционально важных молекул.

Пакет cissearch, разработанный нашей группой в рамках программы «СТАРТ», написан на С++ и на данный момент представляет приложение с графическим интерфейсом, позволяющим обрабатывать различные типы данных: последовательности ДНК, гомологи, данные микрочиповых экспериментов, пути передачи сигналов.

Для анализа указанных данных используется пять алгоритмов: обработка микрочиповых данных, анализ набора генов, филогенетический футпринт, анализ единичных полиморфизмов и анализ аллелей. Все алгоритмы описаны в главе 2.

Наряду с текстовым выводом результатов реализован графический вывод. Несомненно, графическое представление помогает исследователю заранее проверить адекватность исходных данных и оценить полученные результаты качественно.

В нашем проекте реализовано несколько типов графиков (гистограммы, столбчатые диаграммы), отражающих различные свойства данных и позволяющие провести анализ этих данных.

Качество распознавания было проверено на реальных примерах: данных по синдрому хронической усталости и данных по специальной раковой линии клеток, у которых апоптоз стимулируется повышением фактора e2fl.

Анализируя полученные результаты, видно, что ключевую роль могут играть факторы HNF-lalpha, POU1F1 и NF-KappaB. Из литературных данных была получена следующая информация. Фактор POU1F1 - фактор гормона роста. Снижение сывороточного уровня гормона роста наблюдается у пациентов с фибромиалгией, которая обычно ассоциируется с синдромом хронической усталости[60]. По данным [61] фактор NF-KappaB регулирует экспрессию фермента iNOS в скелетных мышцах, и его повышение у больных различными хроническими заболеваниями (сердечная недостаточность, обструктивное заболевание легких) может приводить к атрофии мышц, потере веса, развитию синдрома усталости. Фактор HNF-lalpha играет ключевую роль в развитии и регуляции работы печени, заболевания которой также сопровождаются развитием синдрома усталости.

Таким образом, вполне вероятно, что эти факторы, а также другие факторы, фигурирующие в результатах (Staf, SRF), задействованы в развитии некоторых аспектов синдрома хронической усталости. Таким образом, они являются наиболее вероятными мишенями для новых лекарственных средств с целью борьбы с этим заболеванием.

Библиография Черемушкин, Евгений Сергеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Kitano Н. Systems biology: a brief overview. //Science., 2002 Mar 1 - 295(5560) - P. 16624. Review.

2. Thornton JM. From genome to function. // Science. 2001 Jun 15 - 292(5524) -P.2095-7. Review.

3. Radtke F, Clevers H. Self-renewal and cancer of the gut: two sides of a coin. // Science. -2005 Maf 25 307(5717) - P. 1904-9.

4. Dembitsky VM, Gloriozova ТА, Poroikov VV. Novel antitumor agents: marine sponge alkaloids, their synthetic analogs and derivatives. // Mini Rev Med Chem., 2005 Mar - 5(3) -P.319-36.

5. Davidson EH, Erwin DH. Gene regulatory networks and the evolution of animal body plans. // Science., 2006 Feb 10-311(5762)-P.796-800.

6. Igarashi P. Following the expression of a kidney-specific gene from early development to adulthood. // Nephron Exp Nephrol., 2003 - 94(1) - P. 1-6. Review.

7. Seroude L. Differential gene expression and aging. // ScientificWorldJournal., 2002 Mar 9 -2:-P.618-31. Review.

8. Novick RP. Autoinduction and signal transduction in the regulation of staphylococcal virulence. // Mol Microbiol., 2003 Jun; - 48(6) - P.1429-49. Review.

9. Schneider Т., Stephens R. Sequence logos: a new way to display consensus sequences. // Nucleic Acids Res., 1990, - V. 18, - P.6097-6100.

10. Ponomarenko M.P., Ponomarenko J.V., Frolov A.S., Podkolodnaya O.A., Vorobiev D.G., Kolchanov N.A., Overton C. // Bioinformatics, 1999, - V.15, - P.631-643

11. Ponomarenko J., Ponomarenko M.P., Frolov A.S., Vorobiev D.G., Overton C., Kolchanov N.A. // Bioinformatics, 1999, - V.15., - P.654-668.

12. Schneider Т., Stormo G.D., Gold L. Information content of binding sites on nucleotide sequences. //J.Mol.Biol.,- 1986,-V.l88. -P.415-431.

13. Рарр P., Chattoraj D. Information analysis of sequences that bind the replication initiator RepA. // J Molec. Biol., 1993, - V.233., - P.219-230.

14. Horton P., Kanehisa M. An assessment of neural network and statistical approaches for prediction of E. coli promoter sites. //Nucleic Acids Res., 1992, - V.20., - P.4331-4338.

15. Sewell R., Durbin R. Method for calculation of probability of matching a bounded regular expression in a random data string. // J. Comput. Biol., 1995, - V.2, - P.25-31.

16. Кондрахин Ю. В. Компьютерный анализ и распознавание транскрипционных регуляторных районов генов эукариот. Новосибирск 1996. Кандидатская диссертация.

17. Лидовский В. В. Теория Информации М.: Наука 2004.

18. Lio P. Wavelets in bioinformatics and computational biology: state of art and perspectives. // Bioinformatics. 2003 Jan; - 19(1) - P.2-9. Review.

19. Vlahovicek K, Munteanu MG, Pongor S. Sequence-dependent modelling of local DNA bending phenomena: curvature prediction and vibrational analysis. // Genetica. 1999 - 106(1-2)-P.63-73. Review.

20. Preparata FP, Oliver JS. DNA sequencing by hybridization using semi-degenerate bases. // J Comput Biol. 2004 - 11(4) -P.753-65.

21. Construction of predictive promoter models on the example of antibacterial response of human epithelial cells. // Theor Biol Med Model. 2005 Jan 12 - 2(1) - P.2.

22. Pastinen T, Hudson TJ. Cis-acting regulatory variation in the human genome. // Science. 2004 Oct 22 306(5696) - P.647-50. Review.

23. Mannervik M, Nibu Y, Zhang H, Levine M. Transcriptional coregulators in development. // Science., 1999 Apr 23 - 284(5414) - P.606-9. Review.

24. Варакин JI.E. Системы связи с шумоподобными сигналами. М., «Радио и связь» 1985

25. Ратнер В.А. Математическая популяционная генетика. Новосибирск: Наука, 1976. -128 с.

26. John A. Berger, Sanjit К. Mitra, and Jaakko Astola. Power spectrum analysis for DNA sequences // Proceedings of the International Symposium on Signal Processing and its Applications (ISSPA 2003), Paris, FRANCE 2003 July 1-4, - pp. 29-32.

27. Кимура. Молекулярная эволюция: теория нейтральности. М.: Мир, 1985 - 400 с.

28. В.Н. Малоземов, С.М. Машарский, К.Ю. Цветков. Сигнал Фрэнка и его обобщения. // Spb. Math. Society Preprint 2000 - 12

29. Яглом А. Яглом И. Вероятность и информация — М.,: Наука, 1973.31. van Lint, J. Н. An Introduction to Coding Theory, 2nd ed. // New York: Springer-Verlag, -1992.

30. Heumann, S. "Golay Codes."http://www.mdstud.Chalmers.se/~md7sharo/coding/main/node34.html

31. Alberts В., Bray D., Johnson A., Lewis J., Raff M., Roberts K., and Walter P., // Essential Cell Biology. New York: Garland Publishing, 1998.

32. Todd C. Mowry, Angela K. Demke and Orran Krieger. Automatic Compiler-Inserted I/O Prefetching for Out-of-Core Applications. // Proc. OSDI '96

33. Kel AE, Gossling E, Reuter I, Cheremushkin E, Kel-Margoulis OV, Wingender E. MATCH: A tool for searching transcription factor binding sites in DNA sequences. // Nucleic Acids Res. -2003 Jul 1-31(13)-P.3576-9.

34. Freeh K, Werner T (1996) Specific modelling of regulatory units in DNA sequences. // Pacific Symposium on Biocomputing 1997 - 151-162 - World Scientific Publishing Co. Pte. Ltd, Singapore

35. Workman CT, Stormo GD. ANN-Spec: a method for discovering transcription factor binding sites with improved specificity. // Рас Symp Biocomput. 2000 - 467-78.

36. Cheremushkin ES, Kel AE. Whole Genome Human/Mouse Phylogenetic Footprinting of Potential Transcription Regulatory Signals. // Pacific Symposium on Biocomputing 2003 - 8 -P.291-302.

37. Stormo, G.D. DNA binding sites: representation and discovery // Bioinformatics 2000- 16 -16-23

38. Down ТА, Hubbard TJ. Computational detection and location of transcription start sites in mammalian genomic DNA. // Genome Res. 2002 Mar; 12 - 3 - P.458-61.

39. Lawrence, C.E., Altschul, S.F., Bogouski, M.S., Liu, J.S., Neuwald, A.F., and Wooten, J.C. Detecting Subtle Sequence Signals: A Gibbs Sampling Strategy for Multiple Alignment. // Science 262 - P.208-214.

40. Chen, Q.K., Hertz, G.Z., Stormo, G.D. MATRIX SEARCH 1.0: a computer program that scans DNA sequences for transcriptional elements using a database of weight matrices // Comput. Appl. Biosci., 1995 - 11 - P.563-566

41. Quandt, K., Freeh, K., Karas, H., Wingender, E., Werner, T. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data // Nucleic Acids Res., 1995-23,-P.4878-4884

42. A. Elofsson. A study on sequence alignment quality // Proteins: structure, function and genetics, 2002, - v. 46, - p. 330-339.

43. K. Chao. Calign: aligning sequences with restricted affine gap penalties // Bioinformatics, -1999,-v. 15(4), -p.298-304.

44. M. Vingron, M. Waterman. Statistical significance of local alignments with gaps. // Proc Natl Acad Sci U S A. 1994 May 24 - 91(11) - P.4625-8.

45. Evans RM. The steroid and thyroid hormone receptor superfamily. // Science. 1988 May 13 - 240(4854) - P.889-95. Review.

46. Claverie JM. Fewer genes, more noncoding RNA. // Science. 2005 Sep 2 -309(5740) -P. 1529-30.

47. Irizarry RA, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. // Biostatistics. 2003 Apr- 4(2) - P.249-64. PMID: 12925520

48. Li C, Wong WH. Model-based analysis of oligonucleotide arrays: expression index computation and outlier detection. // Proc Natl Acad Sci USA.- 2001 Jan 2 98(1) - P.31-6. PMID: 1113451252. www.bioconductor.org

49. Guhathakurta, D., Stormo, G.D. Identifying target sites for cooperatively binding factors. // Bioinformatics. 2001 - Vol. 7 - P.608-21

50. Kanji G. K. 100 Statistical Tests. London, Sage, -1999.

51. Goldberg, David E, Genetic Algorithms in Search, Optimization and Machine Learning, Kluwer Academic Publishers, Boston, MA., 1989

52. Mamoru Kato, Naoya Hata, Nilanjana Baneijee, Bruce Futcher and Michael Q Zhang. Identifying combinatorial regulation of transcription factors and binding motifs. // Genome Biology-2004-5-R56

53. Stajich JE, et.al. The Bioperl Toolkit: Perl modules for the life sciences. // Genome Research. 2002 Oct - 12(10) - P. 1611-8.

54. T. Hubbard, et.al. Ensembl 2005 // Nucleic Acids Res. 2005 Jan 1 - 33 Database issue -D447-D453.59. http://www.camda.duke.edu/camda06/datasets/

55. Berwaerts et. all., Role of hepatic arterial embolisation in the treatment for metastatic insulinoma. Report of two cases and review of the literature. // Acta Clin Belg. 1997 -52(5) -263-74. Review.

56. Adams et.all., The natural history of nonalcoholic fatty liver disease: a population-based cohort study. // Gastroenterology. 2005 Jul - 129(1) - P.l 13-21.

57. ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

58. Cheremushkin Е., Konovalova Т., Valeev Т., Kel А.

59. Methods for search of gene regulatory elements binding sites. // Analytical Tools for DNA: Genes and Genomes: Nuts & Bolts. DNA Press, October 2005; Chapter 9, - P. 185-214

60. Kel A., Konovalova Т., Valeev Т., Cheremushkin E., Kel-Margoulis O., Wingender E.

61. Composite Module Analyst: A Fitness-Based Tool for Prediction of Transcription Regulation. // Proceedings of the German Conference on Bioinformatics (GCB'05), Hamburg, Germany, -Oct 5-7, 2005; 8 pp

62. Тараскина А. С., Коновалова Т. Г., Валеев Т. Ф., Штокало Д.Н., Черемушкин Е.

63. С. Графическое представление результатов анализа в пакете программ по поиску регуляторных фрагментов в ДНК // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006; - стр. 142-143

64. Черемушкин Е.С. Исследование последовательностей ДНК с помощью некоторых совершенных кодов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006 - С. 145-146

65. Черемушкин Е.С. Обобщенные сигналы Фрэнка в применении к анализу последовательностей ДНК// Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006; - С.147-148

66. Konovalova Т., Valeev Т., Cheremushkin Е., Kel A. Composite Module Analyst: Tool for Prediction of DNA Transcription Regulation. Testing on Simulated Data // Lect.Notes Comput. Sci. N 3611 — P.1202-1205,

67. Черемушкин Е.С. Анализ различных участков ДНК с помощью автокорреляционной функции // Методы и инструменты конструирования и оптимизации программ, -Новосибирск 2005 - С.247-253

68. Штокало Д.Н., Черемушкин Е.С. Построение программного комплекса "Regulatory Sequences Analyser" для распознавания цис-элементов в последовательностях ДНК // Методы и инструменты конструирования и оптимизации программ, Новосибирск, -2005 - С.253-263

69. Черемушкин Е.С. Исследование ДНК с применением теории шумоподобных сигналов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 22-24, 2005; - С.140-142

70. Черемушкин Е.С., Коновалова Т.Г., Валеев Т.Ф. Разработка пакета программ по анализу регуляторных областей ДНК // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 22-24, 2005; -С. 142-143

71. Коновалова Т., Валеев Т, Черёмушкин Е. Поиск композиционных промоторных модулей, регулирующих экспрессию генов эукариот // Тезисы конференции-конкурса "Технологии Микрософт в информатике и программировании", Новосибирск 22-24 февраля 2005; - с.121 -122

72. Черёмушкин Е., Коновалова Т., Валеев Т. Разработка пакета программ по анализу регуляторных областей ДНК // Тезисы конференции-конкурса "Технологии Микрософт в информатике и программировании", Новосибирск 22-24 февраля 2005; - с. 142-143

73. Коновалова Т., Валеев Т, Черёмушкин Е. Весовые матрицы и поиск композиционных промоторных модулей, регулирующих экспрессию генов эукариот. // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 1114 апреля 2005; - с. 123-124

74. Черёмушкин Е., Коновалова Т., Валеев Т. Программный комплекс для анализа регуляторных областей. // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 11-14 апреля 2005; - с. 142-143

75. Черемушкин Е.С. Шумоподобные сигналы и исследование ДНК // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 11-14 апреля 2005;

76. Cheremushkin Е., Dunaev A., Murzin F. System of statistical comparison of methods of search of cis-elements. // Proc. of Samsung Young Scientist Day, Novosibirsk, 2004

77. Черемушкин E. С., Коновалова T, Г., Мурзин Ф. А., Кель А. Э. Система распознавания цис-элементов на последовательностях ДНК // Программные средства и математические основы информатики. Новосибирск, 2004. - С. 255-269.

78. Черемушкин Е.С., Кель А.Е., Лобив И.В., Мурзин Ф.А., Половинке О.Н.

79. Визуализация последовательностей днк посредством трансформаций цветового куба // Тезисы конференции ИВТН 2004 - с. 28

80. Лобанова М.В., Коновалова Т.Г., Черемушкин Е.С. Интернет-инструмент для анализа snp в некодирующей ДНК // Тезисы конференции ИВТН 2004 - с.ЗЗ

81. Бесчастнов Е., Лобанова М., Коновалова Т., Черемушкин Е. Программная система поиска ЦИС-элементов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23, 2004; - с. 90-91

82. Черемушкин Е. С. Филогенетический футпринт Новый метод для выравнивания промоторов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23,2004; - с. 133-134

83. Черемушкин Е. С. Система статистического сравнения методов поиска ЦИС-элементов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23,2004; - с. 134-135

84. Черемушкина Е. Н., Черемушкин Е. С., Чекменев Д., Кель О. Метод идентификации сайтов ядерных рецепторов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании» Февраль 21-23,2004; - с. 137-139

85. Черемушкин Е.С., Половинке О.Н., Лобив И.В., Дунаев А. А. Визуализация и идентификация подцепочек в регуляторных последовательностях ДНК // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск 18-25 апреля, 2004 г. - с. 197-199

86. Черемушкин Е.С. Статистическое сравнение методов поиска цие-элементов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с. 199-201

87. Черемушкин Е. С. Филогенетический футпринт и выравнивание промоторов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с.201-202

88. Черемушкина Е.Н., Черемушкин Е. С., Чекменев Д. К ель О. Алгоритмы идентификации сайтов ядерных рецепторов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с. 202-204

89. Дунаев А. А., Кель А. Э., Лобив И. В., Мурзин Ф. А., Половинке О. Н., Черемушкин Е. С. Визуализация генетической информации // Новые информационные технологии в науке и образовании. Новосибирск, 2003. - С. 147-156.

90. Cheremushkin, Е. and Kel, A. Whole genome human/mouse phylogenetic footprinting of potential transcription regulatory signals. // Рас. Symp. Biocomput., 2003; - p.291-302. PMID: 12603036

91. Kel, A.E., Goessling, E., Reuter, I., Cheremushkin, E., Kel-Margoulis, O.V., Wingender, E. MATCH(TM): a tool for searching transcription factor binding sites in DNA sequences // Nucleic Acids Res. V.31, - p.3576-3579. PMID: 12824369

92. Konovalova (Ivanova), Т., Cheremushkin, E., Beschastnov, E., and Kel, A. Applicating of the metropolis algorithm to reveal composite modules in promoters of eukaryotic genes // ECCB'2003, Paris, France, Sept. 27-30,2003, - 447-448.