автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК
Оглавление автор диссертации — кандидата физико-математических наук Черемушкин, Евгений Сергеевич
ВВЕДЕНИЕ.
1. АЛГОРИТМЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ РЕГУЛЯТОРНЫХ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК.
1.1. Биологическая постановка задачи.
1.2. Обзор подходов к распознаванию ССТФ.
1.3. Поиск шумоподобных сигналов на последовательности ДНК.
Преобразование последовательности ДНК к сигналу.
Алгоритм поиска сигналов Баркера.
Визуализация автокорреляционной функции цепочек ДНК.
Анализ разброса АКФ в различных участках ДНК.
Изучение зависимости скоррелированности регуляторных участков от положения в гене.
1.4. Обобщенные сигналы Фрэнка в применении к анализу последовательностей
Применение сигналов Фрэнка к анализу последовательностей ДНК.
Результаты.
1.5. Исследование последовательностей ДНК с помощью кода Голея и кода
Хэмминга (4,7).
Коды Хэмминга.
Коды Голея.
Анализ последовательностей ДНК с помощью сигналов Голея.
Результаты анализа последовательностей с помощью одного из кодов Хэмминга.
Результат анализа последовательностей с помощью кода Голея.
1.6. Алгоритмы визуализации ДНК на основе вейвлет-преобразования.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Черемушкин, Евгений Сергеевич
Биоинформатика - это наука о компьютерных методах решения биологических задач. В настоящее время научная деятельность в биоинформатике активизируется, что связано, прежде всего, с появлением в молекулярной биологии и генетике очень больших объемов данных, обработку которых необходимо автоматизировать[1,2].
Исследования в биоинформатике и создание соответствующего программного обеспечения являются актуальными в связи с решением прикладных задач: изучением болезней, в том числе наследственных, созданием высокотехнологичных лекарственных средств и др.[3,4]
Одной из актуальных задач является задача разработки алгоритмов распознавания сайтов связывания с транскрипционными факторами (ССТФ). Специфические белки, называемые транскрипционными факторами, осуществляют регуляцию экспрессии генов. Транскрипционные факторы определенных типов связываются с ССТФ, расположенными в промоторных районах генов и стимулируют транскрипцию (производство РНК) этих генов[5,6,7,8].
Опишем упрощенную биологическую постановку задачи. Белком Pj назовем следующий объект:
Pt=(S,C,R), где
S е ^Г - структура белка,
С е {"+","-"} - концентрация белка в клетке (ядре),
R е {1,0} - информация от том, является ли белок регуляторным.
В ядре клетки присутствуют белки, называемые транскрипционными факторами. Для них R=l, для остальных - 0. Белки имеют различные структуры и присутствуют в различных концентрациях. Концентрация белков может меняться.
Введем понятие гена. Ген Gj - это участок ДНК, «с которого производится белок». Ген задается следующими параметрами:
Gj=(s,e,chr) ( где s,eeN - координаты гена хромосоме, chr е jV - номер хромосомы.
Для простоты будем считать, что одному гену соответствует один белок. Зададим отображение f, соответствующее процессам транскрипции и трансляции. "Функция f производит белки из генов".
Ген определяется позициями начала гена и конца гена на хромосоме, а также номером хромосомы.
Более внимательному рассмотрению подлежат районы, расположенные на ДНК до начала гена, называемые промоторами. В упрошенной модели каждому гену соответствует один промотор: где spj = Sj -1 ООО - начало промотора, ерj = Sj - конец промотора.
Конец промотора совпадает со стартом гена, а старт промотора обычно берется как старт гена-1000. Таким образом, длина промотора 1000 букв.
Промотор содержит набор цис-элементов (сайтов). Набор цис-элементов промотора PRj задается как f'Gj^Pr
Gj PR
PRj=(sp,ep,chrp,C),
Цис-элементом (или сайтом) назовем подцепочку промотора ДНК: где i - номер белка Pi который присоединяется к с^ s,e - относительные координаты цис-элемента. Рассмотрим следующий пример (рис. 1): т ci =(ii,si,ei)
1г =1 sf =200 ei =225 t t t
PR,=(sp,ep,chrp,C) sp=122456 ep=123456 chrp=5 С=(сьс2)
Gi=(s,e,chr) s=123 456 e=126 543 chr=5
Рис. 1. Пример схематичного представления одного гена
В данном примере рассмотрен один ген с Gi. Промотор этого гена содержит два цис-элемента (сайта) С] и сг. Эти цис-элементы «распознаются» белками Pj и Рг соответственно. Заметим, что белки Pi и Рг должны быть регуляторами, а белок Рз может быть и регулятором, и не регулятором.
Работу этого гена можно схематично представить как операцию проверки (рис. 2):
ЕСЛИ (Pi.C = "+" и
Р2.С = "+") ТОГДА
Увеличить (Р3.С) Рис. 2. Схематичное представление производства белка
Заметим, что эта схема очень приблизительная. В природе все сложнее, и многое еще не исследовано.
Набор сайтов совместно с информацией о влиянии связывания определенного набора транскрипционных факторов на экспрессию гена назовем регуляторной моделью гена.
Разработан целый ряд алгоритмов распознавания ССТФ. К ним относятся алгоритмы построения консенсуса [9,10], весовых матриц [10], олигонуклеотидных матриц [11], оценки физико-химических свойств [12], построения информационной меры [13,14], а также нейронные сети [15], различные статистические модели [16] и др.
Несмотря на разнообразие подходов, проблема построения точных алгоритмов распознавания ССТФ в настоящее время не может считаться окончательно решенной [17]. Причина этого состоит в большом разнообразии контекстных, физико-химических и конформационных особенностей ССТФ; механизмов ДНК-белковых взаимодействий между ССТФ и транскрипционными факторами; специфичности контекста, окружающего ССТФ, степени консервативности нуклеотидного контекста в эволюции.
Технология анализа данных генетической информации требует создания и сопровождения сложных программных средств, а также алгоритмов, обеспечивающих предсказание и достоверность выводов.
В данной области применяются специальные процессы проектирования и анализа алгоритмов и программ, специальные форматы данных, редакторы генетических данных, базы данных и знаний, графические интерфейсы взаимодействия человека и компьютера.
Ввиду комплексной структуры активно исследуемых в настоящее время заболеваний, таких как рак и др, задача распознавания сайтов связывания с ТФ и построения регуляторной модели промоторов становится еще более актуальной. Эти заболевания нарушают регуляторную функцию большого количества генов, которая может быть исправлена с помощью воздействия одного или нескольких транскрипционных факторов.
Для понимания, какие транскрипционные факторы вовлечены в регуляторный процесс, необходимо создание алгоритмов и программ для распознавания соответствующих сайтов.
В последнее время стали появляться новые типы биологических данных, таких как микрочипы, однонуклеотидные полиморфизмы и др. Эта информация, наряду с последовательностью ДНК, может быть использована для распознавания ССТФ и, таким образом, может улучшить его.
Поэтому, в частности, является актуальной разработка новых алгоритмов и программных средств для анализа микрочиповых данных.
Целью данной работы являлась разработка новых и улучшение имеющихся алгоритмов и программ для приближенной идентификации подцепочек в последовательностях ДНК, называемых цис-элементами или сайтами связывания транскрипционных факторов с ДНК (ССТФ). Разрабатываемые алгоритмы в каждом конкретном случае ориентированны на специфическую информацию, которой обладает биолог.
В результате был разработан комплекс алгоритмов предварительной фильтрации и затем последующей идентификации цис-элементов и объектно-ориентированная среда, реализующая эти алгоритмы.
Все алгоритмы, рассмотренные в работе, разбиваются на три большие группы: алгоритмы предварительной обработки ДНК, алгоритмы последующей обработки и алгоритмы визуализации. В ряде алгоритмов осуществляется переход от нуклеотидного уровня анализа ДНК на уровень анализа сигналов.
Методы исследования. Методы объектно-ориентированного программирования, проектирования и анализа алгоритмов и программ, разработки человеко-машинных интерфейсов; методы обработки сигналов специального вида и приближенной идентификации подцепочек.
Также при разработке программно-аппаратных систем учитывалось требование платформенной независимости. В связи с тем что системы создавались для проведения исследований биологами-экспериментаторами, работающими на различных вычислительных системах, большое внимание уделялось графическому представлению результатов анализа.
Научная новизна
Проведены исследования, направленные на изучение возможностей применения для анализа ДНК различных алгоритмов обработки сигналов. В частности, изучались корреляционные функции между сигналами, ассоциированными различными методами с ДНК, и сигналами, построенными на основе некоторых замечательных кодовых последовательностей.
В результате проведенных исследований был реализован ряд программных систем, полезных для исследования генетической информации, базирующихся на алгоритмах приближенной идентификации подцепочек в последовательностях ДНК. Как результат, разработан набор алгоритмов поиска цис-элементов в регуляторных последовательностях ДНК, которые используют экспериментальные биологические данные различных типов.
Предложена библиотека классов, функций и структур для обработки генетической информации: промоторов генов, цис-элементов, весовых матриц, промоторных моделей и др. На ее основе реализована программная система GRESA, нашедшая применение на практике.
Для анализа данных экспрессии генов и построения промоторной модели разработана программная система ExPIain. Система использует некоторую формализованную модель регуляторных генетических процессов в клетке.
Практическая ценность
Создан ряд алгоритмов, которые переданы отечественным и зарубежным заказчикам и применяются в коммерческих приложениях. В частности, программный продукт ExPIain внедрен и используется немецкой компанией Biobase.
По результатам работы была написана глава в книге "Analytical Tools for DNA, Genes and Genomes", изданной в издательстве "DNA Press".
Апробация работы
Результаты работы докладывались на различных конференциях: ЕССВ'2003 (Париж, Франция); Pacific Symposia on Biocomputing (Гаваи, США); "Genome Informatics", (Cold Spring Harbor Laboratory); на Дне молодых ученых Samsung (Новосибирск); Конференции естественных вычислений ICNC'05 (Чаньша, Китай); Немецкой конференции по биоинформатике GCB'05 (Гамбург, Германия); конференции «Технологии Майкрософт в информатике и программировании» в 2004 - 2006 гг. (Новосибирск).
Автором по теме диссертации опубликовано 35 печатных работ. Структура и объем работы
Диссертационная работа состоит из введения, трех глав и списка литературы. Объем диссертации - 140 стр. Список литературы содержит 97 наименований. Работа включает 50 рисунков и графиков, полученных в результате расчетов на ЭВМ, а также 12 таблиц.
Заключение диссертация на тему "Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК"
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
1. Проведены комплексные исследования, позволившие разработать и реализовать ряд новых алгоритмов и усовершенствовать имеющиеся алгоритмы обработки сигналов с целью применения их для анализа регуляторных последовательностей ДНК.
2. Разработан набор алгоритмов поиска цис-элементов в регуляторных последовательностях ДНК, которые используют экспериментальные биологические данные различных типов, такие как данные по экспрессии генов, данные об однонуклеотидных полиморфизмах, данные о гомологичных последовательностях.
3. Создана программная система GRESA, содержащая набор классов для обработки генетической информации: промоторов генов, цис-элементов, весовых матриц, промоторных моделей и предоставляющая широкие возможности для анализа генетической информации.
4. Разработана программная система ExPlain для анализа данных экспрессии генов и построения промоторной модели в соответствии с предложенной формализованной обобщенной регуляторной моделью гена.
ЗАКЛЮЧЕНИЕ
В рамках настоящей работы разработан ряд новых и улучшены имеющиеся алгоритмы и разработаны программные системы для приближенной идентификации подцепочек в последовательностях ДНК, называемых цис-элементами или сайтами связывания транскрипционных факторов с ДНК (ССТФ).
Автором было изучено применение теории шумоподобных сигналов к анализу регуляторных последовательностей ДНК. Аналогичных исследований других научных коллективов в мире автором не обнаружено.
Было изучено применение вейвлетов к анализу последовательностей ДНК.
Алгоритмы предварительной обработки ДНК основываются на принципах обработки шумоподобных и других сигналов. Последовательность ДНК преобразуется в сигнал, протяженный во времени. Затем этот сигнал анализируется несколькими алгоритмами: алгоритмом поиска сигналов Баркера, сигналов Фрэнка, алгоритмом декодирования кодами Голея, алгоритмом вейвлет-преобразования.
Рассмотрены алгоритмы идентификации цис-элементов (подцепочек в регуляторных районах ДНК) с использованием известной заранее информации об этих подцепочках. Рассмотрен алгоритм весовых матриц. Новый алгоритм распознавания двойных сайтов, разработанный автором.
Авторами исследован существующий и предложен новый модифицированный алгоритм филогенетического футпринта, реализующий лучший по сравнению с существовавшими ранее методами поиск сайтов в гомологичных регуляторных последовательностях.
Изначально алгоритм филогенетического футпринта был предложен в 1991-1992 гг., когда появилось достаточно информации о последовательностях регуляторных районов генов различных организмов.
Нами предложен новый алгоритм анализа данных по экспрессии генов (микрочипов) с целью определения регуляторной промоторной модели гена. Также нами предложен алгоритм выявления регуляторных свойств однонуклеотидных полиморфизмов.
В ходе работы были разработаны несколько программных продуктов, объединяющих все описанные выше алгоритмы. История разработки этих программных продуктов содержит несколько экспериментальных версий, которые были использованы для апробирования набора классов, реализованных в окончательной версии.
Реализован алгоритм филогенетического футпринта, создана база данных консервативных некодирующих последовательностей. Пакет программ SNPResearch, производящий анализ однонуклеотидных полиморфизмов в последовательностях ДНК. Далее разработана интегральная система GRESA, включающая различные алгоритмы поиска ССТФ: алгоритм поиска сайтов ядерных рецепторов, алгоритм поиска ССТФ при имеющихся данных по экспрессии генов, алгоритм поиска сайтов в наборе последовательностей промоторов одного вида, различающихся по фенотипу, алгоритм анализа однонуклеотидных полиморфизмов, улучшенный алгоритм филогенетического футпринта.
Для обработки информации с помощью алгоритмов, запрограммированных в системе GRESA, реализовано несколько интерфейсов.
Каждый алгоритм имеет интерфейс командной строки, принимающий входные файлы в качестве параметров.
Для комплексного анализа данных по экспрессии генов (микрочипов) с целью распознавания регуляторных молекул, задействованных в регуляции экспериментов, проведенных пользователем, нашей группой разработана объединенная информационная система ExPlain - система по анализу результатов микрочипов с целью выявления функционально важных молекул.
Пакет cissearch, разработанный нашей группой в рамках программы «СТАРТ», написан на С++ и на данный момент представляет приложение с графическим интерфейсом, позволяющим обрабатывать различные типы данных: последовательности ДНК, гомологи, данные микрочиповых экспериментов, пути передачи сигналов.
Для анализа указанных данных используется пять алгоритмов: обработка микрочиповых данных, анализ набора генов, филогенетический футпринт, анализ единичных полиморфизмов и анализ аллелей. Все алгоритмы описаны в главе 2.
Наряду с текстовым выводом результатов реализован графический вывод. Несомненно, графическое представление помогает исследователю заранее проверить адекватность исходных данных и оценить полученные результаты качественно.
В нашем проекте реализовано несколько типов графиков (гистограммы, столбчатые диаграммы), отражающих различные свойства данных и позволяющие провести анализ этих данных.
Качество распознавания было проверено на реальных примерах: данных по синдрому хронической усталости и данных по специальной раковой линии клеток, у которых апоптоз стимулируется повышением фактора e2fl.
Анализируя полученные результаты, видно, что ключевую роль могут играть факторы HNF-lalpha, POU1F1 и NF-KappaB. Из литературных данных была получена следующая информация. Фактор POU1F1 - фактор гормона роста. Снижение сывороточного уровня гормона роста наблюдается у пациентов с фибромиалгией, которая обычно ассоциируется с синдромом хронической усталости[60]. По данным [61] фактор NF-KappaB регулирует экспрессию фермента iNOS в скелетных мышцах, и его повышение у больных различными хроническими заболеваниями (сердечная недостаточность, обструктивное заболевание легких) может приводить к атрофии мышц, потере веса, развитию синдрома усталости. Фактор HNF-lalpha играет ключевую роль в развитии и регуляции работы печени, заболевания которой также сопровождаются развитием синдрома усталости.
Таким образом, вполне вероятно, что эти факторы, а также другие факторы, фигурирующие в результатах (Staf, SRF), задействованы в развитии некоторых аспектов синдрома хронической усталости. Таким образом, они являются наиболее вероятными мишенями для новых лекарственных средств с целью борьбы с этим заболеванием.
Библиография Черемушкин, Евгений Сергеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Kitano Н. Systems biology: a brief overview. //Science., 2002 Mar 1 - 295(5560) - P. 16624. Review.
2. Thornton JM. From genome to function. // Science. 2001 Jun 15 - 292(5524) -P.2095-7. Review.
3. Radtke F, Clevers H. Self-renewal and cancer of the gut: two sides of a coin. // Science. -2005 Maf 25 307(5717) - P. 1904-9.
4. Dembitsky VM, Gloriozova ТА, Poroikov VV. Novel antitumor agents: marine sponge alkaloids, their synthetic analogs and derivatives. // Mini Rev Med Chem., 2005 Mar - 5(3) -P.319-36.
5. Davidson EH, Erwin DH. Gene regulatory networks and the evolution of animal body plans. // Science., 2006 Feb 10-311(5762)-P.796-800.
6. Igarashi P. Following the expression of a kidney-specific gene from early development to adulthood. // Nephron Exp Nephrol., 2003 - 94(1) - P. 1-6. Review.
7. Seroude L. Differential gene expression and aging. // ScientificWorldJournal., 2002 Mar 9 -2:-P.618-31. Review.
8. Novick RP. Autoinduction and signal transduction in the regulation of staphylococcal virulence. // Mol Microbiol., 2003 Jun; - 48(6) - P.1429-49. Review.
9. Schneider Т., Stephens R. Sequence logos: a new way to display consensus sequences. // Nucleic Acids Res., 1990, - V. 18, - P.6097-6100.
10. Ponomarenko M.P., Ponomarenko J.V., Frolov A.S., Podkolodnaya O.A., Vorobiev D.G., Kolchanov N.A., Overton C. // Bioinformatics, 1999, - V.15, - P.631-643
11. Ponomarenko J., Ponomarenko M.P., Frolov A.S., Vorobiev D.G., Overton C., Kolchanov N.A. // Bioinformatics, 1999, - V.15., - P.654-668.
12. Schneider Т., Stormo G.D., Gold L. Information content of binding sites on nucleotide sequences. //J.Mol.Biol.,- 1986,-V.l88. -P.415-431.
13. Рарр P., Chattoraj D. Information analysis of sequences that bind the replication initiator RepA. // J Molec. Biol., 1993, - V.233., - P.219-230.
14. Horton P., Kanehisa M. An assessment of neural network and statistical approaches for prediction of E. coli promoter sites. //Nucleic Acids Res., 1992, - V.20., - P.4331-4338.
15. Sewell R., Durbin R. Method for calculation of probability of matching a bounded regular expression in a random data string. // J. Comput. Biol., 1995, - V.2, - P.25-31.
16. Кондрахин Ю. В. Компьютерный анализ и распознавание транскрипционных регуляторных районов генов эукариот. Новосибирск 1996. Кандидатская диссертация.
17. Лидовский В. В. Теория Информации М.: Наука 2004.
18. Lio P. Wavelets in bioinformatics and computational biology: state of art and perspectives. // Bioinformatics. 2003 Jan; - 19(1) - P.2-9. Review.
19. Vlahovicek K, Munteanu MG, Pongor S. Sequence-dependent modelling of local DNA bending phenomena: curvature prediction and vibrational analysis. // Genetica. 1999 - 106(1-2)-P.63-73. Review.
20. Preparata FP, Oliver JS. DNA sequencing by hybridization using semi-degenerate bases. // J Comput Biol. 2004 - 11(4) -P.753-65.
21. Construction of predictive promoter models on the example of antibacterial response of human epithelial cells. // Theor Biol Med Model. 2005 Jan 12 - 2(1) - P.2.
22. Pastinen T, Hudson TJ. Cis-acting regulatory variation in the human genome. // Science. 2004 Oct 22 306(5696) - P.647-50. Review.
23. Mannervik M, Nibu Y, Zhang H, Levine M. Transcriptional coregulators in development. // Science., 1999 Apr 23 - 284(5414) - P.606-9. Review.
24. Варакин JI.E. Системы связи с шумоподобными сигналами. М., «Радио и связь» 1985
25. Ратнер В.А. Математическая популяционная генетика. Новосибирск: Наука, 1976. -128 с.
26. John A. Berger, Sanjit К. Mitra, and Jaakko Astola. Power spectrum analysis for DNA sequences // Proceedings of the International Symposium on Signal Processing and its Applications (ISSPA 2003), Paris, FRANCE 2003 July 1-4, - pp. 29-32.
27. Кимура. Молекулярная эволюция: теория нейтральности. М.: Мир, 1985 - 400 с.
28. В.Н. Малоземов, С.М. Машарский, К.Ю. Цветков. Сигнал Фрэнка и его обобщения. // Spb. Math. Society Preprint 2000 - 12
29. Яглом А. Яглом И. Вероятность и информация — М.,: Наука, 1973.31. van Lint, J. Н. An Introduction to Coding Theory, 2nd ed. // New York: Springer-Verlag, -1992.
30. Heumann, S. "Golay Codes."http://www.mdstud.Chalmers.se/~md7sharo/coding/main/node34.html
31. Alberts В., Bray D., Johnson A., Lewis J., Raff M., Roberts K., and Walter P., // Essential Cell Biology. New York: Garland Publishing, 1998.
32. Todd C. Mowry, Angela K. Demke and Orran Krieger. Automatic Compiler-Inserted I/O Prefetching for Out-of-Core Applications. // Proc. OSDI '96
33. Kel AE, Gossling E, Reuter I, Cheremushkin E, Kel-Margoulis OV, Wingender E. MATCH: A tool for searching transcription factor binding sites in DNA sequences. // Nucleic Acids Res. -2003 Jul 1-31(13)-P.3576-9.
34. Freeh K, Werner T (1996) Specific modelling of regulatory units in DNA sequences. // Pacific Symposium on Biocomputing 1997 - 151-162 - World Scientific Publishing Co. Pte. Ltd, Singapore
35. Workman CT, Stormo GD. ANN-Spec: a method for discovering transcription factor binding sites with improved specificity. // Рас Symp Biocomput. 2000 - 467-78.
36. Cheremushkin ES, Kel AE. Whole Genome Human/Mouse Phylogenetic Footprinting of Potential Transcription Regulatory Signals. // Pacific Symposium on Biocomputing 2003 - 8 -P.291-302.
37. Stormo, G.D. DNA binding sites: representation and discovery // Bioinformatics 2000- 16 -16-23
38. Down ТА, Hubbard TJ. Computational detection and location of transcription start sites in mammalian genomic DNA. // Genome Res. 2002 Mar; 12 - 3 - P.458-61.
39. Lawrence, C.E., Altschul, S.F., Bogouski, M.S., Liu, J.S., Neuwald, A.F., and Wooten, J.C. Detecting Subtle Sequence Signals: A Gibbs Sampling Strategy for Multiple Alignment. // Science 262 - P.208-214.
40. Chen, Q.K., Hertz, G.Z., Stormo, G.D. MATRIX SEARCH 1.0: a computer program that scans DNA sequences for transcriptional elements using a database of weight matrices // Comput. Appl. Biosci., 1995 - 11 - P.563-566
41. Quandt, K., Freeh, K., Karas, H., Wingender, E., Werner, T. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data // Nucleic Acids Res., 1995-23,-P.4878-4884
42. A. Elofsson. A study on sequence alignment quality // Proteins: structure, function and genetics, 2002, - v. 46, - p. 330-339.
43. K. Chao. Calign: aligning sequences with restricted affine gap penalties // Bioinformatics, -1999,-v. 15(4), -p.298-304.
44. M. Vingron, M. Waterman. Statistical significance of local alignments with gaps. // Proc Natl Acad Sci U S A. 1994 May 24 - 91(11) - P.4625-8.
45. Evans RM. The steroid and thyroid hormone receptor superfamily. // Science. 1988 May 13 - 240(4854) - P.889-95. Review.
46. Claverie JM. Fewer genes, more noncoding RNA. // Science. 2005 Sep 2 -309(5740) -P. 1529-30.
47. Irizarry RA, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. // Biostatistics. 2003 Apr- 4(2) - P.249-64. PMID: 12925520
48. Li C, Wong WH. Model-based analysis of oligonucleotide arrays: expression index computation and outlier detection. // Proc Natl Acad Sci USA.- 2001 Jan 2 98(1) - P.31-6. PMID: 1113451252. www.bioconductor.org
49. Guhathakurta, D., Stormo, G.D. Identifying target sites for cooperatively binding factors. // Bioinformatics. 2001 - Vol. 7 - P.608-21
50. Kanji G. K. 100 Statistical Tests. London, Sage, -1999.
51. Goldberg, David E, Genetic Algorithms in Search, Optimization and Machine Learning, Kluwer Academic Publishers, Boston, MA., 1989
52. Mamoru Kato, Naoya Hata, Nilanjana Baneijee, Bruce Futcher and Michael Q Zhang. Identifying combinatorial regulation of transcription factors and binding motifs. // Genome Biology-2004-5-R56
53. Stajich JE, et.al. The Bioperl Toolkit: Perl modules for the life sciences. // Genome Research. 2002 Oct - 12(10) - P. 1611-8.
54. T. Hubbard, et.al. Ensembl 2005 // Nucleic Acids Res. 2005 Jan 1 - 33 Database issue -D447-D453.59. http://www.camda.duke.edu/camda06/datasets/
55. Berwaerts et. all., Role of hepatic arterial embolisation in the treatment for metastatic insulinoma. Report of two cases and review of the literature. // Acta Clin Belg. 1997 -52(5) -263-74. Review.
56. Adams et.all., The natural history of nonalcoholic fatty liver disease: a population-based cohort study. // Gastroenterology. 2005 Jul - 129(1) - P.l 13-21.
57. ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
58. Cheremushkin Е., Konovalova Т., Valeev Т., Kel А.
59. Methods for search of gene regulatory elements binding sites. // Analytical Tools for DNA: Genes and Genomes: Nuts & Bolts. DNA Press, October 2005; Chapter 9, - P. 185-214
60. Kel A., Konovalova Т., Valeev Т., Cheremushkin E., Kel-Margoulis O., Wingender E.
61. Composite Module Analyst: A Fitness-Based Tool for Prediction of Transcription Regulation. // Proceedings of the German Conference on Bioinformatics (GCB'05), Hamburg, Germany, -Oct 5-7, 2005; 8 pp
62. Тараскина А. С., Коновалова Т. Г., Валеев Т. Ф., Штокало Д.Н., Черемушкин Е.
63. С. Графическое представление результатов анализа в пакете программ по поиску регуляторных фрагментов в ДНК // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006; - стр. 142-143
64. Черемушкин Е.С. Исследование последовательностей ДНК с помощью некоторых совершенных кодов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006 - С. 145-146
65. Черемушкин Е.С. Обобщенные сигналы Фрэнка в применении к анализу последовательностей ДНК// Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск 23-25 февраля, 2006; - С.147-148
66. Konovalova Т., Valeev Т., Cheremushkin Е., Kel A. Composite Module Analyst: Tool for Prediction of DNA Transcription Regulation. Testing on Simulated Data // Lect.Notes Comput. Sci. N 3611 — P.1202-1205,
67. Черемушкин Е.С. Анализ различных участков ДНК с помощью автокорреляционной функции // Методы и инструменты конструирования и оптимизации программ, -Новосибирск 2005 - С.247-253
68. Штокало Д.Н., Черемушкин Е.С. Построение программного комплекса "Regulatory Sequences Analyser" для распознавания цис-элементов в последовательностях ДНК // Методы и инструменты конструирования и оптимизации программ, Новосибирск, -2005 - С.253-263
69. Черемушкин Е.С. Исследование ДНК с применением теории шумоподобных сигналов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 22-24, 2005; - С.140-142
70. Черемушкин Е.С., Коновалова Т.Г., Валеев Т.Ф. Разработка пакета программ по анализу регуляторных областей ДНК // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 22-24, 2005; -С. 142-143
71. Коновалова Т., Валеев Т, Черёмушкин Е. Поиск композиционных промоторных модулей, регулирующих экспрессию генов эукариот // Тезисы конференции-конкурса "Технологии Микрософт в информатике и программировании", Новосибирск 22-24 февраля 2005; - с.121 -122
72. Черёмушкин Е., Коновалова Т., Валеев Т. Разработка пакета программ по анализу регуляторных областей ДНК // Тезисы конференции-конкурса "Технологии Микрософт в информатике и программировании", Новосибирск 22-24 февраля 2005; - с. 142-143
73. Коновалова Т., Валеев Т, Черёмушкин Е. Весовые матрицы и поиск композиционных промоторных модулей, регулирующих экспрессию генов эукариот. // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 1114 апреля 2005; - с. 123-124
74. Черёмушкин Е., Коновалова Т., Валеев Т. Программный комплекс для анализа регуляторных областей. // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 11-14 апреля 2005; - с. 142-143
75. Черемушкин Е.С. Шумоподобные сигналы и исследование ДНК // Тезисы XLIII Международной Научной Студенческой Конференции, Новосибирск, 11-14 апреля 2005;
76. Cheremushkin Е., Dunaev A., Murzin F. System of statistical comparison of methods of search of cis-elements. // Proc. of Samsung Young Scientist Day, Novosibirsk, 2004
77. Черемушкин E. С., Коновалова T, Г., Мурзин Ф. А., Кель А. Э. Система распознавания цис-элементов на последовательностях ДНК // Программные средства и математические основы информатики. Новосибирск, 2004. - С. 255-269.
78. Черемушкин Е.С., Кель А.Е., Лобив И.В., Мурзин Ф.А., Половинке О.Н.
79. Визуализация последовательностей днк посредством трансформаций цветового куба // Тезисы конференции ИВТН 2004 - с. 28
80. Лобанова М.В., Коновалова Т.Г., Черемушкин Е.С. Интернет-инструмент для анализа snp в некодирующей ДНК // Тезисы конференции ИВТН 2004 - с.ЗЗ
81. Бесчастнов Е., Лобанова М., Коновалова Т., Черемушкин Е. Программная система поиска ЦИС-элементов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23, 2004; - с. 90-91
82. Черемушкин Е. С. Филогенетический футпринт Новый метод для выравнивания промоторов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23,2004; - с. 133-134
83. Черемушкин Е. С. Система статистического сравнения методов поиска ЦИС-элементов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск Февраль 21-23,2004; - с. 134-135
84. Черемушкина Е. Н., Черемушкин Е. С., Чекменев Д., Кель О. Метод идентификации сайтов ядерных рецепторов // Тезисы конференции-конкурса «Технологии Microsoft в информатике и программировании» Февраль 21-23,2004; - с. 137-139
85. Черемушкин Е.С., Половинке О.Н., Лобив И.В., Дунаев А. А. Визуализация и идентификация подцепочек в регуляторных последовательностях ДНК // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск 18-25 апреля, 2004 г. - с. 197-199
86. Черемушкин Е.С. Статистическое сравнение методов поиска цие-элементов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с. 199-201
87. Черемушкин Е. С. Филогенетический футпринт и выравнивание промоторов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с.201-202
88. Черемушкина Е.Н., Черемушкин Е. С., Чекменев Д. К ель О. Алгоритмы идентификации сайтов ядерных рецепторов // Межвузовская научно-практическая студенческая конф. МНСК, Новосибирск, 18-25 апреля, 2004 г., - с. 202-204
89. Дунаев А. А., Кель А. Э., Лобив И. В., Мурзин Ф. А., Половинке О. Н., Черемушкин Е. С. Визуализация генетической информации // Новые информационные технологии в науке и образовании. Новосибирск, 2003. - С. 147-156.
90. Cheremushkin, Е. and Kel, A. Whole genome human/mouse phylogenetic footprinting of potential transcription regulatory signals. // Рас. Symp. Biocomput., 2003; - p.291-302. PMID: 12603036
91. Kel, A.E., Goessling, E., Reuter, I., Cheremushkin, E., Kel-Margoulis, O.V., Wingender, E. MATCH(TM): a tool for searching transcription factor binding sites in DNA sequences // Nucleic Acids Res. V.31, - p.3576-3579. PMID: 12824369
92. Konovalova (Ivanova), Т., Cheremushkin, E., Beschastnov, E., and Kel, A. Applicating of the metropolis algorithm to reveal composite modules in promoters of eukaryotic genes // ECCB'2003, Paris, France, Sept. 27-30,2003, - 447-448.
-
Похожие работы
- Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК
- Компьютерный поиск регуляторных сайтов белок-дезоксирибонуклеинового взаимодействия в геномах бактерий и его приложения
- Построение и анализ математических моделей деформации упругих стержней с приложением к определению условий замкнутости молекул ДНК
- Алгоритмы и программный инструментарий для исследования процессов генной регуляции
- Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность