автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Компьютерный анализ и распознавание транскрипционных регуляторных районов генов эукариот
Автореферат диссертации по теме "Компьютерный анализ и распознавание транскрипционных регуляторных районов генов эукариот"
РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ ЦИТОЛОГИИ И ГЕНЕТИКИ
РГБ ОД
м На правах рукописи
\ 3 Щ $ р^ УДК 578.088:(576,12+575.24)
КОНДРАХИН ЮРИЙ ВАСИЛЬЕВИЧ
КОМПЬЮТЕРНЫЙ АНАЛИЗ И РАСПОЗНАВАНИЕ ТРАНСКРИПЦИОННЫХ РЕГУЛЯТОРНЫХ РАЙОНОВ ГЕНОВ ЭУКАРИОТ.
05.13.16 (биол. науки) - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях.
Автореферат
диссертации на соискание ученой степени кандидата биологических наук
Новосибирск 1996 г.
/
Работа выполнена в Институте цитологии и генетики СО РАН, г. Новосибирск.
Научный руководитель: доктор биологических наук
Н. А. Колчанов,
Институт цитологии и генетики СО РАН, г. Новосибирск
Официальные оппоненты: доктор биологических наук
Н.П. Мертвецов,
Институт биорганической химии СО РАН, г. Новосибирск
кандидат биологических наук Ю.Г. Матушкин,
Институт цитологии и генетики СО РАН, г. Новосибирск
Ведущая организация: Институт молекулярной биологии РАН,
г. Москва.
Защита диссертации состоится " 6 " и 101996 г. на заседании специализированного совета по
защите диссертаций на соискание ученой степени кандидата наук при Новосибирском институте органической химии СО РАН (К002.42.01) в конференц-зале Института по адресу: 630090, г. Новосибирск - 90, проспект Академика Лаврентьева, 9.
С диссертацией можно ознакомиться в библиотеке Новосибирского института органической химии СО РАН.
Автореферат разослан " $0" С^^^Я 1996 г.
Ученый секретарь специализированного совета, кандидат физико-математических наук / В. И. Смирнов
Актуальность проблемы. Одним из центральных направлений современной молекулярной биологии и генетики является компьютерный анализ нуклеотидных последовательностей. К числу наиболее важных проблем в этой области относится распознавание эукариотических генов. В свою очередь, решение этой проблемы требует создания эффективных методов поиска сайтов сплайсинга, интронов, экзонов, а также распознавания транскрипционных регуляторных районов, то есть участков геномной ДНК, вовлеченных в контроль процесса транскрипции.
Базовым принципом организации транскрипционных регуляторных районов генов эукариот является их блочно-модульное строение и наличие четко выраженных уровней иерархии (Оупап, 1989; Ке1, а1 а!., 1995). Низший уровень организации регуляторного района соответствует цис-элементу, т.е. сайту связывания отдельного транскрипционного фактора. Функциональными единицами промежуточного уровня являются композиционные элементы. Они образованы парами близко расположенных цис-элементов, которые в процессе формирования транскрипционного комплекса функционируют как единое целое за счет интенсивных белок-белковых взаимодействий между соответствующими белковыми факторами. Высший уровень организации транскрипционных регуляторных районов соответствует промоторам и энхансерам.
Компьютерный анализ транскрипционных регуляторных районов является исключительно актуальным в связи с тем, что эффективные компьютерные методы распознавания цис-элементов, композиционных элементов и промоторов в настоящее время отсутствуют. При этом наибольший интерес представляет исследование и распознавание промоторов генов, транскрибируемых РНК-полимеразой II, так как именно этот класс генов наиболее представлен в эукариотических геномах. Особую остроту проблема распознавания промоторов приобрела в последние годы, в первую очередь - в связи с осуществлением проектов полного секвениро-вания геномов человека, мыши, дрозофилы и ряда других эукариотических организмов. Не менее важное значение имеет компьютерный анализ транскрипционных регуляторных районов генов эукариот, направленный на изучение молекулярных механизмов их функционирования и понимание закЬномерностей их структурно-
функциональной организации.
Цели и задачи исследования. Целью настоящей работы являлся комплексный компьютерный анализ транскрипционных ре-гуляторных районов генов эукариот, направленный tía изучение особенностей их структурно-функциональной организации и создание методов их распознавания в нуклеотидных последовательностях. При этом основное внимание было уделено следующим задачам.
1) Анализ точности распознавания цис-элементов в промоторах эукариот на основе консенсусов.
2) Создание метода распознавания цис-элементов в промоторах эукариот на основе представления цис-элементов в виде конкретных реализаций.
3) Создание метода поиска потенциальных композиционных элементов в нуклеотидных последовательностях промоторов эукариот
4) Исследование концентрации цис-элементов в промоторах и других районах геномов, а также выявление особенностей их распределения вдоль промоторных районов.
5) Разработка метода распознавания промоторов в нуклеотидных последовательностях геномов эукариот. Создание метода функциональной классификации, позволяющего отнести распознанный промотор к одному из известных функциональных классов.
6) Создание метода распознавания сайтов полиаденилирования в нуклеотидных последовательностях эукариот.
7) Реализация разработанных процедур распознавания и классификации в виде отдельного пакета компьютерных программ FUNSITE.
Научная новизна и практическая ценность. В работе создан комплекс компьютерных методов, позволяющих исследовать широкий круг проблем структурно-функциональной организации транскрипционных регуляторных районов генов эукариот. Впервые разработана модель представления цис-элементов в виде наборов конкретных реализаций, обеспечивающая более высокую точность распознавания сайтов связывания по сравнению с консенсусами. Предложен новый подход, позволяющий оценивать точность процедур распознавания цис-элементов на основе штрафных функций.
Разработан' метод поиска потенциальных композиционных элементов в промоторах эукариот, основанный на анализе пар сближенных цис-элементов с использованием модификации критерия хи-квадрат. Проведенный анализ позволил выявить более 70 новых композиционных элементов.
Впервые показано, что неравномерность распределения вдоль промоторов является характерной особенностью многих сайтов связывания транскрипционных факторов.
Создан метод распознавания промоторов эукариот, основанный на одновременном учете концентрации потенциальных цис-элементов и их распределений в пределах промоторов. Он позволяет также осуществлять классификацию распознаваемых промоторов, то есть относить их к известным функциональным классам. Введено понятие транскрипционного регуляторного потенциала, который по аналогии с широко используемым кодирующим потенциалом позволяет выделять протяженные транскрипционные регу-ляторные районы внутри исследуемых нуклеотидных последовательностей.
Впервые создан метод распознавания сайтов полиаденили-рования в нуклеотидных последовательностях эукариот. Разработанный в диссертации пакет FUN-SITE для анализа транскрипционных регуляторных районов не имеет аналогов в существующем программном обеспечении.
Апробация работы. Результаты работы докладывались на 4-х международных конференциях: "Распознавание и предсказание структурной организации генов", 1995г., Филадельфия, США; "3-я конференция по интеллектуальным системам в молекулярной биологии", Калифорния, США, 1995г.; "Моделирование и имитация генной и клеточной регуляции", Дагстухл, Германия, 1995; SAMS-конференция, Голландия, 1995г.
Публикации. По теме диссертации опубликовано 6 статей в рецензируемых изданиях (в том числе - 5 за рубежом). Материалы по распознаванию сайтов полиаденилирования включены в учебное пособие для студентов Кембриджского университета (Англия, под редакцией М. Бишопа, 1994).
Структура работы. Работа состоит из введения, пяти глав,
заключения, выводов. Работа изложена на страницах,
проиллюстрирована 29 рисунками и содержит 146 таблиц.
Во введении обосновывается актуальность диссертационного исследования, формулируются его цели и задачи.
Первая глава посвящена обзору литературы, в котором рассмотрена структурно-функциональная организация геномов эу-кариот. Дано описание основных компонент и механизмов функционирования транскрипционных регуляторных районов эукарио-тических генов. Рассмотрены основные подходы к компьютерному распознаванию функциональных сайтов в последовательностях ДНК и РНК, включая сайты связывания транскрипционных факторов. Изложены существующие подходы к распознаванию промо-торных районов генов эукариот. Изложенный материал лег в основу поставленных задач, решению которых посвящена диссертационная работа.
Во второй главе проведен анализ точности распознавания сайтов связывания транскрипционных факторов на основе их консенсусов. Консенсус был предложен для описания и распознавания функциональных сайтов около 25 лет назад и оказался удобен, в первую очередь, из-за своей простоты и наглядности. С учетом того, что он является наиболее распространенной моделью описания сайтов связывания транскрипционных факторов, представляет большой интерес получение оценок точности распознавания цис-элементов, достигаемых в рамках этого подхода. С этой целью нами была разработана программа FUNSITE-SIGNAL, позволяющая выявлять в нуклеотидных последовательностях потенциальные цис-элементы на основе поиска участков, совпадающих с консенсусами. В качестве источника информации о консенсусах использовалась компиляция Файста и Маера (Faisst, Meyer, 1992), содержащая описание 130 консенсусов сайтов связывания транскрипционных факторов геномов эукариот. Программа выявляет как потенциальные сайты, полностью совпадающие с консенсусами, так и отличающиеся от них в позициях определенного количества.
При распознавании функциональных сайтов возможны ошибки двух типов: 1) ошибка 1-го рода (а,), то есть недопредсказание,
когда реально существующий сайт оказывается нераспознанным с помощью данной программы; 2) ошибка 2-го рода (), то есть перепредсказание, когда некий участок ДНК распознается как функциональный сайт, хотя в действительности не является таковым.
Ошибка 1-го рода вычислялась из соотношения
СС, ~ Ш\/т ■ Здесь т - количество рассматривавшихся цис-злементоз, локализация которых известна из экспериментальных данных; щ - количество нераспознанных цис-элементов. Ошибка 2-го рода вычислялась из соотношения аг~пъ/т> - Здесь ^ - количество ложных сайтов связывания транскрипционного фактора, предъявленных программе для тестирования. - количество этих сайтов, распознанных программой. Длина ложного сайта была равна длине соответствующего консенсуса г. Набор ложных сайтов формировался путем случайного выбора непересекающихся фрагментов длины г из последовательностей экзонов.
В табл. 1 представлены типичные ошибки 1-го и 2-го рода для ряда проанализированных цис-элементов (в случае полного совпадения с консенсусом). Можно видеть, что для консенсуса характерна небольшая ошибка 2-го рода, не превышающая 0.5%, что вполне удовлетворительно для распознавания. Что же касается ошибки 1-го рода, то она весьма значительна. В приведенных примерах она варьировала от 25 до 100%. В целом по проанализированной выборке цис-элементов только 28%из них имели ошибку первого рода не более 33%. Это указывает на несостоятельность использования консенсусов для распознавания цис-элементов.
Таблица 1. Характеристики ошибок распознавания на основе консенсусов для ряда цис-элементов._
Цис-элемент Консенсус Ошибка 1-го рода, лу,*100(%) Ошибка 2-го рода,^/100(%)
АР1 1даэ1та 44 0.0221
АР2 ссстпззэ 52 0.4934
АИ адаасаппгЛдНс! 100 <0.001
вАТА-1 \ivgatar 33 0.1015
ЫР-1 уддтпппппдссаа 23 0.0040
ОсМ а(дсааа1 75 0.0023
Бр1 кгддскггк 56 0.0645
С целью снижения ошибки 1-го рода был исследован способ распознавания, при котором допускалось определенное количество несовпадений с консенсусом (7,^=1.....6). При этом для
каждого из исследованных сайтов наблюдалось снижение ошибки
1-го рода по мере увеличения количества несовпадений (табл. 2). Однако одновременно с этим происходило значительное увеличение ошибки 2-го рода.
Таблица 2. Динамика одновременного изменения ошибок 1-го и
2-го родов ах, (Хг в зависимости от увеличения количества допустимых несовпадений х*ы*. Д*151 распознавания цис-элементов на основе консенсусов._
АВ Бр1 N^1
ТаЛ*т а, «2 а, аг а, а2
0 1.000 0.00000 0.556 0.00065 0.231 0.00004
1 1.000 0.00000 0.111 0.01198 0.115 0.00076
2 0.950 0.00009 0.000 0.07118 0.058 0.00847
3 0.675 0.00077 0.038 0.04976
4 0.488 0.00396 0.038 0.19204
5 0.250 0.01592 0.019 0.47100
6 0.125 0.05680
Таким образом, использование консенсусов для распознавания цис-элементов приводит, как правило, к существенным ошибкам 1-го рода ссх- Попытка уменьшения 33 счет введения несовпадений с консенсусом приводит к увеличению ошибки ссг. Вместе с тем, повышение точности распознавания цис-элементов становится особенно важным в связи с реализацией проектов полного секвенирования геномов эукариот. Компьютерная интерпретация секвенированных последовательностей огромной длины (до нескольких десятков тысяч п.о.) предъявляет особенно жесткие требования к точности распознающих программ. Указанные обстоятельства потребовали разработки новых подходов к описанию и распознаванию цис-элементов, характеризующихся значительно более высокой точностью по сравнению с консенсусами. Решению этой задачи была посвящена третья глава диссертации.
Третья глава. В основе разработанного нами метода распознавания цис-элементов лежит представление сайта связывания транскрипционного фактора в виде набора конкретных реализаций = {/?о'&>—■ Принципиальное достоинство этого подхода
6
состоит в том, что при описании функционального сайта удается избежать усреднения нуклеотидного контекста, как это имеет место при построении консенсуса. Разработанный нами алгоритм позволяет для конкретного сайта строить набор реализаций, каждая из которых представляет собой олигонуклеотидное слово длины т в 15-символьном коде ЮРАС-ШВ. При одинаковой длине г, каждая из реализаций Лг, входящих в набор Я, отличается от других реализаций этого набора.
В качестве исходной информации алгоритм построения набора реализаций Я использует экспериментально определенную выборку ио={г/1,...,и„} сайтов связывания отдельного транскрипционного фактора, взятую из базы данных ТРО. Построение набора реализаций определятся двумя существенными параметрами: 1) длиной олигонуклеотидного слова г; 2) максимально допустимым различием (расстояние Хэмминга) между этими олигонуклео-тидными словами. При заданных исходных значениях параметров выявляется так называемая главная реализация, представляющая из себя олигонуклеотидное слово длины г с наибольшей частотой встречаемости в выборке Ц0. После этого все последовательности ц[, содержащие Ц0, удаляются из выборки Цй, в результате чего формируется выборка £/,. На г-м шаге осуществляется анализ выборки Цг, в ходе которого производится поиск г-й реализации Лг. При этом рассматриваются все олигонуклеотид-ные слова длины г. Для каждого из них оценивается расстояние Хэмминга до слова Выбирается такое слово Цг, которое обладает наименьшим расстоянием от слова При наличии нескольких слов, имеющих одинаковое минимальное расстояние, выбирается то из них, которое характеризуется максимальной частотой встречаемости в выборке Цг. Итерационный процесс останавливается, когда множество Цг окажется пустым, либо в нем присутствуют только такие слова, которые отличаются от больше чем на •
Каждый построенный таким образом набор реализаций может быть охарактеризован параметром f - долей последовательно-стей из исходного множества Ц0, представленных в этом наборе реализаций (покрытие множества- £/„). Путем перебора пар (¿<""">, г )=(/',/) ищется такой набор реализаций, который обеспечи-
I I
вает максимизацию функционала
ч9 = f, * ((/„ - Л.;+ (Л - /,,+,>)•
Это означает, что оптимальный набор реализаций характеризуется высоким уровнем покрытия (множитель f ) при большой длине реализаций (слагаемое f - ft ) и высоком уровне сходства между ними ( f - f ). В табл. 3 продемонстрирован типичный
»/у J i-l j
набор реализаций для цис-злемента АР-1, построенный на основе указанного алгоритма. Данным методом были построены наборы реализаций для 37 сайтов связывания, наиболее представленных в базе данных TFD.
Таблица 3. Представление цис-элемента АР1 в виде набора реализаций. Под весом реализации понимается количество реальных сайтов связывания из множества (J0, содержащих
данную реализацию.
Цис-элемент Номер Вес Реализации
реализации реализации
0 26 tgactca
1 10 tcjactAa
2 5 tgaAtca
3 4 tgacGca
4 2 tAactca
АР-1 5 2 tgacAca
6 2 tgactGa
7 1 tCactca
8 1 tqGctca
9 1 tgactcG
10 1 tgactcC
Представление сайтов в виде набора реализаций позволило предложить новый метод их распознавания, реализованный в программе Ри^ИЕ-БЮ-РЕА!.. Считается, что фрагмент ДНК длины г может рассматриваться как функциональный сайт определенного типа, если он совпадает с одной из реализаций этого сайта. На рис. 1 представлен пример выдачи этой программы при поиске цис-элементов в промоторном районе гена человека.
В заключительном разделе главы 3 проведен сравнительный анализ точности распознавания на основе консенсусов и реализаций. Суммарная оценка точности вычислялась из соотношения £2 Здесь О, и - штрафы за ошибку 1-го и 2-го рода
соответственно. Штраф выбирался равным ошибке 1-го рода: С1,-а, - Штраф вычислялся из соотношения
8
* + + * + * + * + ******* + ** + *■******■*■ + ** + *** + + + + *
* FUN-SITE. 1995г. *
* Распознавание потенциальных сайтов *
* связывания транскрипционных факторов *
* в нуклеотидной последовательности. *
* ★it************************************-*-
Название последовательности: Sequence ID HSBSF2.
Номера
Нумерация Позиции Названия Идентификатор сайтов сайтов факторов цепи
1) 30 NF-kB прямая цепь
2) 54 CCUP обратная цепь
3) 151 ICSBP обратная цепь
4) 163 NF-uEl
5) 226 Spl
реализации сайтов 3 1 1 0 0
прямая цепь прямая цепь
Рне. 1. Пример выдачи компьютерной программы РиЫ31ТЕ-8Ю-ЯЕА1 распознавания цис-элементов на основе реализаций._
М= -4, -5, -6.
'"77СС>> 10А о, ,/ ^<10"
Штраф Q2 является монотонно позрзстающей функцией от ошибки 2-го рода. Было показано, что для 94% сайтов, проанализированных с использованием штрафных функций, метод реализаций дает более точное распознавание по сравнению с консенсусом. В табл. 4 приведены примеры такого сравнения для ряда сайтов.
Таблица 4. Штрафные функции для процедур распознавания
цис-эл-ты Распознавание по консенс! /сам Распознавание по реализациям
а, а2 а а Q а, а, Q, q2 Q
АР-1 0.44 0.0002 0.44 0.27 0.71 0.19 0.0013 0.19 0.43 0.62
АР-2 0.52 0.0049 0.52 0.54 1.06 0.44 0.0007 0.44- 0.37 0.81
GATA1 0.33 0.0010 0.33 0.40 0.73 0.27 0.0003 0.27 0.31 0.58
Oct-1 0.75 <1Е-4 0.75 0.07 0.82 0.14 0.0003 0.14 0.31 0.45
Четвертая глава посвящена анализу концентрации и распределения потенциальных сайтов связывания в промоторах эука-риот. Проанализированы выборки последовательностей длиной L= бООп.о., включавшие 472 промотора (500 п.о. до старта транскрипции и 100 п.о. - после); 581 экзонный и 1086 интронный район, соответственно. При распознавании цис-элементов на основе полной выборки консенсусов было показано отсутствие ярко выраженных различий в концентрациях потенциальных цис-
элементов в промоторных районах, экзонах и нитронах. В то же время, для подмножества цис-элементов, описываемых примерно 35% консенсусами из выборки Faisst & Mayer (1992), наблюдается существенное превышение суммарной концентрации цис-элементов в промоторах над их концентрацией в интронах и экзонах. Аналогичные результаты получены при распознавании цис-элементов на основе метода реализаций. На рис. 2 приведено сравнение вероятностных плотностей суммарной концентрации цис-элементов в промоторах, экзонах и интронах, полученных для указанного 35%-го подмножества в случае распознавания на основе реализаций. Видно, что распределение для промоторов значительно сдвинуто вправо по сравнению с соответствующими распределениями для интронов и экзонов. Указанное различие достоверно при использовании омега-квадрат критерия сравнения двух выборок (уровень значимости«<0.01). В то же время, наличие большого перекрывания этого распределения с двумя другими свидетельствует об относительно низкой дискриминационной способности концентрации цис-элементов при разделении выборок промоторов от экзонов и интронов.
Вероятность
Концентрация
Рис. 2. Распределения концентраций цис-элементов в экзонах
(пунктир), интронах (линия) и промоторах (утолщенная линия)._
С целью поиска эффективных характеристик цис-элементов, обеспечивающих хорошую дискриминацию промоторов от других типов геномных последовательностей, было предпринято исследование неравномерности распределения цис-элементов вдоль промоторов. Для этого использовался омега-квадрат критерий не-
10
равномерности Смирнова (Мартынов, 1978), статистика которого
имеет вид: ^ = 1 ж ±1^1-1] =
ь >-\ п и -1 Здесь п - общее количество потенциальных сайтов связывания исследуемого транскрипционного фактора, выявленных во всех промоторных районах; £ - количество сайтов, расположенных в ¡-й позиции промоторов (¡=1.....1_). В результате анализа была установлена статистически значимая неравномерность распределений вдоль промоторов примерно для 20% цис-злементов, распознаваемых по консенсусу (например для цис-элемента АР2, рис. 3). При этом поведение (рис. 4) суммарной насыщенности промоторов цис-элементами в районе (-500) - (+1) относительно позиции старта транскрипции удалось аппроксимировать методами линейного регрессионного анализа: оказалось, что по мере приближения к старту транскрипции наблюдается монотонное возрастание концентрации цис-элементов. Наличие указанного линейного тренда статистически достоверно с уровнем значимости а =0.01 при всех трех вариантах рассмотрения цепей (прямой, комплементарной и обеих одновременно). Наличие указанной зависимости является отражением ключевой роли района, непосредственно прилегающего к старту транскрипции в формировании транскрипционного комплекса.
Рис. 3. Распределение цис-элемента АР-2 вдоль промоторов.
-500 -400 -300 -200 -100 +1 +100 Ркс. 4. Распределение суммарной концентрации цис-элементов вдоль промоторов. Обычная линия - прямая цепь, пунктир -
комплементарная цепь, утолщенная линия - обе цепи._
Известно, что важную роль в функционировании промоторов играют так называемые композиционные элементы, образованные парами близко расположенных цис-элементов, обеспечивающих за счет своей сближенности возможность для прямых белок-белковых взаимодействий между соответствующими транскрипционными факторами. Предложенный нами подход к выявлению потенциальных композиционных элементов включал следующие шаги: 1) распознавание потенциальных цис-элементов в описанной выше выборке промоторов; 2) выделение пар цис-элементов, удаленных на расстояние не более чем w,=50 п.о.; 3) анализ часто встречающихся рядом пар цис-элементов (А,В) с помощью модифицированного критерий хи-квадрат (Флейс, 1989):
—2 L Л..х(|л00хИ11-Я01хИю|-И**/2)
WÁL+ (««, + floiXWio + ИиХИоо + n,o)(n oí +Пп> Здесь: количество всех возможных фрагментов длины в анализируемой выборке промоторов, /j..=(L- Wi+1)*472=250072; n«¡ («и) - количество фрагментов длины w, 8 выборке промоторов, в которых оба цис-элемента одновременно отсутствуют (присутствуют); («„,) - количество фрагментов длины ^ в выборке промоторов, в которых обнаружено наличие только первого
цис-элемента А (второго В). Пара (А,В) рассматривалась как потенциальный композиционный элемент, если наблюдаемая частота совместной встречаемости пары (А,В) статистически значимо (от<0.05) превышает частота совместной встречаемости, ожидаемую по случайным причинам. С использованием указанного подхода было выявлено более 30 композиционных элементов, из них около 70 - ранее неизвестных. На рис. 5 схематически изображен композиционный элемент {GATA-1, NF-kB}, выявленный разработанным методом._____
a) GATA-1(eí), NF-kB (о)
-CJLJ-C3-
-езо-
^ i-
г.
г
г
л
г
Рис. 5. Пример композиционного элемента {GATA-1, NF-kB}, выявленного в 5-ти промоторных районах. Стрелками указаны позиции старта транскрипции._
Пятая глаза. Распознавание промоторов эукариот.
Предложенный метод распознавания промоторов был основан на учете концентрации цис-элементов и неравномерности их распределения вдоль промоторов. С этой целью каждый промоторный район длиной 1.= бООп.о. был разбит на 80 фрагментов примерно одинаковой длины . Затем была построена матрица Т , элемент у4 которой представлял собой наблюдаемое количество потенциальных цис-элементов ¡-го типа (¡=1 ,...,130) в ]-м фрагменте промотора 0=1,...,80). Потенциальные цис-элементы распознавались методом консенсуса. Распознавание промотора в участке Б длиной и, входящем в состав анализируемой нуклеотидной последовательности, осуществлялось с использованием меры ц\
и = = ¿и,, х Хп^Тг
.-I >1
Здесь к =130 - количество рассматриваемых цис-элементов, д. -
13
количество всех появлений ¡-го цис-элемента в ]-м фрагменте участка Б. Весовой коэффициент щ ¡-го цис-элемента определяется как -ц;/="'п(Р(0). гДе Р(0 - вероятность появления ¡-го цис-элемента в случайной нуклеотидной последовательности. Фактически, мера я характеризует сходство анализируемого участка Э с эукариоти-ческими промоторами. Если ц >ц , где ц -пороговое значение, то участок Э распознается как промотор. Вычисляя значение ц при каждом положении сканирующего окна длиной 600 п.о., можно построить кривую транскрипционного регуляторного потенциала для произвольной нуклеотидной последовательности эукариотического генома. На рис. 6 представлен пример такого потенциала для кластера а-глобиновых генов человека длиной 12847 п.о. Можно видеть, что максимальные значения транскрипционного регуляторного потенциала соответствуют стартам транскрипции двух глоби-новых генов, в то время как перед псевдогеном такой максимум отсутствует. Ошибка 1-го рода при распознавании промоторов на
основе меры ц составляет 60%, а ошибка 2-го рода - 6.5%._
Кластер а-глобиновых генов человека (идентификатор в ЕМВЬ - ШНВА4)
а-1 ген а-2 ген
Рис. 6. Пример регуляторного потенциала.
Для повышения точности распознавания, вся обучающая выборка промоторов была разбита на 8 гомогенных кластеров, каждый из которых включал промоторы со сходными распределениями цис-элементов. Для ¡-го кластера была построена частот цис-элементов аналогичная описанной выше и соответствующий порог Тестируемый фрагмент Б рассматривался как промотор ¡-го класса при условии, что ■ Процедура кластериза-
ции привела к повышению точности распознавания. В этом случае ошибка 1-го рода равна 35%, а ошибка 2-го рода - 0.8%.
Был также рассмотрен вопрос функциональной классификации распознаваемого промотора, то есть его отнесения к опреде-
14
ленному классу базы данных Бухера (Bûcher, 1993) (в зависимости от типа кодируемого белка). С этой целью для промоторов каждого из 8 классов М,>->Мкэт°й базы данных была построена матрица частот цис-элементов j\. Для тестируемого промотора определяется вероятность р его принадлежности к классу .....8:
- р, ' А*7-- ?
j-I
Здесь ути ' количество промоторов в i-м классе.
Модифицированный вариант метода распознавания промоторов был применен для распознавания такого важного типа функциональных сайтов как сайты полиаденилирования процессинга пре-мРНК эукариот. В этом случае по выборке t=63 известных по-лиА-сайтов длиной L=68n.o. была построена матрица Т=( у ), частот встречаемости тринуклеотидов в каждой позиции этого сайта. Тестируемый нуклеотидный фрагмент Z = (z,,—,Zi) определяется как сайт полиаденилирования, если значение меры ц превышает
пороговую величину ц . Мера и вычисляется по формуле:
/.-2
M = M(Z) Uf^ThJ •
\T„j- * ThJ>o rk,j
здесь fj.- номер триплета (Z/>z„,,Zy+2).
r- =\ 'J f
Lh,j ~ i, ,/ T =o • Jj
? ThJ>0 7+ï' " tkj =(
Выводы.
1. Разработан метод представления цис-элемента в виде набора реализаций, примененный для описания 37 цис-элементов геномов эукариот. Разработаны программы распознавания цис-элементов на основе консенсуса и набора реализаций. Показано, что распознавание цис-элементов на основе наборов реализаций характеризуется более высокой точностью по сравнению с методом консенсуса.
2. Разработан компьютерный метод поиска потенциальных композиционных элементов в промоторах эукариот. С его использованием в промоторах эукариот выявлено 70 новых
композиционных элементов.
3. Проведено исследование концентрации цис-элементов и их распределений вдоль промоторных районов эукариот. Показано, что насыщенность промоторных областей сайтами связывания транскрипционных факторов монотонно возрастает в районе (-500) - (+1) относительно старта транскрипции. Показано, что характерной особенностью многих цис-элементов является неравномерность их распределения вдоль промоторных районов.
4) Разработан компьютерный метод распознавания промоторов эукариот, основанный на учете концентрации цис-элементов и неравномерности их распределения вдоль промоторов. Разработан метод функциональной классификации, позволяющий относить распознаваемый промотор к определенному функциональному классу базы данных EPD.
5) Создан метод распознавания сайтов полиаденилирования процессинга в пре-мРНК эукариот, основанный на весовой матрице тринуклеотидов.
6) Создан пакет компьютерных программ FUN-SITE, включающий в себя: а) программу для распознавания цис-элементов в нуклеотидных последовательностях на основе консенсусов; б) программу для распознавания цис-элементов на основе метода реализаций; в) программу для распознавания композиционных элементов; г) программу для распознавания промоторов эукариот; д) программу для функциональной классификации произвольного промотора; е) программу для распознавания сайтов полиаденилирования.
Основное содержание диссертации представлено в работах;
1) Yu. V. Kondrakhin, V.V. Shamin, N.A.Kolchanov. Construction of generalized consensus matrix for recognition of vertebrate pre-mRNA 3'-terminal processing sites.//CABIOS, 1994, vol.10, pp. 597-603.
2) Ю.В.Кондрахин, В.В.Шамин. Построение матрицы обобщенного консенсуса для распознавания сайтов З'-концевого процессинга пре-мРНК позвоночных.//Молекулярная Биология, 1994, том 28, стр. 511-520.
3) Y.V.Kondrakhin, A.E.Kel, N.A.Kolchanov, A.G.Romashchenko, LMilanesi. Eukaryotic promoter recognition by binding sites for
transcription factors.//CABIOS, 1995, vol.11, pp. 477-488.
4) A.Kel, Y.Kondrakhin, F.Kolpakov, E.Wingender, N.Kolchanov. Computer analysis of the structure of transription factor binding sites.//SAMS, 1995, vol. 18-19, pp.819-822.
5) Kel A.E., Kondrakhin Y.V., KolpakovPh.A., Kel O.V., Romashenko A.G., Wingender E., MilanesiL., KolchanovN.A. Computer tool FUNSITE for analysis of eukaryotic regulatory genjmic Sequences.// 1995 Proceedings third International conference on intelligent systems for molecular biology, California, US, pp. 197-205.
6) A.E.Kel, Y.V.Kondrakhin, N.A. Kolchanov, L.MNanesi. Recognition of eukaryotic promoters using transcription factor binding sites.//1995, Gen Finding and Gene Structure Prediction, Philadelphia, pp.1-5.
7) M.P.Ponomarenko, L.K.Savinkova, A.E.Kel, O.V.Kel, A.N.Kolchano-va, Y.V.Kondrakhin, F.Kolpakov, A.G.Romaschenko, N.A.Kolchanov. The structure of eukariotic promoters and computer methods of its recognition.//1995,Proceedings of Internetional conference "Modelling and simulation of gene and cell regulation", Dagstuhl, Germany, p. 12.
Подписано к печати 11.04.96 г.
Формат бумаги 60x90 1/16. Печ. л. 1. Уч.-изд. л. 0.7
Тираж 100 экз. Заказ 29.
Ротапринт Института цитологии и генетики СО РАН
630090, Новосибирск, проспект академика М.А.Лаврентьева, 10.
-
Похожие работы
- Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК
- Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления
- Компьютерный поиск регуляторных сайтов белок-дезоксирибонуклеинового взаимодействия в геномах бактерий и его приложения
- Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей
- Исследование математических моделей многостадийного синтеза вещества
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность