автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах
Автореферат диссертации по теме "Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах"
На правах рукописи
Ласкин Андрей Александрович
МЕТОДЫ ЦИКЛИЧЕСКОГО ВЫРАВНИВАНИЯ И РАЗЛОЖЕНИЯ ШУМА ДЛЯ ПОИСКА СКРЫТОЙ ПЕРИОДИЧНОСТИ В БЕЛКОВЫХ СЕМЕЙСТВАХ
05.13.18 - математическое моделирование, численные методы и комплексы
программ.
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Москва - 2005
Работа выполнена в Центре "Биоинженерия" РАН (г. Москва) и Московском Инженерно-физическом Институте (государственном университете).
Научный руководитель: доктор биологических наук, профессор
Короткое Евгений Вадимович
Официальные доктор физико-математических наук,
оппоненты: доцент Ефремов Роман Гербертович;
доктор физико-математических наук, профессор Иванов Виктор Владимирович.
Ведущая организация: Московский Государственный
Университет имени М.В. Ломоносова, биологический факультет
Защита диссертации состоится 1 июня 2005г. в 15 ч на заседании Диссертационного совета Д212.130.09 при Московском Инженерно-физическом институте (государственном университете) по адресу: г. Москва, Каширское шоссе, д.31.
С диссертацией можно ознакомиться в библиотеке Московского Инженерно-физического института (государственного университета).
Автореферат разослан апреля 2005г.
Ученый секретарь диссертационного совета доктор физ.-мат.наук, профессор
Леонов А.С.
Общая характеристика работы.
Актуальность проблемы.
С началом нового тысячелетия основные надежды человечества на научный прогресс связаны с молекулярной биологией. От представителей данной науки небезосновательно ждут достижения таких значительных результатов, как клонирование организмов, направленное создание лекарств от наследственных и иных заболеваний, создание искусственных организмов, обладающих требуемыми свойствами, и продление человеческой жизни. Недавно были получены важные промежуточные результаты на этом пути -расшифрованы генетические последовательности человека, а также многих модельных организмов, ведутся дальнейшие работы в этой области.
Специфика биологического знания такова, что здесь мы имеем дело с огромными (и все возрастающими) объемами информации; поэтому ее развитие было в значительной мере подстегнуто развитием компьютерной техники, способной вместить и обработать такие объемы, а также компьютерных сетей, благодаря которым появилась возможность оперативного доступа к ней из любой точки. Разнообразие биологической информации привело к тому, что количество одних только бесплатно доступных через Интернет баз данных достигло 548 и продолжает расти. При этом обьем одного только банка нуклеотидных последовательностей Genbank составляет 37.9 миллиарда нуклеотидов в 32.5 миллионах последовательностей, удваиваясь в среднем каждые 15 месяцев.
Однако применение вычислительных систем в молекулярной биологии не ограничивается лишь накоплением экспериментально полученной информации и обеспечением доступа к ней. Большое значение имеет также развитие и применение математических методов и алгоритмов, направленных на извлечение биологически значимой информации из имеющихся генетических последовательностей и других элементов данных.
Какая же информация может быть извлечена из символьной последовательности с помощью разработанных к настоящему времени математических подходов? Ответ на этот вопрос определяет возможность получения биологически значимой информации из генетических текстов, понимание процессов эволюции генов и эволюционных перестроек геномов, а также создание динамической модели клеточной регуляции и искусственных белков с заранее заданными свойствами.
Цели и задачи исследования. Целью настоящей работы являлись:
1. Развить математические методы для изучения скрытой периодичности генетических текстов, которые дополняли бы основной метод выявления скрытой периодичности - метод Информационного Разложения. Разработать информационную концепцию и адекватные статистические модели имеющегося набора данных по последовательностям белков, применить их к задачам поиска и идентификации семейств со скрытой периодичностью в базах данных. Разработать методы анализа матриц периодичности;
2. Реализовать разработанные алгоритмы обнаружения скрытой периодичности в генетических последовательностях в виде программного комплекса. Такой комплекс должен был также содержать инструменты для работы с найденными типами периодичности и соотнесения определенных типов периодичности со структурными и функциональными особенностями белков. При программной реализации алгоритмов необходимо было оптимизировать время выполнения расчетов, обеспечить возможность пуска наиболее ресурсоемких задач комплекса на суперкомпьютере кластерного типа, и разработать унифицированные форматы данных по
периодичности с целью быстрого осуществления поисковых запросов и добавления новых функциональных возможностей к комплексу; 3. Показать, что скрытая периодичность различной длины и различного вида (задаваемого матрицей периодичности) присутствует во множестве белковых семейств. Для этого применить методы Информационного Разложения и Циклического Выравнивания к ряду белковых семейств, аннотированных в Swiss-Prot.
Научная новизна.
Разработаны математические методы Разложения Шума и Циклического Выравнивания. У многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов. Методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. Применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.
В результате проведенной классификации случаев скрытой периодичности белковых последовательностей были изучены и систематизированы накопленные данные о периодичности, что позволило впервые сделать вывод о том, что в ряде практически важных случаев скрытая периодичность свойственна не отдельным белкам, а целым белковым семействам и доменам. Последующее применение методов Циклического Выравнивания и Разложения Шума позволило подтвердить это предположение и открыть несколько десятков семейств со скрытой периодичностью, в которых она обнаруживается не менее чем в 80%
аннотированных последовательностей данных семейств. Исследована связь скрытой периодичности со строением белков, в частности, с супервторичной структурой укладок Россмана и других нуклеотид-связывающих сайтов, а также с расположением каталитически активных аминокислотных остатков на поверхности белков. Полученные результаты свидетельствуют в пользу происхождения белков и доменов путем множественных дупликаций древних протобелковых структур размером 12-30 аминокислотных остатков, что является важным научным открытием.
Практическая значимость.
Разработанные методики, алгоритмы и программное обеспечение могут быть использованы для исследования эволюционных взаимоотношений генетических текстов и структурной организации белков, а также для аннотирования скрытых повторов в базах данных белковых последовательностей. Примененные методы позволяют исследовать тонкую структуру генетических текстов на уровне, недостижимом с помощью других методов. Также полученные данные могут найти применение для создания искусственных белков с заранее заданной функциональностью на основе циклических структур.
На защиту выносятся:
1. Развитые алгоритмы поиска скрытой периодичности в аминокислотных последовательностях белков, позволяющие выявлять периодичность с низкой степенью или отсутствием гомологии между отдельными периодами при наличии вставок и делеций;
2. Методы анализа скрытой периодичности в белках, позволяющие разделять различные типы скрытой периодичности с одной длиной периода, а также проводить структурный анализ типов периодичности;
3. Результаты поиска скрытой периодичности в белковых семействах,
аннотированных в банке данных Swiss-Prot.
Апробация и публикации.
Основные результаты диссертации были представлены на конференциях: "Genome Informatics Workshop" (Tokyo, 2001), "Bioinformatics of Genome Regulation and Structure" (Novosibirsk, 2002, 2004), "European Conference on Computational Biology" (Paris, 2003), "RECOMB" (Berlin, 2003), международном конгрессе "Биотехнология: состояние и перспективы развития" (Москва, 2003), международной школе-конференции молодых ученых "Биология - Наука XXI века" (Пущино, 2004), съезде "Генетика в XXI веке: современное состояние и перспективы развития" (Москва, 2004), международном семинаре МНТЦ "Science and Computing" (Москва, 2003). Результаты исследований изложены в 11 публикациях.
Структура и объем диссертации.
Диссертационная работа состоит из введения, пяти глав, заключения, приложения и списка литературы из 168 наименований. Общий объем диссертации составляет 157 страниц, содержит 18 рисунков и 10 таблиц.
Содержание работы.
В первой главе рассматриваются основные математические методы, применяемые для анализа генетических текстов, а также основы структурно-функциональной организации и эволюции белков.
В §1.1 производится критический анализ применяемых в настоящее время математических методов изучения символьных последовательностей. Рассмотрено сравнение символьных последовательностей методами выравнивания, основанными на динамическом программировании, и их современные реализации (Blast, Fasta, PSI-Blast). Отдельное внимание
уделено реализации методов динамического программирования для поиска повторов и периодичностей. Методы Фурье-преобразования и скрытые марковские модели также относятся к широко применяемым в биоинформатике методам. Особое внимание уделено методам анализа, основанным на теории информации, а именно анализу колмогоровской сложности и расширенному подобию последовательностей. Методы описываются совместно с результатами, достигнутыми с их помощью; обсуждаются условия применимости данных методов и их разрешающая способность.
В §1.2 рассматриваются принципы организации белковых последовательностей. Рассмотрена связь между первичной и вторичной структурой белка и программное обеспечение для предсказания вторичной структуры, такие как HMMSTR, PSIPRED и SVM. Также рассматривается трехмерная структура белковой глобулы и имеющиеся алгоритмы для ее предсказания, такие как 3D-JIGSAW, SAM-T02, THREADER, HomTraj-alpha и SimFold. Обсуждается точность предсказания белковых структур различными методами. В завершении параграфа рассказывается об основных биологических базах данных, в том числе тех, которые были использованы при выполнении этой диссертационной работы (Swiss-Prot, PROSITE, ProDom, Pfam, HSSP, PDB, SCOP, CATH).
В рассмотрены основы эволюции аминокислотных
последовательностей. Особое внимание обращено на факты древних дупликаций аминокислотных фрагментов и их влияние на структуру и функцию белка.
Во второй главе формулируются и обосновываются задачи, которые должны были быть решены в ходе исследовательских работ, являющихся основой данной диссертации.
В третьей главе рассматриваются методы и алгоритмы, разработанные и использованные в ходе выполнения данной работы, доказываются
необходимые теоремы и приводятся результаты численных экспериментов, проведенных для оценки параметров, влияющих на точность и быстродействие алгоритмов.
В §3.1 описан метод информационного разложения символьных последовательностей, примененный в данной работе для первичного поиска случаев периодичности. В начале параграфа дается качественное определение понятия скрытой периодичности и ее отличие от совершенной или гомологической периодичности; так, например, последовательность, состоящая из элементов вида
будет обладать скрытой периодичностью, при том, что гомология между отдельными периодами данной последовательности отсутствует. Такая периодичность может быть обнаружена лишь методом информационного разложения.
Основная идея метода информационного разложения для поиска периодичности в символьной последовательности длины
определенной на алфавите А = { Д | мощностью п состоит в сравнении исследуемой последовательности с искусственной периодической последовательностью. Причем, если осуществляется поиск периодичности с длиной периода L, искусственная последовательность s определяется на формальном алфавите мощностью L следующим образом:
длина искусственной последовательности принимается равной длине анализируемой символьной последовательности Lseq- Для определения количественной меры подобия заполняется матрица соответствий М размерностью n*L, (ij)-Й элемент которой равен количеству появления в одних и тех же позициях последовательностей а и s букв
По матрице соответствий считается взаимная информация: п L n L
1 = XÄ Х Ытч ~ Y^J Х
ы >1 fei ¡=1
О)
где Х{, У] - частоты встречаемости различных символов алфавита в последовательностях айв соответственно. Описаны 2 свойства взаимной информации как меры периодичности - ортогональность и вложенность.
Для полного исследования последовательности на наличие скрытой периодичности последовательно рассматриваются все длины периодов от 2 до £.,(.</2; методом варьирования границ выделяется фрагмент, у которого периодичность наиболее выражена. Зависимость Z от длины периода называется спектром информационного разложения. Для оценки статистической значимости вычисляется величина
Z(L) =
т-шщ
JEm
(2)
В §3.2 рассмотрен принцип циклического выравнивания последовательностей и алгоритмы его реализации.
Циклическим профилем мы назовем последовательность элементов вида где весов аминокислот
в позиции профиля, которая может быть бесконечно
продолжена в обе стороны. Введем понятие циклического профильного выравнивания как некоторого последовательного попарного соответствия циклического профиля и реальной последовательности с учетом возможных пропусков элементов:
(3)
здесь L - длина периода (Ь = 4), Ь^ЬгЬзЬ^ЬбЬу... - некоторая реальная аминокислотная последовательность. Графически циклическое выравнивание
можно представить в виде пути, соединяющего узлы цилиндрическом решетки (рис. 1В), по аналогии с обычным выравниванием последовательностей (рис. 1А):
Рис. 1. Схемы обычного (А) и циклического (В) выравниваний. Элементы 8 матрицы расположены в узлах решетки, изображенной штрихами.
Суммируя по позициям выравнивания значения весов и цен делеций <!„, мы получим суммарный вес циклического выравнивания. Среди всех возможных выравниваний существует оптимальное, т.е. обладающее наибольшим весом. Если - частичный вес оптимального выравнивания до элемента (А;, Ь]), то Теорема 1 устанавливает соотношение между элементами матрицы 8.
Теорема 1. Если существует оптимальное выравнивание циклического профиля А и реальной последовательности В, то верно следующие соотношение между элементами матрицы сходства 8:
(Здесь и далее первый индекс 8-матрицы берется по модулю Ь).
Формула (4) может служить основой для рекуррентного построения матрицы сходства 8. Введем понятие локального циклического выравнивания как выравнивания некоторой подпоследовательности из данной реальной последовательности, начало и конец которого
соответствуют произвольным позициям периода. Показано, что для него формула (4) будет выглядеть следующим образом:
Вес наилучшего локального выравнивания равен максимальному из значений Вариант формулы (5), не содержащий рекурсий, следует из теоремы:
Теорема 2. Обозначим 1ШХ^0,5,Ч/, + К^тах,^
тогда, при условии что
Важным частным случаем является выбор цен делеций в виде ¿Г1=а + Ь(п — Х) (аффинные делеций). При этом Теоремы 3 и 4 приводят к существенному сокращению времени вычислений матрицы
Теорема 3.
Б ц в формуле (6) в аффинном случае может быть определено рекуррентным соотношением:
Теорема 4. Пусть максимум (или один из максимумов) по ( достигается в точке Тогда (6) в аффинном случае можно записать в виде:
где определяется таким образом:
Как легко видеть, для вычисления одного элемента S-матрицы по формулам (7,8) требуется конечное число операций; таким образом, мы сформулировали алгоритм сложности Для поисков скрытой
периодичности использовались значения
В §3.3 описаны примененные методы оценки значимости циклических выравниваний, которая служила основным критерием для определения присутствия скрытой периодичности в последовательности. Для оценки статистической значимости выравниваний использовался метод Монте-Карло. Заданное число раз генерировались случайные строки той же длины и символьного состава, что и реальная последовательность, определялись среднее значение и дисперсия для разности значений между найденными крайними точками выравнивания, и затем определялась величина Ъ как мера отклонения реального выравнивания от среднего значения по формуле:
Высокие значения Ъ свидетельствуют о сильном отличии сходства рассматриваемой строки с данным периодическим паттерном; показано, что при обнаружении последовательности с 2>6.0 мы можем считать, что имеем дело с обнаруженным случаем скрытой периодичности. Рассмотрен вопрос о корреляции значений веса выравнивания и его статистической значимости; уровень такой корреляции - примерно 72%.
В §3.4 описаны итеративное сканирование банка последовательностей и метод Разложения Шума. Эти методы предназначены для построения нового профиля, описывающего скрытую периодичность в белковом семействе, с использованием результатов предыдущего профильного анализа. В предположении о статистической однородности банка данных, новый циклический профиль определялся по известной формуле:
где фу - элемент позиционно-весовой матрицы для символа типа г в позицииРц - взвешенная (см. ниже) вероятность появления символов типа г в позиции у", определенная по результатам сканирования банка данных, а// —
(9)
1Гц=С
(10)
частота встречаемости символов типа i в банке данных. Однако, в ряде случаев применение формулы (10) не приводило к удовлетворительным результатам - среди результатов сканирования с профилем W было множество представителей разнородных белковых семейств. В результате анализа множества наборов результатов поиска, был сделан вывод о неадекватности для данных случаев статистической модели, использовавшейся для вывода формулы (10) ее авторами (то есть, предположения о равнораспределенности и независимости символов в анализируемых последовательностях). В реальном банке генетических данных определенные мотивы (в том числе периодические) представлены со значительно большей частотой. Поскольку чувствительность профильного поиска высока, некоторые из них могут быть обнаружены в ходе поиска по хотя бы отдаленно сходному профилю. Включенные затем в выравнивание, используемое для построения нового профиля по формуле (10), они приведут к его отклонению, известному как «дрейф профиля».
Идея метода Разложения Шума, использованного нами для улучшения
N
состава результатов сканирования, состоит в замене
4=1
есть на взвешенную сумму частот независимых символов/¡, представляющих случайные последовательности, и позиционно-зависимых частот соответствующих распределению символьных частот по позициям в мотиве к. Таким образом,
Гч-СЪу-.*,^* /1 + ±скя\,;,±ск=1 (11)
'.] 4=1 к=0
Поскольку нам не известны все возможные мотивы, присутствующие в банке данных, суммирование в (11) проводится лишь по тем из них, которые представлены в наборе "false positives" в большом количестве (более 10 раз). Веса этих мотивов определяются их количеством среди результатов, то есть количество последовательностей типа среди "false
к
Я у.
positives". Значение Co не может быть определено таким образом; численные эксперименты, проведенные на конкретных матрицах периодичности, показали, что наилучшим выбором будет
Мы вычисляли путем попарного глобального выравнивания всех найденных подпоследовательностей из набора "true positives". Обозначим значение веса выравнивания подпоследовательностей к и 1 как З^ЪД). Тогда мы можем использовать эти значения для вычисления то есть меры
присутствия последовательностей, подобных к, в этом наборе:
Т( k) = ^max{0,5(k,l)/max{S(k,k),5(l,l)}} (12)
где индекс I пробегает по всему вышеуказанному набору. С помощью
этих-------------------------тем Pij:
Р.,=Тгки'Т(Ю (13)
к
где - это частоты встречаемости символа в позиции периода циклического выравнивания последовательности (см. (3)). Таким образом, мы устраняем избыточную представленность различных типов последовательностей в банке данных Swiss-Prot (и других).
Процесс итераций осуществлялся следующим образом. Сначала методом информационного разложения получалась исходная матрица периодичности, и с помощью выражения (10) определялась исходная позиционно-весовая матрица Затем с использованием этой позиционно-весовой матрицы проводилось циклическое выравнивание всех последовательностей из банка Swiss-Prot, и создавался набор всех статистически значимых результатов. После этого результаты
сканирования для применения формул (11-13) разделялись на "true positives" и "false positives". Было рассмотрено два способа такого разделения - анализ по ключевым словам и кластеризация. Мы сделали вывод, что имеющаяся в банке Swiss-Prot информация позволяет более точно классифицировать
результаты поиска, чем кластеризация, и она должна использоваться, когда это только возможно.
После формирования классов вычислялись значения ру (и если осуществлялось разложение шума), и вычислялась новая позиционно-весовая матрица. Используя новую позиционно-весовую матрицу, мы повторяли поиск в Swiss-Pгot и получали новый набор результатов, таким образом осуществлялась итерация.
Процесс итераций повторялся, пока набор результатов после очередной итерации не был практически таким же, как и до нее; наши эксперименты показывают, что для достижения этого достаточно от 3 до 5 итераций.
Рис. 2 наглядно показывает схему итеративного поиска скрытой периодичности и завершает описание методов и алгоритмов.
Рис. 2. Схема работы алгоритма поиска скрытой периодичности.
В четвертой главе представлены и обсуждены основные результаты применения разработанных методов к реальным генетическим последовательностям.
В § 4.1 описана проделанная классификация случаев периодичности без делеций и программные компоненты, разработанные в рамках проекта. Классификация осуществлялась на основе расстояния ^ между матрицами периодичности; итогом явилась база данных по случаям периодичности и ее классам. Описан формат этой базы, а также баз данных, создаваемых в результате поиска скрытой периодичности с делениями. Также описаны
форматы файлов, используемых при поиске, и программные компоненты для поиска периодичности и анализа полученных данных.
В § 4.2 описана найденная скрытая периодичность NAD'+'-связывающих доменов. Эти домены имеют характерную пространственную структуру типа укладки Россмана, представляющей собой комбинацию чередующихся а-спиралей и параллельных Р-слоев. Очевидно, что аминокислотная последовательность этого района должна содержать некоторые дополнительные признаки, которые обеспечивают его довольно жесткую пространственную структуру. Исходя из характерных размеров структур в NAD-связывающих сайтах, был выбран размер периода 24, т. к. именно этот размер примерно соответствует одной а-спирали и элементу |3-листа в укладке Россмана.
После оптимизации профиля мы смогли обнаружить скрытую периодичность у примерно 60% белков. Точность определения положения NAD-связывающего домена для белков, у которых эти положения были известны, превысила 97%. Для дальнейшего улучшения чувствительности поиска мы исследовали структуру NAD-связывающих сайтов согласно базе данных SCOP. Были выделены в 15 отдельных обучающих множеств, соответствующих структурным семействам этих сайтов. Каждое из этих множеств было независимо использовано для оптимизации полученного ранее профиля. Это позволило определить скрытую периодичность в сумме у 86% членов данных семейств. Профили и наборы полученных результатов доступны по адресу http://periodicity.fromru.com.
Было также исследовано соответствие позиций периода вторичным структурам, т.е. вместо аминокислотного остатка в соответствующей позиции указывался элемент вторичной структуры. Определено, что период в 24 аминокислотных остатка содержит одну альфа-спираль и один бета-слой. Его вторичную структуру можно условно отобразить в виде "???HHHHHHHHHH????SSSS???". Сильное сходство в расположении
вторичных структур по позициям периода для NAD-связывающих ферментов указывает на то, что в данном случае периодичность связана с вторичной структурой сайтов.
Рис. 3. Характеристика вторичной структуры профиля, соответствующего NAD-связывающему сайту. Для каждой позиции периода показаны вероятности нахождения в определенной конформации вторичной структуры (согласно данным банка PDB).
Итогом нашей работы являются 15 независимых классов скрытой периодичности (заданных позиционно-весовыми матрицами), которые все вместе определяют циклическую структуру NAD-связывающих сайтов, имеющих укладку Россмана, и также структурно близких к ней. Классификация матриц периодичности выявила, что наиболее близкими являются группы ферментов, окисляющие сходные вещества. Домены с измененным положением NAD относительно домена эволюционно удалены от всех остальных.
В § 4.3 описана скрытая периодичность активных центров протеинкиназ. Изначально она была обнаружена в 7 различных протеинкиназах; длина периода составляла 18 аминокислот. Везде, где участки с периодичностью были охарактеризованы, они попадали на активные сайты соответствующих белков. Это позволило предположить, что
периодичность с длиной 18 является характерным свойством каталитических сайтов протеинкиназ.
Из данных результатов был сформирован профиль периодичности; с его помощью было найдено около 100 белков, принадлежащих к суперсемействам серин-треониновых и тирозиновых протеинкиназ. Так как эти суперсемейства имеют разные сигнатуры, было сформировано 2 различных профиля периодичности с использованием метода Разложения Шума. При разложении было использовано значение Со=3/4; в одном случае серин-треониновые протеинкиназы считались правильными результатами, а тирозиновые - одним из видов коррелированного шума, а в другом -наоборот. Итогом разбиения на классы явились 2 позиционно-весовых матрицы, которые затем были путем итеративного поиска оптимизированы для нахождения максимального количества соответственно серин-треониновых и тирозиновых протеинкиназ при сохранении их специфичности. В обоих случаях удалось найти скрытую периодичность в более чем 80% белков данного класса и добиться уровня разделения серин-треониновых и тирозиновых протеинкиназ более 94%.
Тип периодичности Серин-треониновые протеинкиназы Тирозиновые протеинкиназы
Всего белков данного класса в 5»138-Рго1 версии 39 963 (43-с двойной специфичностью) 369 (43-с двойной специфичностью)
Найдено по уровню значимости 7>6.0 774 301
Найдено других белков по уровню значимости 7>6.0 55 5
Из них киназ другого типа 47 (тирозиновых) 5 (серин-треониновых)
Таблица 1. Результаты выявления скрытой периодичности длиною в 18 аминокислот в последовательностях протеинкиназ.
При исследовании найденной периодичности была выявлена связь периодов с расположением субдоменов в активном центре протеинкиназ. Субдомены разделяются менее консервативными участками, которые обычно отождествляются с петлевыми структурами, при этом наблюдается
чередование более и менее консервативных участков, причем период такого чередования близок к 18 аминокислотам. Найденные периодичности располагаются в субдоменах У1-Ь, VII, VIII и IX. Оказалось, что границы субдоменов лежат между 14-й и 15-й позициями периода. Таким образом, между периодами и субдоменами имеется отчетливая связь.
В § 4.4 описана скрытая периодичность в других исследованных семействах и ее возможное структурно-функциональное значение. В данной работе был предложен метод его определения, основанный на использовании аминокислотных шкал (индексов) и факторов, отражающих структурные предрасположенности, эволюционные и физико-химические свойства отдельных аминокислот. Численные значения факторов были взяты из базы AAIndex и нормированы:
Затем из полученных нами матриц периодичности определялись значения данного фактора в различных позициях периода по формуле:
Амплитуду 1й гармоники значений /•} мы назовем выраженностью этого фактора в данном случае периодичности:
Если значения А превышали определенные пороговые значения, мы считали это доказательством структурной обусловленности наблюдаемой скрытой периодичности.
Функциональная обусловленность скрытой периодичности проверялась по наличию в результатах сканирования не менее 90% белков из одной функциональной группы или нескольких смежных групп.
(14)
^ = У р Ф'
1 ¿иЫЧ1Ч 1
(15)
А = ДЛМ7.4.=Ь, ^ 4» -(16)
С помощью рассмотренных методов было выявлено и проанализировано более 20 новых случаев проявления скрытой периодичности в белковых семействах и получены матрицы периодичности, характерной для этих семейств. Результаты факторного анализа представлены в таблице 2 Приложения. Дополнительная информация по найденным случаям периодичности представлена на Интернет-странице по адресу http://periodicity.fromru.com/new/.
Исследование найденных случаев периодичности с помощью аминокислотных факторов позволило во многих случаях объяснить появление скрытой периодичности в соответствующих регионах белков либо сделать предположение об их структуре. Так, для семейств ТРР-связывающих доменов, детиобиотин-синтетаз, пиридоксаль-фосфат-связывающих доменов, АТР-синтетаз была продемонстрирована связь скрытой периодичности с наличием циклических аналогичная
той что присутствует в NAD-связывающих сайтах. Были выявлены критерии, по которым с помощью факторного анализа можно предсказать такую связь по имеющемуся профилю периодичности; с их помощью было предположено наличие циклических в найденных классах метилтрансфераз и
GTP-связывающих сайтов, структуры которых еще не получены. Также наличие периодичности, сходной с периодичностью в ацилтрансферазах (которая обусловлена наличием в них левой
EIF-2B, а также у глюкозо-1-фосфат-аденилтрансфераз, трехмерные структуры которых неизвестны. Факторный анализ позволил предположить наличие левых у белков из этих семейств.
В пятой главе приведено обсуждение и сделаны выводы относительно возможностей применения развитых в данной работе методов.
В производится сравнение результатов совместного применения
Информационного Разложения, Циклического Выравнивания и Разложения Шума с результатами, получаемыми с помощью поиска по гомологии или
преобразования Фурье. Показано, что развитый в данной работе метод применим также к исследованию гомологичной периодичности, например ANK или LRR повторов, и при этом он способен находить больше белков с такими повторами и больше повторов в отдельных белках, чем поиск по гомологии (например, PFam, SMART, REP, REPRO и RADAR). Показано, что метод Фурье не может быть расширен для поиска несовершенной периодичности со вставками и делециями, поскольку не позволяет определить профиль периодичности. Также обсуждены текущие недостатки представленных в данной работе методов и указаны возможные пути их развития с целью более качественного поиска скрытой периодичности.
В §5.2 обсуждается роль развитых методов исследования скрытой периодичности при изучении пространственных структур белков. Указано на адекватность наших методов при исследовании, в частности, Россман-подобных структур которые менее прочих консервативны в
последовательностях, и поэтому изучение гомологии не совсем подходит для этих структур. Также периодичность имеет место и в циклических структурах других конфигураций. Обсуждена возможная связь периодичности с образованием белковых структур (фолдингом), при котором регулярность расположения сайтов связывания белков-шаперонов может облегчать процесс обретения белком нужной структуры.
В обсуждено возможное эволюционное значение периодического строения аминокислотных последовательностей. Как мы считаем, во многих случаях скрытая периодичность является следами древних повторов, приведших к образованию доменов или однодоменных белков. Существуют свидетельства о эволюции NAD-связывающих сайтов путем дупликации экзонов, причем один экзон примерно соответствует найденному нами скрытому периоду. Подобное происхождение предполагается и для многих других белковых доменов, поскольку в них находят периодичности в расположении сайтов сплайсинга. В заключение отмечено, что изучение
скрытой периодичности может иметь значение для воссоздания предковых белков и доменов, которые возникали путем дупликаций и имели периодичность на значимом гомологическом уровне, которая была затем нарушена в ходе эволюционного приспособления живых организмов.
В заключении сделаны основные выводы диссертационной работы:
- Разработаны математические методы Разложения Шума и Циклического Выравнивания, обоснована необходимость их разработки и применения.
- Продемонстрировано, что методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода.
- В результате классификации случаев скрытой периодичности белковых последовательностей были изучены и систематизированы накопленные данные о периодичности, что позволило впервые сделать вывод о том, что в ряде практически важных случаев скрытая периодичность свойственна не отдельным белкам, а целым белковым семействам и доменам.
- Последующее применение методов Циклического Выравнивания и Разложения Шума позволило подтвердить это предположение и открыть несколько десятков семейств со скрытой периодичностью, в которых она обнаруживается не менее чем в 80% аннотированных последовательностей данных семейств.
- Исследована связь скрытой периодичности со строением белков, а также с расположением каталитически активных аминокислотных остатков на поверхности белков. Полученные результаты свидетельствуют в пользу происхождения белков и доменов путем множественных дупликаций древних протобелковых структур размером 12-30 аминокислотных остатков.
Все предложенные и реализованные в рамках данной диссертационной работы алгоритмы обработки и анализа аминокислотных последовательностей могут быть обобщены на случай символьных
последовательностей произвольного типа, а также применены в классическом профильном анализе.
Основные положения диссертационной работы изложены в публикациях:
1. Laskin AA., Korotkov E.V., Kudiyashov NA Detection of Hidden Periodicity in Protein Sequences and Its Correlation with Structure and Function of Proteins. // In: H. Matsuda, S. Miyano, T. Takagi, and L. Wong (eds) "Genome Informatics 2001" 2001,343-344.
2. Laskin A., Korotkov E., Kudryashov N. New method of latent periodicity detection may determine structurally related proteins and protein families. // Proceedings of the 3rd International Conference on Bioinformatics of Genome Regulation and Structure. Novosibirsk 2002,3:97-99.
3. Ласкин АА, Короткое Е.В., Чалей М.Б., Кудряшов НА Идентификация NAD-связывающих сайтов в аминокислотных последовательностях различных белков. // Мол. Биол. 2003,37(4):663-673.
4. Laskin A.A., Korotkov E.V., Kudryashov N.A Latent Periodicity Of Many Domains In Protein Sequences Reflects Their Structure, Function And Evolution. // In: Bioinformatics of Genome Regulation and Structure. N. Kolchanov, R. Hofestaedt (eds), Dec 2003, ISBN 1-4020-7735-1, Hardbound
5. Turatina V.P., Laskin AA, Korotkov E.V., Skryabin K.G. Searching for latent periodicity in amino acid sequences of proteins and protein domains. II In: Proceedings of II International Congress "Biotechnology: State of the Art and Prospects of Development" Moscow Nov 10-14, 2003 part 1 p 26.
6. Laskin A.A., Korotkov E.V., Kudryashov N.A. Noise Decomposition and Search of the Latent Periodicity In Protein Active Sites. // In: Currents in Computational Molecular Biology. Spang R., Beziat P., Vingron M. (eds), Berlin 2003, pp. 67-68.
7. Laskin A.A., Korotkov E.V., Kudryashov N.A. Noise Decomposition and Search of the Latent Periodicity In Protein Active Sites. // In: Proceedings of the 2nd European Conference on Computational Biology. Cristophe C, Lenhof H.-P., Sagot M.-F. (eds), Paris 2003, pp. 257-258.
8. Turutina V., Korotkov E., Laskin A. Latent periodicity of the protein families. // In: Proceedings of the 4th International Conference on Bioinformatics of Genome Regulation and Structure. Novosibirsk 2004, pp. 374377.
9. Турутина В.П., Короткое Е.В., Ласкин АА Выявление и анализ скрытой периодичности в аминокислотных последовательностях белков и их доменов. // Сборник тезисов 8-й международной школы-конференции молодых ученых "Биология - Наука XXI века", Пущино 2004, стр. 244.
10. Турутина В.П., Короткое Е.В., Ласкин А.А. Поиск скрытых периодических структур в аминокислотных последовательностях белков и белковых доменов. // Сборник тезисов съезда "Генетика в XXI веке: современное состояние и перспективы развития", Москва 2004, т. 2, стр. 317.
11. Ласкин А.А., Кудряшов Н.А., Скрябин К.Г., Короткое Е.В. Скрытая периодичность серин-треониновых и тирозиновых протеинхиназ и некоторых других белковых доменов. // Мол. Биол. 2005, 39(3):420-436.
Принято к исполнению 27/04/2005 Исполнено 29/04/2005
Заказ № 813 Тираж: 70 экз.
ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Балаклавский пр-т, 20-2-93 (095) 747-64-70 www.autoreferat.ru
* %
n m:m V." ' 241
Оглавление автор диссертации — кандидата физико-математических наук Ласкин, Андрей Александрович
ВВЕДЕНИЕ.
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.
§1.1. Математические методы изучения символьных последовательностей.
Сравнение символьных последовательностей методами динамического программирования. Алгоритмы, используемые программами Blast,
Fasta, PSI-Blast.
Применение методов динамического программирования для поиска периодичностей в символьных последовательностях.
Методы преобразования Фурье, применяемые для изучения периодичности символьных последовательностей.
Применение скрытых марковских моделей для поиска периодичностей символьных последовательностей.
Колмогоровская сложность символьных последовательностей.
Расширенное подобие символьных последовательностей.
§1.2. Принципы организации белковых последовательностей.
Первичная и вторичная структуры белковых последовательностей.
Связь между первичной и вторичной структурой.
Белковая глобула и алгоритмы для предсказания ее конформации.
Базы данных белковых последовательностей, мотивов и пространственных структур.
§1.3. Основы эволюции аминокислотных последовательностей.
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ.
ГЛАВА 3. МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ.
§3.1. Информационное разложение символьных последовательностей.
§3.2. Циклическое выравнивание символьных последовательностей.
Циклическое выравнивание.
Профили и циклические профили.
Циклическое профильное выравнивание.
Поиск скрытой периодичности с помощью циклического профильного выравнивания.
Теорема об основном свойстве циклического выравнивания.
Оптимизированные алгоритмы для поиска циклического выравнивания.
§3.3. Статистика выравниваний.
§3.4. Итеративное сканирование и разложение шума.
ГЛАВА 4. РЕЗУЛЬТАТЫ.
§ 4.1. База данных аминокислотных последовательностей со скрытой периодичностью. Программный комплекс для итеративного профильного анализа.
§ 4.2. Скрытая периодичность ЫАО(+)-связывающих доменов.
§ 4.3. Скрытая периодичность активных центров протеинкиназ.
§ 4.4. Скрытая периодичность белков различного функционального назначения.
ГЛАВА 5. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ.
§5.1. Сравнение результатов, полученных примененными в настоящей работе методами, с результатами, полученными методами поиска по гомологии и преобразования Фурье.
§5.2. Связь скрытой периодичности с пространственной структурой белков.
§5.3. Возможное эволюционное значение периодического строения аминокислотных последовательностей.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Ласкин, Андрей Александрович
С началом нового тысячелетия основные надежды человечества на научный прогресс связаны с молекулярной биологией. От представителей данной науки небезосновательно ждут достижения таких значительных результатов, как клонирование организмов, направленное создание лекарств от наследственных и иных заболеваний, создание искусственных организмов, обладающих требуемыми свойствами, и продление человеческой жизни. Недавно были получены важные промежуточные результаты на этом пути -расшифрованы генетические последовательности человека (Venter et al., 2001), а также многих модельных организмов (Adams et al., 2000; Blattner et al., 1997; Mewes et al., 1997), ведутся дальнейшие работы в этой области.
Специфика биологического знания такова, что здесь мы имеем дело с огромными (и все возрастающими) объемами информации; поэтому ее развитие было в значительной мере подстегнуто развитием компьютерной техники, способной вместить и обработать такие объемы, а также компьютерных сетей, благодаря которым появилась возможность оперативного доступа к ней из любой точки. Разнообразие биологической информации привело к тому, что количество одних только бесплатно доступных через Интернет баз данных достигло 548 и продолжает расти (Galperin, 2004). При этом обьем одного только банка нуклеотидных последовательностей Genbank составляет 37.9 миллиарда нуклеотидов в 32.5 миллионах последовательностей, и это число продолжает расти, удваиваясь при этом в среднем каждые 15 месяцев (Benson et al., 2003).
Однако применение вычислительных систем в молекулярной биологии не ограничивается лишь накоплением экспериментально полученной информации и обеспечением доступа к ней. Большое значение имеет также развитие и применение математических методов и алгоритмов, направленных на извлечение биологически значимой информации из имеющихся генетических последовательностей и других элементов данных. Какая же информация может быть извлечена из символьной последовательности с помощью разработанных к настоящему времени математических подходов? Ответ на этот вопрос определяет возможность получения биологически значимой информации из генетических текстов, понимание процессов эволюции генов и эволюционных перестроек геномов, а также создание динамической модели клеточной регуляции и искусственных белков с заранее заданными свойствами.
Одним из способов изучения организации символьной последовательности является исследование ее периодичности. Изучение периодичности символьной последовательности может иметь вполне очевидный биологический смысл, так как множественные тандемные дупликации фрагментов ДНК с последующими заменами оснований, а также вставками и делециями символов могли бы служить основой для эволюции генов и геномов. Обнаружение периодичности в активных центрах ферментов могло бы показывать, что в прошлом гены, кодирующие эти белки, могли бы быть созданы простым повторением сравнительно коротких фрагментов ДНК. Мы также можем предполагать, что такая периодическая структура аминокислотных последовательностей активных сайтов белков может иметь значение для стабилизации конформации белковой глобулы.
Для обнаружения повторов и периодичностей разработаны и обычно используются математические методы, основанные на динамическом программировании или преобразовании Фурье. В данной диссертационной работе для этих целей развивается собственный математический подход к поиску периодичности, который основан на Информационном Разложении (ИР) символьных последовательностей. Основная идея этого подхода заключается в том, что информационное содержание любой символьной / последовательности может быть разложено на взаимно непересекающиеся составные части. Каждая из этих частей представляет собой взаимную информацию между исследуемой символьной последовательностью и искусственной периодической последовательностью с определенной длиной t периода. Зависимость взаимной информации от длины периода может быть представлена в виде графика, который является информационным аналогом автокорреляционной функции, но имеет свои особые свойства. Информационное разложение позволяет обойти некоторые ограничения, которые свойственны динамическому программированию и преобразованию Фурье, и позволяет обнаружить так называемую скрытую периодичность, т.е. периодичность, которую другие развитые в настоящее время математические методы обнаружить не могут.
Однако, подобно преобразованию Фурье, метод информационного разложения в его настоящем виде не способен найти статистически значимую скрытую периодичность в присутствии множественных вставок и делеций символов. Это может привести к тому, что значительная часть скрытой периодичности, которую можно было бы найти в аминокислотных и нуклеотидных последовательностях, остается в настоящее время незамеченной, как методом информационного разложения, так и всеми другими применяемыми алгоритмами и подходами. В этом случае простейшим способом выявления скрытой периодичности со вставками и делециями символов является комбинация информационного разложения и модифицированного профильного анализа. В такой комбинации метод информационного разложения может служить для изначального обнаружения скрытой периодичности и для построения матрицы скрытой периодичности, из которой может быть получена матрица весов аминокислот в каждой позиции периода. После этого модифицированный профильный анализ позволяет выявить скрытую периодичность согласно этой матрице весов во множестве последовательностей из банка данных, такого как Swiss-Prot, но уже в присутствии вставок и делеций. Эти результаты применения модифицированного профильного анализа в свою очередь могут быть использованы для переопределения исходной весовой матрицы с целью улучшения чувствительности и специфичности поиска скрытой периодичности.
Первой целью настоящей диссертационной работы было развитие математических методов Разложения Шума и Циклического Выравнивания. У многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов. Методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. В данной диссертационной работе продемонстрировано, что применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.
Вторая цель настоящей диссертационной работы состоит в том, чтобы показать, что скрытая периодичность различной длины и различного вида (задаваемого матрицей периодичности) присутствует во множестве белковых семейств. Для этого мы применили методы Информационного Разложения и Циклического Выравнивания к ряду белковых семейств, аннотированных в Swiss-Prot. В диссертационной работе приведено обсуждение этих результатов и выдвинуто предположение, что скрытая периодичность может отражать происхождение белков посредством множественных тандемных дупликаций в ходе эволюционного процесса.
Заключение диссертация на тему "Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах"
Результаты исследования NAD-связывающих сайтов с помощью периодических матриц длиной 19 и 24 аминокислоты приведены в таблице 4.1:
Всего в Swiss-Prot 39 Период 19 Период 24
Все белки 80000 (взято за 100%) 1121 (1.4%) 2196 (2.7%)
Ьелки, связывающиеся с NAD и его аналогами (согласно ключевым словам) 3454 (взято за 100%) 367 (П%) 1330 (38.5%)
Белки с обозначенными 838 212 402 местами связывания NAD и (взято за 100%) (25%) (48%) его аналогов
Заключение.
В представленной диссертационной работе разработаны математические методы Разложения Шума и Циклического Выравнивания. Необходимость их разработки и применения обусловлена тем, что у многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов.
В ходе исследования на конкретных примерах продемонстрировано, что методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. Применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.
Разработанные алгоритмы обнаружения скрытой периодичности в генетических последовательностях были реализованы в виде программного комплекса. Кроме инструментов для выявления периодичности, этот комплекс также содержит инструменты для работы с найденными типами периодичности и соотнесения определенных типов периодичности со структурными и функциональными особенностями белков. При программной реализации алгоритмов производилась оптимизация времени выполнения расчетов, была обеспечена возможность пуска наиболее ресурсоемких задач комплекса на суперкомпьютере кластерного типа, а также разработаны унифицированные форматы данных по периодичности с целью быстрого осуществления поисковых запросов и добавления новых функциональных возможностей к комплексу.
В результате проведенной классификации случаев скрытой периодичности белковых последовательностей были изучены и систематизированы накопленные данные о периодичности, что позволило впервые сделать вывод о том, что в ряде практически важных случаев скрытая периодичность свойственна не отдельным белкам, а целым белковым семействам и доменам.
Последующее применение методов Циклического Выравнивания и Разложения Шума позволило подтвердить это предположение и открыть несколько десятков семейств со скрытой периодичностью, в которых она обнаруживается не менее чем в 80% аннотированных последовательностей данных семейств. Примененные методы позволяют исследовать тонкую структуру генетических текстов на уровне, недостижимом с помощью других методов.
Исследована связь скрытой периодичности со строением белков, в частности, с супервторичной структурой укладок Россмана и других нуклеотид-связывающих сайтов, а также с расположением каталитически активных аминокислотных остатков на поверхности белков. Полученные результаты свидетельствуют в пользу происхождения белков и доменов путем множественных дупликаций древних протобелковых структур размером 12-30 аминокислотных остатков, предположения о котором были ранее независимо выдвинуты другими исследователями на основе данных об эволюции и экзон-интронной структуре белков.
Все предложенные и реализованные в рамках данной диссертационной работы алгоритмы обработки и анализа аминокислотных последовательностей могут быть обобщены на случай последовательностей ДНК и элементов вторичных структур, а также негенетических символьных последовательностей произвольного типа. Также некоторые из этих методов могут быть применены для повышения эффективности классического профильного анализа.
Библиография Ласкин, Андрей Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F. et al. The Genome Sequence of Drosophila melanogaster. // Science 2000, 287:2185-2195
2. Altschul S.F. and Koonin E.V. Iterated profile searches with PSI-BLAST~a tool for discovery in protein databases. // Trends Biochem. Sci. 1998, 23:444-7.
3. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. Basic local alignment search tool. // J Mol Biol 1990, 215:403-410.
4. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. // Nucleic Acids Res. 1997, 25:3389-402.
5. Andrade M.A., Ponting C.P., Gibson T.J., Bork P. Homology-based Method for Identification of Protein Repeats Using Statistical Significance Estimates. // J. Mol. Biol 2000, 298:521-537
6. Bacro J.N. and Comet J.P. Sequence alignment: an approximation law for the Z-value with applications to databank scanning. // Comput. Chem. 2001, 25(4):401-10.
7. Bairoch A., Boeckmann В., Ferro S., Gasteiger E. Swiss-Prot: Juggling between evolution and stability. // Brief. Bioinform. 5:39-55(2004).
8. Baker P.J., Britton K.L., Rice D.W., Rob A., Stillman T.J. Structural consequences of sequence paterns in the fingerprint region of the nucleotide binding fold .//J. Mol. Biol. 1992, 228:662-671
9. Baldi P., Brunak S., Chauvin Y., Krogh A. Naturally occurring nucleosome positioning signals in human exons and introns. // J Mol Biol 1996, 263:50310.
10. Bateman A., Coin L., Durbin R., Finn R.D., Hollich V., Griffiths-Jones S., Khanna A., Marshall M., Moxon S., Sonnhammer E.L., Studholme D.J., Yeats C.,
11. Eddy S.R. The Pfam protein families database. // Nucleic Acids Res 2004, 32:D138-41.
12. Bates P.A., Kelley L.A., MacCallum R.M., Sternberg M.J.E. Enhancement of Protein Modelling by Human Intervention in Applying the Automatic Programs 3D-JIGSAW and 3D-PSSM. // Proteins 2001, Suppl 5:39-46.
13. Bellamacina C.R. The nicotinamide inucleotide binding motif : a comparison of nucleotide binding proteins. // FASEB J. 1996, 10:1257-1269
14. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J. and Wheeler D.L. GenBank. // Nucleic Acids Res 2003, 31:23-27
15. Benson G. and Waterman M.S. A method for fast database search for all k-nucleotide repeats. //Nucl. Acids Res. 1994, 22:4828-4836
16. Benson G. Sequence alignment with tandem duplication. // J Comput Biol 1997, 4:351-367.
17. Benson G. Tandem cyclic alignment. // In Proceedings of the 12th annual Symposium on Combinatorial Pattern Matching, Eds. Amir A., Landau G.M., Lecture Notes in Computer Science volume 2089, Springer-Verlag 2001, pp. 118-130.
18. Benson G. Tandem repeats finder: a program to analyze DNA sequences. // Nucleic Acids Res 1999,27:573-580.
19. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E. The Protein Data Bank. // Nucleic Acids Res 2000, 28:235-42.
20. Bleasby A.J., Akrigg D., Attwood Т.К. OWL a non-redundant composite protein sequence database. //Nucleic Acids Res 1994, 22:3574-7.
21. Bork P. Hundreds of ankyrin-like repeats in functionally diverse proteins: Mobile modules that cross phyla horizontally? // Proteins Struct Funct Genet 1993, 17: 363-374.
22. Bornberg-Bauer E., Rivals E., Vingron M. Computational approaches to identify leucine zippers. // Nucleic Acids Res 1998,26(11):2740-2746
23. Brakoulias A. and Jackson R.M. Towards a structural classification of phosphate binding sites in protein-nucleotide complexes: an automated all-against-all structural comparison using geometric matching. // Proteins 2004, 56:25060.
24. Brenner S.E., Chothia C., Hubbard T.I.P., Murzin A.G. SCOP : a structural classification of proteins database for the investigation of sequences and structures. III. Mol. Biol. 1995, 247:536-540
25. Bujnicki J.M., Elofsson A., Fischer D., Rychlewski L. Structure prediction meta server. // Bioinformatics 2001, 17:750-1.
26. Bystroff C., Thorsson V., Baker D. HMMSTR: a hidden Markov model for local sequence-structure correlations in proteins. // J Mol Biol. 2000, 301:173-90.
27. Cairns J., Overbaugh J., Miller S. The origin of mutant. // Nature 1988, 335:142146.
28. Cappello V., Tramontano A., Koch U. Classification of proteins based on the properties of the ligand-binding site: the case of adenine-binding proteins. Proteins 2002,47:106-15.
29. Chaley M.B., Korotkov E.V., Kudryashov N.A. Latent Periodicity of 21 bases TypicaL for MCP II Gene is Widely Present in Various Bacterial Genes. DNA Seq 2003, 14:37-52.
30. Chaley M.B., Korotkov E.V., Skryabin K.G. Method revealing latent periodicity of the nucleotide sequences for a case of small samples. // DNA Res. 1999, 6:153-163
31. Coward E. and Drablos F. Detecting periodic patterns in biological sequences. //
32. Efimov A.V. Complementary packing of alpha-helices in proteins. // FEBS Lett 1999, 463:3-6.
33. Eigen M. and Winkler-Oswatitsch R. Transfer-RNA: the early adaptor. // Naturwissenschaften 1981, 68:217-228.
34. Elder D. Split gene origin and periodic introns. // J Theor Biol 2000, 207:455-72.
35. Engelman D.M., Steitz T.A. and Goldman A. Identifying Nonpolar Transbilayer Helices in Amino Acid Sequences of Membrane Proteins. // Ann Rev Biophys Biophys Chem 1986,15:321-353.
36. Feldman H.J. and Hogue C.W.V. A Fast Method to Sample Real Protein Conformational Space. // Proteins 2000, 39:112-131.
37. Fjellstorm O., Olausson Т., Ни X., Kallebring В., Ahmad S., Bragg P.D., Rydstrom J. Three-dimensional structure prediction of the NAD-binding site of proton-pumping transhydrogenase from Escherichia Coli. // Proteins 1995,2:91-104.
38. Galperin M.Y. The Molecular Biology Database Collection: 2004 update. // Nucleic Acids Res 2004, 32:D3-D22.
39. Geisow M.J. and Roberts R.D.B. Amino acid preferences for secondary structure vary with protein class. // Int. J. Biol. Macromol. 1980, 2:387-389.
40. George R.A. and Heringa J. The REPRO server: finding protein internal sequence repeats through the Web. // Trends Biochem Sci 2000, 25:515-517.
41. Gerlt J.A. and Babbitt P.C. Barrels in pieces? // Nat Struct Biol 2001, 8:5-7.
42. Goldsmith E.J. and Cobb M.H. Protein kinases. // Curr Opin Struct Biol 1994, 4:833-40.
43. Gotoh О. An improved algorithm for matching biological sequences. // J Mol Biol 1982, 162:705-708.
44. Grantham R. Amino acid difference formula to help explain protein evolution. // Science 1974,185:862-864.
45. Gribskov M. and Robinson N.L. Use of receiver operating characteristic (ROC) analysis to evaluate sequence matching. // Comp Chem 1996, 20:25-33.
46. Gribskov M., McLachlan A.D., Eisenberg D. Profile analysis: detection of distantly related proteins. // Proc Natl Acad Sci USA 1987, 84:4355-8.
47. Grigoriev I.V. and Kim S.H. Detection of protein fold similarity based on correlation of amino acid properties. // Proc Natl Acad Sci USA 1999, 96:14318-23.
48. Hanks S.K., Quinn A.M., Hunter T. The protein kinase family: conserved features and deduced phylogeny of the catalytic domains. // Science 1988, 241(4861):42-52.
49. Heger A. and Holm L. Rapid automatic detection and alignment of repeats in protein sequences. //Proteins 2000, 41:224-37.
50. Henikoff S. and Henikkof J.G. Embedding strategies for effective use of information from multiple sequence alignments. // Protein Sci 1997, 6:698705.
51. Heringa J. and Argos P. A method to recognize distant repeats in protein sequences.//Proteins 1993, 17:391-411.
52. Heringa J. The evolution and recognition of protein sequence repeats. // Comp Chem 1994,17:233-243.
53. Horwich A.L., Weber-Ban E.U., Finley D. Chaperone rings in protein folding and degradation. // Proc Natl Acad Sci USA 1999, 96:11033-40.
54. Hulo N., Sigrist C.J., Le Saux V., Langendijk-Genevaux P.S., Bordoli L., Gattiker A., De Castro E., Bucher P., Bairoch A. Recent improvements to the PROSITE database. // Nucleic Acids Res 2004, D134-7.
55. Hung L.H. and Samudrala R. PROTINFO: Secondary and tertiary protein structure prediction. // Nucleic Acids Res. 2003, 31:3296-9.
56. Hunter T. Protein kinase classification. // Methods Enzymol 1991,200:3-37
57. Jones D.T. Protein secondary structure prediction based on position-specific scoring matrices. // J Mol Biol 1999, 292:195-202.
58. Jones D.T., Taylor W.R., Thornton J.M. The rapid generation of mutation data matrices from protein sequences. // CABIOS 1992, 8:275-282
59. Jones, D.T. THREADER: Protein Sequence Threading by Double Dynamic Programming. // In: Computational Methods in Molecular Biology. Steven Salzberg, David Searls, and Simon Kasif, eds. Elsevier Science 1998, Chapter 13.
60. Junker V.L., Apweiler R., Bairoch A. Representation of functional information in the SWISS-PROT data bank. // Bioinformatics 1999,15:1066-7.
61. Jurka J. Repeats in genomic DNA: mining and meaning. // Curr Opin Struct Biol 1998,8:333-337.
62. Jurnak F., Yoder M.D., Pickersgill R., Jenkins J. Parallel beta-domains: a new fold in protein structures. // Curr Opin Struct Biol 1994, 4(6):802-6.
63. Kajava A.V. Structural diversity of leucine-rich repeat proteins. // J Mol Biol 1998, 277:519-527.
64. Karlin S. and Altschul S.F. Applications and statistics for multiple high-scoring segments in molecular sequences. // Proc Natl Acad Sci USA 1990, 90:5873-5877.
65. Karlin S., Dembo A., Kawabata T. Statistical composition of high-scoring segments from molecular sequences. // Ann Stat 1990, 18:571-581.
66. Karplus K., Karchin R., Draper J., Casper J., Mandel-Gutfreund Y., Diekhans M., Hughey R. Combining local-structure, fold-recognition, and new fold methods for protein structure prediction. //Proteins 2003, 53 Suppl 6:491-6.
67. Katti M.V., Sami-Subbu R., Ranjekar P.K., Gupta V.S. Amino acid repeat patterns in protein sequences: their diversity and structural-functional implications. // Protein Sci 2000,9:1203-9.
68. Kawashima S., Ogata H., Kanehisa M. AAindex: amino acid index database. // Nucleic Acids Res. 1999, 27:368-369.
69. Kidera A., Konishi Y., Oka M., Ooi Т., Scheraga H. A. Statistical analysis of the physical properties of the 20 naturally occurring amino acids. // J Protein Chem 1985,4:23-54
70. Klaerr-Blanchard M., Chiapello H., Coward E. Detecting localized repeats in genomic sequences: a new strategy and its application to Bacillus subtilis and Arabidopsis thaliana sequences. // Comp Chem 2000, 24:57-70.
71. Knarr G., Gething M.J., Modrow S., Buchner J. BiP binding sequences in antibodies. // J Biol Chem 1995, 270:27589-94.
72. Knarr G., Modrow S., Todd A., Gething M.J., Buchner J. BiP-binding sequences in HIV gpl60. Implications for the binding specificity of bip. J Biol Chem 1999, 274:29850-7.
73. Koehl P. and Levitt M. Protein topology and stability define the space of allowed sequences. // Proc Natl Acad USA 2002, 99:1280-1285.
74. Koehl P. Protein structure similarities. // Curr Opin Struct Biol 2001, 11:348-353.
75. Korotkov E.V. and Korotkova M.A. DNA regions with latent periodicity in some human clones. // DNA Seq 1995, 5:353-358.
76. Korotkov E.V. and Korotkova M.A. Enlarged similarity of nucleic acid sequences. // DNA Res 1996, 3:157-164.
77. Korotkov E.V., Korotkova M.A., Kudryshov N.A. Information decomposition of symbolic sequences. // Phys Let A, 2003, 312:198-210.
78. Korotkov E.V., Korotkova M.A., Rudenko V.M., Skryabin K.G. Latent periodicity regions in amino acid sequences. // Mol Biol 1999, 33:611-617.
79. Korotkova M.A., Korotkov E.V., Rudenko V.M. Latent periodicity of protein sequences. //JMol Model 1999, 5:103-115.
80. Kubota Y, Takahashi S, Nishikawa K, Ooi T. Homology in protein sequences expressed by correlation coefficients. // J. Theor. Biol. 1981,91(2):347-61
81. Kullback S. Information theory and statistics. // London, John Wiley & Sons Inc, 1959.
82. M., Badger J.H., Chen X., Kwong S., Kearney P., Zhang H. An information-based sequence distance and its application to whole mitochondrial genome phylogeny. // Bioinformatics 2001, 17:149-54.
83. W. and Kaneko K. DNA correlations. // Nature 1992,360:635-6.
84. W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. // Bioinformatics 2001, 17:282-3.
85. Conte L., Brenner S.E., Hubbard T.J.P., Chothia C., Murzin A. SCOP database in 2002: refinements accommodate structural genomics. Nucleic Acids Res. 2002, 30:264-267.
86. Makeev V.Y., Frank G.K., Tumanyan V.G. Statistics of periodic patterns in the sequences of human introns. // Biophysics 1996, 41:263-268.
87. Marcotte E.M., Pellegrini M., Yeates Т.О., Eisenberg D. A census of protein repeats. // J Mol Biol 1999, 293:151-160.
88. McKie J.H. and Douglas K.T. Evidence for gene duplication forming similar binding folds for NAD(P)H and FAD in pyridine nucleotide-dependent flavoenzymes. // FEBS Lett 1991, 279:5-8.
89. McLachlan A.D. Analysis of periodic patterns in amino acid sequences: collagen. // Biopolymers 1977, 16:1271-97.
90. Mewes H.W., Albermann K., Bahr M., Frishman D., Gleissner A., Hani J., Heumann K., Kleine K., Maierl A., Oliver S.G., Pfeiffer F., Zollner A. Overview of the yeast genome. // Nature 1997, 387(6632 Suppl):7-65
91. Michelson A.M., Blake C.C., Evans S.T., Orkin S.H. Structure of the human phosphoglycerate kinase gene and the intron-mediated evolution and dispersal of the nucleotide-binding domain. // Proc Natl Acad Sci USA 1985, 82:6965-9.
92. Miller W. and Myers E. Approximate matching of regular expressions. // Bull Math Biol 1989,51:5-37.
93. Monne M., Hermansson M. and von Heijne G. A turn propensity scale for transmembrane helices. // J Mol Biol 1999, 288:141-145
94. Mott R. Accurate formula for P-values of gapped local sequence and profile alignments. // J Mol Biol 2000, 300:649-59.
95. Mott R. and Tribe R. Approximate statistics of gapped alignments. // J Comput Biol 1999,6:91-112.
96. Mulder N.J., Apweiler R., Attwood Т.К., Bairoch A., Barrell D., Bateman A., Binns D., Biswas M., Bradley P., Bork P., Bucher P., Copley R.R.,
97. Muller W.E., Kruse M., Blumbach В., Skorokhod A., Muller I.M. Gene structure and function of tyrosine kinases in the marine sponge Geodia cydonium: autapomorphic characters in Metazoa. // Gene 1999, 23 8(1): 179-93.
98. Nakashima H., Nishikawa K., Ooi T. Distinct character in hydrophobicity of amino acid composition of mitochondrial proteins. // Proteins 1990, 8:173-178 .
99. Needleman S.B. and Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. // J Mol Biol 1970, 48:443-453.
100. Neuwald A.F. and Poleksic A. PSI-BLAST searches using hidden Markov models of structural repeats : prediction of unusual sliding DNA clamp and of beta-propellers in UV-damaged DNA-binding protein. // Nucleic Acids Res. 2000, 28:3570-3580.
101. Ohno S. Evolution by gene duplication. // Springer-Verlag, Berlin, 1970.
102. Ohno S. Repeats of base oligomers as the primordial coding sequences of the primeval earth and their vestiges in modern genes. // J. Mol. Evol. 1984, 20:313-321.
103. Ohno S., Epplen J.T. The primitive code and repeats of base oligomers as the primordial protein-encoding sequence. // Proc. Natl. Acad. Sci. USA 1983, 80:3391-3395.
104. Orengo C.A., Michie A.D., Jones S., Jones D.T., Swindells M.B., Thornton J.M. CATH — A Hierarchic Classification of Protein Domain Structures. // Structure 1997,5:1093-1108.
105. Palau J., Argos P., Puigdomenech P. Protein secondary structure. // Int J Peptide Protein Res 1981,19:394-401.
106. Patthy L. Detecting homology of distantly related proteins with consensus sequences. IIJ Mol Biol 1987, 198:567-577.
107. Pearson W.R. and Lipman D.J. Improved tools for biological sequence comparison. // Proc Nat Acad Sci USA 1988, 85:2444-2448.
108. Pellegrini M. and Yeates Т.О. Searching for frameshift evolutionary relationships between protein sequence families. // Proteins 1999, 37:278-83
109. Ponnuswamy P.K., Prabhakaran M., Manavalan P. Hydrophobic packing and spatial arrangement of amino acid residues in globular proteins. // Biochem Biophys Acta 1980, 623(2):301-16
110. Prabhu V.V. and Claverie J.M. Correlations in intronless DNA. // Nature 1992, 359:782.
111. Rackovsky S. Hidden sequence periodicities and protein architecture. // Proc Natl Acad Sci USA 1998,95:8580-8584.
112. Radzicka A. and Wolfenden R. Comparing the polarities of the amino acids: Side-chain distribution coefficients between the vapor phase, cyclohexane, 1-octanol, and neutral aqueous solution. // Biochemistry 1988, 27:1664-1670.
113. Rao S.T. and Rossman M.G. Comparison of super-secondary structures in proteins. //J Mol Biol 1973, 76:241-256.
114. Ravi D. and Kececioglu J.D. Approximation algorithms for multiple sequence alignment under a fixed evolutionary tree. // Disc Appl Math 1998, 88:355366.
115. Rossman M.G. Evolution of glycolytic enzymes. // Philos Trans R Soc Lond В Biol Sci 1981,293:191-203.
116. Rossman M.G., Moras D., Olsen K.W. Chemical and biological evolution of a nucleotide-binding protein. //Nature 1974, 250:194-199.
117. Ruddon R.W. and Bedows E. Assisted protein folding. // J Biol Chem 1997, 272:3125-8.
118. Russell R.B., Sasieni P.D., Sternberg M.J.E. Supersites within superfolds. Binding site similarity in the absence of homology. // J Mol Biol 1998,282:903-918.
119. Sander C. and Schneider R. Database of homology-derived protein structures. // Proteins 1991,9:56-68
120. Schaffer A.A., Wolf Y.I., Ponting C.P., Koonin E.V., Aravind L., Altschul S.F. IMP ALA: matching a protein sequence against a collection of PSI-BLAST-constructed position-specific score matrices. // Bioinformatics 1999, 15:1000-11.
121. Schmidt J.P. An information theoretic view of gapped and other alignments. // Proc Рас Symp Biocomput 1998, pp.561-72.
122. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., Falquet L., Pagni M., Bairoch A., Bucher P. PROSITE: a documented database using patterns and profiles as motif descriptors. // Brief Bioinform 2002, 3:265-274.
123. Smith T.F., Waterman M.S.,. Identification of common molecular subsequences. // J Mol Biol 1981,147:195-197.
124. Takano K. and Yutani K. A new scale for side-chain contribution to protein stability based on the empirical stability analysis of mutant proteins. // Protein Eng 2001, 14:525-528.
125. Tatusov R.L., Altschul S.F., Koonin E.V. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks. // Proc Natl Acad Sci USA 1994,91:12091-12095.
126. Taylor S.S., Knighton D.R., Zheng J., Ten Eyck L.F., Sowadski J.M. Structural framework for the protein kinase family. // Annu Rev Cell Biol 1992, 8:42962.
127. Taylor S.S., Radzio-Andzelm E. Three protein kinase structures define a common motif. // Structure 1994,2:345-55.
128. Taylor S.S., Radzio-Andzelm E., Hunter T. How do protein kinases discriminate between serine/threonine and tyrosine? Structural insights from the insulin receptor protein-tyrosine kinase. // FASEB J 1995, 9:1255-66.
129. Taylor W.R. and Brown N.P. Iterated sequence databank search methods. // ComputChem. 1999, 23:365-85.
130. Taylor W.R. Identification of protein sequence homology by consensus template alignment. //J Mol Biol 1986, 188:233-258.
131. Taylor W.R., Heringa J., Baud F., Flores T.P. A Fourier analysis of symmetry in protein structure. // Protein Eng 2002, 15:79-89.
132. Thulasiraman V., Yang C.F., Frydman J. In vivo newly translated polypeptides are sequestered in a protected folding environment. // EMBO J 1999, 18:85-95.
133. Tiwari S., Ramachandran S., Bhattacharya A., Bhattacharya S., Ramaswamy R. Prediction of probable genes by Fourier analysis of genomic sequences. // CABIOS 1997, 13:263-270.
134. Trifonov E.N. 3-, 10.5-, 200- and 400-base periodicities in genome sequences. // Physica A, 1998, 249:511-516.
135. Trifonov E.N. and Berezovsky I.N. Molecular evolution from abiotic scratch. // FEBS Lett. 2002, 527:1-4.
136. Trifonov E.N. and Bettecken T. Sequence fossils, triplet expansion, and reconstruction of earliest codons. // Gene 1997,205:1-6.
137. Trifonov E.N., Kirzhner A., Kirzhner V.M., Berezovsky I.N. Distinct stages of protein evolution as suggested by protein sequence analysis. // J. Mol. Evol. 2001,53:394-401.
138. Ursing B.M., van Enckevort F.H., Leunissen J.A., Siezen R.J. EXProt: a database for proteins with an experimentally verified function. // Nucleic Acids Res. 2002,30:50-51.
139. Venter J.C., Adams M.D., Myers E.W., Li P.W., Mural R.J., Sutton G.G., Smith H.O., Yandell M., Evans C.A., Holt R.A. et.al. The sequence of the human genome. // Science 2001, 291:1304-1351.
140. Vyugin V. Algorithmic complexity and stochastic properties of finite binary sequences. // The Computer J. 1999, 42:294-317.
141. Ward J.J., McGuffin L.J., Buxton B.F., Jones D.T. Secondary structure prediction with support vector machines. // Bioinformatics 2003, 19:1650-5.
142. Waterman M.S. and Eggert M. A new algorithm for best subsequence alignments with application to tRNA-rRNA comparisons. // J. Mol. Biol. 1987, 197:723-728.
143. Webber C. and Barton G.J. Estimation of P-values for global alignment of protein sequences. // Bioinformatics 2001, 17:1158-1167.
144. Wierenga R.K. The TIM-barrel fold: a versatile framework for efficient enzymes. // FEBS Lett 2001, 492:193-198.
145. Wierenga R.K., Terpstra P., Hoi W.G.J. Prediction of the occurence of ADP-binding Роф-fold in proteins, using an amino acid sequence fingerprint. // J Mol Biol 1986, 187:101-107.
146. Wilbur W.J. and Neuwald A.F. A theory of information with special application to search problems. // Comput Chem. 2000, 24:33-42.
147. Woese C.R. Evolution of genetic code. // Naturwiss. 1973, 60:447-459.
148. Yi T.M., Lander E.S. Recognition of related proteins by iterative template refinement (ITR). // Protein Sci. 1994, 3:1315-1328.
149. Zarembinski T.I., Hung L.W., Mueller-Dieckmann H.J., Kim K.K., Yokota H., Kim R., Kim S.H. Structure-based assignment of the biochemical function of a hypothetical protein: a test case of structural genomics. // Proc Natl Acad Sci USA 1998,95:15189-93.
150. Zhang J. and Nei M. Accuracies of Ancestral Amino Acid Sequences Inferred by the Parsimony, Likelihood, and Distance Methods. // J Mol Evol 1997, 44(Suppl 1):S139—S146.
-
Похожие работы
- Применение метода информационного разложения символьных последовательностей для изучения генетических текстов
- Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК
- Разведочный анализ экспериментальных данных в системах обработки информации
- Анализ и разработка моделей и алгоритмов обнаружения сигналов со скрытой периодичностью для технических систем
- Нелинейные методы обработки данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность