автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Применение метода информационного разложения символьных последовательностей для изучения генетических текстов

кандидата физико-математических наук
Руденко, Валентина Михайловна
город
Москва
год
2002
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Применение метода информационного разложения символьных последовательностей для изучения генетических текстов»

Оглавление автор диссертации — кандидата физико-математических наук Руденко, Валентина Михайловна

СОДЕРЖАНИЕ.

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР КОМПЬЮТЕРНЫХ МЕТОДОВ АНАЛИЗА ГЕНЕТИЧЕСКИХ ТЕКСТОВ.

1.1. Генетические последовательности и их структурная организация.

1.1.1. Структура последовательностей оснований ДНК.

1.1.2. Организация аминокислотных последовательностей белков.

1.2. Математические методы и алгоритмы поиска периодичности в символьных последовательностях.

1.2.1. Статистические методы поиска периодичности в символьных последовательностях.

1.2.2. Методы поиска периодичности, основанные на преобразовании Фурье.

1.2.3. Использование методов динамического программирования для поиска периодичности в генетических текстах.

1.3. Математические алгоритмы для обнаружения дисперсных повторяющихся последовательностей.

1.3.1. Статистические методы поиска подобий между последовательностями.

1.3.2. Задача нахождения оптимального выравнивания. Алгоритмы BLAST & FASTA.

1.3.3. Профильный анализ.

1.3.4. Использование нейронных сетей для поиска дисперсных повторяющихся последователъностей

ГЛАВА 2. РАЗРАБОТКА НОВЫХ МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ ПОИСКА ПЕРИОДИЧНОСТИ И ДИСПЕРСНЫХ ПОВТОРОВ В СИМВОЛЬНЫХ

ПОСЛЕДОВАТЕЛЬНОСТЯХ.

2.1. Постановка задачи.'.:.:.

2.2. Информационный критерий подобия символьных последовательностей.

2.2.1. Расширенное подобие символьных последовательностей.

2.2.2. Использование метода Монте-Карло для оценка статистической значимости в условиях малой выборки.

2.2.3. Особенности программной реализации алгоритма поиска расширенного подобия символьных последовательностей.

2.3. Информационное разложение символьных последовательностей.

2.3.1. Скрытая периодичность символьных последовательностей.

2.3.2. Преимущества информационного перед другими математическими методами поиска периодичности.

2.3.3. Оценка распознавательной способности метода информационного разложения для поиска скрытой периодичности.

2.4. Алгоритм поиска скрытой периодичности в аминокислотных последовательностях белков

2.5. Исследование триплетной периодичности в последовательностях оснований ДНК.

2.5.1. Метод поиска триплетной периодичности.

2.5.2. Классификация типов триплетной периодичности.

2.6. Использование метода динамического программирования для обнаружения сильнодивергированбых MIR-повторов.

ГЛАВА 3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ К АНАЛИЗУ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ.

3.1. Изучение скрытой периодичности аминокислотных последовательностей.

3.1.1. Поиск скрытой периодичности в аминокислотных последовательностях банка данных SWISS-PROT.

3.1.2. Изучение пространственных структур и свойств белков, обладающих скрытой периодичностью.

3.2. Триплетная периодичность в последовательностях оснований ДНК бактерий.

3.2.1. Поиск триплетной периодичности в геномах бактерий.

3.2.2. Классификация типов триплетной периодичности бактериальных геномов.

3.3. MIR-повторы в геномах различных видов.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Руденко, Валентина Михайловна

Конец XX века ознаменовался значительными достижениями в биологической науке и в частности в области молекулярной биологии. Одним из важных достижений по праву можно считать создание роботизированных систем для определения последовательностей оснований ДНК, позволяющих за приемлемое время расшифровывать отдельные участки ДНК и даже полные геномные последовательности различных видов организмов. В последние 10-15 лет усилия научного сообщества были направлены на накопление последовательностей, и вершиной этой деятельности стала расшифровка генома человека, состоящего из ЗхЮ9 нуклеотидных пар. В настоящее время объем накопленной генетической информации в основных банках данных последовательностей ДНК (ЕМВЬ, ОепЬапк) составляет более 19 Гб и объем вновь расшифрованных последовательностей стремительно растет (Приложение №1). Невозможно переоценить значение полученной информации для науки, медицины и других областей жизни человечества (Киселев Л.Л.; Шумный В.К.). Однако, для успешного использования этой информации необходимо прежде всего понять ее биологический смысл, «прочитать», что закодировано в последовательностях ДНК и аминокислот.

Детальное изучение и анализ генетических последовательностей можно провести экспериментальным путем. Для этого в рамках молекулярной биологин были разработаны следующие методы, электрофорез, специфическая химическая модификация азотистых оснований в составе молекул ДНК, способы радиоактивного и флуоресцентного мечения, полимеразного копирования, клонирования и др. Проблема заключается в том, что применить вышеупомянутые методы для изучения огромного количества доступных в настоящее время последовательностей ДНК и аминокислот просто невозможно из-за их большой трудоемкости и значительной стоимости. Поэтому первоочередная задача состоит в привлечении к изучению последовательностей биополимеров мощной компьютерной техники. Соответственно возникает необходимость в разработке математических алгоритмов анализа генетических последовательностей и компьютерных программ, реализующих эти алгоритмы. Математические методы для анализа генетических последовательностей не смогут полностью заменить экспериментальные, по крайней мере до тех пор, пока мы не обладаем полными знаниями о всех молекулярных процессах, проходящих в живой клетке. Однако удобство и простота использования компьютерных методов для анализа генетических текстов, а также возможность обработки больших объемов данных за сравнительно короткое время, делают их необходимым инструментом в экспериментальной работе биологов. Использование компьютерных программ может значительно сократить спектр исследуемых экспериментально последовательностей или давать дополнительные аргументы в пользу выдвигаемых теоретически гипотез.

За последние два десятилетия уже было создано достаточно много программных продуктов, направленных на изучение свойств и структуры последовательностей оснований ДНК и аминокислот (Attwood Т.К., Parry-Smith D.J. 1999). Большинство алгоритмов, заложенных в эти программы, применяют стандартную технику теории вероятностей и математической статистики для исследования статистических свойств и закономерностей в строении последовательностей биополимеров (Уотермен М.С. 1999, Франк-Каменецкий М.Д. 1990, Вейр Б. 1995). В настоящее время, когда благодаря развитию молекулярной биологии и связанных с ней дисциплин наши знания о строении и функционировании молекул ДНК, а также их эволюции значительно пополнились, было бы неразумно не использовать их для создания более точных и чувствительных методов анализа генетических текстов. Поэтому наряду с накоплением и расшифровкой новых последовательностей постоянно имеет место проблема модификации старых и разработки новых, более совершенных методов анализа последовательностей ДНК и аминокислот, которые бы имели лучшую по сравнению с уже существующими методами точность, а также удовлетворяли возрастающим требованиям, предъявляемым к идентификации биологического значения.

Целью настоящей работы служила разработка новых математических алгоритмов поиска скрытой периодичности и сильнодивергировавших повторов в генетических последовательностях и создание соответствующего программного обеспечения. Конкретные задачи исследования включали в себя: 1) поиск скрытой периодичности в аминокислотных последовательностях белков банка данных SWISS-PROT; 2) поиск триплетной периодичности в последовательностях ДНК полных бактериальных геномов и классификацию геномов на основании видов встречающейся в них триплетной периодичности, 3) идентификацию сильнодивергировавших MIR-повторов в геномах различных видов. Кроме этого, необходимо было дать соответствующую биологическую интерпретацию полученным результатам. Программная реализация предложенных алгоритмов создавалась с учетом того, что исследованию созданным программным обеспечением подвергаются огромные банки данных. По этой причине проводилась оптимизация времени выполнения основных расчетных процедур.

Необходимо отметить, что поиск повторов и периодичности в последовательностях ДНК и аминокислот является одной из наиболее широко изученных проблем, возникших в связи с исследованием структурной организации генетических последовательностей. В силу этого ранее было создано много методов выявления периодичности и повторяющихся последовательностей. Однако большинство разработанных методов трактуют понятие подобия последовательностей (или периодов периодической последовательности) как гомологию. С точки зрения математики это совершенно верный подход. Но в случае анализа последовательности ДНК этого оказывается недостаточным, так как необходимо учитывать специфику исследуемой области. Для выявления сильнодивергировавших в результате эволюционного процесса периодичности и повторов желательно было бы рассматривать не только частоты гомологичных символов, но также и все возможные их парные комбинации, что на уровне ДНК соответствует различным мутационным заменам.

В данной диссертационной работе для поиска повторов и периодичности применяется информационное разложение символьной последовательности. Информационное разложение использует в качестве меры подобия последовательностей (или периодов периодической последовательности) взаимную информацию. Вклад в эту меру вносят как гомологичные совпадения символов, так и различные их пары. Указанное преимущество информационного разложения по сравнению с другими математическими подходами, позволило получить уникальные результаты и выявить повторы и периодичность неидентифицируемые другими методами.

В ходе исследования последовательностей оснований ДНК и аминокислот из банков данных удалось показать, что: 1) минимум 10% белков обладает периодической структурой. В ряде случаев установлена взаимосвязь между наличием у белкового домена скрытой периодичности и его функциональной ролью и пространственной структурой; 2) метод поиска скрытой периодичности в приложении к периодичности длины 3 в последовательностях ДНК можно применять для определения местоположения кодирующих участков. Введенные на основании информационного разложения триплетные типы описывают более точно, чем определялось ранее, триплетный паттерн кодирующей области. Впервые в качестве критерия классификации геномов предложено использовать списки видов триплетной периодичности. Найдено 4 основных вида триплетных паттернов для бактериальных геномов; 3) с помощью информационного метода в совокупности с динамическим программированием выявляется гораздо большее количество MIR-повторов в геномах различных видов, в том числе и в тех, где ранее MIR не идентифицировались. Например, впервые МЖб были найдены у рыб, ящерицы и прокариот.

Практическая ценность проделанной работы заключается прежде всего в том, что разработанное программное обеспечение позволило получить данные, расширяющие наше представление об информационном содержании биологических последовательностей. Наличие скрытой периодичности и сильнодивергировавших повторов наводят на мысль, что эволюция ДНК шла путем дупликаций достаточно простых последовательностей, хотя образование дисперсных (рассеянных) и тандемных (непрерывных) повторов возможно имело различный молекулярный механизм. Конкретно полученные результаты по периодичности в белках и связи периодичности со вторичной структурой и функциональной ролью несомненно окажутся полезными для идентификации и определения роли вновь полученных аминокислотных последовательностей, а также создании искусственных белков нужного свойства. В перспективе планируется использовать данные по характеристическим периодам белков для создания мощного программного комплекса, осуществляющего поиск белков, имеющих функциональные домены с идентичной периодичностью, при наличии делеций и вставок.

Одним из практических применений метода поиска скрытой периодичности является также поиск генов в последовательностях оснований ДНК. Для этого разработанный ранее программный комплекс нужно будет дополнить процедурами определения промоторов и экзон-интронных границ. Результаты классификации типов триплетной периодичности окажутся полезными для определения кодирующих областей, имеющих определенный триплетный паттерн с учетом делеций и вставок. Настройка метода поиска кодирующих областей на определенный триплетный паттерн позволит значительно повысить точность предсказаний.

Исследование распространенности семейств повторов, в том числе МГО.-повторов, как наиболее многочисленного семейства в геномах млекопитающих, играет важную роль при определении эволюционного родства различных биологических видов. В настоящее время, в филогенетическом анализе в основном используется информация только об отдельных семействах генов или рРНК. Таким образом не учитывается большая часть геномной информации, что ведет к искажению реальных эволюционных взаимосвязей. В этом смысле данные по сильнодивергировавшим семействам повторов могут быть дополнительным критерием эволюционного родства различных групп организмов. 8

Разработанные в диссертационной работе математические алгоритмы поиска скрытой периодичности и сильнодивергировавших повторов принципиально отличаются от существующих методов анализа последовательностей. Их применение к изучению свойств реальных генетических последовательностей позволило получить новые, интересные результаты, имеющие глубокий биологический смысл. Поэтому соответствующие программные комплексы можно использовать для исследования любых символьных последовательностей, например лингвистических.

Заключение диссертация на тему "Применение метода информационного разложения символьных последовательностей для изучения генетических текстов"

ЗАКЛЮЧЕНИЕ

Настоящая работа была посвящена разработке и применению новых математических алгоритмов для поиска повторов и периодичности в генетических текстах. Все разработанные алгоритмы имеют в своей основе информационный подход, а в качестве критерия подобия последовательностей (или наличия периодичности) выступает взаимная информация. Основное достоинство взаимной информации заключается в том, что имеется возможность определения статистической значимости подобия. Этим она выгодно отличается от других статистических мер, в частности корреляционных функций и спектральной функции Фурье. Вторым преимуществом информационного критерия перед другими математическими методами поиска подобия состоит в том, что он учитывает все возможные парные комбинации символов сравниваемых последовательностей между собой, а не только гомологичные. Благодаря этому, методы поиска периодичности и повторов, использующие его, выявляют «скрытые» на первый взгляд корреляции между различными нуклеотидами (или аминокислотами) и обнаруживают подобия и периодичности, которые не идентифицируются другими методами.

Конкретные задачи исследования состояли в: 1) обнаружении скрытой периодичности в аминокислотных последовательностях белков; 2) изучении триплетной периодичности последовательностей оснований ДНК; 3) обнаружении сильнодивергированных МЖ-повторов в геномах различных видов.

1) Метод поиска скрытой периодичности был применен для анализа белковых последовательностей из БШЗБ-РКОТ банка данных. Результаты исследований показали, что более 10% всех белков имеют скрытую периодичность. Поскольку в настоящей реализации метод поиска скрытой периодичности не учитывал делеции и вставки в отдельных периодах, значение 10% является лишь нижней оценкой числа периодических белков. Следовательно, можно предполагать, что белки имеют дискретную структуру.

Также была обнаружена взаимосвязь между наличием периодичности в аминокислотной последовательности и вторичной структурой белка. Во многих случаях белки, относящиеся к одному классу функциональных элементов, имели периодичность одного типа.

В перспективе планируется создание банка данных по скрытой аминокислотной периодичности, который также содержал бы спектры информационного разложения периодических последовательностей и их характеристические периоды. Эта информация может быть полезна для разработки метода поиска скрытой периодичности при наличии делеций и вставок, а также идентификации функций и пространственной структуры протеина по его периодической структуре.

2) По второму пункту исследований проводился поиск триплетной периодичности в последовательностях 50 полных бактериальных геномов. Метод поиска скрытой периодичности, примененный для случая периодичности с длиной периода 3, позволил идентифицировать более 77% CDS областей бактериальных геномов. Относительно высокая распознавательная способность метода, позволяет использовать его для обнаружения местоположения генов в последовательностях оснований ДНК. Дополнительным преимуществом метода поиска триплетной периодичности стала возможность определения типа триплетной периодичности. Типы триплетной периодичности (триплетные паттерны) были получены для 50 бактериальных геномов, и на основании этих типов осуществлялась классификация.

Мы считаем, что триплетная периодичность определяет приоритет использования различных аминокислот, участвующих в процессе клеточного метаболизма. В свою очередь это напрямую связано со средой обитания и обогащенностью среды различными типами аминокислот. Классификация типов триплетной периодичности показала разделение всего множества бактерий на 4 группы. Прослеживается определенная связь между полученной классификацией и общепринятой филогенией бактерий, в частности разделение на группы: Bacillus/Clostridium, Chlamidia, Actinobacter&Deinococcus, Proteobacteria. Результаты классификации были предъявлены биологам для последующего изучения. Они имеют несомненно важное значение для исследования путей молекулярной эволюции.

На основании групп триплетной периодичности предполагается создать программное обеспечение для поиска последовательностей с конкретным триплетным паттерном с учетом делеций и вставок.

3) Третья часть работы состояла в обнаружении MIR-повторов, для которых характерна сильная степень дивергенции - 25-35%, причем как между различными видами, так и внутри одного биологического вида. Для поиска повторов такого свойства распознавательной способности существующих методов, как правило, не хватает. Поэтому был разработан метод поиска сильнодивергированных MIR-повторов, объединяющий достоинства различных математических подходов поиска подобных последовательностей - расширенного подобия, весовых функций и динамического программирования.

134

Метод поиска сильнодивергированных MIR-повторов, примененный к анализу последовательностей приматов из Genbank, обнаружил на 40% больше MIR, чем это удавалось сделать методами, основанными на поиске гомологий, такими как blastn. Изучение последовательностей оснований ДНК млекопитающих, позвоночных, птиц, рыб и прокариот подтвердило данные о присутствие MIR в геномах многих приматов, позвоночных и птиц. Впервые данное семейство повторов обнаружено у рыб, в частности кистеперой и у ящерицы. Полученные данные свидетельствуют о более древнем происхождении MIR, чем считали ранее.

Таким образом, применение разработанных алгоритмов к анализу последовательностей ДНК и аминокислот позволило получить уникальные результаты, проливающие свет на эволюцию и строение геномов. Это делает данную работу актуальной, а созданное программное обеспечение востребованным в биологических и генетических исследованиях. Поскольку реализованные в рамках диссертационной работы программные комплексы показали хорошую распознавательную способность на генетических данных, они также рекомендуются для изучения любых символьных последовательностей.

Библиография Руденко, Валентина Михайловна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аптон Г. Анализ таблиц сопряженности признаков // Москва, Финансы и статистика, 1982

2. Вейр Б. Анализ генетических данных // Москва, Мир, 1995

3. Головлев Е.Л. О старых проблемах новой систематики бактерий // Микробиол. 1998, т.67,281-286

4. Гусев М.В., Минеева ДА. Микробиология // Москва, Изд. МГУ, 1992.

5. Ефимов A.B. под ред. Сборник задач по математике для втузов, в 4 ч. //

6. Иванов В.И. Геном человека медицине // Природа 1998, №1 ООО

7. Ивченко Г.И., Медведев Ю.И. Математическая статистика // Москва, Высшая школа, 1984.-248с.

8. Кимура М. Молекулярная эволюция: теория стабильности // Москва, Мир, 1985,398с.

9. Киселев JI.JI. Геном человека и биология XXI века // Вестник РАН, т70, №5, 412424

10. Короткое Е.В. // Известия Академии Наук СССР. Серия биологическая. 1992, №4, 660-672

11. П.Лобзин В.В., Чечеткин В.Р. Порядок и корреляции в геномных последовательностях ДНК. Спектральный подход // Успехи физических наук 2000, т 170, №1, 57-81

12. Спирин A.C. под ред. Молекулярная биология. Структура и биосинтез нуклеиновых кислот //

13. Степанов В.М. Молекулярная биология. Структура и функции белков // Москва, Высшая школа, 1996.

14. Сингер М., Берг П. Гены и геномы т. 1 -2 // Москва, Мир, 1998

15. Шумный В.К. Проблемы биологии в XXI веке //

16. Уотермен М.С. под ред. Математические методы для анализа последовательностей ДНК // Москва, Мир, 1999

17. Франк-Каменецкого М.Д. под ред. Компьютерный анализ генетических текстов // Москва, Наука, 1990

18. Хоулта Дж., Крига Н., Снита П., Стейли Дж., Уильямса С. под ред. Определитель бактерий Берджи // 9-е изд. В 2 т. Пер. с англ. под ред. Г А. Заварзина, Москва, Мир, 1997

19. Altschul S.F, Erickson B.W. Locally optimal subalignments using nonlinear similarity functions // Bull.Math.Biol. 1986, V48, 633-660

20. Altschul S.F, Gish W. //Methods Enzymol. 1996, V266, 460-480

21. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. Basic local alignment search tool //J.Mol.Biol. 1990, V215,403-410

22. Altschul S.F., Koonin E.V. Iterated profile searches with PSI-BLAST-a tool for discovery in protein databases // TIBS 1998, Y23,444-447

23. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Res. 1997, V25, №17, 3389-3402

24. Attwood T.K., Parry-Smith D.J. Introduction to bioinformatics // Addison Wesley Longman Limited, England, 1999

25. Benson G. Tandem repeats finder: a program to analyse DNA sequences // Nucl. Ac.Res 1999, V27, 573-580

26. Benson G. Sequence alignment with tandem duplications // J.Comput.Biol. 1997, Y4, 351-367

27. Benson G., Waterman M. A method for fast database search for all k-nucleotide repeats // Nucl.Acids Res. 1994, V22, 4828-4836

28. Berg O.G., von Hippel P.H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters // J.Mol.Biol. 1987, V193, 723-750

29. Betz U.A.K., Mayer W.E., Klein J. Major histocompatibility complex class I genes of the coelacanth Latimeria chalumnae // Proc.Natl.Acad.Sci.USA 1994, V91, 11065-11069

30. Brown J.H., Cohen C., Parry D.A.D. Heptad breaks in alpha-helical coiled coils: stutters and stammers // Proteins 1996, V26,134

31. Boeddrich A., Burgtorf C., Francis F., Lehrach H. // Unpublished

32. Burset M., Guigo R. Evaluation of gene structure prediction programs // Genomics 1996, V34, 353-367

33. Bushman J.L., Asura A.I., Matts R.L., Hinnebusch A.G. Evidence that GCD6 and GCD7, translational regulators of GCN4, are subunits of the guanine nucleotide exchange factor for eIF-2 in Saccharomyces cerevisiae //Mol.Cell.Biol. 1993, Y13, 1920

34. Cairns J., Overbaugh J., Miller S. The origin of mutant // Nature 1988, V335, 142-146

35. Chang M.S., Chang G.D., Leu J.H., Huang F.L., Chou C.K., Huang C.J., Lo T.B // DNA Cell Biol. 1996, VI5, 827-844

36. Chechetkin V.R., Knizhnikova L.A., Turygin A.Y. Thiee-quasiperiodicity, mutual correlations, ordering and long-range modulations in genomic nucleotide sequences for viruses // J.Biomol.StructDyn. 1994, V12 (2), 271-299

37. Chechetkin Y.R., Lobzibn Y.V. Levels of ordering in coding and noncoding regions of DNAsequences //Physics Letters A 1996, V222,354-360

38. Chechetkin V.R., Lobzin V.V. Study of correlations in segments DNA sequences: application to structural coupling between exons and introns// J.Theor.Biol. 1998, V190,69-83

39. Chechetkin V.R., Tuiygin A.Y. On the spectral criteria of disorder in non-periodic sequences: application to inflation models, symbolic dynamics and DNA sequences // J.Phys.A. 1994, V27, 4875-4898

40. Chechetkin V.R., Turygin A.Y. Size dependence of three-periodicity and long range correlations in DNA sequences //Phys.LettA 1995, VI99, 75-80

41. Christie J.F.; Dunbar B.; Davidson I.; Kennedy M.W. N-terminal amino acid sequence identity between a major allergen of Ascaris lumbricoides and Ascaris suum, and MHC-restricted IgE responses to it // Immunology 1990, V69, 596.

42. Cohen C., Parry D.A.D. Alpha-helical coiled coils: more facts and better predictions // Science 1994, V263,488

43. Conway J.F., Parry D.A.D. Structural features in the heptad substructure and longer range repeats of two-stranded alpha-fibrous proteins // Int. J. Biol. Macromol. 1990, V12,328

44. Conway J.F., Parry D.A.D. Alu elements in a Plasmodium vivax antigen gene // Int.J. Biol. Macromol. 1991, V13, 14

45. Coward E., Drablos F. Detecting periodic patterns in biological sequences // Bioinformatics 1998, V14, №6, 498-507

46. Dayhoff M.O. Atlas of proteni sequence and structure // Natl.Biomed.Res.Found. 1979, V5, №3,353-358

47. Daubin V., Gouy M., Perriere G. Bacterial molecular phylogeny using supertree approach // Gen.Informatics 2001, V12,155-164

48. Dhar A., Gupta S., SharmaY.D. Alu elements in a Plasmodium vivax antigen gene // FEBS Lett. 1998, V423, 193-197

49. Dodd I.B., Egan J.B. Systematic method for the detection of potential lambda Cro-like DNA-binding regions in proteins // J.Mol.Biol. 1987, V194, 557-564

50. Drew H.R., Travers A. A. DNA bending and its relation to nucleosome positioning // J.Mol.Biol. 1985, VI86, 773-790

51. Doolittle W.F. Phylogenetic classification and the universaltree // Science 1999, Y284, 2124-2129

52. EigenM., Schuster P. // Naturwissenschaften 1978, Y65, 341

53. Feller W. An introduction to probability theory and its applications // N.Y., John Wiley & Sons Inc. 1970

54. Ferbeyre G., Smith J.M., Cedergren R. Schistosome satellite DNA encodes active hammerhead ribozymes // Mol. Cell. Biol. 1998, VI8,3880-3888.

55. Fickett J.W., Tung,C.S. Assessment of protein coding measures // Nucl. Acid Res. 1992, V20, 6441-6450

56. Fickett J.W. The gene identification problem: an overview for developers // Comput. Chem. 1996, V20,103-118

57. Fischetti V., Landau G., Schmidt J., Sellers P. Identifying periodic occurrence of a template with application to a protein structure // Proc. Ill annual symp.on a combinatorial pattern matching. Lecture notes in computer science, V255,1256-1258, 1992.

58. Gibbs A.J., Mclntyre G. A. The diagram, a method for comparing sequences // Eur.J.Biochem. 1970, V16,1-11

59. Gribskov M., Burgess R.R. Sigma factors from E. coli, B. subtilis, phage SP01, and phage T4 are homologous proteins // Nucleic Acids Res. 1986, VI4, 6745-6763

60. Gribskov M., McLachlan A.D., Eisenberg D. Profile analysis: detection of distantly related proteins// Proc.Natl.Acad.Sci. 1987, V84,4355-4358

61. Gupta S., Sharma Y.D. // Unpublished

62. Jurka J., Zietkiewicz E., Labuda D. Ubiquitous mammalian-wide interspersed repeats (MIRs) are molecular fossils from the mesozoic era // Nucleic Acids Res. 1995, V23, №1, 170175

63. Henikoff S., Henikoff J.G. Amino acid substitution matrices from protein blocks // Proc.Natl.Acad.Sci.USA 1992, V89, 10915-10919

64. Henikoff S., Henikkof J.G. Embedding strategies for effective use of information from multiple sequence alignments // Protein Sci. 1997, V6, 698-705

65. Heringa J. The evolution and recognition of protein sequence repeats // Computers Chem. 1994, V18, №3, 233-243

66. Heringa J., Argos P. A metjod to recognize distant repeats in protein sequences // PROTEINS: structure, functions and genetics 1993, V17,391-411

67. Herzel H., Grobe I. Measuring correlations in symbol sequences // Physica A 1995, V216, 518-542

68. Herzel H., Trifonov E.N., Weiss O., Grobe I. Interpreting correlations in biosequences // Physica A 1998a, Y249, 449-459

69. Herzel H., Weiss O., Trifonov E.N. Sequence periodicity in complete genomes of Archaea suggests positive supercoiling // J.Biomol.Struct.Dyn. 1998b, VI6, 341-345

70. Herzel H., Weiss O., Trifonov E.N. 10-11 bp periodicities in complete genomes reflect protein structure and DNA folding // Bioinformatics 1999, VI5, №3,187-193

71. Holzbaur E.L., Tokito M.K. Localization of the DCTN1 gene encoding pl50Glued to human chromosome 2pl3 by fluorescence in situ hybridization // Genomics 1996, V31, 398

72. Karlin S., Altschul S.F. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes // Proc.Nat. Acad.Sci.USA 1990, V87, 22642268

73. Karlin S., Altschul S.F. Applications and statistics for multiple high-scoring segments in molecular sequences // Proc.Natl.Acad.Sci.USA 1990, V90, 5873-5877

74. Karlin M., Ghandour G., Ost F., Tavare S., Korn L.J. New approaches for computer analysis of nucleicacid sequences // Proc.Natl.Acad.Sci.USA 1983, V80,5660-5664

75. Karlin S., Morris M., Ghandour G., Leung M.-Y. Efficient algorithms for molecular sequence analysis //Proc.Natl.Acad.Sci.USA 1988, V85, 841-845

76. Kasturi R., Chirala S., Pazirandeh M., Wakil S.J. Characterization of a genomic and cDNA clone coding for the thioesterase domain and 3' noncoding region of the chicken liver fatty acid synthase gene // Biochemistry 1988, V27, 7778-7785.

77. Kawamura S., Yokoyama S. Cloning of the rhodopsin-encoding gene from the rod-less lizard Anolis carolinensis // Gene 1994, V149, 267-270

78. Kennedy M.W., Brass A., Mccruden A.B., Price N.C., Kelly S.M., Cooper A. // Biochemistry 1995, V34, 6700

79. Kidera A., Konishi Y., Oka M, Ooi T., Scheraga H.A. // J.Protein Chem. 1985a, Y4, 23-54

80. Kidera A., Konishi Y., Ooi T., Scheraga H.A. //J.Protein Chem. 1985b, V4, 265-297

81. Korotkov E.V. A family of mirror Bl-like sequences from human genome // Dokl. Akad. Nauk SSSR 1990, V311,238-242

82. Korotkov E.V. New family of wide-spread MB1 repeats in human genome // Mol.Biol. (Russian) 1991, V25,250-263

83. Korotkov E.V., Korotkova M.A. DNA regions with latent periodicity in some human clones // DNA Sequence 1995, V5, 353-358

84. Korotkov E.V., Korotkova M.A. Enlarged similarity of nucleic acid sequences // DNA research 1996, V3,157-164

85. Korotkov E.V., Phoenix D.A. Latent periodicity of DNA sequences of many genes // Proceedings of Pacific Symposium on Biocomputing 1997. Maui, Hawaii, USA. Word Scientific Press, 222-232

86. Korotkov E.V., Korotkova M.A., Tulko J.S. Latent sequence periodicity of some oncogenes and DNA-binding protein genes // Comput. Appl. Biosci. 1997, V13,37-44

87. Kullback S. Information theory and statistics // London, John Wiley & Sons Inc. 1959

88. Lagunez-Otero J., Trifonov E.N. mRNA periodical infrastructure complementary to the proof-reading site in the ribosome //J.Biomolec.Struct.Dyn. 1992, V10,451

89. Landau G., Schmidt J. // Proc.of the IV annual symp.on combinatorial patterns matching, Lecture notes in computer science 1993, V648, 120-133

90. Lilias M.G., Branden C.I., Banaszak L.J. // The enzymes. N-Y, London, Academic Press 1975, VI0, 68

91. Lin A.W., Chang C.C., McCormick C.C J. // Biol.Chem. 1996, V271, 11911-11919

92. Lukashin A. V., Anshelevich V.V., Amirikyan B.R., Gragerov A.I., Frank-Kamenetskii M.D. Neural network models for promoter recognition // J.Biomol.Struct.&Dyn. 1989, V6, 1123-1133

93. Lundrigan M.D., Kadner R.J. Nucleotide sequence of the gene for the ferrienterochelin receptor FepA in Escherichia coli. Homology among outer membrane receptors that interact with TonB // J. Biol. Chem. 1986, V261, 10797

94. Mackey M.C. //Rev.Mod.Phys. 1989, V61, 981

95. Makeev V.Y., Tumanyan V.G. Search of periodicities in primary structure of biopolymers: a general Fourier approach // Comput. Appl. Biosci. 1995, VI2,49-54

96. Makeev V.Y., Frank G.K., Tumanyan V.G. Statistics of periodic patterns in the sequences of human introns // Biophysics 1996, V41, №1,263-268

97. Margot P., Mauel C., Karamata D. The gene of the N-acetylglucosaminidase, a Bacillus subtilis 168 cell wall hydrolase not involved in vegetative cell autolysis // Mol. Microbiol 1994, V12, 535

98. Martin W. Mosaic bacterial chromosomes: a challenge enroute to a tree of genomes // Bioessays 1999, V21,99-104

99. Martinez H.M. An efficient method for flndingrepeats in molecular sequence // Nucl.Acids.Res. 1983, VI1,4629-4634

100. McLachlan A.D. Multichannel Fourier analysis of patterns in protein sequences // J.Phys.Chem. 1993, V97, 3000-3006

101. Mealy G.H. // Bell System Tech.J. 1955, V34, 1045-1079

102. Miller W., Myers E. Approximate matching of regular expressions // Bull.Math. Biol. 1989, V51,5-37

103. Miller K.M., Withler R E. Sequence analysis of a polymorphic Mhc class II gene in Pacific salmon // Immunogenetics 1996,V43,337-351

104. Murata S., Takasaki N., Saitoh M., Okada N. Determination of the phylogenetic relationships among Pacific salmonids by using short interspersed elements (SINEs) as temporal landmarks of evolution //Proc.Natl.Acad.Sci.USA 1993, V90, 6995-6999

105. Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // J.Mol.Biol. 1970, V48, 443

106. Olsen G.J., Woese C.R., Overseek R. The winds of (evolutionary) change: breathing new life into microbiology//J. Bacteriol. 1994, V176, 1-6

107. Pagano M., Halvorsen K.T. An algorithm for finding the exact significance levels of r*c contigency tables // J.American StatAss. 1981, V76, №376, 931-934

108. Patthy L. Detecting homology of distantly related proteins with consensus sequences //J.Mol.Biol. 1987, V198, 567-577

109. Pearson W.R., Lipman D.J. Improved tools for biological sequence comparison // Proc.Nat.Acad.Sci.USA 1988, V85,2444-2448

110. Periere G., Duret L., Gouy M. HOBACGEN: database system for comparative genomics in bacteria // Genome Res. 2000, V10, 379-385

111. Rackovsky S. "Hidden" sequence periodicities and protein architecture // Proc.Natl. Acad.Sci. USA 1998, V95, 8580-8584

112. Raetz C.R.H., Roderick S.L. A left-handed parallel beta helix in the structure of UDP-N-acetylglucosamine acyltransferase // Science 1995, V270, 997

113. Rainwater S., Silverman P.M. The Cpx proteins of Escherichia coli K-12: evidence that cpxA, ecfB, ssd, and eup mutations all identify the same gene // J.Bacteriol. 1990, VI72, 2456

114. Rani M., Mitra C.K. Pair-preferences: a quantitative measure of regularities in protein sequences II J. biomol.struct.dyn., V13, №6,935-944

115. Rashid M., Mori M., Sekiguchi J. Glucosaminidase of Bacillus subtilis: cloning, regulation, primary structure and biochemical characterization // Microbiology 1995, V141, 2391

116. Rice D.W., Schulz G.E., Guest J.R. Structural relationship between glutathione reductase and lipoamide dehydrogenase II J.Mol.Biol. 1984, V174, 483-496

117. Roff D.A., Bentzen P. The statistical analysis of mitochondrial DNA polymorphisms: x2 and the problem of small samples // Mol.Biol.Evol. 1989, V6, №5,539-545

118. Sadosky A.B., Gray J.A., Hill C.W. The RhsD-E subfamily of Escherichia coli K-12 // Nucleic Acids Res. 1991, VI9,7177

119. Sagot M., Myers E. // Proc. of the II annual international confer, on comput. mol. biol., AMC press, NY, 1998, 20-29

120. Schulte P.M., Gomez-Chiarri M., Powers D.A. Structural and functional differences in the promoter and 5' flanking region of Ldh-B within and between populations of the teleost Fundulus heteroclitus // Genetics 1997, V145, 759-769

121. Sellers P.H. // Bull.Math.Biol. 1984, V46, 501-514

122. Seledtsov I.A., Kolpakov F.A. // Proc.First Int.Conf.on Bioinformatics, Novosibirsk: Inst.of Cytology&Genetics SO RAN Press 1998,301-304

123. Shepherd J.C.W. Method to determine the reading frame of a protein from the purine/pyrimidine genome sequence and its possible evolutionary justification // Proc.Nat.Acad.Sci. USA 1981, V78, 1596-1600

124. Smit A.F.A., Riggs A.D. MIRs are classic, tRNA-derived SINEs that amplified before the mammalian radiation // Nucleic Acids Res. 1995, V23, №1, 98-102

125. Schneider T.S., Stormo G.D., Gold L., Ehrenfeucht A. // J.Mol.BioI. 1986, V188, 415-431

126. Spence H.J., Moore J., Brass A., Kennedy M.W. A cDNA encoding repeating units of the ABA-1 allergen of Ascaris//Mol.Biochem.Parasitol. 1993, V57, 339-343

127. Stormo G.D., Hartzell G.W. Identifying protein-binding sites from unaligned DNA fragments // Proc.Natl.Acad.Sci.USA 1989, V86, 1183-1187

128. Taylor W.R. Identification of protein sequence homology by consensus template alignment// J.Mol.BioI. 1986, ¥188, 233-258

129. Takasaki N., Park L., Kaeriyama M., Gharrett A.J., Okada N. // J.Mol.Evol. 1996, V42,103-116

130. Tatusov R.L., Altschul S.F., Koonin E.Y. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks // Proc.Natl.Acad.Sci. USA 1994, V91, 12091-12095

131. Tatusova T.A., Madden T.L. BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences// FEMS Microbiol.Let. 1999, V174, 247-250

132. Terai Y., Takahashi K., Okada N. // Mol.Biol.Evol. 1998, VI5,1460-1471

133. Tiwari S., Ramachandran S., Bhattacharya A., Bhattacharya S., Ramaswamy R. Prediction of probable genes by Fourier analysis of genomic sequences // CABIOS 1997, VI3, 263-270

134. Tokito M.K., Howland D.S., Lee V.M., Holzbaur E.L. Functionally distinct isoforms of dynactin are expressed in human neurons // Mol. Biol. Cell 1996, V7, 1167

135. Trifonov E.N. Translation framing code and frame-monitoring mechanism as suggested by the analysis of mRNA and 16 S rRNA nucleotide sequences // J.Mol.Biol. 1987, V194, 643-652

136. Trifonov E.N., Bettecken T. Sequence fossils, triplet expansion and reconstruction of earliest codons // Gene 1997, V205 (1-2), 1-6

137. Trifonov E.N. 3-, 10.5-, 200- and 400-base periodicities in genome sequences // Physica A 1998, V249, 511-516

138. Tulko J.S., Korotkov E.V., Phoenix D.A. MIRs are present in coding regions of human genes // DNA sequence 1997, V8 (1-2), 31-38

139. Verma M. // Curr. Microbiol. 1986, V13, 299

140. Vingron M., Argos P. A. A fast and sensitive multiple sequence alignment program //Comp.Appl.Biosci. 1989, V5, 115-121

141. Wang K., Gan L., Kunisada T., Lee I., Yamagishi H., Hood L. Characterization of the Japanese pufferfish (Takifugu rubripes) T-cell receptor alpha locus reveals a unique genomic organization// Immunogenetics 2001, V53, 31

142. Wang Y., Moore M., Levinson H.S., Silver S., Walsh C., Mahler I. Nucleotide sequence of a chromosomal mercury resistance determinant from a Bacillus sp. with broad-spectrum mercury resistance // J. Bacteriol. 1989, V171, 83

143. Waterman M.S., Eggert M. A new algorithm for best subsequence alignments with application to tRNA-rRNA comparisons // J.Mol.Biol. 1987, VI97, 723

144. Waterman M.S. Introduction to computational biology. Map sequencea and genomes // London: Chapman and Hall press 1995

145. Weber R.F., Silverman P.M. The cpx proteins of Escherichia coli K12. Structure of the cpxA polypeptide as an inner membrane component // J.Mol.Biol. 1988, V203, 467145

146. Weiss O., Herzel H. Correlations in protein sequences and property codes // J.Theor.Biol. 1998, V190,341-353

147. Westphal A.H., de Kok A. Lipoamide dehydrogenase from Azotobacter vinelandii. Molecular cloning, organization and sequence analysis of the gene // Eur. J. Biochem. 1988, V72,299-305

148. White O., Eisen J.A., Heidelberg J.F., Hickey E.K., Peterson J.D., Dodson R.J., Haft D.H., Gwinn M.L., Nelson W.C., Richardson D.L., et.al. // Science 1999, V286, 1571

149. Wierenga R.K., Terpstra P., Hol W.G.J. Prediction of the occurrence of the ADP-binding beta alpha beta-fold in proteins, using an amino acid sequence fingerprint // J.Mol.Biol. 1986, VI87, 101-108

150. Woese C.R. Bacteria evolution // Microbiol.Rev. 1987, 221-271

151. Woese C.R. Microbiology in transition // Proc.Natl.Acad.Sci.USA. 1994, V91, 1601-1603

152. Wolf Y., Rogozin I.B., Grishin N.V., Tatusov R.L., Koonin E.V. Genome trees constructed using five different approaches suggest new major bacterial clades // BMC Evol. Biol. 2001, Vol 1:8

153. Xia Z.F., Patino R., Gale W.L., Maule A.G., Densmore L.D. // Gen.Comp. Endocrinol. 1998, VI13, 360-368

154. Yi T.-M., Lander E.S. Recognition of related proteins by iterative template refinement (ITR). //Protein Sei. 1994, V3, 1315-1328

155. МИКРОБИОЛОГИЧЕСКАЯ ТАКСОНОМИЯ (по данным Genbank)

156. Microbial Complete Genomes Taxonomy /1. Archaeaо Crenarchaeota

157. Desulfurococcales Aeroovrum pernix• Sulfolobales Sulfolobus solfataricus - Sulfolobus tokodaii " Thermoproteales - Pyrobaculum aerophilumо Eurvarchaeota

158. Archaeoglobales Archaeoalobus fulaidus

159. Halobacteriales Halcbacterium so. NRC-1• Methanobacteriales Methanothermobacter thermautotrophicus

160. Methanococcales Methanococcus iannaschii

161. Thermococcales Pyococcus abvssi - Pvrococcus horikoshii

162. Thermoolasmales Therrnoolasma addoohilum - Thermoplasma voicanium1. Bacteriao Aguificales Aguifex aeolicus o Firmicuies

163. Bacillus/Clostridium group

164. Bacillaceae Bacillus subtilis - Bacillus halodurans C-125 ' Clostridiaceae - Clostridium acetobutylicum - Clostridium perfrinciens1.steria Listeria monocytogenes - Listeria innocua ' Mycoplasmaiaceae

165. Mycoplasma Mycoplasma aenitalium - Mycoplasmapneumoniae Mycoplasma pulmonis ' Ureaplasma - Ureaplasma urealvticum

166. Staphylococcaceae Staphylococcus aureus Mu50 -Staphylococcus aureus N315

167. Streptococcaceae Streptococcus pneumoniae TIGR4

168. Streptococcus pneumoniae TIGR4 Streptococcus pneumoniae R6 - Lactococcus lactis ■ Actinobacteria - Mycobacterium tuberculosis H37Rv - Mycobacterium tuberculosis CDC 1551 - Mycobacterium leprae o Spirochaetales1. Spirochaetaceae

169. Borrelia Borrelia burgdorferi

170. Caulobacter group Caulobacter crescentus

171. Rhizobiaceae group Agrobacterium tumefaciens -Mesorhizobium loti - Sinorhizobium meliloti - Brucella melitensis

172. Rickettsials Rickettsia orowazekii Madrid E - Rickettsia conorii Malish 7149frete subdivision

173. Neisseria meningitidis Neisseria meningitidis Z2491 (serogroup A) - Neisseria meningitidis MC58 {seroproup B)

174. Ralstonia Ralstonia solanacearum ■ gamma subdivision1. Enterobacteriaceae group1. Enterobacteriaceae

175. Escherichia Escherichia coli - Escherichia coli0157:H7 Escherichia coli 0157.H7 EDL933 " Salmonella - Salmonella typhi - Salmonella tvohimurium LT21. Buchnera Buchnera sp. APS

176. Pasteurellaceae Haemophilus influenzae Rd - Pasteurella multocida - Yersinia pestis

177. Pseudomonadaceae Pseudomonas aeruginosa " Xanthomonas group - Xylella fastidiosa

178. Vibrionaceae Vibrio cholerae " delta/epsilon subdivisions - Campylobacter jejuni - Helicobacter pylori 26695 - Helicobacter pylori J99 o Cyanobacteria

179. Svnechocvstis PCC6803 Nostoc so. PCC71201. КЛАССИФИКАЦИЯ БАКТЕРИИа) по \Volf У., ОДоип 1.В., СпэЫп РГ.У., ТаШоу КХ., Коопш Е.У.

180. Классификационное дерево для бактериальных геномов, построенное на основании данных о присутствии генома в группах ортологичных генов.1. НЙЮ ЗЬрг1 / е.* от| | / У4 '1 \¥ / «г*«*/»1»\У —г^^Нгйч "--«»«'О