автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Применение метода информационного разложения символьных последовательностей для изучения генетических текстов
Оглавление автор диссертации — кандидата физико-математических наук Руденко, Валентина Михайловна
СОДЕРЖАНИЕ.
ВВЕДЕНИЕ.
ГЛАВА 1. ОБЗОР КОМПЬЮТЕРНЫХ МЕТОДОВ АНАЛИЗА ГЕНЕТИЧЕСКИХ ТЕКСТОВ.
1.1. Генетические последовательности и их структурная организация.
1.1.1. Структура последовательностей оснований ДНК.
1.1.2. Организация аминокислотных последовательностей белков.
1.2. Математические методы и алгоритмы поиска периодичности в символьных последовательностях.
1.2.1. Статистические методы поиска периодичности в символьных последовательностях.
1.2.2. Методы поиска периодичности, основанные на преобразовании Фурье.
1.2.3. Использование методов динамического программирования для поиска периодичности в генетических текстах.
1.3. Математические алгоритмы для обнаружения дисперсных повторяющихся последовательностей.
1.3.1. Статистические методы поиска подобий между последовательностями.
1.3.2. Задача нахождения оптимального выравнивания. Алгоритмы BLAST & FASTA.
1.3.3. Профильный анализ.
1.3.4. Использование нейронных сетей для поиска дисперсных повторяющихся последователъностей
ГЛАВА 2. РАЗРАБОТКА НОВЫХ МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ ПОИСКА ПЕРИОДИЧНОСТИ И ДИСПЕРСНЫХ ПОВТОРОВ В СИМВОЛЬНЫХ
ПОСЛЕДОВАТЕЛЬНОСТЯХ.
2.1. Постановка задачи.'.:.:.
2.2. Информационный критерий подобия символьных последовательностей.
2.2.1. Расширенное подобие символьных последовательностей.
2.2.2. Использование метода Монте-Карло для оценка статистической значимости в условиях малой выборки.
2.2.3. Особенности программной реализации алгоритма поиска расширенного подобия символьных последовательностей.
2.3. Информационное разложение символьных последовательностей.
2.3.1. Скрытая периодичность символьных последовательностей.
2.3.2. Преимущества информационного перед другими математическими методами поиска периодичности.
2.3.3. Оценка распознавательной способности метода информационного разложения для поиска скрытой периодичности.
2.4. Алгоритм поиска скрытой периодичности в аминокислотных последовательностях белков
2.5. Исследование триплетной периодичности в последовательностях оснований ДНК.
2.5.1. Метод поиска триплетной периодичности.
2.5.2. Классификация типов триплетной периодичности.
2.6. Использование метода динамического программирования для обнаружения сильнодивергированбых MIR-повторов.
ГЛАВА 3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ К АНАЛИЗУ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ.
3.1. Изучение скрытой периодичности аминокислотных последовательностей.
3.1.1. Поиск скрытой периодичности в аминокислотных последовательностях банка данных SWISS-PROT.
3.1.2. Изучение пространственных структур и свойств белков, обладающих скрытой периодичностью.
3.2. Триплетная периодичность в последовательностях оснований ДНК бактерий.
3.2.1. Поиск триплетной периодичности в геномах бактерий.
3.2.2. Классификация типов триплетной периодичности бактериальных геномов.
3.3. MIR-повторы в геномах различных видов.
Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Руденко, Валентина Михайловна
Конец XX века ознаменовался значительными достижениями в биологической науке и в частности в области молекулярной биологии. Одним из важных достижений по праву можно считать создание роботизированных систем для определения последовательностей оснований ДНК, позволяющих за приемлемое время расшифровывать отдельные участки ДНК и даже полные геномные последовательности различных видов организмов. В последние 10-15 лет усилия научного сообщества были направлены на накопление последовательностей, и вершиной этой деятельности стала расшифровка генома человека, состоящего из ЗхЮ9 нуклеотидных пар. В настоящее время объем накопленной генетической информации в основных банках данных последовательностей ДНК (ЕМВЬ, ОепЬапк) составляет более 19 Гб и объем вновь расшифрованных последовательностей стремительно растет (Приложение №1). Невозможно переоценить значение полученной информации для науки, медицины и других областей жизни человечества (Киселев Л.Л.; Шумный В.К.). Однако, для успешного использования этой информации необходимо прежде всего понять ее биологический смысл, «прочитать», что закодировано в последовательностях ДНК и аминокислот.
Детальное изучение и анализ генетических последовательностей можно провести экспериментальным путем. Для этого в рамках молекулярной биологин были разработаны следующие методы, электрофорез, специфическая химическая модификация азотистых оснований в составе молекул ДНК, способы радиоактивного и флуоресцентного мечения, полимеразного копирования, клонирования и др. Проблема заключается в том, что применить вышеупомянутые методы для изучения огромного количества доступных в настоящее время последовательностей ДНК и аминокислот просто невозможно из-за их большой трудоемкости и значительной стоимости. Поэтому первоочередная задача состоит в привлечении к изучению последовательностей биополимеров мощной компьютерной техники. Соответственно возникает необходимость в разработке математических алгоритмов анализа генетических последовательностей и компьютерных программ, реализующих эти алгоритмы. Математические методы для анализа генетических последовательностей не смогут полностью заменить экспериментальные, по крайней мере до тех пор, пока мы не обладаем полными знаниями о всех молекулярных процессах, проходящих в живой клетке. Однако удобство и простота использования компьютерных методов для анализа генетических текстов, а также возможность обработки больших объемов данных за сравнительно короткое время, делают их необходимым инструментом в экспериментальной работе биологов. Использование компьютерных программ может значительно сократить спектр исследуемых экспериментально последовательностей или давать дополнительные аргументы в пользу выдвигаемых теоретически гипотез.
За последние два десятилетия уже было создано достаточно много программных продуктов, направленных на изучение свойств и структуры последовательностей оснований ДНК и аминокислот (Attwood Т.К., Parry-Smith D.J. 1999). Большинство алгоритмов, заложенных в эти программы, применяют стандартную технику теории вероятностей и математической статистики для исследования статистических свойств и закономерностей в строении последовательностей биополимеров (Уотермен М.С. 1999, Франк-Каменецкий М.Д. 1990, Вейр Б. 1995). В настоящее время, когда благодаря развитию молекулярной биологии и связанных с ней дисциплин наши знания о строении и функционировании молекул ДНК, а также их эволюции значительно пополнились, было бы неразумно не использовать их для создания более точных и чувствительных методов анализа генетических текстов. Поэтому наряду с накоплением и расшифровкой новых последовательностей постоянно имеет место проблема модификации старых и разработки новых, более совершенных методов анализа последовательностей ДНК и аминокислот, которые бы имели лучшую по сравнению с уже существующими методами точность, а также удовлетворяли возрастающим требованиям, предъявляемым к идентификации биологического значения.
Целью настоящей работы служила разработка новых математических алгоритмов поиска скрытой периодичности и сильнодивергировавших повторов в генетических последовательностях и создание соответствующего программного обеспечения. Конкретные задачи исследования включали в себя: 1) поиск скрытой периодичности в аминокислотных последовательностях белков банка данных SWISS-PROT; 2) поиск триплетной периодичности в последовательностях ДНК полных бактериальных геномов и классификацию геномов на основании видов встречающейся в них триплетной периодичности, 3) идентификацию сильнодивергировавших MIR-повторов в геномах различных видов. Кроме этого, необходимо было дать соответствующую биологическую интерпретацию полученным результатам. Программная реализация предложенных алгоритмов создавалась с учетом того, что исследованию созданным программным обеспечением подвергаются огромные банки данных. По этой причине проводилась оптимизация времени выполнения основных расчетных процедур.
Необходимо отметить, что поиск повторов и периодичности в последовательностях ДНК и аминокислот является одной из наиболее широко изученных проблем, возникших в связи с исследованием структурной организации генетических последовательностей. В силу этого ранее было создано много методов выявления периодичности и повторяющихся последовательностей. Однако большинство разработанных методов трактуют понятие подобия последовательностей (или периодов периодической последовательности) как гомологию. С точки зрения математики это совершенно верный подход. Но в случае анализа последовательности ДНК этого оказывается недостаточным, так как необходимо учитывать специфику исследуемой области. Для выявления сильнодивергировавших в результате эволюционного процесса периодичности и повторов желательно было бы рассматривать не только частоты гомологичных символов, но также и все возможные их парные комбинации, что на уровне ДНК соответствует различным мутационным заменам.
В данной диссертационной работе для поиска повторов и периодичности применяется информационное разложение символьной последовательности. Информационное разложение использует в качестве меры подобия последовательностей (или периодов периодической последовательности) взаимную информацию. Вклад в эту меру вносят как гомологичные совпадения символов, так и различные их пары. Указанное преимущество информационного разложения по сравнению с другими математическими подходами, позволило получить уникальные результаты и выявить повторы и периодичность неидентифицируемые другими методами.
В ходе исследования последовательностей оснований ДНК и аминокислот из банков данных удалось показать, что: 1) минимум 10% белков обладает периодической структурой. В ряде случаев установлена взаимосвязь между наличием у белкового домена скрытой периодичности и его функциональной ролью и пространственной структурой; 2) метод поиска скрытой периодичности в приложении к периодичности длины 3 в последовательностях ДНК можно применять для определения местоположения кодирующих участков. Введенные на основании информационного разложения триплетные типы описывают более точно, чем определялось ранее, триплетный паттерн кодирующей области. Впервые в качестве критерия классификации геномов предложено использовать списки видов триплетной периодичности. Найдено 4 основных вида триплетных паттернов для бактериальных геномов; 3) с помощью информационного метода в совокупности с динамическим программированием выявляется гораздо большее количество MIR-повторов в геномах различных видов, в том числе и в тех, где ранее MIR не идентифицировались. Например, впервые МЖб были найдены у рыб, ящерицы и прокариот.
Практическая ценность проделанной работы заключается прежде всего в том, что разработанное программное обеспечение позволило получить данные, расширяющие наше представление об информационном содержании биологических последовательностей. Наличие скрытой периодичности и сильнодивергировавших повторов наводят на мысль, что эволюция ДНК шла путем дупликаций достаточно простых последовательностей, хотя образование дисперсных (рассеянных) и тандемных (непрерывных) повторов возможно имело различный молекулярный механизм. Конкретно полученные результаты по периодичности в белках и связи периодичности со вторичной структурой и функциональной ролью несомненно окажутся полезными для идентификации и определения роли вновь полученных аминокислотных последовательностей, а также создании искусственных белков нужного свойства. В перспективе планируется использовать данные по характеристическим периодам белков для создания мощного программного комплекса, осуществляющего поиск белков, имеющих функциональные домены с идентичной периодичностью, при наличии делеций и вставок.
Одним из практических применений метода поиска скрытой периодичности является также поиск генов в последовательностях оснований ДНК. Для этого разработанный ранее программный комплекс нужно будет дополнить процедурами определения промоторов и экзон-интронных границ. Результаты классификации типов триплетной периодичности окажутся полезными для определения кодирующих областей, имеющих определенный триплетный паттерн с учетом делеций и вставок. Настройка метода поиска кодирующих областей на определенный триплетный паттерн позволит значительно повысить точность предсказаний.
Исследование распространенности семейств повторов, в том числе МГО.-повторов, как наиболее многочисленного семейства в геномах млекопитающих, играет важную роль при определении эволюционного родства различных биологических видов. В настоящее время, в филогенетическом анализе в основном используется информация только об отдельных семействах генов или рРНК. Таким образом не учитывается большая часть геномной информации, что ведет к искажению реальных эволюционных взаимосвязей. В этом смысле данные по сильнодивергировавшим семействам повторов могут быть дополнительным критерием эволюционного родства различных групп организмов. 8
Разработанные в диссертационной работе математические алгоритмы поиска скрытой периодичности и сильнодивергировавших повторов принципиально отличаются от существующих методов анализа последовательностей. Их применение к изучению свойств реальных генетических последовательностей позволило получить новые, интересные результаты, имеющие глубокий биологический смысл. Поэтому соответствующие программные комплексы можно использовать для исследования любых символьных последовательностей, например лингвистических.
Заключение диссертация на тему "Применение метода информационного разложения символьных последовательностей для изучения генетических текстов"
ЗАКЛЮЧЕНИЕ
Настоящая работа была посвящена разработке и применению новых математических алгоритмов для поиска повторов и периодичности в генетических текстах. Все разработанные алгоритмы имеют в своей основе информационный подход, а в качестве критерия подобия последовательностей (или наличия периодичности) выступает взаимная информация. Основное достоинство взаимной информации заключается в том, что имеется возможность определения статистической значимости подобия. Этим она выгодно отличается от других статистических мер, в частности корреляционных функций и спектральной функции Фурье. Вторым преимуществом информационного критерия перед другими математическими методами поиска подобия состоит в том, что он учитывает все возможные парные комбинации символов сравниваемых последовательностей между собой, а не только гомологичные. Благодаря этому, методы поиска периодичности и повторов, использующие его, выявляют «скрытые» на первый взгляд корреляции между различными нуклеотидами (или аминокислотами) и обнаруживают подобия и периодичности, которые не идентифицируются другими методами.
Конкретные задачи исследования состояли в: 1) обнаружении скрытой периодичности в аминокислотных последовательностях белков; 2) изучении триплетной периодичности последовательностей оснований ДНК; 3) обнаружении сильнодивергированных МЖ-повторов в геномах различных видов.
1) Метод поиска скрытой периодичности был применен для анализа белковых последовательностей из БШЗБ-РКОТ банка данных. Результаты исследований показали, что более 10% всех белков имеют скрытую периодичность. Поскольку в настоящей реализации метод поиска скрытой периодичности не учитывал делеции и вставки в отдельных периодах, значение 10% является лишь нижней оценкой числа периодических белков. Следовательно, можно предполагать, что белки имеют дискретную структуру.
Также была обнаружена взаимосвязь между наличием периодичности в аминокислотной последовательности и вторичной структурой белка. Во многих случаях белки, относящиеся к одному классу функциональных элементов, имели периодичность одного типа.
В перспективе планируется создание банка данных по скрытой аминокислотной периодичности, который также содержал бы спектры информационного разложения периодических последовательностей и их характеристические периоды. Эта информация может быть полезна для разработки метода поиска скрытой периодичности при наличии делеций и вставок, а также идентификации функций и пространственной структуры протеина по его периодической структуре.
2) По второму пункту исследований проводился поиск триплетной периодичности в последовательностях 50 полных бактериальных геномов. Метод поиска скрытой периодичности, примененный для случая периодичности с длиной периода 3, позволил идентифицировать более 77% CDS областей бактериальных геномов. Относительно высокая распознавательная способность метода, позволяет использовать его для обнаружения местоположения генов в последовательностях оснований ДНК. Дополнительным преимуществом метода поиска триплетной периодичности стала возможность определения типа триплетной периодичности. Типы триплетной периодичности (триплетные паттерны) были получены для 50 бактериальных геномов, и на основании этих типов осуществлялась классификация.
Мы считаем, что триплетная периодичность определяет приоритет использования различных аминокислот, участвующих в процессе клеточного метаболизма. В свою очередь это напрямую связано со средой обитания и обогащенностью среды различными типами аминокислот. Классификация типов триплетной периодичности показала разделение всего множества бактерий на 4 группы. Прослеживается определенная связь между полученной классификацией и общепринятой филогенией бактерий, в частности разделение на группы: Bacillus/Clostridium, Chlamidia, Actinobacter&Deinococcus, Proteobacteria. Результаты классификации были предъявлены биологам для последующего изучения. Они имеют несомненно важное значение для исследования путей молекулярной эволюции.
На основании групп триплетной периодичности предполагается создать программное обеспечение для поиска последовательностей с конкретным триплетным паттерном с учетом делеций и вставок.
3) Третья часть работы состояла в обнаружении MIR-повторов, для которых характерна сильная степень дивергенции - 25-35%, причем как между различными видами, так и внутри одного биологического вида. Для поиска повторов такого свойства распознавательной способности существующих методов, как правило, не хватает. Поэтому был разработан метод поиска сильнодивергированных MIR-повторов, объединяющий достоинства различных математических подходов поиска подобных последовательностей - расширенного подобия, весовых функций и динамического программирования.
134
Метод поиска сильнодивергированных MIR-повторов, примененный к анализу последовательностей приматов из Genbank, обнаружил на 40% больше MIR, чем это удавалось сделать методами, основанными на поиске гомологий, такими как blastn. Изучение последовательностей оснований ДНК млекопитающих, позвоночных, птиц, рыб и прокариот подтвердило данные о присутствие MIR в геномах многих приматов, позвоночных и птиц. Впервые данное семейство повторов обнаружено у рыб, в частности кистеперой и у ящерицы. Полученные данные свидетельствуют о более древнем происхождении MIR, чем считали ранее.
Таким образом, применение разработанных алгоритмов к анализу последовательностей ДНК и аминокислот позволило получить уникальные результаты, проливающие свет на эволюцию и строение геномов. Это делает данную работу актуальной, а созданное программное обеспечение востребованным в биологических и генетических исследованиях. Поскольку реализованные в рамках диссертационной работы программные комплексы показали хорошую распознавательную способность на генетических данных, они также рекомендуются для изучения любых символьных последовательностей.
Библиография Руденко, Валентина Михайловна, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Аптон Г. Анализ таблиц сопряженности признаков // Москва, Финансы и статистика, 1982
2. Вейр Б. Анализ генетических данных // Москва, Мир, 1995
3. Головлев Е.Л. О старых проблемах новой систематики бактерий // Микробиол. 1998, т.67,281-286
4. Гусев М.В., Минеева ДА. Микробиология // Москва, Изд. МГУ, 1992.
5. Ефимов A.B. под ред. Сборник задач по математике для втузов, в 4 ч. //
6. Иванов В.И. Геном человека медицине // Природа 1998, №1 ООО
7. Ивченко Г.И., Медведев Ю.И. Математическая статистика // Москва, Высшая школа, 1984.-248с.
8. Кимура М. Молекулярная эволюция: теория стабильности // Москва, Мир, 1985,398с.
9. Киселев JI.JI. Геном человека и биология XXI века // Вестник РАН, т70, №5, 412424
10. Короткое Е.В. // Известия Академии Наук СССР. Серия биологическая. 1992, №4, 660-672
11. П.Лобзин В.В., Чечеткин В.Р. Порядок и корреляции в геномных последовательностях ДНК. Спектральный подход // Успехи физических наук 2000, т 170, №1, 57-81
12. Спирин A.C. под ред. Молекулярная биология. Структура и биосинтез нуклеиновых кислот //
13. Степанов В.М. Молекулярная биология. Структура и функции белков // Москва, Высшая школа, 1996.
14. Сингер М., Берг П. Гены и геномы т. 1 -2 // Москва, Мир, 1998
15. Шумный В.К. Проблемы биологии в XXI веке //
16. Уотермен М.С. под ред. Математические методы для анализа последовательностей ДНК // Москва, Мир, 1999
17. Франк-Каменецкого М.Д. под ред. Компьютерный анализ генетических текстов // Москва, Наука, 1990
18. Хоулта Дж., Крига Н., Снита П., Стейли Дж., Уильямса С. под ред. Определитель бактерий Берджи // 9-е изд. В 2 т. Пер. с англ. под ред. Г А. Заварзина, Москва, Мир, 1997
19. Altschul S.F, Erickson B.W. Locally optimal subalignments using nonlinear similarity functions // Bull.Math.Biol. 1986, V48, 633-660
20. Altschul S.F, Gish W. //Methods Enzymol. 1996, V266, 460-480
21. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. Basic local alignment search tool //J.Mol.Biol. 1990, V215,403-410
22. Altschul S.F., Koonin E.V. Iterated profile searches with PSI-BLAST-a tool for discovery in protein databases // TIBS 1998, Y23,444-447
23. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Res. 1997, V25, №17, 3389-3402
24. Attwood T.K., Parry-Smith D.J. Introduction to bioinformatics // Addison Wesley Longman Limited, England, 1999
25. Benson G. Tandem repeats finder: a program to analyse DNA sequences // Nucl. Ac.Res 1999, V27, 573-580
26. Benson G. Sequence alignment with tandem duplications // J.Comput.Biol. 1997, Y4, 351-367
27. Benson G., Waterman M. A method for fast database search for all k-nucleotide repeats // Nucl.Acids Res. 1994, V22, 4828-4836
28. Berg O.G., von Hippel P.H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters // J.Mol.Biol. 1987, V193, 723-750
29. Betz U.A.K., Mayer W.E., Klein J. Major histocompatibility complex class I genes of the coelacanth Latimeria chalumnae // Proc.Natl.Acad.Sci.USA 1994, V91, 11065-11069
30. Brown J.H., Cohen C., Parry D.A.D. Heptad breaks in alpha-helical coiled coils: stutters and stammers // Proteins 1996, V26,134
31. Boeddrich A., Burgtorf C., Francis F., Lehrach H. // Unpublished
32. Burset M., Guigo R. Evaluation of gene structure prediction programs // Genomics 1996, V34, 353-367
33. Bushman J.L., Asura A.I., Matts R.L., Hinnebusch A.G. Evidence that GCD6 and GCD7, translational regulators of GCN4, are subunits of the guanine nucleotide exchange factor for eIF-2 in Saccharomyces cerevisiae //Mol.Cell.Biol. 1993, Y13, 1920
34. Cairns J., Overbaugh J., Miller S. The origin of mutant // Nature 1988, V335, 142-146
35. Chang M.S., Chang G.D., Leu J.H., Huang F.L., Chou C.K., Huang C.J., Lo T.B // DNA Cell Biol. 1996, VI5, 827-844
36. Chechetkin V.R., Knizhnikova L.A., Turygin A.Y. Thiee-quasiperiodicity, mutual correlations, ordering and long-range modulations in genomic nucleotide sequences for viruses // J.Biomol.StructDyn. 1994, V12 (2), 271-299
37. Chechetkin Y.R., Lobzibn Y.V. Levels of ordering in coding and noncoding regions of DNAsequences //Physics Letters A 1996, V222,354-360
38. Chechetkin V.R., Lobzin V.V. Study of correlations in segments DNA sequences: application to structural coupling between exons and introns// J.Theor.Biol. 1998, V190,69-83
39. Chechetkin V.R., Tuiygin A.Y. On the spectral criteria of disorder in non-periodic sequences: application to inflation models, symbolic dynamics and DNA sequences // J.Phys.A. 1994, V27, 4875-4898
40. Chechetkin V.R., Turygin A.Y. Size dependence of three-periodicity and long range correlations in DNA sequences //Phys.LettA 1995, VI99, 75-80
41. Christie J.F.; Dunbar B.; Davidson I.; Kennedy M.W. N-terminal amino acid sequence identity between a major allergen of Ascaris lumbricoides and Ascaris suum, and MHC-restricted IgE responses to it // Immunology 1990, V69, 596.
42. Cohen C., Parry D.A.D. Alpha-helical coiled coils: more facts and better predictions // Science 1994, V263,488
43. Conway J.F., Parry D.A.D. Structural features in the heptad substructure and longer range repeats of two-stranded alpha-fibrous proteins // Int. J. Biol. Macromol. 1990, V12,328
44. Conway J.F., Parry D.A.D. Alu elements in a Plasmodium vivax antigen gene // Int.J. Biol. Macromol. 1991, V13, 14
45. Coward E., Drablos F. Detecting periodic patterns in biological sequences // Bioinformatics 1998, V14, №6, 498-507
46. Dayhoff M.O. Atlas of proteni sequence and structure // Natl.Biomed.Res.Found. 1979, V5, №3,353-358
47. Daubin V., Gouy M., Perriere G. Bacterial molecular phylogeny using supertree approach // Gen.Informatics 2001, V12,155-164
48. Dhar A., Gupta S., SharmaY.D. Alu elements in a Plasmodium vivax antigen gene // FEBS Lett. 1998, V423, 193-197
49. Dodd I.B., Egan J.B. Systematic method for the detection of potential lambda Cro-like DNA-binding regions in proteins // J.Mol.Biol. 1987, V194, 557-564
50. Drew H.R., Travers A. A. DNA bending and its relation to nucleosome positioning // J.Mol.Biol. 1985, VI86, 773-790
51. Doolittle W.F. Phylogenetic classification and the universaltree // Science 1999, Y284, 2124-2129
52. EigenM., Schuster P. // Naturwissenschaften 1978, Y65, 341
53. Feller W. An introduction to probability theory and its applications // N.Y., John Wiley & Sons Inc. 1970
54. Ferbeyre G., Smith J.M., Cedergren R. Schistosome satellite DNA encodes active hammerhead ribozymes // Mol. Cell. Biol. 1998, VI8,3880-3888.
55. Fickett J.W., Tung,C.S. Assessment of protein coding measures // Nucl. Acid Res. 1992, V20, 6441-6450
56. Fickett J.W. The gene identification problem: an overview for developers // Comput. Chem. 1996, V20,103-118
57. Fischetti V., Landau G., Schmidt J., Sellers P. Identifying periodic occurrence of a template with application to a protein structure // Proc. Ill annual symp.on a combinatorial pattern matching. Lecture notes in computer science, V255,1256-1258, 1992.
58. Gibbs A.J., Mclntyre G. A. The diagram, a method for comparing sequences // Eur.J.Biochem. 1970, V16,1-11
59. Gribskov M., Burgess R.R. Sigma factors from E. coli, B. subtilis, phage SP01, and phage T4 are homologous proteins // Nucleic Acids Res. 1986, VI4, 6745-6763
60. Gribskov M., McLachlan A.D., Eisenberg D. Profile analysis: detection of distantly related proteins// Proc.Natl.Acad.Sci. 1987, V84,4355-4358
61. Gupta S., Sharma Y.D. // Unpublished
62. Jurka J., Zietkiewicz E., Labuda D. Ubiquitous mammalian-wide interspersed repeats (MIRs) are molecular fossils from the mesozoic era // Nucleic Acids Res. 1995, V23, №1, 170175
63. Henikoff S., Henikoff J.G. Amino acid substitution matrices from protein blocks // Proc.Natl.Acad.Sci.USA 1992, V89, 10915-10919
64. Henikoff S., Henikkof J.G. Embedding strategies for effective use of information from multiple sequence alignments // Protein Sci. 1997, V6, 698-705
65. Heringa J. The evolution and recognition of protein sequence repeats // Computers Chem. 1994, V18, №3, 233-243
66. Heringa J., Argos P. A metjod to recognize distant repeats in protein sequences // PROTEINS: structure, functions and genetics 1993, V17,391-411
67. Herzel H., Grobe I. Measuring correlations in symbol sequences // Physica A 1995, V216, 518-542
68. Herzel H., Trifonov E.N., Weiss O., Grobe I. Interpreting correlations in biosequences // Physica A 1998a, Y249, 449-459
69. Herzel H., Weiss O., Trifonov E.N. Sequence periodicity in complete genomes of Archaea suggests positive supercoiling // J.Biomol.Struct.Dyn. 1998b, VI6, 341-345
70. Herzel H., Weiss O., Trifonov E.N. 10-11 bp periodicities in complete genomes reflect protein structure and DNA folding // Bioinformatics 1999, VI5, №3,187-193
71. Holzbaur E.L., Tokito M.K. Localization of the DCTN1 gene encoding pl50Glued to human chromosome 2pl3 by fluorescence in situ hybridization // Genomics 1996, V31, 398
72. Karlin S., Altschul S.F. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes // Proc.Nat. Acad.Sci.USA 1990, V87, 22642268
73. Karlin S., Altschul S.F. Applications and statistics for multiple high-scoring segments in molecular sequences // Proc.Natl.Acad.Sci.USA 1990, V90, 5873-5877
74. Karlin M., Ghandour G., Ost F., Tavare S., Korn L.J. New approaches for computer analysis of nucleicacid sequences // Proc.Natl.Acad.Sci.USA 1983, V80,5660-5664
75. Karlin S., Morris M., Ghandour G., Leung M.-Y. Efficient algorithms for molecular sequence analysis //Proc.Natl.Acad.Sci.USA 1988, V85, 841-845
76. Kasturi R., Chirala S., Pazirandeh M., Wakil S.J. Characterization of a genomic and cDNA clone coding for the thioesterase domain and 3' noncoding region of the chicken liver fatty acid synthase gene // Biochemistry 1988, V27, 7778-7785.
77. Kawamura S., Yokoyama S. Cloning of the rhodopsin-encoding gene from the rod-less lizard Anolis carolinensis // Gene 1994, V149, 267-270
78. Kennedy M.W., Brass A., Mccruden A.B., Price N.C., Kelly S.M., Cooper A. // Biochemistry 1995, V34, 6700
79. Kidera A., Konishi Y., Oka M, Ooi T., Scheraga H.A. // J.Protein Chem. 1985a, Y4, 23-54
80. Kidera A., Konishi Y., Ooi T., Scheraga H.A. //J.Protein Chem. 1985b, V4, 265-297
81. Korotkov E.V. A family of mirror Bl-like sequences from human genome // Dokl. Akad. Nauk SSSR 1990, V311,238-242
82. Korotkov E.V. New family of wide-spread MB1 repeats in human genome // Mol.Biol. (Russian) 1991, V25,250-263
83. Korotkov E.V., Korotkova M.A. DNA regions with latent periodicity in some human clones // DNA Sequence 1995, V5, 353-358
84. Korotkov E.V., Korotkova M.A. Enlarged similarity of nucleic acid sequences // DNA research 1996, V3,157-164
85. Korotkov E.V., Phoenix D.A. Latent periodicity of DNA sequences of many genes // Proceedings of Pacific Symposium on Biocomputing 1997. Maui, Hawaii, USA. Word Scientific Press, 222-232
86. Korotkov E.V., Korotkova M.A., Tulko J.S. Latent sequence periodicity of some oncogenes and DNA-binding protein genes // Comput. Appl. Biosci. 1997, V13,37-44
87. Kullback S. Information theory and statistics // London, John Wiley & Sons Inc. 1959
88. Lagunez-Otero J., Trifonov E.N. mRNA periodical infrastructure complementary to the proof-reading site in the ribosome //J.Biomolec.Struct.Dyn. 1992, V10,451
89. Landau G., Schmidt J. // Proc.of the IV annual symp.on combinatorial patterns matching, Lecture notes in computer science 1993, V648, 120-133
90. Lilias M.G., Branden C.I., Banaszak L.J. // The enzymes. N-Y, London, Academic Press 1975, VI0, 68
91. Lin A.W., Chang C.C., McCormick C.C J. // Biol.Chem. 1996, V271, 11911-11919
92. Lukashin A. V., Anshelevich V.V., Amirikyan B.R., Gragerov A.I., Frank-Kamenetskii M.D. Neural network models for promoter recognition // J.Biomol.Struct.&Dyn. 1989, V6, 1123-1133
93. Lundrigan M.D., Kadner R.J. Nucleotide sequence of the gene for the ferrienterochelin receptor FepA in Escherichia coli. Homology among outer membrane receptors that interact with TonB // J. Biol. Chem. 1986, V261, 10797
94. Mackey M.C. //Rev.Mod.Phys. 1989, V61, 981
95. Makeev V.Y., Tumanyan V.G. Search of periodicities in primary structure of biopolymers: a general Fourier approach // Comput. Appl. Biosci. 1995, VI2,49-54
96. Makeev V.Y., Frank G.K., Tumanyan V.G. Statistics of periodic patterns in the sequences of human introns // Biophysics 1996, V41, №1,263-268
97. Margot P., Mauel C., Karamata D. The gene of the N-acetylglucosaminidase, a Bacillus subtilis 168 cell wall hydrolase not involved in vegetative cell autolysis // Mol. Microbiol 1994, V12, 535
98. Martin W. Mosaic bacterial chromosomes: a challenge enroute to a tree of genomes // Bioessays 1999, V21,99-104
99. Martinez H.M. An efficient method for flndingrepeats in molecular sequence // Nucl.Acids.Res. 1983, VI1,4629-4634
100. McLachlan A.D. Multichannel Fourier analysis of patterns in protein sequences // J.Phys.Chem. 1993, V97, 3000-3006
101. Mealy G.H. // Bell System Tech.J. 1955, V34, 1045-1079
102. Miller W., Myers E. Approximate matching of regular expressions // Bull.Math. Biol. 1989, V51,5-37
103. Miller K.M., Withler R E. Sequence analysis of a polymorphic Mhc class II gene in Pacific salmon // Immunogenetics 1996,V43,337-351
104. Murata S., Takasaki N., Saitoh M., Okada N. Determination of the phylogenetic relationships among Pacific salmonids by using short interspersed elements (SINEs) as temporal landmarks of evolution //Proc.Natl.Acad.Sci.USA 1993, V90, 6995-6999
105. Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // J.Mol.Biol. 1970, V48, 443
106. Olsen G.J., Woese C.R., Overseek R. The winds of (evolutionary) change: breathing new life into microbiology//J. Bacteriol. 1994, V176, 1-6
107. Pagano M., Halvorsen K.T. An algorithm for finding the exact significance levels of r*c contigency tables // J.American StatAss. 1981, V76, №376, 931-934
108. Patthy L. Detecting homology of distantly related proteins with consensus sequences //J.Mol.Biol. 1987, V198, 567-577
109. Pearson W.R., Lipman D.J. Improved tools for biological sequence comparison // Proc.Nat.Acad.Sci.USA 1988, V85,2444-2448
110. Periere G., Duret L., Gouy M. HOBACGEN: database system for comparative genomics in bacteria // Genome Res. 2000, V10, 379-385
111. Rackovsky S. "Hidden" sequence periodicities and protein architecture // Proc.Natl. Acad.Sci. USA 1998, V95, 8580-8584
112. Raetz C.R.H., Roderick S.L. A left-handed parallel beta helix in the structure of UDP-N-acetylglucosamine acyltransferase // Science 1995, V270, 997
113. Rainwater S., Silverman P.M. The Cpx proteins of Escherichia coli K-12: evidence that cpxA, ecfB, ssd, and eup mutations all identify the same gene // J.Bacteriol. 1990, VI72, 2456
114. Rani M., Mitra C.K. Pair-preferences: a quantitative measure of regularities in protein sequences II J. biomol.struct.dyn., V13, №6,935-944
115. Rashid M., Mori M., Sekiguchi J. Glucosaminidase of Bacillus subtilis: cloning, regulation, primary structure and biochemical characterization // Microbiology 1995, V141, 2391
116. Rice D.W., Schulz G.E., Guest J.R. Structural relationship between glutathione reductase and lipoamide dehydrogenase II J.Mol.Biol. 1984, V174, 483-496
117. Roff D.A., Bentzen P. The statistical analysis of mitochondrial DNA polymorphisms: x2 and the problem of small samples // Mol.Biol.Evol. 1989, V6, №5,539-545
118. Sadosky A.B., Gray J.A., Hill C.W. The RhsD-E subfamily of Escherichia coli K-12 // Nucleic Acids Res. 1991, VI9,7177
119. Sagot M., Myers E. // Proc. of the II annual international confer, on comput. mol. biol., AMC press, NY, 1998, 20-29
120. Schulte P.M., Gomez-Chiarri M., Powers D.A. Structural and functional differences in the promoter and 5' flanking region of Ldh-B within and between populations of the teleost Fundulus heteroclitus // Genetics 1997, V145, 759-769
121. Sellers P.H. // Bull.Math.Biol. 1984, V46, 501-514
122. Seledtsov I.A., Kolpakov F.A. // Proc.First Int.Conf.on Bioinformatics, Novosibirsk: Inst.of Cytology&Genetics SO RAN Press 1998,301-304
123. Shepherd J.C.W. Method to determine the reading frame of a protein from the purine/pyrimidine genome sequence and its possible evolutionary justification // Proc.Nat.Acad.Sci. USA 1981, V78, 1596-1600
124. Smit A.F.A., Riggs A.D. MIRs are classic, tRNA-derived SINEs that amplified before the mammalian radiation // Nucleic Acids Res. 1995, V23, №1, 98-102
125. Schneider T.S., Stormo G.D., Gold L., Ehrenfeucht A. // J.Mol.BioI. 1986, V188, 415-431
126. Spence H.J., Moore J., Brass A., Kennedy M.W. A cDNA encoding repeating units of the ABA-1 allergen of Ascaris//Mol.Biochem.Parasitol. 1993, V57, 339-343
127. Stormo G.D., Hartzell G.W. Identifying protein-binding sites from unaligned DNA fragments // Proc.Natl.Acad.Sci.USA 1989, V86, 1183-1187
128. Taylor W.R. Identification of protein sequence homology by consensus template alignment// J.Mol.BioI. 1986, ¥188, 233-258
129. Takasaki N., Park L., Kaeriyama M., Gharrett A.J., Okada N. // J.Mol.Evol. 1996, V42,103-116
130. Tatusov R.L., Altschul S.F., Koonin E.Y. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks // Proc.Natl.Acad.Sci. USA 1994, V91, 12091-12095
131. Tatusova T.A., Madden T.L. BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences// FEMS Microbiol.Let. 1999, V174, 247-250
132. Terai Y., Takahashi K., Okada N. // Mol.Biol.Evol. 1998, VI5,1460-1471
133. Tiwari S., Ramachandran S., Bhattacharya A., Bhattacharya S., Ramaswamy R. Prediction of probable genes by Fourier analysis of genomic sequences // CABIOS 1997, VI3, 263-270
134. Tokito M.K., Howland D.S., Lee V.M., Holzbaur E.L. Functionally distinct isoforms of dynactin are expressed in human neurons // Mol. Biol. Cell 1996, V7, 1167
135. Trifonov E.N. Translation framing code and frame-monitoring mechanism as suggested by the analysis of mRNA and 16 S rRNA nucleotide sequences // J.Mol.Biol. 1987, V194, 643-652
136. Trifonov E.N., Bettecken T. Sequence fossils, triplet expansion and reconstruction of earliest codons // Gene 1997, V205 (1-2), 1-6
137. Trifonov E.N. 3-, 10.5-, 200- and 400-base periodicities in genome sequences // Physica A 1998, V249, 511-516
138. Tulko J.S., Korotkov E.V., Phoenix D.A. MIRs are present in coding regions of human genes // DNA sequence 1997, V8 (1-2), 31-38
139. Verma M. // Curr. Microbiol. 1986, V13, 299
140. Vingron M., Argos P. A. A fast and sensitive multiple sequence alignment program //Comp.Appl.Biosci. 1989, V5, 115-121
141. Wang K., Gan L., Kunisada T., Lee I., Yamagishi H., Hood L. Characterization of the Japanese pufferfish (Takifugu rubripes) T-cell receptor alpha locus reveals a unique genomic organization// Immunogenetics 2001, V53, 31
142. Wang Y., Moore M., Levinson H.S., Silver S., Walsh C., Mahler I. Nucleotide sequence of a chromosomal mercury resistance determinant from a Bacillus sp. with broad-spectrum mercury resistance // J. Bacteriol. 1989, V171, 83
143. Waterman M.S., Eggert M. A new algorithm for best subsequence alignments with application to tRNA-rRNA comparisons // J.Mol.Biol. 1987, VI97, 723
144. Waterman M.S. Introduction to computational biology. Map sequencea and genomes // London: Chapman and Hall press 1995
145. Weber R.F., Silverman P.M. The cpx proteins of Escherichia coli K12. Structure of the cpxA polypeptide as an inner membrane component // J.Mol.Biol. 1988, V203, 467145
146. Weiss O., Herzel H. Correlations in protein sequences and property codes // J.Theor.Biol. 1998, V190,341-353
147. Westphal A.H., de Kok A. Lipoamide dehydrogenase from Azotobacter vinelandii. Molecular cloning, organization and sequence analysis of the gene // Eur. J. Biochem. 1988, V72,299-305
148. White O., Eisen J.A., Heidelberg J.F., Hickey E.K., Peterson J.D., Dodson R.J., Haft D.H., Gwinn M.L., Nelson W.C., Richardson D.L., et.al. // Science 1999, V286, 1571
149. Wierenga R.K., Terpstra P., Hol W.G.J. Prediction of the occurrence of the ADP-binding beta alpha beta-fold in proteins, using an amino acid sequence fingerprint // J.Mol.Biol. 1986, VI87, 101-108
150. Woese C.R. Bacteria evolution // Microbiol.Rev. 1987, 221-271
151. Woese C.R. Microbiology in transition // Proc.Natl.Acad.Sci.USA. 1994, V91, 1601-1603
152. Wolf Y., Rogozin I.B., Grishin N.V., Tatusov R.L., Koonin E.V. Genome trees constructed using five different approaches suggest new major bacterial clades // BMC Evol. Biol. 2001, Vol 1:8
153. Xia Z.F., Patino R., Gale W.L., Maule A.G., Densmore L.D. // Gen.Comp. Endocrinol. 1998, VI13, 360-368
154. Yi T.-M., Lander E.S. Recognition of related proteins by iterative template refinement (ITR). //Protein Sei. 1994, V3, 1315-1328
155. МИКРОБИОЛОГИЧЕСКАЯ ТАКСОНОМИЯ (по данным Genbank)
156. Microbial Complete Genomes Taxonomy /1. Archaeaо Crenarchaeota
157. Desulfurococcales Aeroovrum pernix• Sulfolobales Sulfolobus solfataricus - Sulfolobus tokodaii " Thermoproteales - Pyrobaculum aerophilumо Eurvarchaeota
158. Archaeoglobales Archaeoalobus fulaidus
159. Halobacteriales Halcbacterium so. NRC-1• Methanobacteriales Methanothermobacter thermautotrophicus
160. Methanococcales Methanococcus iannaschii
161. Thermococcales Pyococcus abvssi - Pvrococcus horikoshii
162. Thermoolasmales Therrnoolasma addoohilum - Thermoplasma voicanium1. Bacteriao Aguificales Aguifex aeolicus o Firmicuies
163. Bacillus/Clostridium group
164. Bacillaceae Bacillus subtilis - Bacillus halodurans C-125 ' Clostridiaceae - Clostridium acetobutylicum - Clostridium perfrinciens1.steria Listeria monocytogenes - Listeria innocua ' Mycoplasmaiaceae
165. Mycoplasma Mycoplasma aenitalium - Mycoplasmapneumoniae Mycoplasma pulmonis ' Ureaplasma - Ureaplasma urealvticum
166. Staphylococcaceae Staphylococcus aureus Mu50 -Staphylococcus aureus N315
167. Streptococcaceae Streptococcus pneumoniae TIGR4
168. Streptococcus pneumoniae TIGR4 Streptococcus pneumoniae R6 - Lactococcus lactis ■ Actinobacteria - Mycobacterium tuberculosis H37Rv - Mycobacterium tuberculosis CDC 1551 - Mycobacterium leprae o Spirochaetales1. Spirochaetaceae
169. Borrelia Borrelia burgdorferi
170. Caulobacter group Caulobacter crescentus
171. Rhizobiaceae group Agrobacterium tumefaciens -Mesorhizobium loti - Sinorhizobium meliloti - Brucella melitensis
172. Rickettsials Rickettsia orowazekii Madrid E - Rickettsia conorii Malish 7149frete subdivision
173. Neisseria meningitidis Neisseria meningitidis Z2491 (serogroup A) - Neisseria meningitidis MC58 {seroproup B)
174. Ralstonia Ralstonia solanacearum ■ gamma subdivision1. Enterobacteriaceae group1. Enterobacteriaceae
175. Escherichia Escherichia coli - Escherichia coli0157:H7 Escherichia coli 0157.H7 EDL933 " Salmonella - Salmonella typhi - Salmonella tvohimurium LT21. Buchnera Buchnera sp. APS
176. Pasteurellaceae Haemophilus influenzae Rd - Pasteurella multocida - Yersinia pestis
177. Pseudomonadaceae Pseudomonas aeruginosa " Xanthomonas group - Xylella fastidiosa
178. Vibrionaceae Vibrio cholerae " delta/epsilon subdivisions - Campylobacter jejuni - Helicobacter pylori 26695 - Helicobacter pylori J99 o Cyanobacteria
179. Svnechocvstis PCC6803 Nostoc so. PCC71201. КЛАССИФИКАЦИЯ БАКТЕРИИа) по \Volf У., ОДоип 1.В., СпэЫп РГ.У., ТаШоу КХ., Коопш Е.У.
180. Классификационное дерево для бактериальных геномов, построенное на основании данных о присутствии генома в группах ортологичных генов.1. НЙЮ ЗЬрг1 / е.* от| | / У4 '1 \¥ / «г*«*/»1»\У —г^^Нгйч "--«»«'О
-
Похожие работы
- Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах
- Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей
- Восстановление отсутствующих данных в символьных последовательностях
- Методы выявления структурных единиц в символьных последовательностях
- Анализ параллельных алгоритмов и синтез программ с использованием символьных сетей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность