автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Компьютерный анализ вторичной структуры глобулярных белков
Автореферат диссертации по теме "Компьютерный анализ вторичной структуры глобулярных белков"
АКАДЕМИЯ НАУК СССР ОРДЕНА ЛЕНИНА СИБИРСКОЕ ОТДЕЛЕНИЕ Новосибирский институт органической химии
На правах рукописи
УДК 578.088:(576.12+575.24)
Саламов Асаф Ara Ддавад оглы
компьютерный анализ вторичном структуры глобулярных белков
05.13.16 (биол. науки) - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях
Автореферат диссертации на соискание ученой степени кандидата биологических наук
Новосибирск - 1991
Работа выполнена в Институте цитологии и генетики СО АН СССР, г.Новосибирск
Научные руководители
Официальные оппоненты:
Ведущее предприятие -
кандидат биологических наук
В.В. Соловьев
доктор биологических наук
H.A. Колчанов
доктор биологических наук
А.Д. Груздев
Институт цитологии и генетики СО АН СССР, г. Новосибирск
кандидат биологических
наук A.M.Ерошкин
ВНИИ молекулярной биологии
Минмедпром СССР, п. Кольцове
Новосибирской обл.
Институт молекулярной генетики
АН СССР, г. Москва
Зашита диссертации состоится 1991 г.
на_заседании специализированного совета по
защите диссертаций на соискание ученой степени кандидата наук при Новосибирском институте органической химии СО АН СССР (К 002.42.01) в конференц-зале института по адресу: 680090, г. Новосибирск, 90, проспект Академика Лаврентьева, 9.
С диссертацией можно ознакомиться в библиотеке Новосибирского института органической химии СО АН СССР,
Автореферат разослан " ^ 1991 г
Ученый секретарь специализированного совета кандидат физико-математических науэе
В.И.Смирнов
8t:E:U&
.OTti'i
; <> {Актуальность проблемы. Развитие методов генной инженерии г.. -'А|)'|<в4ло к быстрому накоплению информации о первичных ;ЛМТУраХ самих различных белков. Однако определение —Ф71ТГПИональной третичной структуры подавляющего большинства из них остается нерешенной проблемой. Развиваемые метода расчета третичной структуры либо требуют информации о вторичной структуре белка, либо знание её существенно уточняет получаемый с их помощью результат (Cohen et al., 1982, Соловьев и соавт., 1989). Кроме того, ряд структурно-функциональных характеристик белков можно выявить используя информацию о вторичной структуре, так например, один из типов ДНК-связывапцего домена включает две а-спирали, разделенные поворотом. Поэтому, несмотря на имеющиеся методы расчета вторичной структуры белка по его аминокислотной последовательности {точность расчета лучших из них ~ 60 65 $), актуальным является дальнейший поиск новых подходов к решению этой задачи, направленный на достижение большей надежности выявления участков «-спиралей, ß-структур и ß-поворотов. Кроме того, поскольку окончательно вторичная структура бежа определяется лишь в процессе формирования третичной, важно знать и возможные альтернативные варианты потенциальных вторичных структур, которые могут реализоваться в зависимости от окружения данного участка полипептидной цепи в глобулярной структуре белка.
В последнее время метода расчета вторичных структур получили обширный материал для своего развития в связи с накоплением информации о структурах и . аминокислотных последовательностях белков. Однако, эти методы не всегда дат надежные результаты (Kabsch, Sander, 19ЭЭ; Schultz, 1988), ЧТО по-видимому, связано с использованием упрощенных способов статистического анализа. Кроме того, в них, как правило, учитываются лишь определенные характеристики аминокислотных последовательностей, разные для каждого метода, в связи с чем расчет вторичной структуры заданного белка одновременно несколькими методами часто дает лучине результаты (Schultz, 1988). Поэтому перспективным являлась разработка нового подхода к определению вторичных структур белков, который, с одной стороны, позволил бы учитывать физико-химические
закономерности формирования вторичных структур наряду с чисто статистическими характеристиками. С другой стороны, такой подход должен позволять легхо включать новые характеристики и автоматически изменять с их учетом программу расчета вторичных структур.
Цель и задачи исследования. Основной целью настоящей работы была разработка подхода к определению вторичной структуры глобулярных белков (а-спиралей, э-структур, ^-поворотов) по известной аминокислотной последовательности, а также изучение факторов влияющих на ее формирование. При этом решались следующие задачи:
1. Разработка пакета программ для конструирования сложных характеристик участков полипептидаой цепи.
2. Разработка системы выявления наиболее информативных характеристик различных типов вторичных структур.
3. Исследование на основе разработанного комплекса программ факторов, влияющих на формирование различных типов вторичных структур.
4. Разработка алгоритма расчета вторичных структур глобулярных белков.
5. Исследование повреждающего эффекта аминокислотных замен на вторичные структуры белков.
Научная новизна. Разработан и реализован на ЭВМ оригинальный и эффективный метод расчета вторичных структур глобулярных белков. Разработана система, позволяющая на основе дискриминантного анализа выявлять наиболее значимые характеристики для формирования различных типов вторичных структур. Предложена модель формирования а-спиралей и Р-структур, учитывающая, характеристики как внутренних участков, так и К- и С-концов этих вторичных структур.
Рассмотрено влияние - мутаций на вторичную структуру глобулярных белков. Впервые показано, что вторичные структуры иммуноглобулинов обладают аномально высокой устойчивостью к мутациям, что по-видимому; есть результат 'отбора в ходе, эволюции таких вариантов аминокислотных последовательностей, которые могли бы обеспечивать функциональную изменчивость антигенных детерминант, но при различных мутациях сохраняли бы "костяк" своей пространственной структуры.
Теоретическая и практическая ценность. Разработанные в настоящей работе методы и полученные результаты могут быть использованы в дальнейшем для теоретического и экспериментального исследования структурно-функциональной организации глобулярных белков, при планировании экспериментов по белковой инженерии, а также для решения некоторых вопросов молекулярной эволюции.
Апробация работа. Результаты работы докладывались на 11 и 111 Всесоюзных рабочих совещениях "Теоретические исследования и банки данных в молекулярной биологии и генетике" (Новосибирск, 1986; 1988), а также на международной конференции "Моделирование и компыэтерные методы в молекулярной биологии и генетике" (Новосибирск, 1990).
Публикации. По теме диссертации опубликовано 7 работ.
Структура и объём работы. Диссертация состоит из введения, четырех глав, заключения и выводов. Объём диссертации 87 страниц текста, 21 рисунок, 29 таблиц. Общий объём 160 страниц.
Первая глава посвящена анализу литературных данных об особенностях структурной, организации глобулярных белков, включая основные теоретические подхода к расчету вторичной структуры по аминокислотной последовательности белка.
ГЛАВА 2. АНАЛИЗ ФАКТОРОВ ОПРЕДЕЛЯЮЩИХ ФОРМИРОВАНИЕ «-СПИРАЛЕЙ, Р-СТРУКТУР И Р-ПОВОРОТОВ.
Анализ факторов, влияющих на формирование различных типов вторичных структур (ВС) осуществлялся на основе подхода, использующего дискриминантный анализ. Для этого каждой аминокислотной позиции сопоставлялся набор значений признаков, характеризующих дальние, средние и локальные взаимодействия. Для учета локальных и средних взаимодействий рассматривались различные физико-химические и статистические характеристики аминокислот, такие как коэффициента Чоу-Фасмана, полярность, объем боковой группы, поперечное сечение остатка, заряд и т. п., причем i-позиции полипептидной цепи приписывались значения характеристик, полученных усреднением по всем остаткам,
лежащим на участке (¿-к, j4.fi). Всего созданная нами база данных содержала "40 различных характеристик аминокислот. Также учитывались параметры склонностей разумных дублетов ашнокислотных остатков к определенному типу ВС, разделенных к остатками (*=0,1,2,3), вычисленные по базе данных по аналогии с коэффициентами Чоу-Фасмана, т.е. склонность дублета с аминокислотами типа -I и з, разделенных к остатками { дублет типа ijk) ко вторичной структуре типа 5, определялась как:
ЕО3 ,
5
где и Рщ -, доля дублетов типа ¡]к во всей базе данных данных и во вторичной структуре типа 5 соответственно.
Для количественной оценки дальних взаимодействий рассчитывались такие характеристики участка полипептидной цепи, как гидрофобный момент, число аминокислотных остатков в потенциальном гидрофобном кластере, средняя гидрофобная энергия кластера, суммарная энергия кластера и аналогичные характеристики для стороны, противоположной гидрофобному кластеру (полярный сектор).
При анализе факторов, .влияющих на формирование определенного типа вторичной структуры белка, данные из обучающей выборки белков разделялись на следующие пары альтернативных классов : а-спираль - неспираль (а - а); ^-структура - не /з-структура (р - р); поворот - неповорот П -7), где под неструктурой подразумевались участки аминокислотной последовательности, не содержащие
соответствующие структуры. Кроме того, учитывая что н~ и с-концы а-спиралей и ^-структур могут характеризоваться особыми свойствами, для этих участков вторичных структур дополнительно также включались и альтернативные классы №-конец - не «-конец (л - Я) и с-конец - не с-конец 1С - с). При этом задача поиска закономерностей организации.различных типов БС формулировав следующим образом: каждую аминокислоту рассматриваемого белка необходимо отнести к одному из двух альтернативных состояний каждой пары конформационных классов. Для отнесения ¡-го наблюдения (соответствующего 1:-той позиции аминокислотной последовательности) к одному из пары
альтернативных классов использовались линейные дискрккинантные функции Фииерл:
где X - вектор признаков, соответствующих г-ому наблюдение, вектор р = ^ IX,- хг\, а постоянная Эо= -1/2 р (х~, + хг). Здесь объединенная ковариационная матрица, а~х, и~Х2 вектора средних признаков соответственно в 1 и И классах.
Рис. 1. Блок-схема алгоритма поиска наиболее информативных признаков.
Параметры вектора Э определялись при селекции такого набора признаков, при котором максимизировалось расстояние Махалонобиса с2 между двумя классами :
ог а (х,- 1г>' 5;1 щ - | ; (2)
Это расстояние использовалось как мера разделения двух классов с помощью заданного набора признаков. Такие наборы искались независимо для каждой пары классов. Отбор значимых признаков, которые достоверно увеличивали разделение классов осуществлялся на основе г-критерия включения (Болч, Хуань, 1979):
р 2 " 1 " В)! '
р = {п, + Л2 - к - 2) -:-2- > + пг - к - 2)
1 + т О"
где о - заданный уровень значимости, а
(л, + л2) 1л, + пг - 2 )
Разработанный нами алгоритм поиска наиболее информативных характеристик представлен на рис. 1. Он реализован в виде комплекса программ для ЭВМ 1ВМ РС. В таблице 1 приведен список наиболее существенных характеристик, выявленных при анализе обучающей выборки из 72 белков с известной ВС.
Анализ факторов влияющих на формирование «-спиралей.
Для двух альтернативных классов: внутренние участки а-спиралей - не а-спиралм (размером 9 аминокислот) наиболее значимой оказалась характеристика, учитывающая склонности дублетов аминокислот РТ>а. Кроме того, отобрались - коэффициент Чоу-Фасмана - гидрофобный момент «-спирали (бма) и
разность "энергий" гидрофобного и полярного кластера.
Значимость дублетов может быть обусловлена сильной специфичностью к обучающей выборке, (в силу ее ограниченного размера), поэтому был проведен также анализ информативных характеристик при учете лишь параметров статистически значимых дублетов и без учета этой характеристики. При учете лишь существенных дублетов среди значимых характеристик появляются средние значения гидропатии гидрофобного и полярного
Таблица X. Список отоОоакных характеристик, даншх наилучшее разделение между парами альтернативных классов.
Обозначение
Характеристика
'=£>. Р
го,
Конфдрмашюнкыа параметра Чоу-Фасмзка
Параметра склонности к а-спирали \* = а р-структуре и = г; и з-поворотвм и = I)
ПоиозишлокныЯ параметр к р-поворотам
Параметры склонности к внутренней часто I к ' Iп ) , V—КОНПУ :* = N), с-концу (к - С) участку, смежному с «-концом ч- - ¿1 и участку, смежному с с-концом и = я)
Параметры склонности для дуплетов разделенных <м остатками. в пС типа » с Кр'ср ' (вычислялись на оаза данных из ТС~5ёлков).
л/
РА
Е7 Н1 ГР
6!
С*»
! Достоверно значимые параметры для дуплетов
I Шкалы гидр<. патии аминокислотных остатков
: Икала, максимизирующая индекс амфифяльности ! Шкала гидрофильности Паркера ; Изменение свободной энергии по Гэнфорду • Индекс гшцюпатии Кита-Дулитла Шкала гидрофобкости Фуше и Плиски
Характеристики гидрофобных взаимодействии в ч-спиралях
Гидрофобный момент и-спирали
Суммарное значение ( / = 1), среднее значение меры (1 = 2) меры гидропатии гидрофобного кластера Среднее значение мери гидропатии ч полярного сектора = 3) Разность средних значений меры гидропатии к гидрофобного кластера и полярного сектора ( / =
Длина гидрофобного кластера (I = д) Длина полярного сектора. (/ = />)
Характеристики гидрофоб, свойств ^-структур
ГидрофоЛннй момент ^-структуры
Энергия гидрофобной стороны
1=1 - А1, к=2 - РЛ ЕТ, к=4
* 4'» 5
'12
Меры гидроиатиив
к=3
И1
Маски для р-поворотов по Козну
Песовая матрица перцептрона для поворотов, охватывающая 13 остатков
Г
кластеров, а также размер гидрофобного кластера (табл. 2а). Поэтому можно считать, что для формирования а-спирали наиболее важными являшся наличие "а-спиральныхи аминокислот
на определенном участке полипептидной цепи (которые характеризуются высоким содержанием F ). Кроме этого, эти аминокислоты должны быть расположены таким образом, чтобы при формировании а-спиральных конформаций образовывались амфифильные структуры, имеющие выраженную гидрофобную и гидрофильную поверхности.
При анализе характеристик для концов а-спиралей было обнаружено, что (табл. 26, 2в) во всех трех случаях (относительно учета дублетов) важными являлись склонности дублетов (FD ), коэффициенты Чоу-Фасмана для N- или с- конца
/г,1" ,
а-спирали, качество внутреннего участка а-сшрали (F й, Fa L) и состав участков смежных с концами а-епкралей.
Таким образом, кроме закономерностей характеризующих особенности внутренних участков «-спиралей, которые часто использовались в методах расчета ВС, по-видимому, на формирование терминирующих фрагментов a-спиралей существенно влияют состав аминокислот на и- и с-концах и смежных с ними участках.
На основании значений расстояний Махалонобиса для выявленных характеристик оценивалась их относительная значимость. Например, показано, что гидрофобный момент о-спирали (GMa) является характеристикой сравнимой с коэффициентом Чоу-Фасмана (Fa). В то же время, формирование концов a-спиралей определяется примерно равным образом как аминокислотным составом этих участков, так и их окружением. Показано, что с-концевые участки a-спиралей являются более выраженными, чем «-концевые. Их расстояние Махолонобиса бывает сравнимо с расстоянием центральных участков a-спиралей Особенно это заметно при анализе признаков, включающих существенные дублеты. Таким образом, можно считать, что действительно существуют участки терминирующие формирование a-спиралей, как 'это было продемонстрировано на примере синтезированного s-пептида рибонуклеазы A (Kim, Baldwin, 1984). Отметим, что на формирование концов «-спиралей значительно влияют именно дублетные закономерности.
Анализ Факторов влияющих на формирование р-структур.
Аналогично а-спиральным характеристикам наибольший вклад
Таблице 2.
Характеристикиг отобранные я-пя разделения различных классов ВС.
Нарокте- Коэфф. дискри-минакт- ной 0) инкиии Срэднво значение и спепноквэпо отклонение Расстояние —Мгьчалонобиса
оистика по струн— TUDO no наструк--ruDo в отца льнвети суммарное
а) (с* - HQ at )д
1 FDJ 29 17 1 12 * 0 os 1 01 к □ 05 3 86 З.вв
2 а£ 0 47 а 89 * I 46 г 49 к. I 30 1 13 4.39
3 F* 6 73 1 06 А O 08 0 94 i: 0 10 1 69 4.70
н! 0 46 2 4! ± I 92 1 го I 55 0 5Э 4.77
5 и; -О го 4 33 ± 1 31 э 54 * 1 75 о 22 4.79
S rà О зв -0 21 X 1 47 -0 оз * 1 го о ог 4. SO
7 н» -О 22 3 02 * 1 30 г 54 ± 1 31 0 13 4.84
<55 <»« - не
1 FD¿« 6 30 1 45 ± 0 5S 1 Ю Л 0 21 2 46 2.46
2 < 4 43 1 14 1 □ 16 а 96 ± 0 20 0 79 3.24
3 F* 3 24 1 14 * 0 22 □ 99 0 17 0 75 3.55
4 < >1в г 84 1 06 * 0 11 1 ог t 0 12 0 13 3.66
ВМС,,- на С, <><
1 FDc« 3 77 1 52 ± 0 61 i 09 ± 0 га 3 84 3.84
2 < F^HA 3 72 1 13 £ o 17 о 95 t о 20 о 83 4.69
3 F/ г 52 1 1 1 * o 15 о 93 ± о 19 о 88 4.93
4 < F* >r0 4 69 1 03 * o 12 1 00 t 0 12 0 14 5.03
г) (р - не р)т
1 FDp 16 □S 1 .12 * 0 14 1 .03 * 0 06 1 75 1.75
2 m tn 3.49 1 .17 4. 0 15 0 93 * 0 17 1 36 2.62
3 CHÜ -0 37 1 79 i 0 90 2 08 * 1 02 0 08 2.75
GHp 0 27 2 14 * 1 08 1 81 4 0 91 0 13 г.es
3 V 4 04 1 OS * 0 10 0 96 * 0 11 1 34 2.92
6 (tí -0 83 -0 66 i 0 40 -0 43 * 0 34 0 44 г.94
? н! 0 23 0 65 i 0 S9 I 29 i I 03 0.39 2.95
8 EI 0 12 2 41 1 1 27 1 44 t 1 22 0 63 2.96
д><« - на О,
i Fî 5 09 I 10 i 0 15 0 89 i 0 27 1 11 1.11
г < ïe>4 7 78 I 10 t 0 12 0 99 t □ И 0 93 г.03
3 Hs 1 98 0 79 ± 0 26 0 58 t 0 28 0 63 г.45
л Pti о 71 -1 88 * 0 94 -2 46 t 0 86 0 42 г. es
5 FD? 4 61 1 14 ± o 17 1 Ol t 0 11 о 82 3.25
6 С Ft)»o 5 56 I 03 0 11 0 97 * 0 10 0 39 3.56
7 < HI >6 -0 09 -0 69 * 1 01 -0 01 * I 13 0 40 3.83
в lit I 69 0 83 Л 0 23 0 68 * 0 28 0 32 4.02
9 < FP>& 0 86 0 24 * 0 33 0 40 * 0 34 0 22 4.05
при вычислении внутренних р-участков дают склонности дублетов (ГПр). Осталыше параметры лишь незначительно увеличивают точность разделения. При учете лишь существенных дублетов или без их учета, в качестве значимых выделяются также такие характеристики, как гидрофобный момент /3-структуры (с;Мр) и антшсоррелирующая характеристика - гидрофобный момент а-спирали (СМ^), а также ряд других характеристик гидрофобности (Н3, Е;} (табл. 2г). Однако, по сравнению с а-спиралями, для которых характеристика СМ сравнима по значимости с здесь эти характеристики гидрофобности играют значительно меньшую роль. Анализ концевых фрагментов р-структур показал, что для них являются равнозначимыми как состав амжкжислот этих участков, так и специфический состав окружающих аминокислот.
Таким образом, формирование р-структур, определяется, главным образом, индивидуальными склонностями аминокислот находиться в конформации ^-структуры. Определенные закономерности свидетельствуют о специфическом составе я- и с-хонцевих участков структур. Однако, в целом участки Р-структур меньше различаются от р по сравнению с а-спиралями (судя по расстояниям Махалонобиса). Кроме того, так как значимыми характеристиками для р-структур (с отрицательным вкладом) является ряд характеристик «-спиралей (например бм^), то можно предполагать, что р-структура формируется на незанятых а-спиралями участках.
Анализ факторов влияющих на формирование р-поворотов.
Как и в других классах вторичной структуры наибольший вклад дает характеристика, учитывающая дублеты аминокислот №0) г (табл. £д). Однако, , если учитывать лишь значимые дублеты, то наиболее вазшый вклад приходится на попозиционнный коэффициент Чоу-Фасмана Близкими ж нему по качеству
разделения t и Г фрагментов являются также значения Р-структурного потенциала на участке справа от поворота и значение Кг на участке слева. Это может свидетельствовать о том, что во многих случаях (¡-поворот не является самостоятельно формируемой структурой, а образуется при взаимодействии соседних Р-китей или его появлению способствует
1 о
аминокислоты слева, находящиеся в хонформации р-поворота. В тозе время, по-видимому, определенные фрагменты полмпептидаой цепи способш автономна принимать конформацию ß-поворота, о чем свидетельствует наличие среди значимых характеристик масок, выделенных Козном и соавт. (Cohen et.nl., 1S33) Кроне того, существенный вклад вносит показатель гидрофильное™ участка р-поворота (Н1)6, хотя он сам гто себе явно недостаточен для их предсказания.
ГЛАВА 3. МЕТОД ВЫЯВЛЕНИЯ ДИСКРЕТНЫХ УЧАСТКОВ ВТОРИЧНЫХ СТРУКТУР.
В настоящей главе предлагается модель организации а-спиралей и ß-структур, согласно которой определенная хояформация фрагмента белка определяется совместным действием трех элементов: N-концевого, внутреннего и с-концевого участка (рис.2).
Le > 5
Л?
N .«Я С
ummsj_hiü_
L? - 4 I u? - 4
^ I ^
интегральный характеристики l»( !.S 1-1-3
б> Линейная пискримимантнзя фунниия фрагменте и
для кллссоо <« - «>
н?. > кс . - коэффициенты константы ЛДФ
Рис.2 Модельное представление а-спиралл и функции, использу-мые для видения участка а-спирали.
Склонность этих участков к определенному типу ВС
оценивалась на основании соответствующих средних значений
г
линейных дискриминангных функции. с<к15=я,р, к-и,1п, С), спределешшх выше. Например, ) вччислялось как усредненное значите ) по длите внутреннего участка «-спирали с
центре;.', в /-той позиции.
' Для получении одной кривой елчстгоащей «-спирали (или
Р-струкгуры), учитывающей как качество н- и С-концов участка, так и внутренного участка аминокислотной последовательности был проведен дискриминанты® анализ на обучающей выборке белков для классов (а - 5)9 и (р- ¡з)7.
Было показано, что характеристики учитывающие структуру ы- и с-концевых участков достоверно улучшают выделение «-спиральных и ¿»-структурных участков, однако их роль значительно меньше, чем центральных участков. Кроме того, показано, что с-концевые характеристики более информативны,' чем "-концевые, а «-спиральные - более чем Р-структурные. На основании проведенного анализа и рассчитанных параметров
Г Аминокислотная последоват«льнасть
Р*сч«т для каждого фр«гм«нга интегральных характеристик
А-. А?.. 4 « -внчниншх соответственно на ■-конца. вяитоаннж цщстив н С-кпние_
Вычисление для кощага фрагивиТаТ линейных днекрмминомтных функций ^ и шприиар а?- »У,*?,* и?*?» и?
Воэиошоа расширение Фрагнентоа и выбор участков с накемшммн ^ или 4?
Получение набора потанцмальшх а-слиралсй к р-структцр
1 Ни Сюр структур с г 1 в иестм пео< МКСИНМЫВИ Л 1 !КОМТМЙ 1
1
Икмченмв потом 1)-повооотс (яаяьмих 1В
Яопалнмтыымя информация о 80з-
НОВШХ ГОМОЛОГИЧМ1Х
фрагевнтах из оазн яакких
«ТОПИЧНИХ СТРИПГО
Конечное лрисказанме
Рис.8. Блок-схема, алгоритма расчета дискретных ВС.
дискриминантннх функций предложен алгоритм расчета локализации дискретных ВС по аминокислотной последовательности. Блок-схема
алгоритма приведена на рис 3.
Суммарное предсказание ВС по 8-м состояниям («, р с) дает ~ 71« правильно предсказанных остатков, а по 4-м состояниям (а, 0, г, с) ~62Х - (табл. 3). Для контрольной выборки из 15 белков, которые не были использованы при "обучении", точность расчета ВС составила ~ 65«. Важно отметить, что результаты предсказаний на контрольной выборке практически не различаются по точности в случаях учета дублетных характеристик и без них. Точность расчета вторичных структур на основе предложенного нами алгоритма не уступает наиболее мощному алгоритму, разработанному Гарнье и сотр. (В1ои et а1., 1383), объединяющему три ранее предложенных подхода.
Табл.3- Суммарные результаты предсказаний на обучашей выборке.
Сдмивриов ч*«- «о остатняя- ---чмело преде*аэаннм* зегаткаэ-—^- с—спирали р-стрии— тис" клцбок р-паяо- РОШ
3776 гогз
3735 3199 5007 гобА
70-9 У. ЭЛ -А К 67. о X 51-3 х
етрцктиРДМ—. иос т *» сщав**льного 69.7 X 99.-4 X
О .54 ■ О.42 О-АЛ
Суммарми* '^им/.^----• ч 71 .О X
Существенными отличиями данного метода от предложенных ранее являются: 1) возможность локализовать дискретные структуры; 2)высокая точность предсказания протяженных «-спиралей и р-структур (табл. 4).
Табл. 4. Зависимость точности предсказания ВС от их длины Ь.
а> «-спира/гн
Предсказание короткие < ® средние 7 < 1- < 13 длянше 1. > 12
ПО ПИЗНЦИМ 46.5 X 73.1 X 80.8 %
по егрцктцрвм 54.4 X 80.7 X 98.2 У.
«структуры
Предсказание короткие С < 6 сроднив з < с. < 9 ЛЛИИНЫИ и > в
по лозмциян 4г. 1 у. бг.г х 70.1 У.
по стриктурой 40.4 % 77.5 X 90.8 У.
В дополнении к указанному вше методу был создан подход позволяющий учитывать гомологи» меаду участками аминокислотной последовательности предсказываемого бежа с
последовательностями белков из базы данных белков с известной вторичной структурой для увеличения точности расчета ВС. При этом с помощью алгоритма быстрого поиска повторов выявлялись все участки из базы данных ВС белков, имеющие статистически неслучайную гомологию, с участками аминокислотной последовательности предсказываемого белка. Это дает дополнительную информацию о возможной вторичной структуре предсказываемого белка и поэтому позволяет повысить надежность предсказания, особенно в случае предсказания ВС белков, имеющих гомологию с белками из базы данных. На рис. 4 представлен пример результата работы программы расчета ВС для белка кальмодулина, взятого из контрольной выборки.
¡9 3» 4С ¡» ¿л 7«
ЬИШМК!.. ПОСД. Рдоыде ВС Врсдемз. ВС «шммиыим ДОйшмммй «мала««« (Ысиодоовдоз нШйШфмодама ииавагава« кшрм
С«-С1СЭ. бЗДЮ оооскхомоег ООООМСУЬЕР
( рр^из 1 ЭДРакйй
Грмз^лсф^т *5в-
кераза
Г «*ер*тр*н сиеенкк ггк
ДОМММДО
|8ГГ1И»ГМ&И«
1 мшмкл
Китохрои е551 СЗСЛСДЕДЕШС!
* ЙМММ2
Аишмксл. пася. Ниьная ВС Ярсяпю. КС
к 9« (М |Гв 12« »5» 14>
HKDTЮSEEEXHEAPRVFOИOC^K^ISДAELЯH\/MTNLGEKl,TDEEVO£>^IR£ЛWIDGOOЗVWУEEFVÍ¡f^TAK мммш«м1м №Р ыммалм ммшш рррвяшдеахох 111(шш«< ишычмятмчмм «там «шшш
Ся-смэ. вивк
СОЮКЮТЕГ I ррртк'
Рис. 4 Предсказание вторичной структуры кальмодулина (ВаЬи е! а1,1988! с указанием гомологичных фрагментов из базы данных ВС.
ГЛАВА 4. ВЛИЯНИЕ МУТАЦИИ НА ВТОРИЧНЫЕ СТРУКТУРЫ ГЛОБУЛЯРНЫХ БЕЛКОВ.
Настоящая глава посвящена исследованию влияния мутаций на вторичные структуры глобулярных белков на основе разработанного алгоритма расчета дискретных вторичных
структур. Результаты анализа всех возможных мутаций в 40 а-спиралях и 30 р-струкгурах глобулярных белков, взятых из обучающей выборки приведены в таблице 5. Обнаружено, что ~873Е мутаций не разрушают «-спирали и - р-структуры. При учете лишь точечных нуклеотидаых замен (согласно генетическому коду), повреждающими являются только ~8$ аминокислотных замен в «-спиралях и 232 в р-струкгурах.
I:-Si,bteM «51113» H ицчгнй tiç?tnpi (i D.
in ire?«, cip^rp \ h h «1
HiKH ( > в « 1 4M Ш Ш (1 л s
(-а™ OS!«) 4< 27,5 23,1 я и а
№1 !Ш B5TB.Î и Кйркфяз(11|
te . «i h h \ \ h
Fj 1} W я 1! 5 й и 4
я 21 13 и 1) 1
Примечание. Mj- доля мутаций не повреждающих ВС, М2 - доля мутаций, разрушающих концы ВС, М3- доля мутаций, существенно повреждающих ВС,
Вторая половина таблицы учитывает лишь аминокислотные замены за счет одиночных мутаций в кодоне.
При анализе 245 реальных, мутаций в а- и р- цепях гемоглобина человека оказалось, что разрушение концов вторичных структур встречается одинаково часто среди мутаций, приводящих к стабильным и нестабильным вариантам белка, однако частичные повреждения структур встречаются в 2 раза чаще среди нестабильных гемоглобинов. В связи с этим было предположено, что такие повреждения могут влиять на укладку белка, особенно если они затрагивают важные для правильного сворачивания а-спирали и р-структуры. Гаких замен в мутационном спектре
При анализе влияния мутаций на стабильность Р-структур обнаружено, что вторичные структуры (Р-структуры) иммуноглобулинов обладают аномально высокой устойчивостью к мутациям (табл. 6), по сравнению Р-структурами других белков. Вариабельные участки иммуноглобулинов характеризуются высокой частотой соматических мутаций в процессе созревания иммунного ответа. Аномальная устойчивость вторичной структуры иммуноглобулинов, по-видимому, есть результат отбора в ходе эволюции таких вариантов аминокислотных последовательностей,
которые могли ба обеспечивать функциональную изменчивость антигенных детерминант, но при различгшх мутациях сохраняли бы костяк своей пространственной структуры. Такой всзмокн;г1 зффект отбора показан нами впервые, и он должен быть присущ, по-видимому, и другим белкам, подвергающимся различным вариантам интенсивной изменчивости, но сохраняющим основные особенности пространственной структур:;.
ВЫВОДЫ.
1. Разработан пакет программ выявления значимых характеристик различных типов вторичных структур в глобулярных белках. Программы пакета на основе созданной базы данных физико-химических свойств аминокислот позволяют конструировать сложные характеристики участков полипептидной цепи ( такие как гидрофобный кластер или момент, маски для поворотов) и проводить оценку их значимости используя дискриминантам, анализ.
2. Проведенный анализ обучающей выборки из 72 глобулярных белков с известной вторичной структурой выявил наиболее информативные характеристики и их относительную значимость при разделении различных типов вторичных структур. Наиболее информативными для формирования -а-спиралей оказались склонности отдельных аминокислот и пар аминокислот, находящихся в конформации а-спирали, структура гидрофобного и полярного кластеров аминокислот на поверхности а-спиралей, а также аминокислотный состав в и-, с-концевых и смежных с ними участков полипептидной цепи.
3. Аналогичные характеристики являются наиболее информативными для выявления Р-структур, однако р-структурц дискриминируются более слабо (по сравнению с а-спиралями), что свидетельствует об меньшей автономности их формирования в процессе самоорганизации белка.
4. Показано, что на формирование р-поворотов, кроме аминокислотного состава участка полипептидной цепи и его полярности влияют смежные участки, в том числе р-структурный потенциал на левом фланкирующем участке, а р-поворотный на правом.
0. Предложена.модель формирования «-спиралей и /з-структур, учи-швахж.их характеристики как внутренних участков, так и М- и с-концов этих вторичных структур. На основе этой модели разработан алгоритм расчета ВС глобулярных белков имепцей точность расчета ~71" на обучающей внборке и "65:5 - на контрольной выборке белков, что не уступает эффективным алгоритмам, основанных на других принципах.
6. Предложен подход позволяющий увеличивать надежность расчета ВС на основе учета информации о гомологичных участках меэду
аминокислотной последовательностью анализируемого белка и белками с известной пространственной структурой.
7. Проанализировано влияние мутаций на вторич1гув структуру глобулярных белков. Показано, что ~8% мутаций поврэлдаат а-спирали и ~232 р-структурн. Используя литературные данные о веянии мутаций на процесс укладки белка, можно предположить, что кроме консервативных аминокислот в функциональных центрах белков имеется около 25$ позиций, консервативность которых определяется кодированием ими процесса сворачивания полипептидной цепи при формировании пространственной структура белка.
8. Анализ влияния мутаций показал, что вторичные структуры (Р-структуры) иммуноглобулинов обладают анамально высокой устойчивостью к мутациям, что по-видимому является результатом отбора в ходе эволюции таких вариантов аминокислотных последовательностей, которые могли бы обеспечивать функциональную изменчивость антигенных детерминант, но при различных мутациях сохраняли бы "костяк" пространственной структуры белка.
Основное содержание диссертации представлено в следующих работах:
1.Соловьев В.В., Саламов A.A., Салихова А.К. Компьютерная система для исследования структурной организации глобулярных белков. // "Компьютерный анализ структуры, функции и эволюции генетических макромолекул. Проблемы интеллектуализации." Ред. Колчанов H.A., Новосибирск, Институт цитологии и генетики СО АН СССР, 1989, с.111-127.
2.Соловьев В.В., Саламов A.A. Метод расчета вторичной
структуры глобулярных белков. Выявление дискретных вторичных структур. // "Теоретические исследования и банки данных по молекулярной биологии и генетике" Тезисы докладов. Новосибирск, Институт цитологии и генетики, 1988, с.71-72. S.Salamov A.A., Solovyov V.V. Mutations Influence on the globular proteins secondary structure // "Modelling and computer methods In molecular biology and genetics" Abstracts of the International conference, Novosibirsk, 1990. p.115-117.. 4.Solovyov V.V. , Salastov A.A. Protein secondary structure calculatln on the base of discriminant analysis with use of Information on homologous proteins structure. // "Modelling and computer methods In molecular biology and genetics" Abstracts of the International, conference, Novosibirsk, 1990. p.112-114.
5.BenJukh D.N., Salamov A.A., Ponomarenko M.P., Solovyev V.V, OrlovYu.L., Gushchln D.N., Kolchanov N.A. The reconstruction of the spatial structure of DNA-blndlng domain of hlstone H4 by Its amino acid sequence. // "Modelling and computer methods In molecular biology and genetics" Abstracts of the International conference, Movoslblrsk, 1990. p.123-126.
6. Соловьев В.В., Саламов А.А., Капитонов В.В. Факторы, определяющие формирование вторичной структуры глобулярных белков // Молекулярная биология. - 1991, т.25, *4 (в печати).
7. Соловьев В.В., Саламов А.А. Метод расчета дискретных вторичных структур глобулярных белков. Ц Молекулярная биология. - 1991, т.25, »5 (в печати).
-
Похожие работы
- Компьютерный анализ пространственной структуры бета-структурных доменов глобулярных белков
- Формообразование и структура изделий из двухфазных титановых сплавов при деформировании в режиме сверхпластичности
- Разработка технологических параметров штамповки осесимметричных поковок из алюминиевого сплава А356 в твердожидком состоянии (тиксоштамповки)
- Разработка и исследование способа вакуум-электростатического копчения экструдированных продуктов
- Повышение эффективности технологии переработки семян сои с использованием ультразвука
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность