Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора

Жмуров, Артём Андреевич

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора

кандидата физико-математических наук: Жмуров, Артём Андреевич
город: Москва
год: 2011
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора»

Автореферат диссертации по теме "Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора"

На правах рукописи

Жмуров Артём Андреевич

Г""'

Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора

Специальность 05.13.18 - математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание учёной степени кандидата физико-математических наук

Москва - 2011

1 З.ОКТ 2011

4857903

Работа выполнена на кафедре вычислительной математики Московского физико-технического института (государственного университета)

Научный руководитель:

кандидат физико-математических наук, доцент Холодов Ярослав Александрович

Официальные оппоненты:

доктор физико-математически наук, профессор Ефремов Роман Гербертович доктор физико-математически наук, профессор, кандидат биологических наук Пантелеев Михаил Александрович

Ведущая организация:

Московкий государственный университет им. М.В. Ломоносова, Кафедра биофизики

Загцита^циссертации состоится " ¿-"^ " ОУ^^^Р^ 2011 г. в час. на заседании диссертационного совета Д 212.156.05 при Московском физико-техническом институте (государственном университете) по адресу: 141700, г. Долгопрудный Московской обл., Институтский пер. д.9, ауд. 903 КПМ.

С диссертацией можно ознакомится в библиотеке МФТИ (ГУ).

гь » 2011

Автореферат разослан

г.

Учёный секретар 'а

Д 212.156.05

Федько О.С.

Общая характеристика работы

Актуальность темы. Большие белковые молекулы, образования и волокна играют важную роль в жизнедеятельности организма. Нити фибрина, образуя сложную ветвистую структуру, формируют сгусток и останавливают кровотечение. Различные патологии, влияющие на механические свойства фибрина, способны нарушить его функцию и привести как к образованию тромба и возможному инсульту или инфаркту, так и к повышеному кровотечению. Капсиды животных и растительных вирусов способны выдерживать колоссальное давление со стороны упакованного генетического материала. Их физические свойства, а также переходы между стабильным и нестабильным состояниями определяют жизненный цикл вирусов, в том числе созревание вируса и заражение клеток. Современные эксперименты по изучению одиночных молекул такие как атомно-силовая микроскопия и оптические пинцеты широко используются для изучения механических свойств белковых волокон и капсул вирусов. Однако, ввиду сложности строения этих систем

103 — 105 частиц) и их больших размеров (~ 50 - 200 нм), результаты подобных экспериментов сложно интерпретировать без понимания микромеханики исследуемых биомолекулярных систем.

Стандартные вычислительные методы молекулярной динамики (МД) в полноатомном разрешении широко используются для изучения поведения биомолекул. Но полноатомное моделирование в настоящее время ограничено размером молекулы в 10-50нм и длительностью процесса моделирования в 0,1 — Юме. Поэтому данный ме-

тод хорошо подходит только для моделирования равновесных процессов, а достижение биологически важного временного интервала от микросекунды до секунды практически невозможно даже для малых систем. В основе упрощённого метода молекулярного моделирования лежит предположение, что не все степени свободы биомолекулы одинаково важны, и за структурные единицы системы берутся не атомы системы, а их группа (например, одна аминокислота). Такой метод не только позволяет существенно сократить количество производимых вычислений, но и перейти к большему шагу по времени без потери численной стабильности системы. Графические процессоры (ГП), которые изначально были спроектированы для ускорения работы с трёхмерной графикой, способны выполнять многие вычислительные задачи, в том числе и те, которые не связаны с обработкой изображения. Программные платформы для современных ГП включают NVIDIA Compute Unified Device Architecture (CUDA) и Open Computing Language (OpenCL). CUDA, программная среда для параллельных вычислений является высокоуровневой программной платформой, расширяющей стандартные языки С и С++. Это позволяет разработчику реализовывать процедуры (ядра), которые могут выполняться одновременно во множестве независимых потоков на ГП. Комбинация упрощённого метода моделирования и высокой производительности современных ГП обладает огромным потенциалом в области молекулярного моделирования. Ещё одним преимуществом ГП является их доступность: цена даже самых современных устройств не превышает 500 — 2000 долларов

США, а обычный персональный компьютер, оборудованный двумя-четырьмя такими устройствами, способен достигать производительности компьютерного кластера с 200 — 500 вычислительными ядрами.

Цели работы, объекты исследований. Объекты исследований диссертации - мономер и димер фибриногена, его фрагменты, а также капсид вируса НК97. Известные экспериментальные данные, полученные при помощи атомной силовой микроскопии, показали, что молекулы фибриногена обладают сложными механическими свойствами. Однако, эти данные не позволили точно определить источник динамических характеристик молекулы. Именно поэтому необходимо провести компьютерное молекулярное моделирование силовой денатурации фибриногена. К сожалению, ни одни из существующих вычислительных методов не позволяет проводить молекулярное моделирование в условиях воздействия на молекулу, идентичных экспериментальным. Поэтому было решено адаптировать вычислительные методы для эффективной работы на ГП. Полученная реализация также была применена для объяснения динамически х характеристик капсида вируса НК97.

Основной целью данной работы являлось моделирование экспериментов атомной силовой микроскопии (АСМ) на единичной молекуле. Для реализации была выбрана модель Самоорганизующегося Полимера (англ. Self Orginized Polymer, SOP). Использование модели SOP, полностью реализованной на ГП, дало возможность наблюдать микромолекулярную динамику белковых систем размером до

10б аминокислот.

Целью данной работы также являлась разработка программной реализации численных методов упрощённого моделирования белковых молекул с использованием графических процессоров. Такая комбинация позволяет моделировать большие белковые системы на экспериментальных временных интервалах без использования дорогих и сложных в обслуживании вычислительных кластеров.

Научная новизна. Данная тема является актуальной с точки зрения развития методологии комплексного исследования больших биомолекул на основе математического моделирования и вычислительных экспериментов. Представленная программная реализация для моделирования больших белковых систем на экспериментальных временных интервалах - единственная из известных на сегодняшний день. Результаты численных исследований, полученные для мономера, димера фибриногена и его фрагментов, позволили по-новому интерпретировать экспериментальные данные и лучше понять микромеханику данного белка. Моделирование капсида НК97 показало, что динамические характеристики данной белковой системы зависят от скорости и геометрии воздействия.

Практическая ценность. Математическая модель и её численная и программная реализации были организованы как программный пакет ЭОР-СРи, который распространяется в виде открытого кода, сопровождается детальным руководством пользователя и не требует навыков программирования для своего использования. Таким образом, он может быть полезен другим научным группам для

исследования интересующих их биомолекулярных систем.

Основные положения, выносимые на защиту:

1. Модификация математической модели самоорганизующегося полимера (SOP) и разработка численных методов для работы на графическом процессоре (ГП).

2. Реализация генераторов псевдослучайных чисел для использования в динамике Ланжевена на ГП.

3. Программный пакет SOP-GPU, размещённый в свободном доступе в сети интернет.

4. Сравнительный анализ экспериментальных данных АСМ и данных молекулярного моделирования силовой денатурации, полученных для мономера, димсра фибриногена и различных фрагментов этого белка.

5. Различные динамические режимы, полученные при моделировании силовой индентации капсида вируса НК97.

Апробация работы. Полученные результаты были представлены на 238-ой и 240-ой национальных встречах американского химического общества (Вашингтон, 2009 и Бостон, 2010), на 12-ом и 13-ом конгрессах международного общества тромбоза и гемостаза (Бостон, 2009 и Киото, 2011), на научно-практической конференции "Вычисления с использованием графических процессоров в молекулярной биологии и биоинформатике" (Москва, 2010), на 53-ей научной конференции МФТИ (Долгопрудный, 2010), на конференция "Опыт и результаты исследований, проводимых под руководством

приглашенных ученых-соотечественников" (Москва, 2011), на 18-ой конференции "Математика. Компьютер. Образование." (Дубна, 2011) и на 17-ой конференции по структуре и динамике биомолекул (Олбани, 2011).

Публикации. Материалы исследований опубликованы в 16-ти работах [1-16], в том числе семи [1-7] - в изданиях, рекомендованых ВАК РФ. Работы [3, 4] - в изданиях по специальности 05.13.18.

Структура и объём работы. Работа состоит из введения, шести глав, заключения, списка использованных источников, включающего 225 наименований, и трёх приложений. Диссертация изложена на 124-ёх страницах.

Основное содержание работы

Во введении обоснована актуальность темы, поставлена цель исследований, дан обзор публикаций по теме диссертации, сформулированы положения, выносимые на защиту, показаны теоретическая ценность и практическая значимость представленных в работе материалов.

В первой главе даётся краткий обзор методов молекулярного моделирования. Дан обзор основ молекулярного моделирования в явном и неявном растворителе, объяснены предпосылки использования упрощённых моделей. Приведена потенциальная функция модели самоорганизующегося полимера (Self Orginized Polymer, SOP), используемой в данной работе. Данная модель была разработана для описания механических свойств белков и моделирует процесс

экспериментов на одиночных молекулах белка (таких как атомная силовая микроскопия и экспериментов при помощи оптических пинцетов). За центры взаимодействия в модели SOP берутся атомы Са, а потенциальная энергия состояния белка зависит от координат {г} = r'l, Г2, ■ ■ ■, г if этих атомов и задаётся выражением:

В уравнении 1, первое слагаемое описывает ковалентные связи в цепи при помощи конечно-растяжимого нелинейного эластичного потенциала (англ. Finitely Extensible Nonlinear Elastic, FENE) Vfene-Расстояние между соседними частицами i и j задаётся как Гц, а rfj - его равновесное значение (значение в нативном состоянии белка), До = 2А - индекс чувствительности к изменениям ковалент-ной связи. Второе слагаемое, описываемое потенциалом Леннарда-Джонса {V$bT), используется для описания нековалентных связей, стабилизирующих нативное состояние (нативных контактов). Значение параметра ей = 0,7—1,6 ккал/моль характеризует силу нековалентных связей. Все прочие пары атомов (не связанные ко-валентно и не формирующие нативный контакт) взаимодействуют согласно потенциалу благодаря которому становятся невоз-

можными самопересечения цепи. Параметры ег = 1.0 ккал/моль и

V = Vfene + Vnbt + Vnbp ~

covalent

(1)

а = 3.8А постоянны и характеризуют силу и радиус отталкивания.

Основным преимуществом модели SOP является то, что несмотря на простоту силового поля, она достаточно точно описывает механическую денатурацию белков. Кроме того, благодаря использованию динамики Ланжевена в задемпфированом пределе, вычислительные процедуры остаются стабильными даже при использовании большого шага по времени в 40пс. Данная модель была успешно использована для достаточно больших систем без применения аппаратного ускорения. Однако моделирование больших систем на экспериментальных временных интервалах с использованием центрального процессора невозможно даже с применением модели SOP. Поэтому, в данной работе модель была реализована на графических процессорах, что позволило обойти данный барьер.

Во второй главе приведен обзор публикаций по развитию графических процессоров (ГП) как альтернативных вычислительных устройств высокой производительности. Приведены примеры использования как современных ГП, так и устройств предыдущих поколений. Также во второй главе даётся обзор языка программирования CUDA, основ устройства аппаратной части и примеров его использования для научных вычислений. В последнем разделе второй главы приведены методы для оптимизации работы программы, реализованной на ГП. В биомолекулярном моделировании с использованием молекулярной динамики (МД) или динамики Ланжевена (ДЛ) взаимодействия между частицами описываются при помощи потенциальной функции (силового поля). Функциональная часть силово-

го поля одинакова для всех частиц в системе, а уравнения движения всех частиц могут быть численно проинтегрированы независимо друг от друга. Благодаря этому, численные алгоритмы молекулярной динамики и динамики Ланжевена могут быть успешно реализованы на ГП.

В третьей главе предлагаются численные методы и алгоритмы, использованные при реализации модели SOP на ГП. Показаны два раздельных подхода к параллелизации на ГП: "Распараллеливание по частицам" и "Распараллеливание по парам взаимодействующих частиц". Приведены процедуры создания списка Верле, численного решения уравнений движения. Далее полученная реализация была проверена на предмет аппаратных и программных ошибок. Для этого данные, полученные на графическом процессоре (ГП) были сравнены с данными, полученными на центральном процессоре (ЦП). Результаты вычислений сравнивались также с данными, полученными аналитически. Было показано, что даже при использовании одинарной точности результаты численного эксперимента хорошо соответствуют аналитическому решению. Была проверена целесообразность использования схемы интегрирования более высокого порядка и показано, что в данном случае первого порядка точности достаточно даже при использовании шага по времени в 20-40пс. В работе впервые реализован подход "много запусков на ГП". Данный подход позволяет полностью использовать вычислительные возможности ГП даже при моделировании сравнительно небольших систем. В дальнейшем этот подход может быть легко расширен для исполь-

зования в различных методах рассчета термодинамики системы.

Количество траекторий, s

100

SOP-GPU (текстурный кеш+быстрые функции) SOP-GPU (текстурный кеш) •-• SOP-GPU

(Я

10 10'

Размер системы. N

tot

Рис. 1: Относительная производительность, или отношение скорости вычислений па ГП к скорости вычислений на ЦП (ускорение), полученное для приложения SOP-GPU как функция размера системы Ntot или количества траекторий s. Также показаны графики ускорения при использовании кешироваиия текстур и аппаратного ускорения математических функций. Для наглядности, график показан с логарифмическим масштабом по оси х.

Итоговая производительность разработанного приложения для ГП (программа SOP-GPU) была сравнена с оптимизированной версией реализации того же приложения для ЦП. При этом оба приложения были использованы для описания динамики Ланжевена одной и той же молекулярной системы - домена WW в состоянии равновесия (Рис. 1). Для полного задействования ресурсов ГП пред-ставленна вычислительная производительность программы SOP-GPU как функция от числа независимых траекторий, обсчитываемых одновременно на одном ГП (подход "много-траекторий-на-одном-ГП"). Альтернативный этому вариант заключался в расчете одной траек-

тории на одном ГП, но для систем разного размера (подход "одпа,-траектория-на-одном-ГП"). Результаты показывают, что для небольшой системы из 34 аминокислотных остатков (домен WW), использование одного ГП позволяет ускорить вычисления при получении трёх и более независимых траекторий, так как небольшие системы не могут полностью загрузить все параллельные вычислительные ресурсы ГП. Эквивалентную загрузку одного ГП обеспечивает запуск обсчёта одной траектории для системы из ~ 102 частиц. В то время, как время моделирования на ЦП линейно возрастает с увеличением количества запускаемых потоков, нагрузка на ГП в таком режиме остаётся сублинейной (примерно постоянной) вплоть до ~ 500 траекторий. Далее, ГП демонстрирует значительное превосходство в производительности над ЦП, достигая максимального ускорения в 80 —90 раз (Рис. 1). Для сравнения производительности были использованы ГП и ЦП одинакового технологического уровня (ГП NVIDIA GeForce GTX 295 и ЦП Quad Core Xeon 2,66 ГГц).

В четвёртой главе приведено описание реализации генераторов псевдослучайных чисел (ГСЧ) на ГП. В силу того, что ГП не так давно стали широко использоваться в научных вычислениях, многие базовые вычислительные методы пока не реализованы и не оптимизированы для работы на этих устройствах. В этой главе рассматривается четыре различных генератора случайных чисел: линейный конгруэнтный генератор LCG, гибридный генератор "гибридный Та-ус", генератор Ran2 и Фибоначчи с запаздыванием. В первой части главы даётся описание математических основ трёх методов. Далее

показано, как эти методы могут быть эффективно адаптированы для работы на ГП.

Для разработки параллельных реализаций ГСЧ на ГП был использован метод разделения цикла генератора. Основная идея метода заключается в распределении одной последовательности ГСЧ, которая может быть рассмотрена как периодический цикл случайных чисел, между множеством потоков, каждый из которых производит подпоследовательность случайных чисел. Большинство ГСЧ, включая LCG, Ran2 и гибридный Таус, основаны на последовательном преобразовании текущего состояния, поэтому наиболее естественным способом получения разных последовательностей случайных чисел в разных потоках является сообщение потокам различных начальных значений состояния. При этом начальные состояния распределяются между потоками таким образом, чтобы исключить межпоточные корреляции случайных чисел. На этом основан подход "один-ГСЧ-на-поток". Существуют ГСЧ, такие как вихрь Менсенна н алгоритм Фибоначчи, в которых можно перескочить вперёд по последовательности и вычислить случайное число (п+1), не вычисляя перед этим n-ное. Длина запаздывания, которая зависит от параметров ГСЧ, может быть выбрана больше числа потоков (которое в случае молекулярной динамики или динамики Ланжевена равно числу частиц). Тогда все N чисел могут быть получены одновременно, то есть, j-тый поток вычисляет j-тое, (j + iV)-Toe, (j + 2ЛГ)-тое и так далее числа. В этом случае, только одно состояние ГСЧ используется для всех потоков, каждый из которых обновляет только один

элемент этого состояния. Такой подход можно назвать "один-ГСЧ-на-все-потоки". Реализации ГСЧ затем были проверены па предмет возникновения корреляций, также была проверена их производительность и требования к памяти.

В пятой главе описаны результаты численного моделирования силовой денатурации мономера, димера фибриногена и его фрагментов. Полученные результаты позволили по-новому интерпретировать доступные экспериментальные данные. Для исследования механизмов денатурации и для получения энергетических характеристик были использованы следующие системы: изолированный 7-модуль, 7-модуль с 25-ю примыкающими аминокислотами /3-модуля, комплекс 7 и ^-модулей (глобулярная часть домена £>), фрагмент "двойной Д-домен", мономер и димер фибриногена. Для каждой системы были получены от 6 до 10 траекторий.

Экспериментальные и теоретические графики зависимости силы от растяжения для мономера, димера и олигомеров фибриногена обладали очень похожими характеристиками (Рис. 2 и 3). Статистический анализ, усреднённый по пяти траекториям моделирования, длиной 0,2 секунды каждая, показал, что среднее значение расстояния между максимумами х « 29нм для мономера фибриногена и х « 27нм для димера, что хорошо соответствует значениям, полученным экспериментально. Среднее значение сил денатурации оказались равными, соответственно, / « 134 и / ~ 112пН для мономера и димера фибриногена. Эти значения несколько превосходят экспериментальные данные, что может быть следствием слишком

показано, как эти методы могут быть эффективно адаптированы для работы на ГП.

Для разработки параллельных реализаций ГСЧ на ГП был использован метод разделения цикла генератора. Основная идея метода заключается в распределении одной последовательности ГСЧ, которая может быть рассмотрена как периодический цикл случайных чисел, между множеством потоков, каждый из которых производит подпоследовательность случайных чисел. Большинство ГСЧ, включая ЬСС, И,ап2 и гибридный Таус, основаны на последовательном преобразовании текущего состояния, поэтому наиболее естественным способом получения разных последовательностей случайных чисел в разных потоках является сообщение потокам различных начальных значений состояния. При этом начальные состояния распределяются между потоками таким образом, чтобы исключить межпоточные корреляции случайных чисел. На этом основан подход "один-ГСЧ-на-поток". Существуют ГСЧ. такие как вихрь Менсенна н алгоритм Фибоначчи, в которых можно перескочить вперёд по последовательности и вычислить случайное число (п+1), не вычисляя перед этим п-ное. Длина запаздывания, которая зависит от параметров ГСЧ, может быть выбрана больше числа потоков (которое в случае молекулярной динамики или динамики Ланжевена равно числу частиц), Тогда все N чисел могут быть получены одновременно, то есть, ^'-тый поток вычисляет ^'-тое, (^' + Аг)-тое, (,?'+ 2 ]У)-тое и так далее числа. В этом случае, только одно состояние ГСЧ используется для всех потоков, каждый из которых обновляет только один

элемент этого состояния. Такой подход можно назвать "один-ГСЧ-на-все-потоки". Реализации ГСЧ затем были проверены на предмет возникновения корреляций, также была проверена их производительность и требования к памяти.

В пятой главе описаны результаты численного моделирования силовой денатурации мономера, димера фибриногена и его фрагментов. Полученные результаты позволили по-новому интерпретировать доступные экспериментальные данные. Для исследования механизмов денатурации и для получения энергетических характеристик были использованы следующие системы: изолированный 7-модуль, 7-модуль с 25-ю примыкающими аминокислотами /9-модуля, комплекс 7 и /3-модулей (глобулярная часть домена I)), фрагмент "двойной -О-домен", мономер и димер фибриногена. Для каждой системы были получены от 6 до 10 траекторий.

Экспериментальные и теоретические графики зависимости силы от растяжения для мономера, димера и олигомеров фибриногена обладали очень похожими характеристиками (Рис. 2 и 3). Статистический анализ, усреднённый по пяти траекториям моделирования, длиной 0, 2 секунды каждая, показал, что среднее значение расстояния между максимумами х « 29нм для мономера фибриногена и х и 27нм для димера, что хорошо соответствует значениям, полученным экспериментально. Среднее значение сил денатурации оказались равными, соответственно, / « 134 и / 112пН для мономера и димера фибриногена. Эти значения несколько превосходят экспериментальные данные, что может быть следствием слишком

100 150 200 250 300 0 50 100 150 200 Растяжение, нм Сила, пН

Рис. 2: Экспериментальные результаты денатурация фибриногена при помощи АСМ. Графики зависимости силы от растяжения были получены при помощи скорости движения зонда в Vf = 1, Омкм/сек для мономера фибриногена (панель (а)) и его олигомеров (панель (б)). Гистограммы распределения расстояний между пиками и сил денатурации показаны на панелях (в) и (г) соответственно. На панели (в) также показана суперпозиция трёх нормальных распределений (сплошная линия) расстояний между максимумами сил, полученных из результатов моделирования для переходов типа 1-3 (пунктирные линии), которые изображены на Рис. 3).

сильной стабилизации структуры белка в модели SOP. Главной целью моделирования было получение значений для расстояний между максимумами, значения которых хорошо соответствуют экспериментальным данным.

Основным результатом является то, что механизм денатурации фибрин(оген)а зависит от нескольких структурных элементов этой

О 50 100 150 200 1 2 3

Растяжение, нм Переход

Рис. 3: Кривые зависимости силы от растяжения для мономеров (панель (а)) и димеров (панель (б)) фибриногена, полученные при помощи молекулярного моделирования с применением скорости зонда в V/ = 1,0мкм/с. Точки на панелях (в) и (г) показывают расстояния между максимумами и силы денатурации, соответственно, сгруппированные для переходов типа 1-3. Максимы силы, соответствующие этим переходам, пронумерованы на графиках (панели (а) и (б).

комплексной молекулы. Главным образом, процесс ответа фибриногена на механическое воздействие состоит из обратимого процесса растяжения/сжатия свёрнутых а-спиралей и последовательной денатурации глобулярных элементов 7-модуля. В каждом 7-модуле, первым событием денатурации является отделение С-терминального /3-луча (аминокислоты 7З8О — 392). Сразу вслед за этим, денатурирует центральная часть 7-модуля (аминокислоты 7234 — 311), который при этом разделяется на два глобулярных фрагмента - С-терминальный (аминокислоты 7ЗП — 380) и А-терминальный (ами-

(Рис. 4а). При Vf = 2,5мкм/с и R = Юнм индентация капсида монотонна (быстрого проминания не происходит). А при V/ = 2,5мкм/с и R = 5нм капсид разрывается, когда Z та 55нм, а внешняя сила F « 1нН (Рис. 4а). Разрыв происходит в непосредственной близости к зонду, посредством частичной денатурации формирующего капсид белка. Это также заметно на графике зависимости количества нативных контактов Q от смещения Z, на котором видно резкое падение (Рис. 4).

В заключении приведены основные результаты работы. В приложениях 1 и 2 приведены псевдокоды реализации ГСЧ "гибридный Таус", Ran2 и Фибоначчи с запаздыванием на ГП.

В приложении 3 показаны графики силовой денатурации, полученные группой Вайзела при проведении экспериментов АСМ по силовой денатурации мономеров и олигомеров фибриногена, которые сравнивались с полученными в диссертации результатами.

Основные результаты диссертации

1. Модификация математической модели самоорганизующегося полимера (SOP) для выполнения на графических процессорах (ГП). Разработка вычислительных процедур для расчёта межчастичных сил, создания списков Верле, интегрирования уравнений движения. Разработка метода компьютерного моделирования одновременно на одном ГП большого числа траекторий движения молекул, который позволил эффективно использовать вычислительные возможности ГП и получить статистически важную

выборку результатов за короткое время.

2. Разработка численных процедур для реализации генераторов псевдослучайных чисел на ГП. Полученные реализации применимы для динамики Ланжевена и других научных приложений с жёсткими требованиями к периоду последовательности случайных чисел, их качеству и к производительности программы.

3. Создание программной реализации модели самоорганизующегося полимера на ГП (пакет SOP-GPU) и её размещение в открытом доступе в сети интернет. Использования SOP-GPU даёт прирост производительности в ~90 раз на ГП GeForce GTX 295.

4. Проведение вычислительных экспериментов для комплексного исследования силовой денатурации мономера и димера фибриногена и отдельных фрагментов этой молекулы. Результаты моделирования хорошо согласуются с результатам экспериментов атомной силовой микроскопии (АСМ). Сравнительный анализ экспериментальных данных и данных компьютерного молекулярного моделирования позволил объяснить микромолекулярный механизм денатурации фибриногена.

5. Созданная система компьютерного и иммитационного моделирования была применена для проведения численных экспериментов по силовой индентации капсида вируса НК97. Моделирование показало наличие различных динамических режимов механического ответа оболочки вируса на внешнее воздействие - режима быстрого проминания, упругой индентации и механического разрыва.

Список публикаций по теме диссертации

1. SOP-GPU: Accelerating biomolecular simulations in the centisecond timescale using graphics processors / A. Zhmurov, R. I. Dima, Y. Kholodov, V. Barsegov // Proteins. 2010. Vol. 78, no. 14. P. 2984-2999.

2. Generation of random numbers on graphics processors: Forced indentation in silico of the bacteriophage HK97 / A. Zhmurov, K. Rybnikov, Y. Kholodov, V. Barsegov //J. Phys. Chem. В.— 2011.-Vol. 115, no. 18.-P. 5278-5288.

3. Моделирование микромеханики биомолекул на графических процессорах с использованием динамики Ланжевена / А. А. Жмуров, В. А. Барсегов, С. В. Трифонов и др. // Мат. Модел. - 2011. - Т. 23, № 10. - С. 133-156.

4. Эффективные генераторы псевдослучайных чисел для молекулярного моделирования на графических процессорах / А. А. Жмуров, И. Морозов, Я. А. Холодов и др. // Компъют. Исслед. и Модел. - 2011. - Т. 3, № 3. - С. 296-311.

5. Exploring the mechanical stability of the C2 domains in human synaptotagmin 1 / L. Duan, A. Zhmurov, V. Barsegov, R. Dima // J. Phys. Chem. B. - 2011,- Vol. 115, no. 33.-P. 10133-10146.

6. Bura E., Zhmurov A., Barsegov V. Nonparametric density estimation and optimal bandwidth selection for protein unfolding and unbinding data // J. Chem. Phys. — 2009. — Vol. 130, no. 1. — P. 015102.

7. Zhmurov A., Dima R. I., Barsegov V. Order statistics theory of unfolding of multimeric proteins // Biophys J. — 2010. — Vol. 99, no. 6. - P. 1959-1968.

8. Molecular simulations of forced unfolding of fibrin monomers / V. Barsegov, A. Zhmurov, J. W. Weisel et al. // JTH. 2009. Vol. 7, no. Suppl. 2. P. 1005 1006.

9. Barsegov V., Dima R., Zhmurov A. Molecular simulations of large-size protein assemblies on graphics processors // Abstracts of Papers of the American Chemical Society, 238.- ACS 09,- Washington, DC, USA: ACS, 2009.-

http://oasys2.confex.com/acs/238nm/techprograrn/P1294978.HTM.

10. Resolving fibrinogen nanomeehanics using dynamic force measurements in vitro and in silico / A. Zhmurov, A. Brown, R. I. Litvinov et al. // J. Biomol. Struct. Dyn. 2011. Vol. 28, no. 6. P. 975 97G.

11. Phase transition from a-helices to /З-sheets in fibrinogen coiled coils / A. Zhmurov, A. Brown, R. I. Litvinov et al. //J. Biomol. Struct. Dyn. - 2011. - Vol. 28, no. 6. - P. 976-977.

12. Origins of the mechanical stability of the C2 domains in human synaptotagmm 1 / L. Duan, A. Zhmurov, V. Barsegov, R. I. Dima // J. Biomol. Struct. Dyn. - 2011. - Vol. 28, no. 6. - P. 997-998.

13. Fibrin nanomechanics: structural underpinnings and unfolding mechanism underlying forced elongation of fibrin(ogen) monomers and polymers / A. Zhmurov, A. E. Brown, R. I. Litvinov et al. // JTH. - 2011. - Vol. 9, no. Suppl. 2. - P. 831.

14. Модульная программная платформа для многоуровневого моделирования биомолекулярных систем / А. Жму-ров, А. Алексеенко, В. Барсегов и др. // Математика-Компьютер. Образование.— МСЕ 11.— Пущино: 2011,— http://www.mce.su/rus/archive/mcel8/sectl01359/docl00272/.

15. Разработка гибридной высокопроизводительной вычислительной платформы для прикладного компьютерного моделирования задач взаимодействия макромолекул / А. Жмуров, И. Коваленко, В. Барсегов и др. // Вычисления с использованием графических процессоров в молекулярной биологии и биоинформатике. - Москва: 2010. - С. 47-48.

16. Программно-аппаратная платформа для высокопроизводительных вычислений разномасштабных задач молекулярной динамики / С. Трифонов, А. Жмуров, В. Барсегов и др. //' Труды 53-й научной конференции МФТИ. — Долгопрудный: 2010. — С. 3132.

Личный вклад соискателя в работах с соавторами заключается

в разработке модификации математической молекулярной модели,

разработке и реализации численных алгоритмов, проведении численных экспериментов и анализе результатов.

Жмуров Артём Андреевич

Моделирование больших биомолекул биомолекулярных систем с использованием графического процессора

Автореферат

Подписано в печать: 15.09.11 Печать трафаретная Усл.п.л. - 1,5 Заказ № 123 Тираж: 100 экз. Типография «11-й ФОРМАТ» ИНН 7726330900

115230, Москва, Варшавское ш., 36 (499) 788-78-56 irww.autoreferat.ru

Оглавление автор диссертации — кандидата физико-математических наук Жмуров, Артём Андреевич

Введение

1 Молекулярное моделирование

1.1 Моделирование в полноатомном разрешении.

1.2 "Упрощённые модели биомолекул.

1.3 Модель самоорганизующегося полимера (SOP).

2 Графические процессоры (ГП)

2.1 Вычисления общего характера при помощи графических процессоров

2.2 Программная модель CUD А.

2.3 Подходы к оптимизации

3 Моделирование по принципам динамики Ланжевена на ГП

3.1 Реализация расчёта сил.

3.1.1 Распараллеливание по частицам.

3.1.2 Распараллеливание по парам взаимодействующих частиц

3.2 Интегрирование уравнений движения.

3.3 Подход "много запусков на ГП".

3.4 Тестирование программы.

3.4.1 Точность численного интегрирования.

3.4.2 Измерение производительности.

4 Генераторы случайных чисел

4.1 Генераторы псевдослучайных чисел.

4.1.1 Обзор.

4.1.2 Линейный конгруэнтный генератор (LCG).

4.1.3 Алгоритм Ran2.

4.1.4 Алгоритм гибридный Таус.

4.1.5 Алгоритм Фибоначчи с запаздыванием.

4.2 Реализация LCG, Ran2, гибридного Тауса и алгоритма Фибоначчи с запаздыванием на ГП.

4.2.1 Основные идеи.

4.2.2 Подход "один-ГСЧ-на-поток".

4.2.3 Подход "один-ГСЧ-на-все-потоки".

4.3 Тест на случайность: процесс Орнстейна - Уленбека.

5 Силовая денатурация белка фибриноген и его фрагментов

5.1 Результаты экспериментов Атомной Силовой Микроскопии (АСМ)

5.2 Молекулярное моделирование.

5.2.1 Структурные модели.

5.2.2 Параметризация модели SOP

5.2.3 Результаты молекулярного моделирования.

5.3 Выводы.

6 Силовая индентация капсиды вируса НК

6.1 Молекулярное моделирование.

6.2 Результаты моделирования.

6.3 Выводы.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Жмуров, Артём Андреевич

Белковые волокна, например, фибронектин, волокна фибрина, микротрубочки и актиновые филаменты, выполняют важные механические функции при формировании цитоскелета и поддержании работоспособности клетки [1-3], в процессе слияния клеток и формировании внеклеточной матрицы [4-7], а также при свертывании крови [8-10]. Физические свойства капсул растительных и животных вирусов [11—13], ретровирусов [14] и бактериофагов [15, 16], а также переходы между их стабильным и нестабильным состояниями определяют жизненный цикл многих вирусов, в том числе созревание вируса и заражение клеток [17]. Изучение происхождения уникальных упругоэластичных свойств белковых волокон и механизмов перехода от эластичного к пластичному состоянию в капсулах, а также возможность контролировать их динамическое поведение в ответ на механическое воздействие являются важными сферами исследования в биофизике. Современные технологии, предназначенные для изучения одиночных молекул, такие как атомно-силовая микроскопия и оптические пинцеты, широко используются для экспериментального изучения механических свойств белковых волокон [18-21] и капсул вирусов [15, 16, 22, 23]. Однако ввиду сложности строения этих систем 103 — 105 частиц) и их больших размеров

50 — 200 нм), результаты подобных экспериментов почти невозможно интерпретировать без предварительных знаний о ландшафте свободной энергии [9].

Стандартные вычислительные пакеты Молекулярной Динамики (МД) в полноатомном разрешении, такие как CHARMM [24, 25], NAMD [26-28], и Gromacs [29— 31], широко используются для изучения поведения биомолекул на субмолекулярном уровне. Так как полно-атомное моделирование в настоящее время ограничено размером молекулы в 10-50 нм и длительностью процесса моделирования в 0,1 — 10 мс [32, 33], данный подход хорошо подходит только для моделирования равновесных процессов, а достижение биологически важного временного интервала от микросекунды до секунды практически невозможно даже для малых систем. Что ещё более важно, для подробного изучения ландшафта свободной энергии, лежащего в основе изучаемого биологического процесса, требуется статистически значимое количество траекторий. Одно из возможных решений такой задачи - проведение МД моде л ирования на компьютерных кластерах - требует огромных вычислительных ресурсов и длительного времени выполнения программы. К примеру, для расчёта 20 коротких (1 не) траекторий для южного вируса мозаики бобовых (southern bean mosaic virus), состоящего из более чем 4,5 х 106 атомов, потребовалось 800 ООО процессоро-часов работы кластера SGI Altix 4700 [34]. Это ограничивает возможность применение вычислительного эксперимента для изучения широкого спектра биологических проблем, таких как деформация волокон белков, формирование биомолекулярных комплексов и агрегатов, механическое повреждение капсул вирусов, для которых экспериментальные данные уже получены, а прямое сопоставление результатов экспериментов и вычислительных расчётов невозможно.

Основные подходы, позволяющие напрямую сопоставить экспериментальные данные с результатами численного моделирования биомолекул включают (1) использование неявного растворителя, (2) упрощение математической модели и (3) использование высокопроизводительных вычислительных систем. Методы моделирования на основе неявного растворителя предполагают, что наличие естественной среды (воды) можно описать при помощи специальной эмпирической функции [35, 36]. Эта функция описывает свободную энергию взаимодействия белка с внешней средой, а механическое влияние столкновений молекул воды с биомолекулой описывается при помощи уравнений Ланжевена. В основе упрощённого моделирования лежит предположение, что не все степени свободы биомолекулы одинаково важны. Упрощение производится путём сокращения моделируемых степеней свободы, и за структурную единицу системы берётся не атомы системы, а их группа (например, одна амино-кислота). Такой метод не только позволяет существенно сократить количество производимых вычислений, но и перейти к большему шагу по времени без потери численной стабильности системы. В число высокопроизводительных систем входят вычислительные кластеры, облачные вычисления, а также узкоспециализированные вычислительные устройства и графические процессоры. Вычислительные кластеры уже давно применяются для биомолекулярного моделирования, однако, их покупка и обслуживание зачастую недоступны для средней научно-исследовательской группы. Облачные вычисления требуют разработки и поддержки сложной инфраструктуры для проведения рассчётов и сбора данных [37, 38]. Разработка узкоспециализированных аппаратных средств невозможна без привлечения высококвалифицированных инженеров [39-41]. Графические Процессоры (ГП), которые изначально были спроектированы для ускорения работы с трёхмерной графикой, способны выполнять многие вычислительные задачи, в том числе и те, которые не связанны с обработкой изображения [42-44]. Недавние технологические достижения на аппаратном уровне, поддержка стандарта IEEE для вещественной арифметики позволяет использовать огромные вычислительные возможности ГП в научных приложениях. В отличие от процессоров с привычной архитектурой, большинство логических элементов ГП отведено на выполнение вычислений, а не на кеш-память и управление логикой. Массивная многопоточность, минимальный контекст потоков и высокая пропускная способность памяти делают ГП эффективным массивно-параллельным вычислительным устройством. Программные платформы для современных ГП включают NVIDIA Compute Unified Device Architecture (CUDA) [45, 46] и Open Computing Language (OpenCL) [47]. CUDA, программная среда для параллельных вычислений, является высокоуровневой программной платформой, расширяющей стандартные языки С и С++. Это позволяет разработчику реализовывать процедуры (ядра), которые могут выполняться одновременно во множестве независимых потоков на ГП. Ещё одним преимуществом ГП является их доступность: цена даже самых современных устройств не превышает 500 — 2000 долларов США, а обычный персональный компьютер, оборудованный двумя-четырьмя такими устройствами, способен достигать производительности компьютерного кластера с 200 — 500 вычислительными ядрами.

Из-за фундаментальных различий архитектуры Графических Процессоров (ГП) и Центральных Процессоров (ЦП), методы молекулярного моделирования, разработанные для выполнения на ЦП, не могут быть просто перенесены или адаптированы для работы на ГП. Тем не менее, в молекулярной динамике парные взаимодействия обычно описываются одной и той же эмпирической функцией потенциальной энергии для всех пар взаимодействующих частиц (силовое поле), а динамика системы определяется из численного решения одного и того же уравнения движения для всех частиц. Таким образом, существует прямое соответствие между ОКМД (Одиночный поток Команд, Множественный поток Данных; англ. Single Instruction, Multiple Data, SIMD) архитектурой ГП на аппаратном уровне и вычислительными процедурами молекулярной динамики на программном уровне. Можно выполнить одну и ту же процедуру (вычисление потенциальной энергии или сил, генерация случайных чисел и численное интегрирование уравнений движения) одновременно для различных наборов данных (для всех частиц) за счёт использования множества арифметических логических устройств, работающих параллельно, повторяя вычисления на протяжении множества шагов по времени. Поэтому, молекулярные расчеты - естественный кандидат для реализации на ГП, но, для эффективного выполнения алгоритма на ГП, он должен быть преобразован для запуска множества независимых потоков, выполняющих одинаковый программный код на различных наборах данных одновременно. Действительно, на данный момент, существуют предварительные версии стандартных пакетов для моделирования МД белков, реализованные на ГП, такие как NAMD [48-51], Gromacs [52], и др. [53-56].

В данной работе представлена комбинация двух методов ускорения биомолекулярных рассчётов: упрощения вычислительной модели и использования графических процессоров в качестве вычислительной платформы. Так как молекулярные преобразования в белках, подверженных внешнему механическому воздействию, определяются главным образом топологией и общей структурой системы, для описания белков была использована упрощённая [57—59] Модель Самоорганизующегося Полимера (англ. Self Organized Polymer, SOP) [60, 61]. В методологической части работы описаны численные методы, использованные для расчёта потенциалов взаимодействия модели SOP, динамики Ланжевена и генерации случайных чисел полностью реализованные на ГП. Методы были тщательно исследованы на наличие вычислительных и аппаратных ошибок, проверена возможность использования чисел с плавающей точкой одинарной точности, проведено тестирование на случайность для генераторов псевдо-случайных чисел. Далее разработанная методология применена для моделирования силовой денатурации фибриногена и его фрагментов, а также капсулы вируса H К 97. Результаты были сравнены с доступными экспериментальными данными и не только позволили их по-новому интерпретировать, но также предоставили объяснение происходящих процессов на субмолекулярном уровне.

Целью данной работы является разработка программной реализации численных методов упрощённого моделирования белковых молекул с использованием графических процессоров. Такая комбинация позволяет моделировать большие белковые системы на экспериментальных временных интервалах без использования дорогих в покупке и обслуживании вычислительных кластеров. Так как основной целью являлось моделирование экспериментов на единичной молекуле, таких как Атомная Силовая Микроскопия, для реализации была выбрана модель SOP. Эта модель обладает простой потенциальной функцией, а её реализация на ЦП уже позволяла моделировать небольшие системы 50-300 амино-кислот) на экспериментальных временных интервалах. Таким образом, использование модели SOP полностью реа-лизованноё на ГП дало возможность наблюдать микромолекулярную динамику белковых систем размером до 106 аминокислот.

Предметом исследований являются мономер и димер фибриногена, его фрагменты, а также капсид вируса НК97. Экспериментальные данные, полученные при помощи Атомной Силовой Микроскопии, показали, что молекулы фибриногена обладают сложными механическими свойствами. Однако, полученные данные не позволили точно определить источник динамических характеристик этой молекулы. Именно поэтому, стало необходимым произвести молекулярное моделирование силовой денатурации фибриногена. Однако, ни один из существующих вычислительных методов не позволял произвести молекулярное моделирование в условиях воздействия на молекулу, идентичных экспериментальным. Поэтому было решено адаптировать вычислительные методы для эффективной работы на ГП. Полученная реализация также была применена для объяснения динамических характеристик капсида вируса НК97.

Таким образом, данная тема является актуальной с точки зрения развития методологии молекулярного моделирования, поскольку представленная программная реализация является единственной существующей, позволяющей моделировать большие белковые системы на экспериментальных временных интервалах. Результаты численных исследований, полученные для мономера, димера фибриногена и его фрагментов, позволили по-новому интерпретировать экспериментальные данные и лучше понять микромеханику данного белка. Моделирование капсида НК97 показало, что динамические характеристики данной белковой системы зависят от скорости и геометрии воздействия. Полученная программная реализация была организована как программный пакет БОР-СРи, который распространяется в виде открытого кода, сопровождается детальным руководством пользователя и не требует навыков программирования для своего использования. Таким образом, он может быть использован другими научными группами для исследования интересующих их биомолекулярных систем.

Заключение диссертация на тему "Моделирование больших биомолекул и биомолекулярных систем с использованием графического процессора"

6.3 Выводы

Реализация упрощённой модели SOP на ГП позволила-детально изучить микромеханику капсида вируса НК97. В процессе моделирования был использован как протокол, достаточно близкий к АСМ- экспериментам, так и тот, в котором внешнее воздействие прилагалось быстрее. Полученные результаты показали, что ответ вируса на внешнее воздействие сильно зависит и от скорости движения зонда ^ и от геометрии внешнего воздействия (радиуса зонда R).

В процессе моделирования-наблюдался спектр всевозможных реакций капсида на внешнее воздействие - от быстрого вминания и равномерного продавливания при малых силах до механического разрыва при больших. Теоретически полученные динамические параметры могут характеризовать физические свойства, общие для целого ряда оболочек вирусов. Было обнаружено, что динамический ответ вируса на внешнее механическое воздействие является стохастической динамической характеристикой, которая также зависит от внешнего воздействия. Полученное при близкой к эксперименту скорости движения зонда v ~ 2,5мкм/с значение коэффициента упругости К ~ 0.01 — 0.02Н/м оболочки вируса НК97 хорошо согласуется с экспериментальными значениями для пустых оболочек вирусов [222]. Коэффициент упругости К является локальной характеристикой, так как он зависит от размера зонда. Большие зонды воздействуют на большее количество структурных единиц оболочки вируса, которые взаимодействуют между собой, сопротивляясь приложеной силе. Поэтому использование больших зондов, размеры которых сопоставимы с размерами капсида, позволяет получать усреднённые характеристики. В дополнение, при малых размерах зонда, важно знать точку его соприкосновения с капсидом. Исследование этого вопроса осталось за рамками данной работы.

Было обнаружено, что потеря сопротивления на внешнее воздействие со стороны капсида (К) может быть обусловлена как проминанием последнего, так и его механическим разрывом. В случае проминания капсид довольно быстро восстанавливает свои упругие свойства, что характеризуется значительным возрастанием К. Быстрое падение значения коэффициента упругости К скорее всего является показателем разрыва капсида, когда нативные контакты частично разрываются, а небольшие части оболочки 3 — 5нм) капсида денатурируют. Это обратимый процесс, так как часть нативных контактов восстанавливается почти сразу после прохождения зондом его оболочки (Рис. 22). Это хорошо согласуется с экспериментальными результатами, полученными на других капсидах [15, 222]. Также нами было обнаружен ожидаемый переход от упругого поведения при небольших силах внешнего воздействия к вязкому режиму при больших силах [34], что также отражается в уменьшении К с увеличением силы. Этот эффект не так хорошо заметен, что может быть объяснено присутствием дополнительных ковалентных связей, стабилизирующих оболочку [224]. Эта структурная особенность капсида НК97 усиливает её упругие свойства. Даже сильное падение количества нативных контактов (<3) при механическом разрыве капсида обуславливается в основном разрывами контактов внутри белковых структурных единиц, а не между ними.

Было показано, что модуль Юнга У зависит от скорости движения зонда и от его размеров (Таблица 7). При скорости, максимально близкой к экспериментальной (г; = 2,5мкм/с), модуль Юнга для капсида НК97 равен У — 60 — 160МПа, что хорошо соотносится с экспериментальным значением, полученным для пустого капсида ССМУ, где У = 140МПа [222], но несколько больше значения, полученного для капсида 029, где У = 1,8ГПа [15]. Пустая оболочка вируса НК97 способна выдерживать давление в 60 — 140МПа, что хорошо согласуется со значением давления упакованного ДНК на стенки капсида 029. Эти результаты показывают, что численное моделирование индентации под действием силы может быть использовано для того, чтобы предсказать пределы упругости капсид вирусов, а также чтобы оценить максимальное внутреннее давление, которое они способны выдерживать.

Заключение

Механические свойства больших белков, белковых комплексов и образований представляет большой интерес в современной биофизике. Размер и составная структура этих биомолекулярных систем усложняют интерпретацию доступных результатов экспериментальных исследований, таких как эксперименты на единичных молекулах с применением Атомной Силовой Микроскопии (АСМ) и оптических пинцетов. Методы молекулярного моделирования, совместно с экспериментальными методами способны предоставить детальную картину происходящих микромолекулярных процессов. В силу ограничений АСМ оборудования, экспериментальные результаты легче получать для больших систем, а скорость применяемого механического воздействия ограничена сверху и колеблется в районе 0,1-10, Омкм/с. В молекулярном моделировании, наоборот, размер системы негативно влияет на производительность программы, а скорость движения зонда ограничена снизу. В полноатомном разрешении, где шаг интегрирования по времени составляет 1 — 2фс, получение результатов на экспериментальном или биологическом временном интервале невозможно даже с применением новейшего вычислительного оборудования. Упрощённые модели используют шаг интегрирования в 1-100пс, поэтому на данный момент это единственный способ получить результаты молекулярного-моделирования в условиях, ин-дентичных экспериментальным. Но для больших белковых систем, таких как нити фибрина и капсиды вируса, даже упрощённые модели требуют серьёзных вычислительных затрат.

Графические процессоры, которые изначально были спроектированы для ускорения работы с трёхмерной графикой, обладают беспрецендентными вычислительными возможностями. Пиковая вычислительная производительность современных ГП пре

I • восходит ЦП аналогичного уровня технологий на два порядка. С появлением высокоуровневых языков программирования на ГП, таких как CUDA и OpenCL, разработка программного обеспечения, полностью адаптированого под работу на ГП, больше не требует детального знания графического интерфейса разработки приложений. Но, в силу новизны данных устройств в качества вычислительной платформы, необходима адаптация программного обеспечения для работы на ГП.

В данной работе представлена реализация упрощённой модели БОР, полностью работающая на ГП (БОР-СРи). Рассмотрена реализация расчёта сил межчастичного взаимодействия, составления списков Верле, интегрирования уравнений движения. Детально описаны способы генерации случайных чисел, необходимых для численного решения уравнений Ланжевена. Также описан подход "много запусков на ГП", позволяющий получать статистически важную выборку результатов за короткое время. Программная реализация была тщательно проверена на предмет ошибок, как аппаратных, так и программных. Была отсеяна возможность возникновения корреляций в силу огромного количества случайных чисел требуемых для таких высокопроизводительных вычислений. Скорость работы реализации была сравнена с работой аналогичной программы на ЦП, а результирующее ускорение расчётов достигало 200раз для систем большого размера. Приведена также и скорость вычислений для систем разного размера - от домена IVIV (34 аминокислоты) до капсулы вируса НК97 (115140 амино-кислот).

Полученная реализация была использована для моделирования механических свойств фибриногена и капсида вируса НК97. Результаты моделирования на мономере и димере фибриногена позволили по-новому интерпретировать результаты АСМ-экспериментов. Было показано, что типичная "пилообразная" форма графика зависимости силы от растяжения, полученная в экспериментах по механической денатурации мономеров и олигомеров фибриногена, возникает из-за последовательной денатурации 7-модулей белка. При этом, каждый 7-модуль денатурирует в три этапа, а растяжение и сжатие свёрнутых »-спиралей упруго, без существенных падений силы. Численные исследования различных фрагментов фибриногена показали важность белок-белковых взаимодействий между различными доменами молекуля. В частности, была охарактеризована важность дополнительной стабилизации 7-модуля его нековалентными взаимодействиями с /3-модулем.

Численные исследования капсида вируса НК97 показали все три возможных сценария механической индентации - быстрый прогиб, упругий режим и механический разрыв оболочки. Оказалось, что вероятность возникновения того или иного режима зависит от скорости внешнего воздействия (скорости движения зонда) и геометрии радиуса) зонда. Использование большого зонда (Я = 25нм) приводило к быстрому прогибу или упругой реакции капсида, маленький зонд (Я = 5нм) прорывал оболочку капсида. Увеличение скорости движения зонда также приводило к большей вероятности механического разрушения оболочки вируса. В целом, полученные численные оценки оказались схожими к оценкам, полученным на других капсидах экспериментально.

Реализация программы БОР-СРи оформлена в виде готового программного продукта и размещена в открытом доступе в сети интернет. Для взаимодействия с программой используется текстовый файл параметров симуляции, а входные (выходные) данные принимаются (сохраняются) в общепринятых форматах, используемых другими программами для молекулярного моделирования [24, 26, 29]. Таким образом, для использования пакета ЭОР-СРи не требуется навыков программирования, а результаты моделирования могут быть показаны и обработаны при помощи популярных средств (например, программы У1УГО[225]).

Похожие работы

Информатика, вычислительная техника и управление
05.13.00