автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Математическая модель универсального генетического кода

кандидата физико-математических наук
Щербак, Владимир Иванович
город
Алматы
год
1995
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Математическая модель универсального генетического кода»

Автореферат диссертации по теме "Математическая модель универсального генетического кода"

Кйзахскш!'государственный национальный университет

им. Аль-Фараби

На пранах рукописи

ЩЕРБАК ВЛАДИМИР ИВАНОВИЧ

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ УНИВЕРСАЛЬНОГО ГЕНЕТИЧЕСКОГО КОДА

Специальность 0->. 13.16. Применение иычи'." 1ИТе\ьнык сродств математического мпдодиропгигия и математически* мстпдпп и научных исследованиях

А В Т О Р Н Ф П Р А Т диссертации на соискание ученой степени кандидата физико-математических наук

Алматы, 1995 г.

Работа выполнена на кафедре прикладной математики Казахского государственного национального университета им Аль—Фараби.

Научные руководители: доктор физико-математических наук,

академик HAH PK, профессор ЛУКЬЯНОВ А. Т.,

доктор физико-математических наук, доцент

СЕРОВАЙСКИЙ С. Я.

Официальные оппоненты: доктор технических наук,

академик HAH PK, профессор AMEPEAER В. М.

доктор физико-математических наук,

профессор

ПЕРЕТЯТЬКИН М. Г.

Ведущее предприятие: Институт математики СО РАН.

Защита состоится НоЯБрр __1995 г. в 10.00 часов на

заседании специализированного совета К 14/А.01.06 в Казахском государственном национальном университете им. Аль—Фараби по адресу: 480012, г. Алматы, ул. Масанчи 39/47, КазГУ, ФМПМ, аудитория_.

Отзывы на автореферат направлять по адресу: Республика Казахстан, 480121 Алматы, проспект Аль —Фараби, 71, Казахский государственный национальный университет им. Аль—Фараби, ученому секретарю (для Нысанбаевой С. Е.).

С диссертацией можно ознакомиться в библиотеке КазГУ.

Автореферат разослан "2.4" ОКТйБрР 1995 г.

Ученый секретарь специализированного совета кандидат физико-математических наук Нысанбаева С. Е.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Расшифровка генетического кода впервые открыла возможность для объективного исследования происхождения жизни. Простая логика редуцировала эм-у безграничную по сложности проблему до уровня решения весьма конкретной проблемы происхождения универсального генетического кода. А именно, необходимо установить тип отображения двух знаковых множеств кода: речмещиник из четырех оснований ДИК до три (с повторением), с одной стороны, и 20—ти канонических аминокислот и ? —у сичтрк.стгсоских функций 51аг1 и %1ор, с другой. Порвостепететим проявлением жизни считается возникновение генетической пнф эркации, ее экспрессия и передача во времени. Эти функции могут исполняться корректно только в том случае, еелл сначала возник и стабильно сохраняется генетический алфавит или, иначе, код. Возникновение кода критически важно для того, чтобы записать информационное сообщение (ген) с помощью символов, а по прошествии определенного времени однозначно ■•¿■„■спуоног^стн его смысл (Полковую молекулу). Очевидно, »то г.ох/ ирмщатшвльчй противопоказаны эволюционные изушич..'., улучшающие его информационные свойство: нововведения мог/г лишить клетку способности правильно вое ро исходи; 1> ранее накопленную информацию и приведут к ее /$«>лли. «' читагмс;!, что из -а чрезвычайной консервативное^и :•. и .;«• н'чггап. в структурной организации кода сохранились бе:» »гчеьчмтЛ следы уникальных событий, которые были причастны к его появлению на Земле более чем 3.8 миллиарда лет нззбд- « ог-^з .-.ия ^л называется универсальным, потому что он эдицакаа у йсех организмов Земли; значит закон, которому подчинено отображение двух множеств кода, и выводы, которые могуг быть сделаны на его основе, имеют в этом аспекте абсолютный характер.

Цель_____работал. Общепринята гтюшза, •¡•¡•о норфнзмамн

генетического кода МогС. задавшими отображение, были физико-химические законы статистических прямых взаимодействий .между молекулярными элементами двух его множеств. Однако, можно предположить, что устройство кода но случайно, а подчинено некоторой общей закономерности формального характера, которая

ускользала до сих нор от внимания. Она могла бы иметь физико-химическую природу, но прошедшие после биохимическо] расшифровки 30 лет упорных поисков убедительных взаимосвязей такого рода между множествами триплетов и аминокислот так и Н( выявили. Ситуация либо служит лучшим подтверждение* статистических моделей происхождения, либо свидетельствует < том, что искомое упорядочение имеет качественно иной характер чем тот, который можно было бы заметить старыми методами.

В настоящей работе предложен не физико-химический, < математический метод исследования детерминированное отображения двух множеств генетического кода. Не исключено, чт< внутренняя организация кода могла быть в значительной степеш подчинена формально — математическим требованиям языковое системы, учитывающей физико-химию молекул кода лишь Д( необходимого минимума (например, код лишь удовлетворительна защихцен по гидрофобности от мутаций).

Работа имеет целью с помощью новою математического подход (1) установить общую детерминированную закономерносп упорядочивающую генетический код, (2) построить на ее основа математическую модель кода; (3) исследуя модель, объяснит, некоторые детали в устройстве кода и (4) получить объективны^ заключения о возможной процедуре его происхождения.

Новизна работы. Впервые применен нетрадиционный д/и данной предметной области математический подход, в которое генетический код рассматривается как часть формальной языково! системы (физико-химические свойства кода учитывается, но уже ] плане сосуществования с его новой математической организацией).

Новый подход выявил ранее неизвестные закономерности -Арифметическую закономерность нуклониых сумм аминокислот I Закономерность кооперативной симметрии оснований триплетов.

На основе установленного упорядочения впервые предложен* математическая модель генетического кода, представляющая собо* систему линейных диофантовых уравнений и неравеств.

Характер новых закономерностей кода и анализ результате] математического моделирования позволяет сделать заключение с детерминированном, а не статистическом характере процедурь возникновения кода.

Научная и практическая ценность. Изучая генетический код,

наука впервые столкнулась с языковой системой и ее алфавитом, происшедшими, как предполагают, прежде всего в результате проявлений законов физико —химии. В этой связи, при интерпретации свойств и процедуры происхождения генетического кода объяснительные функции математики тт законы физики совмещались. После того, как новый формальный порядок был установлен, такое совмещение стало проблематичным: оказалось, что некоторые, ранее не известные, свойства кода ие имеют связи с физикой, а являются чистым проявлением абстрактных языковых структур математики. Таким образом, пгновднием для построения математической модели объекта (считающегося происшедшим естественно) становится не ето математически сформулированное физическое свойство, а в чистом виде абстрактный формализм языковой системы математики.

Новые математические законы и результаты математического моделирования дали формальное объяснение некоторых деталей устройства генетического кода и позволили сделать заключение о детерминистской процедуре его происхождения.

Арифметическая закономерность выделяет формализм аддитивно-позиционной системы счисления. В качестве объясняющей гипотезы можно усмотреть в этом внешний признак того, что генетическая языковая, система достигла такой степени формализации, которая позволяет ей реализовать арифметические операции с числами. Если генетический язык действительно открыл и включает в себя такие возможности формального языка математики, то клетка могла получить мощный общий метод для организации, управления и контроля генетической информацией, более эффективный, чем специфические физико-химические взаимодействия, лишенные подобного аспекта.

Сейчас в мире предпринимаются усилия по завершению проекта Геном человека. Это массив, содержащий > б-К)9 бит информации. Общие законы организации его пока да,\еко по ясны. Не исключено, что новый порядок, установленный в коде, может стать указателем на формальное упорядочение геномной ДНК.

Закономерная организация структуры генетического кода найдет практическое применение при разработке информационных технологий и вычислительных устройств на основе биомолекул.

Автор выносит на защиту.

— новый математический подход в исследовании свойств кода; —неизвестные ранее формальные закономерности генетического

кода: арифметическую закономерность и закономерность кооперативной симметрии,

—математическую модель генетического кода в форме системы линейных диофантовых уравнений и неравенств, описывающую кодовые пары триплет оснований—нуклонное число аминокислоты,

— объяснение некоторых деталей устройства генетического кода, ранее не находивших истолкования в статистических моделях;

—заключение о детерминистском характере событий, составлявших процедуру происхождения кода.

Аппробаиия работы. Материалы диссертации были представлены на двух международных конференциях JSSOL (Международная ассоциация по изучению происхождения жизнй) в июле 1989 г. в Праге, (Чешская Республика) и в июле 1993 г. в Барселоне, (Испания), и на конференции "Моделирование и компьютерные методы в молекулярной биологии и генептке", 1990 г. в Новосибирске. Сделано сообщение на Юбилейной научной конференции посвященной 50-летию развития математики в Академии наук Казахстана, сентябрь 1995 г., Алматы.

Результаты были доложены и обсуждены на научных семинарах: —в Казахском государственном национальном университете им. Аль-Фараби, в Лаборатории математического моделирования (1988, 1992, 1995 гг.), на Биологическом факультете (1993, 1995 гг.);

—трижды в лаборатории лауреата Нобелевской премии, профессора М. Эйгена (М. Eigen), Институт биофизической химии Макса Планка, Гетгинген, ФРГ (1991, 1993, 1994 гг.);

—на семинаре академика В. М. Амврбаева в Институте теоретической и прикладной математики HAH PK (1691);

—на семинаре академика М. М. Лаврентьева, Институт математики СО РАН (1992 г.);

—в Институте молекулярной биологии и биохимии им. Айтхожина HAH PK (1989, 1992);

—в Институте астрофизики им. Фесеико HAH PK (1992);

— в лаборатории профессора К. Хекмана (К. Hockman), Институт зоологии, Университет г. Мюнстера, ФРГ (1994 г.);

—в Свободном университете Западного Берлина, ФРГ (1994 г.).

Публикации. По теме исследования опубликовано девять статей,

в том числе семь — в международном междисциплинарном журнале Journal of theoretical Biology (Academic Press, London) в период с 1988 по 1994 гг., а две других были депонированы в КазГНТИ в 1987 и 1988 гг.

Объем и структура диссертации. Работа па 166 листах состоит из Введения, четырех Глав, Заключения и списка Литературы (63 источника); ее текст содержит 27 нумерованных фигур п 14 таблиц.

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ.

Во введении дается общая характеристика работы.

Первая глава посвящена свойствам кодов алфавитного типа в математике и биологии. Показано, что класс Мог G (дан курсивом)

Начало: Триплет => Антитриплет => Паттерн tPHK

^ Участок уяианаття паттерна tРНК и аттоацил-t РНК-спите т>е ^ Участок узнавания аминокислоты в амтюацил -tPHK- синтетазе -> - ? Конец: Аминокислот?..

представлен категориями произвольного порядка, которые придают алфавитный тип отображения объектам, т. е. множествам триплетов и аминокислот и, следовательно, генетическому коду в целом. Для генетического кода его алфавитный тин означает практически полную свободу выбора отображения £Т->А.

На примере умозрительной модели Lacey и Muüins показан типичный статистический подход к объяснению происхождения и устройства генетического кода, т. е. когда функция f.T—>A рассматривается как соответствующая случайным (физико — химическим) событиям.

Приведены сведения о известных фрагментах формального упорядочения; к ним относятся триплетный униформизм кода и регулярная вырожденность синонимических серий. Показано распадение серий на 2 группы: с числом вырожденное™ D — 1V и Z> = III, II, I (квазигруппа), триплеты которых связаны единственно возможной трансформацией Румера TCAG-»GACT.

Во второй главе описаны проявления арифметической закономерности и закономерности кооперативной симметрии, которые ранее ускользали от стандартных физико-химических методов исследований генетического кода. Закономерности были установлены, когда к коду был применен новый математический подход. В нем код рассматривается не как объект, предваряющий своим физико—химическим возникновением начало развития генетического языка, а как объект, возникновение которого происходило в тесной взаимосвязи с возникновением языковой системы. В этом случае математические законы последней могли задать формально-математический тип упорядочения в самом коде.

Поиск формального порядка в коде предполагает особые требования к математическим свойствам параметров; для этой цели выбраны целочисленные безразмерные константы: N — число нуклонов в аминокислоте [N= 0 для Stop), D — число вырожденности триплетов в серии, а также использованы 4 типа оснований триплетов TVC A, G, их отношение к пуринам R{T\C} или пиримидинам их позиции 5' Центр и 3' в триплете.

Каждая из 20 канонических аминокислот имеет две характерные структурные части: стандартный блок NH2CaHCOOH с NSB= 74,

и с=20 уникальных боковых цепей Rc, где 1</Vñ<130.

Процедура, проявляющая арифметическую закономерность, включает формальный "разрез" аминокислот на стандартные блоки и боковые цепи; в случае особой боковой цепи Pro производится заем одного нуклона NPro={42—1), чтобы довести число нуклонов в его блоке до общей величины NSB= 74.

1. Арифметическая закономерность кода, сжатого по 3' позиции.

Установлено, что известная трансформация Румера совмещена с проявлением баланса нуклонньтх сумм между стандартными блоками и уникальными боковыми цепями аминокислот, а сами балансные суммы при этом имеют особенную запись в десятичной системе счисления; см. квазигруппу на фиг. 1 [причина этого лежит в свойствах трехзначных чисел, кратных простому числу {PQ) 037; таблица 1(а)].

Распадение кода по Румеру на 2 группы по вырожденности серий.

Группа IV

Число Gly Ala Ser Pro Val Thr Leu Aig £ r/37

нуклонов: IV IV IV

молекулы; А: 75 89 105 1,5 И7 119 131 174 925 25 РО

СТ.блока; SB: ГТ4 | 74 I 74 i 73 + 1 I 74 I 74 I 74 I 74 I 592 !(¡PQ

^ lili I ! I I I

бок.цепи; R. j 1 i 15 ( 31 { 42-1 j 43 j 45 j 57 1100 j 333 9PQ

Квазигруппа 111 —II—I lio Cys st°P Scr Lou Asn Asp Gin Lys Glu His Phc- Arg Тут Mot Trp ЕЮ П II Ц II

SB: J 74 j 74 J О j 74 j 74 j 74 j 74 j 74 J 74 j 74 j 74 ] 74 j 74 j 74 j 74 j 74 j ill

j 57 j 47 j 0 j 31 j 57 j ¿a j 59 j 72 j 72 j 73 j 81 j 91 1100 j 107 j 75 j 130 j 111

Фиг. 1

В группе TV нуклоны боковых цепей вновь демонстрируют особенную запись полной суммы, а совместно с суммами блоков и полных молекул — квадраты первых трех чисел Пифагора (в размерности РО). Проявление арифметической закономерности выражено двумя линейными диофантовыми уравнениями:

Группа IV

С + А 4- S!v + Р + V + Т L¡v + Rjv = 333; ( 1}

Ква зигруппа III—II—I

(i) + (Sí'opii-( S» + С-г I-,¡-f ND + Q + K + EJ-H + F + R([ f Y) + (5?opi+M + W) = lUxlO (2) ti 1одгрутша U1 Подгруппа» Подгруппа 1

Уравнения (1) и (2) записаны для версии кода Esherichia coir, код па фиг. !, 2, 3 соответствует симметричной версии Euplotesr, одно — и трехбуквенная символика аминокислот: A-Ala, С-Cys, D-Asp, Е-Glu, F-Phe, С-Gly, II-His, I-lie, К-Lys, L-Leu, M-Met, N-Asn, PPro, Q-Cln, R-Axg, S-Ser, T-Thr, V-Val, W-Тгр, Y-Tyr.

Особенная запись чисел таблицы 1 порождена формализмом аддитивно—позиционной системы. В числовых симметриях заключены правила символьной записи абстрактной категории чисел: нуль, узловые и алгоритмические числа, линейная запись кортежа, придание символам значения как по форме, так и по позиции, а также задание основания системы. Серия таблиц для трехзначных чисел начинается с таблицы 1 — (б) в четверичной системе, которая представляет своего рода паттерн триплетной части кода: 4 цифры системы записывают 64 трехзначных числа от 000 до 3334 (6310).

Таблица 1.

(а). Трехзначные числа десятичной системы, кратные простому числу (Р£>) 037.

(б). Трехзначные числа четверичной системы, кратные 0134 (7ю). Симметрии символьной записи предстают в сериях трехзначных чисел с периодом (<? — 1), где д — основание системы. Каждое число, записанное разными цифрами является циклической перестановкой других чисел в его столбце. Числа с гомогенной записью следуют с периодом, равным количеству цифр в записи, а сумма этих цифр равна частному от деления числа на Р().

01 2345678 9 0123

ООО 037 074 111 148 185 222 259 296 333 ООО 013 032 111

10 И 12 13 14 15 16 17 18 10 И 12

370 407 444 481 518 555 592 629 666 130 203 222

19 20 21 22 23 24 25 26 27 13 20 21

(а) 703 740 777 814 851 888 925 962 999 (б) 301 320 333

Согласно статистическим моделям, гипотетическая эволюция кода изменяла как количество символов в кодоне, так и их число в ДНК. Такой процесс эквивалентен естественному перебору систем, Закрепление 4-х символов и триплетной записи могло произойти случайно и тогда все формальные свойства чисел четверичной системы, включая таблицу 1 — (б), автоматически ассоциировались с кодом. Однако, нет очевидных физико-химических процессов, в опоре на которые набор аминокислотных боковых цепей смог бы выделить какую-либо систему, в частности десятичную, и, более того, сделать это, проявив абсолютно ту же самую формальную закономерность, которая могла достаться триплетам "случайно".

Распад кода на равные части (как по числу триплетов, так и по числу сжатых серий) в 5' позиции возможен двумя способами (фиг. 2 и 3), а в Центральной позиции — только одним (фиг. 3).

Деление на 2 равные группы 5'- Y и 5-R. Группа ó'- Y(TC)

Phß Leu Ser Туг Stop Cys Trp Leu Pro His Gin Arg X

II IV П IV __ГУ

SB: I 74 J 74 j 74 J 74 j 0 j 74 j 74 J 74 j 74+1 j 74 j 74 j 74 j 814

R. j 91 j 57 j 31 j 107 j 0 j 47 j 130 | 57 j 42-1 j 61 | 72 j 100 \ b¡4

Фиг. 2

Группа 5'~Y(TC) на фиг. 2 демонстрирует баланс, эквивалентный установленному в квазигруппе на фиг. 1; группы 5'-(TG) и 5'- (CA) демонстрируют кросс — баланс нухлонных сумм боковых цепей с эквивалентными распадами в Центральной позиции (фиг. 3).

Группа S'—(TC) Pile Leu Ser Туг top Cys Trp Va! Ala Asp Clu Glv Z II IV И

R. I 91 I 57 I 31 I 107 I 0 j 47 I 130 | j 43 j 15 j 59 j 73 j 1 j 654

Группа 5'-(CA)

Leu Pro His Gin Arg He Met Thr Asn Lys Ser Arg Z

IV IV П TI

U: j 57 j 42-1 j 81 j 72 | 100 j 57 j 75 j 15 | 5C j 72 j 31 j ICO \ 789

Группа Центр — (TG)

Phe Leu Leu lie Met Va! Cys Trp Arg Ser Arg Gly Z II IV IV II И

К. j 91 j 57 j 57 j 57 1 75 1 43 j | 47 j 130 ¡ 100 j 31 | 100 j 1 | 789

Группа Центр—(CA) Phe Leu Ser Туг Stop Cys Trp Leu His Gin Arg Z

II IV И XV IV

R: I 91 ¡42-1 j 31 [ 107 j 0 [ 47 j 130 | 57 j ¡81 | 72 1100 j 654

Ф-.п ?.

Новые проявления арифметической закономерности записываются тремя линейно независимыми уравнениями:

(F + L¡¡ + SIV+Y-f Sloprr + C + Stop. + \V) + {LAr■ 1- P-f H + Q + R¡v) = 8M: (2)

Подгрупла 5' Пгмгю Подгруппа З'-Цитозкн

(г + L„ + SIV+Y + Stopn -i- С + Stop-, + W) 4- (V tArDIE 4- G) = 554; í 4)

Подгруппа 5'~J;imiH Подгруппа 5'—Гуатт

(Xе -1- Lj; + Ljv f I + M + V) + (C + Stop, f w-!- RÍV- + S„ + R„ + G) — 789. (5)

Подгруппа Центр — Тпмип Подгруппа Центр -Гуанин

2. Арифметическая закечглмерносп» несжатого кода. 64 триплета генетического кода делятся на 3 группы в зависимости от состава оснований; триплеты внутри групп объединяют продуцирующие их 20 комбинаций; триплеты группы (в) имеют два разных направлениях чтения {сmuí) (см. фиг. 4).

Нуклоны боковых цепей аминокислот з группе с двумя идентичными основаниями (б), при их распаде пополам по типу Y или R, сбалансированы я имеют особенную запись балансных сумм:

(F+ Lw+Stv) + (L,s +1+Y) + (Li¡+V+С) + (Р+Siv + L¡v) 4- (P+T+H) + (P + A+Rjy) = (6) Комбинация 5 Комб. 6 Комб. 7 Комб. 8 Комб. 9 Комб. 10

(N + .9/O/Ii1 + T) + (N+Q + T) + (K+1I+R![) + (G + W+V) + (G + T?Iv+A) + ¡G+R¡1+E)=999 (?) Комб. И Комб. 12 Комб. 13 Комб. 14 Комб. 15 Комб. 16

(а). Группа триплетов с 3 идентичными основаниями

1 2 Т А ! Т Т A A j

ТТТ AAA ¡

(б).

Группа триплетов с 2 идентичными основаниями пиримид инами YfT.Cj

5 т

6 т

7 Т

8 С

9 С

10 с

TCTATGCTCACG

ТТТ ТТА TTG С CT CCA CCG Crr ATT GTT ТСС ACC GCC TCT TAT TGT CTC CAC CGC

3 4

С G С С G G

ССС GGG

Группа триплетов с 2 идентичными основаниями пуринами R{A, С} И 12 13 14 15 16 A A A G G G ATACAGGTGCGA AAT AAC AAG GGT GGC GGA TAA CAA GAA TGG CGG AGG ATA АСА AGA GTG G CG GAG

О

17 С T A

(в). Группа триплетов с 3 уникальными основаниями

18

19

20

О ОостО

о л о о л о

ТСА АТС CAT

ACT GCT СТА CTG TAC TGC

TCG GTC CGT

TGA ATG GAT

AGT CAG GTA GCA TAG AGC

GAC ACG CGA

Фиг. 4.

При распаде по тому же типу, но уже уникального основания, эти аминокислоты демонстрируют новую особенную запись сумм:

(F+Lw+Sгv) + (P+SIv+Lгv) + (N + Sto^I+I} + (N + Q+T) + (G+W+V) + (G + Rlv+A)-888 (8)

Комб. 5 Комб. 8 Комб. И Комб. 12 Комб. 14 Комб. 15 Закономерен распад группы с двумя уникальными Я.—основаниями на тройной баланс (даны 2 линейно независимых уравнения):

1+Т+Кп+У+А+Е = 333; (9)

Триплеты с центрально—симметричной композицией оснований

Ж+К + 5/ор,, + 0 + Е = 333. (10)

Хиралкныв триплеты с 2 идентичными основаниями А

Центральная ось с комбинацией преобразований Спин-> Антиспин, Трансформация Румера (в отсутствии преобразования Триплета Комплементарный триплет) в одной из двух взаимных позиций групп (а) и (в) делит их аминокислотные боковые цепи на сбалансированные части (дано 1 линейно независимое уравнение):

(Р) + (К) + (51\г+1 + Н) 4- (А+ + С) + \Stopi + М + О) + (О + А+Бп) = 703 (И)

Комб. 2 0.5 Комб. 17 0.5 Комб. 18 0.5 Комб. 19 0.5 Комб. 20 Т Комбинация 1

Триплеты кода формально распадаются на 3x64=192 основания; каждое из них формально связано с одной из аминокислот (или Stop). В распаде на Т— и С AG— группы стандартная процедура проявляет особенную запись нуклонных сумм боковых цепей и их совместный баланс со стандартными блоками CAG— группы; даны одним линейно независимым уравнением для Т—группы:

Зх( (F) J + 2x1 (F++Siv) + (Ln+1+Y) + (Ln+V+С) ] + (Р+Srv+W) + (N + 5/орп+D +

Комб.1 Комб. 5 Комб. 6 Комб 7 Комб. S Комб. 11

(G + W + V) + (SIV + I + H + T + LJV + Y) + (A + LIV+C + SIV+V + RIV) +

Комб. 14 Комб. 17 Комб. 18

(Stop, 1 М I D ! SU-I V I StoplL) = 999x2 + 666 (12)

Комб. 19

Завершает проявления арифметической закономерности распад по 3' позиции, открытой для операций в несжатой форме кода:

(F + Slv+Y+C + Liv + P+H + Rjv + I+T+N + Su + V+A+D + G)+ (13)

Подгруппа 3' Тиля С (Ln+S^+Sto/fc+W+Liv+P+Q + Rrv+M+T+K + Rn+V+A+E+G) =999 + 777.

Подгруппа 3' С

3. Закономерность кооперативной симметрии триплетов кода. Версия EUPLOTES "TGA для Суз" Группа D —JV

Число С,!у А: г, Ser Pro ¡Vfll Thr l.<-i Aiq

нуклонов I) IV ! IV !V

бок.цепи /V ! 15 31 42-1 ' 43 45 s7 100

5' H R Y V I R ПГ 7Т"Г

G G I С G A £

Центр 4-R Y Y Y Y Y Y PU

G (C С c> ГГ С T) G

V N N N N N N N 1 N

Квазигруппа III -u- - i

lie Cys Stop Ser Leu Asn Asp Gin Lys Glu His Phe Arg Tvr Met Tip

и II II II Start

57 47 0 31 57 58 59 72 72 73 81 91 ¡00 107 75 130

T A fx A T A G С A e С T A T A T

¿Y R Y R R Yi iR R Y Y R Y4.

TY S S R E В R Y? Ц

G (T A G} {T A A} {A A A} {A T G} {A T G} , >//

iStap Sfop AAA Uteri j Start тр

0 0 Lys VM Met =222

TC TC tR Y Й Y Y Rt tR R Y Y R Yt 3'

A A G G

D Ш 1

Фиг. 5.

На фиг. 5 (которая является триплетным вариантом фигуры 1), приведены симметрии однопозиционных оснований в группе IV и квазигруппе III —И —I, возникающие при следующих условиях систематизации: групповая вырожденность синонимических серий D и число нуклонов аминокислот N внутри групп монотонно изменяются во взаимопротивоположных направлениях. Жирными буквами обозначены символы оснований с центрально—осевой зеркальной симметрией М; курсивом даны проявления симметрии параллельного переноса Г; подчеркнуты основания с инверсной симметрией I типа Основание {Т, С, A, G} -> Комплементарное основание {A, G, Т, С} или Пиримидиновое основание Y{T, С} <-» Пуриновое основание R{A, G} (стрелками указаны относительные позиции взаимоинверсных последовательностей); фигурными скобками выделены семантические симметрии П палиндромного типа. Установлено, что одноименные позиции в группе IV и квазигруппе III—II —I имеют одинаковый набор элементарных операций симметрии: в 5' позиции — М, Т, I, а в Центральной — M, I, П. (Нуклоны палиндрома имеют баланс блоков и цепей). Закономерность кооперативной симметрии отражают неравенства нуклонных чисел аминокислот (и Stop), дающие позиции оснований:

n<G<A<Slv<P<V<T<Lrv<Riv;

Группа IV (14)

0<С<1; 0<5iopÏI<SII<LII<N<D<Q<E, D<K<E<H<F<RU<Y; 0<M<W; Группа Ш ' Группа it Группе i

Нуклонные суммы {NR | a< Ng <b} не имеют биохимического смысла по крайней мере для (а =1, Ь— 15), (а=15, 6 = 28) и [а ~32, ¿ = 40).

Неравенства сформированы так, что в них отсутствует информация о равных 1гуклонных числах как у двух различных аминокислот Gin (Q) и Lys (К), так и у двух изомерных молекул Leu (L) и Ile (I). Как можно видеть, число нуклонов терминационной функции Stopn либо равно, либо больше нуля. Идентичные условия наложены на вторую функцию Stopi отдельным неравенством 0<Stoj7¡.

В третьей главе строится математическая модель генетического кода, которая основана на новых формально-математических взаимосвязях его элементов. Базовые уравнения (1) —(13) распадаются на уравнения элементарных фрагменте, в разных линейных комбинациях этот минимальный набор составляет

пифагоровы числа, балансы и особенную запись балансных сумм в десятичной системе. Например, наличие в одном коде проявлений (6). (7) и (8) предзадано определенным численным значением нуклонных сумм четырех фрагментов:

(F + +Sw) + (Р+Sw+Ы « 308; (LH +1+Y^ + (Lij+V + С) + (Р+Т + Н) + (,Р + Л+Rrv) = 691: Комб. 5 Комб, 8 Комб. 6 Комб. 7 Комб. 9 Комб. 10

[N+5/opii+i) + (N + 0+T) + (G+W+V) + (G + Riv+A)-580; (K + E + R,,) + (G + R„ + E) - 419. Комб. 11 Комб. 12 Комб. 14 Комб. 15 Комб. 13 Комб. 16

В подобном аспекте алгебраический анализ выделяет систему 22 линейных диофаптовых уравнений

taijxj-bi <15>

с некоторой матрицей (я,у) и вектором (¿><), где /=1, ... 22, а также неравенств (14), которая является математической моделью формального устройства генетического кода. Ее 25 переменных xj

соответствуют пуклоиным числам 23-х молекул аминокислот (3 молекулы с двойными сериями рассматриваются как 6 независимых переменных) и 2-х функций Stop; свободные члены Ь1 равны сумме нухлоных чисел боковых цепей молекул аминокислот, составляющих элементарные фрагменты кода.

Исследование полученной системы должно ответить на вопрос: До некой стспаш формальные закономерности предопределяют детальное устройство генетического кода? А именно: Однозначно ли заданы ими числа нуклонов каждой отдельной аминокислоты канонического набора (и функции Stop)? Могут ли аминокислоты с другими числами нуклонов задать тот же самый порядок, который задали канонические молекулы?

Главная проблема происхождения кода заключается именно в выяснении, почему из более чем 300 известных химии а — аминокислот были в!лделены конкретные 20 молекул. Для некоторых молекул определенное значение н уклонного числа может задать тип и количество составляющих ее атомов и даже химическую структуру; и для всех молекул — совместно с требованием защищенности по гидрофобности — оно становится новым условием выделения аминокислотных молекул, для канонического набора.

Условие совместности уравнений системы предопределено, т. к. она возникла в результате постановки корректной математической задачи, описывающей естественный объект. Вычисления с помощью программы UniCalc подтвердили это предположение. Была установлена единственность решения и определенность системы. Это свидетельство того, что новые закономерности способны задать в качестве корней уникальный набор нуклонных чисел аминокислот и, следовательно, в максимально возможной степени детерминировать выбор аминокислот по этому параметру. Ниже приведен уникальный набор ее корней xJt который совпал с молекулярными нуклонными суммами и нулевым нуклонным числом функции Stop реального генетического кода:

дг]=А(А1а) = 15; »sC(Cys) = 47; *3=D(Asp) = 59; x,=E(Glu) = 73; *5=F(Phe) = 91; x6=G(Gly) -1; *T=H(His} = 81; *8=Щ1е) = 57;

*9=K(Lys) = 72; *i0sL]](Leuij) = 57; X\ i=Liv(Leuiv) = 57; *i2=M(Met) = 75; ori3=N(Asn) = 58; xu=P{Pro) = 41; *i5-Q(Gln) = 72; jri6=R„(ArgII) = 100;

jTnsRjyfArgjv) = 100; дсцв8и(3ег„) = 31;

A:i9=Siv(Ser¡v) = 31; x^Stopx = 0; jr2i=5tojpu=0; x22=T(Thr) = 45; ^23=V(Val) = 43; jr24sW(Tip) = 130;

.x25=Y(Tyr) = 107.

Переменные системы и их численные значения через условия распадения кода на базовые уравнения (1) —(13), оказываются сопоставленными с конкретными триплетами генетического кода.

В четвертой Главе анализируется математический характер проявлений новых закономерностей генетического кода и исследуются результаты математического моделирования, чтобы получить некоторые ответы на вопрос Почему генетический код такой, какой он есть?

Известные с момента расшифровки фрагментарные проявления формального упорядочения кода — триплетный униформизм и регулярная вырожденность — оказываются естественным образом инкорпорированными в общую закономерность; они выглядят там как важные и необходимые элементы формального устройства.

Корни системы с равными численными значениями задают формальный базис для осуществления нескольких серий одной аминокислоты. Реализованные в генетическом коде двойные серии Arg, Leu и Ser занимают отведенные им моделью позиции.

Всегда было не ясно, почему в коде существуют стандартные триплеты для функции Stop, опасной в смысле прерывания синтеза при мутациях, изменяющих кодовый смысл триплетов. Нулевые корни, символизируют неучастие аминокислот в осуществлении этой функции и дают формальное истолкование самому информационному феномену.

Проявление формального упорядочения проявилось не только в (общепринятой как универсальная) версии кода Esherichia coli "TGA для Stop", но и в версии "TGA для Cys". Последнее теоретически предсказывало существование версии "TGA для Cys", а в 1991 г. было получено надежное экспериментальное подтверждение этой версии у Euplotes.

Важнейшим итоговым заключением является заключение о детерминистской процедуре происхождения кода. Об этом свидетельствует кооперативный характер проявления формально — математических законов организации кода. Носителями формальных и физико-химических свойств кода являются одни и те же объекты — аминокислоты. Благодаря этому связующему звену код проявляет своеобразный дуализм разнородных свойств.

ВЫВОДЫ

1. С помощью но по го математического подхода был установлен и исследован неизвестный до сих пор формальным порядок в структуре кода.

2. Обнаружена арифметическая закономерность генетического кода. Она проявляется в форме балансов нуклонных сумм у аминокислот, сгруппированных по общим признакам их триплетов; балансные суммы имеют особенную запись в десятичной системе.

3. Обнаружена закономерность кооперативной симметрии триплетов. Принцип систематизацйи проявил информационную структуру оснований триплетов; структура задана симметричными последовательностями с закономерной генетической семантикой.

4. Создана математическая модель универсального генетического кода. Обнаруженные закономерности представимы математически я виде системы линейных диофантовых уравнений и неравенств. Установленная однозначная разрешимость свидетельствует о том, что формальный порядок детерминировал нуклонные числа 20 канонических аминокислот, включая нуль нуклонов функции Stop.

5. Установлено, что известные свойства кода — триплетный униформизм и регулярная вырожденность — фрагменты более общего формального упорядочения генетического кода.

6. Найдено формальное объяснение некоторых деталей устройства кода', к ним, например, относятся: двойные серии аминокислот Arg, Leu, Ser; способ терминации, протекающий в отсутствии аминоацил-tPHK и т. п.

7. Предложено объяснение известному факту незащищенности кода от резкой смены геометрического размера аминокислот при транзициях. Формальный порядок сочетаются оптимально только с гидрофобной защищенностью кода.

8. Дано формальное объяснение причинам существования универсальною генетического кода в форме двух версий "ТСА для Stop" и "TGH для Cys". Единственное разночтение между двумя версиями в отношении триплета TGA необходимо, чтобы проявились обе закономерности кода по пп. 2 и 3.

9. Показано, что митохондриальные версии генетического кода являются случайными отклонениями от универсальной версии кода. Это возможно благодаря разной степени вероятности переходов в двух направлениях между версиями, одна из которых упорядочена.

10. Сделано заключение о детермированном, а не статистическом характере процедуры происхождения кода.

Публикации по теме лиссертапии: SHCHERBAK, V. 1. (1988). The co-operative symmetry of the genetic code.

J. theor. Biol. 132, pp. 121-124. SHCHERBAK, V. I. (1989a). The Rumer's rule and transformation in the context of the co-operative symmetry of the genetic code. J. theor. Biol. 139, pp. 271-276. SHCHERBAK, V. I. (19896). Ways of wobble pairing are formalized with

the co-operative symmetry of the genetic code. J. theor. Biol. 139, pp. 277-281. SHCHERBAK, V. I. (1989c). The "START" and "STOP" of the the genetic

code: Why exactly ATG and TAG, TAA? J. theor. Biol. 139, pp. 283-286. SHCHERBAK, V. I. (1993a). The symmetrical architecture of the genetic

code systematization principle. J. theor. Biol. 162, pp. 395-398. SHCHERBAK, V. I. (1993A). Twenty canonical amino acids of the genetic

code: the arithmetical regularities. Part 1. J. theor. Biol. 162, pp. 399-401. SHCHERBAK, V. I. (1994a). Sixty-four triplets and 20 canonical amino acids of the genetic code: the arithmetical regularities. Part П. J. theor. Biol. 166, pp. 475-477.

Щербак Владимир Иванович

ЭМБЕБАП ГЕН ЕТИКАЛ ЫК, КОДТЫД МАТЕМАТИКАЛЫК,

МОДЕЛ1

МАЦЫЗДАМА

Бул жумыс эмбебап генетикалык кодтагы формалвды-математикалык Tapriirri 1здест1ру мен зертгеуге арналган. Аминкы шкылдарътнъщ нуклондары косыпдыларыныц арифметикалык зандылыш жэне генетикалык код триплеттершш коллективтгк симметриясыныц зацдылыгы к,ойылган. Ей зацдылык; та статистикалык емес, детерминистикалык турде сипатталады.

Кодтыц eici жиынтышнъщ элеменггершщ арасындагы езара жаца байланыс оньщ математикалык моделщ KYPyra мумкшдЬс береди Бул модель сызыктык диофанттьщ тецдеулер мен теце1зд1ктерден тирады.

Системаныц шеипмшщ жалкулыгы корсетшген. Генетикалык, кодтьщ формальды тэртгбше жэне математикалык, моделше анализ жасау код курылысыныц кейб1р детальдарын Tyciitnipyre мумкщдйс бердь Сонымен кзтар кодтьщ aMipre келу процесс! ксздсйсок емес екендй'ше кортынды жасалынады.

Shcherbak Vladimir Ivar.ovich A MATHExMATICAL MODEL OF THE UNIVERSAL GENETIC CODE

ABSTRACT

This work is dedicated to the search for and investigation of the

deterministic mathematical order inside the universal genetic code. The arithmetical regularity of the nucieon sums of the amino acids and the regularity of the co-operative symmetry of the triplets have been discovered. Both regularities have a deterministic feature rather than a statistical one.

The new correlations between the elements of two genetic code multitudes form the basis of its mathematical model, which represents the algebraical system of the linear diophantine equations and inequalities. It is found that the system has a unique solution.

Some details of the code design are formal explained by an analysis of new regularities and the results of the mathematical simulation. It is concluded thai a procedure of the origin of the genetic code was not accidental.