автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модели и алгоритмы обнаружения локальных закономерностей в задаче распознавания вторичной структуры белка

кандидата физико-математических наук
Торшин, Иван Юрьевич
город
Москва
год
2011
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы обнаружения локальных закономерностей в задаче распознавания вторичной структуры белка»

Автореферат диссертации по теме "Модели и алгоритмы обнаружения локальных закономерностей в задаче распознавания вторичной структуры белка"

Торшин Иван Юрьевич

МОДЕЛИ И АЛГОРИТМЫ ОБНАРУЖЕНИЯ ЛОКАЛЬНЫХ ЗАКОНОМЕРНОСТЕЙ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ВТОРИЧНОЙ СТРУКТУРЫ БЕЛКА

05.13.17- теоретические основы информатики

Автореферат диссертации на соискание учёной степени кандидата физико-математических наук

- 8 ДЕК 2011

Москва 2011

005004972

Работа выполнена в Учреждении Российской академии наук Вычислительный центр им. А.А. Дородницына РАН

Научный руководитель: доктор физико-математических наук,

чл.-корр. РАН

Константин Владимирович Рудаков

Официальные оппоненты: доктор физико-математических наук

Сметанин Юрий Геннадиевич

доктор физико-математических наук Устинин Михаил Николаевич

Ведущая организация: Московский Государственный

Университет им. М.В. Ломоносова

Защита диссертации состоится 22 декабря 2011г. в ( О на заседании диссертационного совета Д 002.017.02 в Учреждении Российской академии наук Вычислительный центр им. А. А. Дородницына РАН по адресу: 119333, г. Москва, ул. Вавилова, д. 40.

С диссертацией можно ознакомиться в библиотеке ВЦ РАН. Автореферат разослан ^¡^ноября 2011 г.

Учёный секретарь диссертационного совета Д 002.017.02, д.ф.-м.н., профессор

В. В. Рязанов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Работа посвящена разработке методов анализа данных на основе комбинаторного тестирования алгебраических критериев разрешимости и регулярности и применению указанных методов для решения проблемы отбора информативных локальных закономерностей в задаче распознавания вторичной структуры белка.

Актуальность темы обусловлена двумя причинами. С одной стороны, критерии разрешимости и регулярности составляют существенную часть теоретических результатов алгебраического подхода к проблеме синтеза корректных алгоритмов, развиваемого научной школой академика РАН Ю.И. Журавлёва и чл.-корр. РАН К.В. Рудакова. С другой стороны, эти, допускающие конструктивную проверку критерии, до сих пор систематически не использовались для анализа реальных данных. Таким образом, проблема создания методов, позволяющих проводить формально точный анализ данных на базе алгебраических критериев разрешимости и регулярности, является актуальным теоретическим вопросом.

Актуальность темы с позиции биоинформатики обусловлена накоплением огромных массивов разрозненных данных по структуре и функции биомакромолекул (белки, ДНК, РНК) на фоне отсутствия математически обоснованных методов для установления закономерностей в разноуровневых описаниях исследуемых молекулярных систем. В частности, задачи распознавания вторичной и третичной структуры белка на основе его «первичной структуры» (аминокислотной последовательности) являются одними из важнейших задач биоинформатики и теоретической биологии белка.

Целями диссертационной работы являются (1) создание методов для формально точного интеллектуального анализа данных на основе алгебраических критериев разрешимости и регулярности и (2) разработка формализма для описания задачи распознавания вторичной структуры белка в терминах современной теории распознавания. Особое внимание уделяется развитию формализма для тестирования, гипотезы о локальном характере зависимости вторичной структуры белка от его первичной структуры.

Научная новизна. В настоящей работе впервые сформулированы основы проблемно-ориентированной теории для формального описания задачи распознавания вторичной структуры белка. Получены критерии разрешимости, регулярности и локальности исследуемой задачи. Введены ключевые понятия (мотив, оценка информативности мотива, порядок на мотивах), позволяющие использовать разрабатываемый формализм для анализа реальных множеств прецедентов. Показано, что регулярность и, следовательно, разрешимость локальной формы задачи определяется тупиковыми множествами наиболее

информативных мотивов заданной размерности и протяженности. Предложен алгоритм построения оптимальных алфавитов для описания вторичной структуры белка на основе принципа максимального покрытия ведущих позиций. Приведены результаты экспериментов по тестированию разрешимости и регулярности задачи. Показано, что анализ разрешимости и регулярности локальной формы задачи позволяет проводить эффективный отбор наиболее информативных мотивов. Разработана эмпирическая схема распознавания вторичной структуры белка на основе первичной структуры.

Методы исследования: теоретические методы, основанные на конструкциях алгебраического подхода к проблеме синтеза корректных алгоритмов; экспериментальные методы, использующие общедоступные выборки данных по третичной (PDB, Protein Data Bank, www.rcsb.org) и первичной (UNIPROT, www.expasv.org) структуре белка. Вычислительные эксперименты проводились с использованием специально разработанного комплекса программ.

Областью исследования в настоящей работе является разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных (что соответствует п. 5. паспорта специальности 05.13.17 «Теоретические основы информатики»);

Результаты, выносимые на защиту:

1. Критерии разрешимости и регулярности исследуемой задачи

2. Аппарат для формального описания гипотезы о локальности; локальные формы критериев разрешимости и регулярности на множествах объектов и мотивов.

3. Эвристические оценки информативности аминокислотных мотивов. Предложен формализм для комбинаторного тестирования условия разрешимости с учетом информативности мотивов.

4. Методика вычисления тупиковых множеств мотивов по критериям локальной разрешимости и локальной регулярности и её теоретическое обоснование.

5. Метод формирования непротиворечивых множеств объектов на основе оценок информативности.

6. Формализм для исследования морфологии вторичной структуры на основе принципа максимального покрытия ведущих позиций.

7. Тупиковые множества мотивов по критериям разрешимости и регулярности и оптимальные словари для описания вторичной структуры белка

установленные при экспериментальном тестировании разработанного формализма

8. Эмпирическая схема распознавания вторичной структуры, основанная на тупиковых множествах мотивов и оптимальных словарях вторичной структуры.

Теоретическая значимость. В настоящей работе впервые проведено систематическое применение алгебраических критериев разрешимости и регулярности для анализа данных. Получены фундаментальные критерии разрешимости и регулярности исследуемой задачи распознавания. Эти, допускающие конструктивную проверку, критерии применены к проблеме анализа массива данных по вторичной структуре белка посредством комбинаторного тестирования.

В работе предложен математический аппарат для формально строгого описания принятой у биологов гипотезы о локальной зависимости вторичной структуры белка от первичной. Основной результат, с позиций теоретической биологии и биоинформатики - тупиковые множества мотивов и оптимальные В-алфавиты, позволяющие описывать морфологию первичного и вторичного уровней структуры белка.

Практическая значимость. Комбинаторное тестирование критериев локальной разрешимости и регулярности на непротиворечивых множествах объектов позволило установить тупиковые множества мотивов. На базе разрабатываемого формализма предложен оптимальный способ описания морфологии вторичной структуры белка. На основе тупиковых множеств мотивов и оптимальных словарей вторичной структуры разработана эмпирическая схема распознавания вторичной структуры белка, позволившая значительно повысить точность распознавания.

Материалы диссертационной работы легли в основу спецкурса «Биоинформатика и задачи распознавания в современной биологии», читаемого студентам 6-го курса на кафедре «Интеллектуальные системы» ФУПМ МФТИ.

Публикации по теме диссертации в изданиях списка ВАК: [2, 3, 4, 5, 6]. Другие публикации по теме диссертации: [1, 7, 8, 9]. Некоторые результаты работы включены в отчёты по проектам РФФИ 09-07-12098, 09-07-00212-а и 09-07-00211-а, по контракту Минобрнауки РФ № 07.514.11.4001 и по программе президиума РАН «Фундаментальные науки медицине» (2009-2011).

Апробация работы. Результаты работы докладывались, в частности, на конференциях:

Всероссийская конференция «Математические методы распознавания образов», ММРО-14,2009 г. [7];

Международная конференция «Интеллектуализация обработки информации», ИОИ-8,2010 г. [8];

Всероссийская конференция «Математические методы распознавания образов», ММРО-15,201 г. [9].

Структура и объём работы. Работа состоит из оглавления, введения, пяти глав, заключения и списка литературы (39 пунктов). Общий объём работы составляет 100 стр.

Благодарность. Автор выражает глубокую признательность своему учителю чл.-корр. РАН Константину Владимировичу Рудакову за неоценимую помощь на всех этапах работы, академику РАН Юрию Ивановичу Журавлеву за внимание и поддержку, сотрудникам отдела «Интеллектуальные системы» Вычислительного Центра им. A.A. Дородницына РАН и коллегам из других организаций за конструктивную критику, советы и помощь.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Замечание. В автореферате сохранена нумерация основных утверждений (аксиом, определений, теорем и их следствий, формул), принятая в тексте работы.

В разделе «0. Введение. О задачах распознавания в биоинформатике»

представлено краткое введение в проблемную область. В современной биологии белок рассматривается с нескольких точек зрения: (1) как одномерная последовательность аминокислот (т. н. «первичная структура белка», 1D6); (2) как одномерная последовательность характерных локальных конфигураций («вторичная структура», 2D6); (3) как трехмерный объект («атомная структура», «третичная структура», «четвертичная структура», «пространственная структура», представимая как набор декартовых координат атомов бежа, 3D6) и (4) как особый механизм, выполняющий определенную роль или т.н. «функцию» белка в жизнедеятельности клетки (Ф6) [1].

В настоящее время основньм постулатом биологии белка является утверждение о том, что первичная структура однозначно определяет вторичную и третичную структуры, а третичная структура определяет биологическую роль белка. Поэтому основной задачей теоретической биологии белка считается установление закономерностей, определяющих взаимосвязь первичной и третичной структуры.

Для решения этой задачи целесообразно решить важную промежуточную задачу - установить взаимосвязь между первичным и вторичным уровнями структуры белка или решить задачу «распознавания вторичной структуры белка». В настоящей работе данная задача рассматривается как перевод

последовательности символов из одного алфавита в другой. Актуальность задачи обусловлена значительным объемом данных по первичным структурам белков и на два-три порядка меньшим количеством экспериментальных данных о пространственной структуре.

Впервые комплекс задач о взаимосвязи различных аспектов структуры белка возник в середине 1960х годов, когда были определены пространственные (3D) структуры некоторых белков. Первоначальные попытки связать аминокислотную последовательность и структуру белка на основе физико-химических принципов не были до конца успешны - средняя аккуратность такого рода методов не превышала 65%. Примечание. В качестве «аккуратности» в задаче распознавания вторичной структуры белка используется доля совпадений литер вторичной структуры (обозначается как «Q3totai»)-

Некоторое увеличение аккуратности распознавания Q3toto] произошло, когда для решения данной задачи стали использоваться такие методы машинного обучения как нейронные сети и машины опорных векторов. Несмотря на увеличение средней аккуратности Q3totai ДО 75%-80%, эти значения Q3totai являются, по всей видимости, потолком для данной группы методов. Эксперименты в рамках конференций-соревнований CASP (Critical Assesment of Protein Structure Prédiction), проводимые с начала 1990-х годов, убедительно показали отсутствие значительной положительной динамики в аккуратности распознавания вторичной структуры по меньшей мере в течение 10 лет (с 1992 по 2002 годы).

Таким образом, целесообразна и актуальна разработка алгоритмов некоторого «следующего поколения». Данные алгоритмы должны быть основаны на минимальном числе взятых из проблемной области допущений, включать адекватные процедуры порождения и отбора признаковых описаний, построения обучающих выборок и построения алгоритмов распознавания.

Глава 1. Разрешимость, регулярность и локальность задачи распознавания вторичной структуры белка

В разделе «1.1. Исходные определения» определены множество начальных и финальных информаций, понятие прецедента и получены критерии разрешимости, регулярности и корректности исследуемой задачи.

Пусть заданы два алфавита: алфавит А для описания первичной структуры белка («верхнего слова») и алфавит В для описания вторичной структуры («нижнего слова»). Пусть А = {aj, а2,..., ап(А)}, п(А)-\А\ > 0 и В = {Ь/, Ь2, .... Ъп(В)), п(В)=\В\ > 0. Произвольное слово в алфавите А обозначим vn!yj, в

алфавите В - W=WiW2--. w„(w), n(V) и n(W) - длины слов. Пусть Д -

неопределенность. Введем Д-расширенные алфавиты А~а[]{А} и #=1?и{Д} и Д-

« со

расширенные множества слов А' =Ц5' и В* =Цв/, соответственно.

ы и

Пусть задано конечное множество прецедентов Рг<£Х хЯ*,Рл*0, Ргс1хШ, Рг*0 где «х» обозначает декартово произведение. Прецедент, таким образом, представляет собой пару слов (У,1У)е.Рг,Щ=Щ. Назовем V «верхним словом», - «нижним словом» прецедента. Решение исследуемой задачи распознавания сводится к поиску некоторой функции Л' ->£', причем =Щ (|Р|-Длина

слова У). Будем называть функцию Р корректной, если

Рг

Теорема 1.1: Р существует тогда и только тогда, когда (1.1)

Рг

В соответствии с теоремой 1.1, существование корректной функции ^ (т.е. разрешимость исследуемой задачи) зависит от выбора множества Рг. Исследуемую задачу Z, определяемую множеством прецедентов Рг, будем называть разрешимой, если для нее существует корректная функция Р. Все непустые РгсЛ* хВ' подразделяются на те, на которых задача разрешима и на те, на которых задача неразрешима. В дальнейшем рассматриваются только непротиворечивые множества прецедентов.

Наряду с разрешимостью в современной теории распознавания обычно изучается также регулярность задач. Под регулярностью задачи понимается разрешимость самой задачи, сопровождающаяся разрешимостью задач из некоторой её окрестности в изучаемом множестве задач, так что понятие регулярности определяется тем, как задаются окрестности задачи. Следуя идеологии научной школы академика Ю.И. Журавлева, определим окрестность задачи 2 с множеством прецедентов Рг={(УиЩ),(У2,Иг2),...(Уч^11)} как множество

задач 2' со множеством прецедентов Рг-^.Щ),^^),...^^)} при

произвольных Отсюда следует, что задача 2 будет регулярной на

множестве прецедентов Рг тогда и только тогда, когда выполняется следующее условие регулярности:

(1.2) \/(У-Л). (УрЩ), 0*])^*^).

Рг

1.2. Локальность

Локальность соответствует тому, что каждая литера нижнего слова определяется некоторым подсловом верхнего слова. Пусть дано слово и = и,и2...и„ длины п. Это может быть верхнее слово (V) или нижнее слово (V/). Определим ведущую позицию г, 1< г < п. Дана также «маска» = где ^¡е 2,

М;< ••• <Ит- Будем называть позициями. Параметр т назовем размерностью маски т и будем обозначать как |т|, а параметр /ит - /л/ + I назовем протяженностью маски и обозначим как [т]. Определим оператор выбора подсловаг}(1,т,и ):

[0 в противном случае

Пусть имеется система масок М ={ ш,,т2.....тн}. Будем считать, что

Щ ¡А'Иг--^)..... Щ=(М\ Определим одноэлементную

систему масок М^(М) как объединенную маску т такую, что т = \^т/1.

ы

Слова в множестве прецедентов Рг имеют конечную длину, поэтому вводится понятие (ЪД)-корректности функции Р: У(У,Ж)еРг выполнено

Р[У)=№, где щ =^2 =А, и ^=м>.При Ь<1<\У\-Я,

I, Я е N 1){0}. При заданной системе масок М можно предложить два

принципиально различных способа определения границ для описания краевых эффектов: (1) как значений ЦМ) и ЦМ) при которых применимы все маски из и (2) как значений 1(М) и г(М) при которых применима по крайней мере одна маска из М.

Теорема 1.2. (1(М), г(М))-корректная функция также (ЦМ), ЩМ))-корректна. 1(М),г(М)-ко^е.ктостъ гарантирует корректность распознавания на концах верхнего слова, а ЦМ),К(^-корректность необходима для выбора безубыточных систем масок.

В разделе «1.3. Условие существования локальных функций» гипотеза о локальности исследуемой задачи распознавания формулируется как гипотеза о существовании некоторой корректной локальной функции / ->В такой,

что для всякого К=У,У2... у„ и 1У~щ...1л>„ =Ц>2 =■■=А, =... = м>„ = А, а

при 1(М)<1<п-г(М)выполнено щ =/(г] (¡,М^(М),У)).

Таким образом, условие разрешимости задачи распознавания вторичной структуры белка может быть сформулировано следующим образом (критерий локальной разрешимости):

(1.6) =

Рг

1(М)<1<\у\-г(М), 1(М)<]<\Уг\-г(М),

Теорема 1.3. Локальная функция корректная на множестве прецедентов Рг, существует тогда и только тогда, когда выполняется критерий локальной разрешимости.

Следствие 1. Из теорем 1.2 и 1.3 следует критерий локальной (ЦМ), Неразрешимости

Введем критерий локальной разрешимости с использованием отдельных масок:

(1.6") \/тк: М.щУ^М.щУ1) =4

Рг ЧЫ '

1(М)<1<\г'\-г(М), 1(М)<]$уг\-г(М),

Теорема 1.4. Условия (1.6) и (1.6") эквивалентны.

Критерием, определяющим наличие у задачи свойства локальной регулярности будем называть следующее условие:

(1.7) ),(У\¥1 №и),1*]У *У2 ^ф.щУ^Фг^и.щУ1)'

Рг

1(М)<1<У\-г(М), 1(М)<]<\У2\-г(М), «*/,

В разделе «1.4. Разрешимость задачи и монотонность условия разрешимости» рассматривается монотонность условия разрешимости (1.6) по М. В разделе «1.5. 0-тупиковость и тупнковость систем масок» монотонность условия разрешимости рассмотрена с точки зрения тупиковых систем масок.

Если условие (1.6) выполнено для М, но не выполнено для любой МаМ такой, что Мг(М)сМ1(М), то систему масок М назовём 0-тупиковой. Тупиковой назовём такую систему масок, что условие (1.6) нарушается для любой М^М.

По аналогии с задачей упрощения д.н.ф. маску тк, ¡0 б {1..'М} будем называть ядерной, если \ . «Ядерными» системами или подсистемами масок

будем называть М, обладающие свойством ядерности:

(1.8) V1'

(-1 т, ]-1

Теорема 1.5. М- тупиковая система масок тогда и только тогда, когда М обладает свойством ядерности.

Следствие 1. Из тупиковости следует О-тупиковостъ.

Следствие 2. Если в некоторой 0-тупиковой системе масок М имеется ядерная маска , то тк входит во все тупиковые подсистемы М.

Следствие 3. Пусть в 0-тупиковой М есть несколько ядерных масок

т, ,т, (ядерная подсистема). Если некоторая тс , то т не входит ни

¡-и '

в одну тупиковую М.

Теорема 1.5 и её следствия полезны для разработки алгоритмов построения тупиковых М.

Глава 2. Анализ информативности мотивов на основе критерия локальной разрешимости

Критерий локальной разрешимости (1.6, 1.6") соответствует локальной форме задачи распознавания вторичной структуры. Элементарными объектами д

(в дальнейшем, просто «объектами») назовем элементы множества 0,=А ШЩ хВ. Элементами наблюдаемых множеств объектов Ц(РгМ)={Ч!,Ц2, Ы=\<2(РгМ)\ являются пары <?/ = ( т]({,т1(М),У1), ); каждая пара есть совокупность подслова, выбранного по щ(М) в г'-ой ведущей позиции верхнего слова {V1 = , ) и г'-ой литеры нижнего слова = у'-го

прецедента.

Назовем мотивами к элементы множества

К = {(т,У) \ т<Е М, п(У)= \т\ }, Мотив к = [т, V') присутствует в объекте д=(У,ц>), если г}(0,т,У ) = V. Обозначим принадлежность мотива объекту д как к е* <7. Для произвольной пары объектов и <?2 мотив к назовем отличающим, если к присутствует в одном из объектов и отсутствует во втором.

Теорема 2.1. Условие локальной разрешимости задачи выполнено тогда и только тогда, когда для каждой пары объектов = (V, и = О^г >™г) ПРИ / \у2 существует хотя бы один отличающий мотив. Теорема 2.1 позволяет записать условие (1.6") как критерий разрешимости на множестве мотивов:

(2.3) V

Утверждение (2.3) соответствует переходу от задачи 2(Рг, М) к эквивалентной задаче 2(0,, К), в которой в качестве параметров выступают множество объектов Q=Q(Pr, М) и множество мотивов К- К(Рг, М).

В разделе «2.2. Монотонность условия разрешимости и тупиковые системы мотивов» рассмотрена монотонность условия локальной разрешимости в форме (2.3) для нахождения тупиковых множеств мотивов. Изучение монотонности условия (2.3) на множествах мотивов - гораздо более «тонкий» исследовательский инструмент, так как позволяет удалять отдельные мотивы, а не блоки мотивов, как это происходит при удалении масок (раздел 1.5).

В разделе «2.3. Эвристические оценки информативности мотивов»

введено несколько эвристических оценок информативности мотивов, основанных на частотах встречаемости мотивов в различных классах объектов. Оценки информативности Б: позволяют провести редукцию множества мотивов

К(Рг, М). При этом критерий разрешимости изучаемой задачи распознавания (2.3) служит условием, предотвращающим удаление отличающих мотивов, обеспечивающих разрешимость задачи.

Пусть каждый мотив ка& К(Рг, М) входит в состав Щ объектов из б; V? -частота встречаемости значения Ь, еВ. Тогда 0,", оценку информативности а-го мотива по литере Ь,, можно определить как:

(2.4) =

1 при V? <у1

4- ЧР» У7>*1

■V,

На информативность мотива также влияет частота его встречаемости среди объектов, поэтому вводятся такие оценки информативности а-го мотива как

!>,(«; = £ А', £>/«; = (а) и др.

2.4. Информативность мотивов и условие разрешимости

Вводимое О отношение порядка на Д+ порождает линейный порядок на множестве мотивов К(Рг,М). Принцип отбора мотивов в упорядоченном множестве 1(К(Рг,М)) состоит в том, что для каждой пары объектов из <2 находится различающий мотив с наивысшей информативностью.

Теорема 2.2. Множество К ¡с ЦРг.М) является тупиковым тогда и только тогда, когда для каждого мотива из множества К.1 во множестве Q существует хотя бы одна пара объектов, для которой данный мотив - единственный различающий.

В ходе доказательства теоремы 2,2 вводится функция К/ (г, }), находит единственный мотив с максимальным Б, который позволит различить г-ый и у'-ый объекты из

Минимальное множество мотивов К¡, на котором сохраняется разрешимость, Л!'/с К(Рг,М), определяется следующим образом через характеристическую функцию Т(а):

После вычисления Т(а) для всех пар объектов из <3, каждому г-му объекту из <3 соответствует и™ различающих мотивов из К.1, и™ =|{Г('а/) = 1},|. Объекты с п™ =0 назовем «нуль-объектами», а с п™=\ - «1-объектами».

Следствие 1. В общем случае множество К не является тупиковым.

Следствие 2. Тупиковое множество мотивов может быть найдено путём итеративного удаления из К мотивов с наименьшей информативностью.

Следствие 3. Наличие всех нуль-объектов в одном классе - необходимое условие разрешимости задачи.

Следствие 4. Наличие всех нуль-объектов в одном классе - необходимое условие тупиковости К.

Следствие 5. Тупиковость К гарантирована только при постановке задачи в двухклассовой форме.

Теорема 2.2 и ее следствия позволяют вычислить минимальное и тупиковое множества мотивов максимальной информативности.

В разделе «2.5. Об оценках информативности и непротиворечивых множествах объектов» показано, что помимо нахождения тупиковых множеств мотивов эвристические оценки информативности мотивов могут также использоваться для решения важной промежуточной задачи - формирования непротиворечивых множеств объектов.

(2.5)

ШР'М) I

(2.6) Т(а) =

1 ^ 3(и):(К/(и)-*а)

я

0 в противном случае

и

Глава 3. Об использовании критериев локальной разрешимости и регулярности для исследования морфологии первичной структуры

Условие локальной разрешимости задачи на множествах мотивов (выражение 2.3) выполнено тогда и только тогда, когда для каждой пары объектов Ч, = (V, и <7У ~(У 1 ПРИ * ^!Б0 множестве мотивов К существует хотя бы один отличающий мотив (теорема 2.1). Введем численную оценку разрешимости задачи 2(0, К). Пусть Г/= где //=121. а Щ.3} -

множество пар объектов в на котором выполнено условие (2.3) при использовании множества мотивов К. Очевидно, что в разрешимой задаче 2(0, К) всегда выполнено п=1.

Теорема 3.1. Условие локальной регулярности выполнено тогда и только тогда, когда при заданном К для каждой пары объектов из О существует хотя бы один отличающий мотив. Утверждение теоремы эквивалентно условию регулярности на множестве мотивов-.

(3.2) Уъ,д,,1*]=$Зк:{ке'У1)*(ке Г.),

Если задача 1(0, К) - регулярна, то будем называть 0 регулярным множеством объектов, а К - регулярным множеством мотивов. Пусть гд= М(3 2/Н-(Ы-1), где ЛН61» а N(3 2) - множество пар объектов, на котором выполнено условие (3.2). В регулярной задаче 2(0, К) выполнено го=1. Регулярное множество мотивов назовём тупиковым, если условие (3.2) выполнено для К, но не выполнено для любого К' с: К.

Теорема 3.2. В задаче 2(0, К) тупиковое множество мотивов К¡, обеспечивающее разрешимость, является подмножеством тупикового множества мотивов Ко, обеспечивающего регулярность.

Следствие 1. Пусть А| 0 = 1-1 Г\ К0 | / | Кх | - параметр, описывающий соответствие множества К1 множеству Ко. В условиях теоремы Д 1О=0.

Следствие 2. Пусть гх0 = г{(К, П К0). В условиях теоремы г10 =1.

Для редукции наблюдаемого множества мотивов К(0, М) также могут быть использованы введённые в главе 2 эвристические оценки информативности мотивов. В случае тестирования условия регулярности (3,2), оценка информативности мотива может быть определена просто как частота

встречаемости Огч (а) = -г-.

Теорема 3.3. При заданной оценки информативности мотивов множество Ко, обеспечивающее выполнение условия регулярности на множестве объектов Q, является тупиковым тогда и только тогда, когда для каждого мотива из Ков Q существует хотя бы одна пара объектов для которой данный мотив -единственный различающий.

При экспериментальном тестировании регулярности и разрешимости целесообразно проводить усреднение вычисляемых К/ и Ко по различным выборкам объектов одного размера. Для усреднения множеств мотивов вводится za- заполненность элементарного мотива ка при тестировании п выборок объектов, za = Q,)/n ■

У-1..Л

Размер выборки объектов \Q\ является важным параметром, определяющим значения заполненности za конкретных мотивов при данной системе масок. Величины |б| и \K(Q,M)\ определяют мощности множеств мотивов Kj и Kg так, что выполнена

Теорема 3.4. При фиксированном K=K(Q,M), \K0\-f(\K\,\Q\)t причём f -монотонна по \Q\.

Следствие I. г о монотонно возрастает с увеличением \Q\

Следствие 2. Справедливо соответствующее утверждение для разрешимости.

Таким образом, регулярность (и, следовательно, разрешимость) локальной формы задачи гарантирована тупиковыми множествами наиболее информативных мотивов заданной размерности и протяженности. Предложен способ вычисления тупиковых множеств мотивов, обеспечивающих регулярность локальной формы задачи при произвольном множестве прецедентов.

Глава 4. Построение оптимальных В-алфавитов как инструмент исследования морфологии вторичной структуры

В разделе «4.1. Об алфавитах для описания вторичной структуры белка» рассмотрены особенности начальных данных по вторичной структуре белка. Алфавит В может быть определён существенно разными способами: (1) базовые алфавиты, (2) производные алфавиты на основе последовательностей литер базового алфавита, (3) расширение базового алфавита с учетом сегментов вторичной структуры нижнего слова.

Базовый алфавит типа В можно определить как трехбуквенный, т=|В|=3, В={Н, S, L}, где "Н" (от англ. helix) обозначает конфигурацию типа «спираль»; "S" (strand) обозначает конфигурацию «стрэнд» (плоский вытянутый участок белковой цепи) и "L" (loop) - участок произвольной структуры, т.е. не-Н и не-S. Этот

трехбуквенный алфавит отображает принципиально различные трехмерные пространственные конфигурации, которые может принимать тот или иной участок белковой цепи.

Возможно определение производного алфавита В через пары букв базового В-алфавита. Экспертный анализ частот встречаемости этих пар букв позволил сделать несколько важных выводов о сегментной структуре нижних слов.

Возможно расширение базового алфавита с учетом сегментной структуры нижних слов. С физической точки зрения, такой расширенный алфавит позволяет подчеркнуть различия в пространственных конфигурациях индивидуальных аминокислотных остатков вдоль белковой цепи. Например, литера L'H расширенного алфавита соответствует последней (англ. «end») литере сегмента петли .. .LLL, который переходит в спиральный ННН... сегмент.

В разделе «4.2. Сложность В-алфавита и критерий локальной

разрешимости» рассматривается вопрос о том, насколько целесообразно

усложнять описание В-алфавита с точки зрения сформулированного ранее критерия локальной разрешимости,

Алфавит BP есть расширение базового алфавита В6, если существует такая функция fB : BP В6, что ею определяется однозначный перевод всех литер алфавита В" в соответствующие литеры алфавита В6.

Теорема 4.1, Расширение В-алфавита может приводить к потере локальной разрешимости задачи Z(Pr, М).

С одной стороны, использование расширений В-алфавита с целью некоторого более точного описания структуры нижнего слова может приводить к потере разрешимости. С другой стороны, если пренебречь структурой нижних слов и использовать при постановке задачи распознавания некоторый базовый В-алфавит, то будет происходить потеря ценной информации о сегментной структуре нижних слов прецедентов. Нахождение оптимального В-алфавита (В-словаря) становится возможным с введением принципа максимального покрытия ведущих позиций в известных вторичных структурах В-словами максимально возможной длины.

4.3. Принцип максимального покрытия ведущих позиций

Пусть имеется множество прецедентов Рг. Для упрощения изложения формализма проведём конкатенацию верхних и нижних слов прецедентов так, что образуется одноэлементное множество прецедентов Рг', содержащее прецедент P=(V, W), где W- нижнее слово прецедента Р и = | V\ = | W] = N, N>0.

Пусть имеется базовый алфавит В={Ьп Ь}, .... Обозначим множество

со

слов длины п как В", тогда множество В1 содержит все слова Д

ы

образованные над алфавитом В. Длину символьной последовательности слова /? обозначим Щ. Однородным сегментом будем называть слово, являющееся повтором единственной литеры алфавита В. Однородному сегменту /? соответствует образующая литера Ьф). Набор слов, комбинацией которых можно получить нижнее слово IV, будем называть В-словарём или словарём В, Лей, Ве В где ¿-множество всех В-словарей.

Лемма 4.2. Существуют В-словари, состоящие только из однородных слов.

Оптимальным В-словарём будем называть словарь В* ={Д\/?2\...,Д',...}, содержащий минимальное число элементов (слов) в алфавите В при максимальной длине каждого элемента:

(4.1) В' -оптимален, если

• тах

р* | -> min

VA'- |А'|-

.в'

Слово ß покрывает позицию i в W по маске т если ri(i,m,W) = ß. Определим оператор покрытия ведущих позиций Г(Р, ß,), который для элемента

ß, произвольного B={ß,,ß2.....ß,,...}, ВаВ формирует подмножество ведущих

позиций в Р такое, что f(P, ß,) = {¡[7 (i,m ,W) = ß,}, где m = {«, ,/i2.-} -произвольная маска, удовлетворяющая условию \т\ = [w]=j/?,|.

Лемма 4.3. Для однородных ß мощность множества покрытых позиций ^'(W,/?)) монотонно убывает с возрастанием \ß\.

Назовём частичным или ф-покрытием нижнего слова Ш такое множество

В{ ={/?/} для которого выполнено условие частичного покрытия:

(4.2)

vi

Для заданных В( выражение (4.2) позволяет оценить значение так что §= УГ). Покрытием нижнего слова И7 назовём множество В с В для которого !;( В, IV )= 1. В соответствии с определением 5-словаря, любое покрытие В является словарём, т.е. В<=В.

Лемма 4.4. ^ /'(Ж,/?,) > - необходимое условие покрытия.

Следствие 1. Утверждение леммы справедливо для частичного покрытия. Следствие 2. Любое В для которого ^ р, )|<|^| не является

ы

покрытием.

С целью сокращения перебора подмножеств множества 5-слов

п

В(п) с У В 'вводится условие максимального покрытия ведущих позиций элементами покрытия В:

(4.3) |/>,/?) ]->тах

в

Теорема 4.5. Условие максимального покрытия ведущих позиций -необходимое условие оптимальности словаря.

В ходе доказательства теоремы вводится понятие ¿(^-покрытия ¡¿г(В(п)) =

(4.4)

Следствие 1. При фиксированном у, мощность словаря 1^(В(п)) монотонно возрастает с увеличением С

тупиковым покрытием ВТ будем называть такое ^-покрытие, при котором (4.3) выполняется для Вти не выполняется для любого В'с.Вт.

Теорема 4.6. 6(ф-покрытия содержат тупиковые покрытия.

уразбиением нижнего слова Ж назовём ^-покрытие В( г ={р?'г} для которого выполнено условие у-разбиения:

Теорема 4.7. разбиение является тупиковым покрытием. Следствие. у-разбиения - подмножества 5 (£)-покрытий. Принципом максимального покрытия назовём утверждение о максимальном вкладе а-го элемента р'вл-г ^у-разбиения Вш с 1щ0(п)) в покрытие нижнего слова IV:

(4.6)'ул р < ,(В/1г, „в))| > , 1(В1и.\ ..а -1)) и\\w.p, )|

Теорема 4.8. Оптимальный словарь В* является ^-разбиением, В е Щ), построенным на основе принципа максимального покрытия.

Построенный на основании предлагаемого формализма алгоритм нахождения оптимальных словарей выглядит следующим образом. Для заданных п (10..40), % (0.9..1.0) и у (0..0.1) строится список 1(В(п)) и в этом списке выделяются §(£)-покрытия, формирующие список 1(Л(<0). На основание списка ¿^-покрытий строятся ^-разбиения 1(Г(£)), из которых по условию (4.1) выбираются оптимальные.

Глава 5. Экспериментальное тестирование разрабатываемого формализма

В разделе «5.1. Формирование непротиворечивых множеств объектов»

описано формирование непротиворечивого множества объектов в соответствии с методикой, предложенной в разделе 2.5. В проведенных экспериментах, в качестве множества прецедентов были использованы все 165,000 прецедентов, представленные в базе данных РБВ на октябрь 2011. Исследовались выборки из 10000, 20000, 30000, 50000, 100000, 200000 объектов, сформированные путем случайного отбора объектов без возвращения. Локальная регулярность задачи также тестировалась на множествах объектов, полученных на основе всех известных аминокислотных последовательностей в базе данных ЦШРЯОТ, в которой присутствует 15 млн. попарно различных последовательностей общей длиной в 5-109 литер (данные на август 2011).

В разделе «5.2. Комбинаторное тестирование критерия локальной разрешимости» представлены результаты экспериментального тестирования условия локальной разрешимости на множествах мотивов (глава 2). Вычисления Т(а) показали, что предложенный формализм позволяет значительно сократить множество мотивов К(Рг, М) с получением тупиковых К/ без потери разрешимости. Например, в К(Рг(|С)|=200000), м;3) содержалось 201000 мотивов. Число отобранных мотивов (т.е. {Т(а)=1}|) составило -25000.

Логарифмический характер зависимости числа отобранных мотивов от |(}| позволяет предположить, что высокая эффективность редукции множества мотивов сохранится и при значительно больших

Результаты анализа указывают на существование некоторого «ядра» в тупиковых множествах мотивов. Мотивы, входящие в такое «ядро», обеспечивают разрешимость на большинстве пар объектов. Полная разрешимость достигается добавлением к «ядру» некоторых низкоинформативных мотивов, каждый из которых обеспечивает разрешимость всего лишь на нескольких парах объектов.

Исследование заполненности мотивов га во множествах К/, полученных для разных 0 одного размера показало, что чем выше информативность мотива (т.е. чем ниже а), тем более вероятно, что мотив входит в тупиковое К], построенное на произвольном Мотивы с заполненностью 1.0 (т.е.

встречающиеся в Kt, построенном на произвольном Q) обеспечивают разрешимость 90% пар объектов.

В разделе «5.3. Комбинаторное тестирование критерия локальной регулярности» представлены результаты экспериментов по вычислению тупиковых множеств мотивов, обеспечивающих регулярность задачи Z(Q, К). Тестирование разрешимости и регулярности показало, что наилучший результат (в соответствии со значениями параметра оценки разрешимости ги Глава 3) показала система масок Mj (rj=0.94±0.01; |б|=2-105). Для данной системы масок г¡>0.99 достигалось при минимальной заполненности мотивов =0.7.

Результаты тестирования выполнимости условия регулярности на выборках из PDB и UNIPROT с использованием DnJa) показало, что параметр Л,„ имел

наименьшее значение (Д,0=0.005±0.003) в системах масок MJ и М|, При этом, множества вида {ка S (К/ п К0)¡z„=l} обеспечивали различение 0.9995 пар объектов по критерию регулярности (3.2). В системе масок Mj значение г0 достигало 0.99 при ]Q|=7-105 в то время как г|0 показало более медленный рост fapO.99 при |Q|=1.2-106). Замедленный рост г10 связан с тем, что мотивы, содержащиеся в структурах кристаллизованных белков, встречаются намного реже в произвольной выборке аминокислотных последовательностей.

Тупиковые множества мотивов, получаемые в результате тестирования критерия (3.2), характеризуют морфологию или, в некотором смысле, «структуру» аминокислотных последовательностей. Более чем дня 90% объектов, мотивы Ко покрывают не все позиции объекта, выделяя тем самым некоторые «информативные» позиции аминокислотной последовательности, соответствующие «информативным» мотивам.

В разделе «5.4. Построение оптимальных B-словарей» представлены результаты экспериментов по определению словарей из элементов фиксированной длины и словарей элементов различных длин. При построении B-словарей как разбиений (теорема 4.8) использовались значения и< 10, i;=0.95 и у=0. На основании расчётов для ц выборок вычислялась заполненность z(B) каждого из полученных словарей В (если словарь В был найден в гц из ц исследованных множеств вторичных структур, то его заполненность г(В)= ц/ц). Несмотря на то, что было найдено более 50 оптимальных словарей, эксперименты позволили установить всего 7 словарей с заполненностью 1.0. Наибольший интерес представляет оптимальный словарь {ННННН, LLLLL, SSSSS, LLSSS}.

В качестве иллюстрации перспектив практического применения разрабатываемого формализма, в разделе «5.5. Эмпирическая схема распознавания вторичной структуры» предложена эмпирическая схема распознавания вторичной структуры белка и приводятся результаты тестирования

полученной эвристики на множествах непротиворечивых прецедентов. Использованная схема распознавания вторичной структуры была основана на принципе голосования. Несмотря на очевидную примитивность предлагаемой схемы распознавания, в кросс-валидации была достигнута аккуратность распознавания QStotaf= 0.84±0.02 при одинаковых весах мотивов. Использование весов мотивов (нормализованные значения Dz(a)) и оптимального В-словаря {ННННН, LLLLL, SSSSS, LLSSS} приводило к повышению аккуратности распознавания (Q3lotai =0.89±0.025). Наиболее значимым недостатком данной схемы распознавания является заметное количество отказов от распознавания (т.е. ответ «А», неопределённость) для 15..20% позиций произвольной первичной структуры.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Torshin I.Y. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006. Nova Biomedical Books, NY, ISBN: 1-60021-048

2. Рудаков K.B., Торшин И.Ю. Вопросы разрешимости задачи распознавания вторичной структуры белка. Информатика и её применения, Т.4., № 2,2010, с. 25-35.

3. Рудаков КВ., Торшин И.Ю. Анализ информативности мотивов на основе критерия разрешимости в задаче распознавания вторичной структуры белка. Информатика и её применения, Т. 5, № 4,2011, с. 40-50.

4. Журавлёв Ю.И., Рудаков К.В., Торшин И.Ю. Алгебраические критерии локальной разрешимости и регулярности как инструмент исследования морфологии аминокислотных последовательностей. Труды МФТИ. - 2011 -Т.З. № 4, с.67-76.

5. Рудаков К.В., Торшин И.Ю. Об отборе информативных значений признаков на базе критериев разрешимости в задаче распознавания вторичной структуры белка. ДАН, 2011, Т. 441, № 1, с.1-5.

6. Torshin I. Yu. On solvability, regularity, and locality of the problem of genome annotation. Pattern Recognition and Image Analysis, 2010, V. 20(3): 386-395.

7. Рудаков K.B., Торшин И.Ю. О разрешимости формальной задачи распознавания вторичной структуры белка. ММРО-14, Суздаль, 21-25 сентября, 2009, С. 596-597.

8. Торшин И.Ю. Анализ мотивов в задаче распознавания вторичной структуры белка на основе критерия разрешимости. Международная конференция «Интеллектуализация обработки информации» (ИОИ-8), Кипр, г. Пафос, 17-23 октября 2010 г, с.487-490.

9. Торшин И.Ю. Критерии локальной разрешимости и регулярности в анализе данных аминокислотных последовательностей. ММРО-15, Петрозаводск, 11-17 сентября, 2011, С. 590-594.

Напечатано с готового оригинал-макета

Подписано в печать 10.11.2011 г. Формат 60x90 1/16. Усл.печл. 1,0. Тираж 100 экз. Заказ 476.

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Тел. 939-3890. Тел./факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к.

Заключение диссертация на тему "Модели и алгоритмы обнаружения локальных закономерностей в задаче распознавания вторичной структуры белка"

6. Заключение

Проблема создания методов анализа данных, позволяющих проводить формально точный анализ данных на базе алгебраических критериев разрешимости и регулярности, является актуальной. Задачей настоящего исследования являлась разработка методов анализа данных на основе комбинаторного тестирования критериев разрешимости и регулярности и применение разрабатываемых методов для решения проблемы отбора информативных локальных закономерностей в задаче распознавания вторичной структуры белка.

В настоящей работе сформулированы основы проблемно-ориентированной теории для формального описания задачи распознавания вторичной структуры белка. Получены критерии разрешимости, регулярности и локальности исследуемой задачи. Введены ключевые понятия (мотив, оценка информативности мотива, порядок на мотивах), < ; позволяющие использовать разрабатываемый формализм для анализа > реально существующих множеств прецедентов. Показано, что разрешимость и регулярность локальной формы задачи позволяют находить тупиковые множества наиболее информативных мотивов.

Приведены результаты экспериментов по тестированию разрешимости и регулярности задачи, в ходе которых были установлены тупиковые множества мотивов, обеспечивающие регулярность локальной формы задачи при произвольном множестве прецедентов. Эксперименты указали на существование некоторого «ядра», мотивы которого обеспечивают разрешимость на большинстве пар объектов. Полная разрешимость достигается добавлением к «ядру» некоторых низкоинформативных мотивов, каждый из которых обеспечивает разрешимость всего лишь на нескольких парах объектов.

Предложен алгоритм построения оптимальных алфавитов для описания вторичной структуры белка на основе принципа максимального покрытия ведущих позиций. Исследованы различные алфавиты для описания вторичных структур и показано, что оптимальным является 4-элементный В-алфавит, состоящий из 5-буквенных слов. Сформулирована эмпирическая схема распознавания вторичной структуры белка на основе алгоритма голосования. Показано, что использование оптимального 4-элементного В-алфавита позволяет повысить аккуратность распознавания.

Установлены перспективные направления дальнейших исследований: создание теоретико-множественного обоснования оценок информативности, введение комбинаторных оценок значений, исследование ядерной эквивалентности функций-предикторов, построенных на мотивах.

Нахождение тупиковых множеств наиболее информативных мотивов по критерию локальной разрешимости необходимо для следующего этапа настоящего исследования - синтеза алгоритмов в рамках алгебраического подхода к распознаванию.

Библиография Торшин, Иван Юрьевич, диссертация по теме Теоретические основы информатики

1. Журавлев Ю.И. Теоретико-множественные методы в алгебре логики. Проблемы кибернетики, 1962, 8(1), 25-45.

2. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. I. Кибернетика. 1977. № 4. С. 5-17.

3. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. II. Кибернетика. 1977. № 6. С. 21-27.

4. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. III. Кибернетика. 1978. № 2. С. 35-43.

5. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классиикации. Проблемы кибернетики. Вып. 33. М.: Наука, 1978. С. 5-68.

6. Журавлев Ю.И., Рудаков К.В. Об алгебраической коррекции процедур обработки (преобразования) информации. Проблемы прикладной математики и информатики. М.: Наука, 1987. С. 187-198.

7. Рудаков К.В. Универсальные и локальные ограничения в проблеме, коррекции эвристических алгоритмов. Кибернетика. 1987. № 2. С. 30-35. ' I/'

8. Рудаков К.В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации. Кибернетика. 1987. №3.С. 106-109.

9. Рудаков К.В. Симметрические и функциональные ограничения в проблеме коррекции эвристических алгоритмов классификации. Кибернетика. 1987. №4. С. 73-77.

10. Рудаков К.В. О применении универсальных ограничений при исследовании алгоритмов классификации. Кибернетика. 1988. № 1. С. 1-5.

11. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, 2009, ISBN: 978-1-60692-217

12. Kelley LA, MacCallum RM & Sternberg MJE (2000). Enhanced Genome Annotation using Structural Profiles in the Program 3D-PSSM. J. Mol. Biol. 299(2), 501-522

13. McGuffin, L.J. & Jones, D.T. (2003) Benchmarking protein secondary structure prediction for protein fold recognition. Proteins: Structure, Function and Genetics, 52, 166-175.

14. Jones, D.T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292, 195-202.

15. Ward, J.J., McGuffin, L.J., Buxton, B.F. & Jones, D.T. (2003) Secondary structure prediction using support vector machines. Bioinformatics, 19, 16501655.

16. Torshin I.Y. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006. Nova Biomedical Books, NY, ISBN: 1-60021-048

17. Garnier J, Osguthorpe DJ, Robson В (1978). "Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins". J Mol Biol 120 (1): 97-120.

18. Шульц Г., Ширмер P. Принципы структурной организации белков. М., Мир, 1982, 250 с.

19. Orengo СА, Bray JE, Hubbard Т, LoConte L, Sillitoe I. Analysis and assessment of ab initio three-dimensional prediction, secondary structure, and contacts prediction. Proteins. 1999;Suppl 3:149-70.

20. Venclovas C, Zemla A, Fidelis K, Moult J. Comparison of performance in successive CASP experiments. Proteins. 2001;Suppl 5:163-70.f g

21. Aloy P, Stark A, Hadley C, Russell RB. Predictions without templates: new folds, secondary structure, and contacts in CASP5. Proteins. 2003;53 Suppl 6:436-56.

22. Vincent J J, Tai CH, Sathyanarayana BK, Lee B. Assessment of CASP6 predictions for new and nearly new fold targets. Proteins. 2005;61 Suppl 7:6783.

23. Jauch R, Yeo HC, Kolatkar PR, Clarke ND. Assessment of CASP7 structure predictions for template free targets. Proteins. 2007;69 Suppl 8:5767.

24. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (October 1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403-410.

25. Рудаков K.B., Торшин И.Ю. Вопросы разрешимости задачи распознавания вторичной структуры белка. Информатика и её применения, Т.4., № 2,2010, с. 25-35.

26. Simossis V.F., Herringa J. Integrating protein secondary structure prediction and multiple sequence alignment.//Curr Protein Pept Sci. 2004,5(2):249-266.

27. Рудаков K.B., Торшин И.Ю. Анализ информативности мотивов на основе критерия разрешимости в задаче распознавания вторичной структуры белка. Информатика и её применения, Т. 5, № 4, 2011, с. 40-50.

28. Журавлёв Ю.И., Рудаков К.В., Торшин И.Ю. Алгебраические критерии локальной разрешимости и регулярности как инструмент исследования морфологии аминокислотных последовательностей. Труды МФТИ. 2011 -Т.З. № 4, с.67-76.

29. Рудаков К.В., Торшин И.Ю. Об отборе информативных значений признаков на базе критериев разрешимости в задаче распознавания вторичной структуры белка. ДАН, 2011, Т. 441, № 1, с. 1 -5.

30. Torshin I. Yu. On solvability, regularity, and locality of the problem of genome annotation. Pattern Recognition and Image Analysis, 2010, V. 20(3): 386-395.

31. Рудаков K.B., Торшин И.Ю. О разрешимости формальной задачи распознавания вторичной структуры белка. ММРО-14, Суздаль, 21-25 сентября, 2009, С. 596-597.

32. Торшин И.Ю. Анализ мотивов в задаче распознавания вторичной структуры белка на основе критерия разрешимости.^ Международная; конференция «Интеллектуализация обработки информации» (ИОИ-8), Кипр, г. Пафос, 17-23 октября 2010 г, с.487-490.

33. Торшин И.Ю. Критерии локальной разрешимости и регулярности в анализе данных аминокислотных последовательностей. ММРО-15, Петрозаводск, 11-17 сентября, 2011, С. 590-594.

34. Berman Н. М., Henrick К., Nakamura Н. Announcing the worldwide Protein Data Bank // Nature Structural Biology, 2003. Vol. 10 No. 12. P. 980982.

35. Frishman D, Argos P. Knowledge-based protein secondary structure assignment. Proteins. 1995, 23(4):566-79.

36. Рудаков K.B. О проблемах классификации значений признаков в задачах распознавания. Международная конференция «Интеллектуализация обработки информации» (ИОИ-8), Кипр, г. Пафос, 17-23 октября 2010 г.

37. Воронцов К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. —271 с.

38. Furnkranz J., Flach P. A. Roc 'n' rule learning-towards a better understanding of covering algorithms // Machine Learning.— 2005.— Vol. 58, no. 1.—Pp. 39-77.

39. The UniProt Consortium.Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res. 39: D214-D219 (2011).