автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методы распознавания образов в массивах взаимосвязанных данных

доктора физико-математических наук
Двоенко, Сергей Данилович
город
Москва
год
2001
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методы распознавания образов в массивах взаимосвязанных данных»

Оглавление автор диссертации — доктора физико-математических наук Двоенко, Сергей Данилович

Введение.

1. Проблема распознавания образов в анализе массивов взаимосвязанных данных

1.1. Массивы взаимосвязанных данных и задачи их анализа.

1.2. Специфика задачи распознавания образов в массивах взаимосвязанных данных.

1.3. Методы распознавания событий в сигналах со сложной структурой

1.4. Проблема малой выборки и методы регуляризации процесса обучения. . .;,.

1.5. Основные задачи исследования.

2. Вероятностный подход к распознаванию взаимосвязанных объектов

2.1. Граф смежности совокупности взаимосвязанных объектов.

2.2. Скрытое марковское случайное поле принадлежностей объектов к классам

2.3. Локальные (индивидуальные) апостериорные вероятности классов объектов

2.4. Апостериорное марковское случайное поле классов совокупности взаимосвязанных объектов.

2.5. Трудности реализации оптимальных решающих правил распознавания для произвольного графа смежности взаимосвязанных объектов

3. Процедуры распознавания для древовидных совокупностей взаимосвязанных объектов.

3.1. Априорное и апостериорное древовидные марковские поля.

3.2. Процедура фильтрации.

3.3. Процедура интерполяции.

3.4. Древовидная аппроксимация решетчатых графов смежности.

4. Процедуры обучения: восстановление функций локальных апостериорных вероятностей классов в пространстве признаков.

4.1. Обучение на основе метода опорных векторов.

4.2. Обучение на основе восстановления функций апостериорных вероятностей классов.

4.3. Прямое восстановление апостериорных вероятностей классов.

5. Обучение распознаванию линейно упорядоченных совокупностей взаимосвязанных объектов.

5.1. Вероятностная задача распознавания потока событий.

5.1.1. Распознавание скрытой марковской последовательности случайных событий.

5.1.2. Распознавание марковского случайного поля с цепочечным графом смежности элементов.

5.2. Детерминистская задача распознавания последовательности событий

5.2.1. Задача обучения и разделимость обучающего множества.

5.2.2. Алгоритмы обучения.

5.2.3. Формирование признаков.

5.2.4. Последовательное распознавание событий.

5.2.5. Источник кривых и граф возможных решений о классах событий.

5.2.6. Алгоритм распознавания.

6. Обучение распознаванию образов в пространствах взаимосвязанных признаков.:.

6.1. Природа пространств взаимосвязанных признаков.

6.2. Требование гладкости решающего правила как метод регуляризации при обучении распознаванию образов по малым выборкам

6.3. Построение оптимальной разделяющей гиперплоскости по методу опорных векторов с учетом гладкости решающего правила.

6.4. Восстановление функций апостериорных вероятностей классов с учетом критерия гладкости.

6.5. Выбор величины штрафа на негладкость решающего правила.

6.6. Регуляризация с учетом коррелированное™ признаков.

7. Обучение распознаванию образов в пространствах признаков парных отношений между объектами.

7.1. Пространство признаков парных отношений между объектами.

7.2. Оптимальное линейное решающее правило распознавания.

7.3. Регуляризация решающего правила по критерию гладкости.

7.4. Кластерные методы регуляризации.

8. Обучение распознаванию зон коллекторов нефти и газа в монолитных породах по данным сейсморазведки с использованием результатов испытаний скважин

8.1. Проблема сейсмической разведки месторождений нефти и газа в монолитных породах.

8.2. Текстурные признаки локальных коллекторских свойств породы в массивах данных сейсмической разведки.

8.3. Обучение распознаванию зон коллекторов с использованием скважинной информации в качестве данных учителя.

8.4. Прогноз зон коллекторов в фундаменте месторождения Бомбей

9. Обучение распознаванию классов пространственной структуры белков

9.1. Проблема распознавания классов пространственной структуры белков.:.

9.2. Формирование пространства признаков.

9.3. Исходные данные и результаты предварительных исследований

9.4. Улучшение надежности распознавания.

Основные научные результаты работы.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Двоенко, Сергей Данилович

В классической задаче распознавания образов [1-4. 7, 8, 13,31. 34. 40. 82, 84, 89- 91. 1 18, 123, 151. 152] рассматриваются неделимые объекты, каждый из которых целиком принадлежит к одному из конечного числа классов. Задачей наблюдателя является определение скрытого класса предъявленного объекта по вектору его признаков.

В такой постановке молчаливо предполагается, что предъявляемый объект реально может существовать отдельно от других объектов. Тогда естественным образом возникает предположение о независимости неделимых объектов, образующих распознаваемую совокупность. Поэтому в классической задаче распознавания, в частности, не делается никаких предположений о порядке предъявления объектов.

В то же время существует множество практических задач, в которых объектами распознавания являются, например, моменты измерения характеристик некоторого развивающегося во времени процесса или характеристики локальных участков некоторой распределенной в пространстве среды. В таких задачах множество всех объектов, подлежащих распознаванию, составляет некоторый единый массив, обусловленный природой исследуемого явления - его протяженностью во времени или в пространстве.

К объектам такого массива очевидным образом применимы понятия «смежности», «соседства», «упорядоченности». В частности, это приводит к тому, что порядок предъявления объектов становится чрезвычайно важным. Как следствие, возникает отсутствующее в классической постановке принципиально новое свойство распознаваемой совокупности - взаимосвязанность составляющих ее объектов.

Рассмотрим простой пример. Известно, что мужчины, как правило, выше, чем женщины, хотя молено привести много примеров отклонений, порой весьма значительных, в ту или другую сторону. Допустим, нам указывают рост взрослого человека и просят определить, мужчина это или женщина

Очевидно, что мы будем довольно часто ошибаться, пытаясь разделить их только по росту, делая 30 - 40 % ошибок, а то и больше.

Представим теперь, что мужчины и женщины выстроены вдоль одной линии так, что наблюдатель может издалека воспринимать только их рост. Если они хаотично перемешаны в этом строю, то доля ошибок при определении пола будет столь же велика, как и при индивидуальном предъявлении значения роста каждого человека.

Однако если строй образован так, что, например, сначала идут мужчины, а затем женщины, и это известно наблюдателю, то он легко заметит, что начиная с некоторой позиции среднее значение случайным образом колеблющегося роста изменится, причем будет хорошо видно, с какой стороны средний рост больше. Решающее правило распознавания очевидно: все люди с той стороны от замеченного изменения, где рост в среднем выше, являются мужчинами, а с другой стороны - женщинами. Скорее всего, наблюдатель ошибется в определении точного положения скачка среднего роста в строю, и неправильно определит пол нескольких индивидуумов в районе скачка. Тем не менее, случайная величина этой ошибки не будет зависеть от длины последовательности слева и справа от нее, а доля ошибок будет стремиться к нулю при увеличении длины строя.

Очевидно также, что число ошибок можно уменьшить, если будет известно, что мужчины и женщины образуют не очень короткие чередующиеся группы. Доля ошибок будет тем меньше, чем будут длиннее такие группы, хотя теперь она уже не будет бесконечно уменьшаться при неограниченном увеличении числа людей в строю.

Рассмотрим теперь более сложную ситуацию, когда люди стоят не в линейном строю, а заполняют некоторую площадку. Опять же, вероятность ошибки распознавания пола остается столь же большой, как и при индивидуальном предъявлении значений роста, если мужчины и женщины хаотично перемешаны на площадке, но существенно снизится, если известно, что они образуют достаточно большие вплотную примыкающие друг к другу сплошные группы, состоящие только из мужчин и только из женщин.

Типичным примером практической задачи, в которой объекты распознавания упорядочены в виде прямоугольного массива в трехмерном пространстве, является задача разведки запасов нефти и газа в так называемом кристаллическом фундаменте земной мантии [50, 120, 131]. Данная задача решается путем совместной интерпретации прямой информации о пространственном положении резервуаров, полученной из редкой сети чрезвычайно дорогостоящих разведочных скважин, и косвенной информации из массива относительно дешевых сплошных пространственных данных сейсмической разведки, регистрируемого непосредственно на дневной поверхности. Локальные свойства отраженных сейсмических сигналов играют роль признаков принадлежности каждой точки в массиве породы к классу так называемых «коллекторов», то есть областей подземного пространства, способных аккумулировать жидкости и газы, а редкие прямые скважинные данные служат в качестве информации учителя.

Богатым источником примеров задач распознавания образов, в которых объекты распознавания упорядочены вдоль оси одного аргумента, например, времени, пространственной координаты или частоты, являются задачи анализа экспериментальных сигналов, обладающих сложной структурой [53-55, 67-71]. Предполагается, что на зарегистрированном экспериментальном сигнале, в общем случае'векторном, в некоторые моменты проявляются характерные возмущения, которые понимаются как события одного или нескольких классов. Основываясь на информации учителя, который указал на обучающем сигнале некоторые события интересующих его классов, необходимо научиться восстанавливать всю последовательность событий этих классов на других экспериментальных сигналах, предъявляемых для обработки. Задачами такого типа являются, например, задачи медицинской диагностики, связанные с анализом электрокардиограмм [11,74], фонокардиограмм [99] и электроэнцефалограмм [93. 98], задачи мониторинга сейсмической активности, приводящие к необходимости распознавания вступлений продольных и поперечных волн на сейсмограммах [52, 75, 76, 81], задачи исследования слоистости толщи осадочных пород по каротажным кривым, зарегистрированным в разведочных скважинах [16, 33], задачи распознавания отдельных слов и слитной речи на основе анализа динамики изменения спектральных признаков речи и сопоставления с эталонами [14].

Представляется естественным выразить специфику взаимосвязи объектов в составе совокупности конкретного типа специфическим бинарным отношением соседства на множестве объектов при априорном предположении, что соседние объекты чаще всего принадлежат одному и тому же классу.

Следует подчеркнуть, что такое понимание «соседства» призвано скорректировать недостаток информации в признаках, которые могут недостаточно корректно отражать свойства изучаемых объектов (но часто других признаков просто нет), а не наоборот, когда по сходству значений признаков судят, в итоге, о сходстве и структуре взаимоотношений представляемых ими объектов (обычная ситуация в кластер-анализе).

Очевидно, что использование априорной информации о взаимозависимости классов объектов в едином массиве данных должно позволить существенно снизить долю ошибок распознавания по сравнению с классической ситуацией, когда объекты изолированы, а их классы априори независимы.

До сих пор мы говорили о взаимосвязи между объектами распознавания, предъявленными в виде единой совокупности, в противовес классической теории, рассматривающей лишь изолированные объекты. С другой стороны, в классической задаче распознавания образов обучение проводится в пространстве изолированных признаков, для которых не предполагается существования каких бы то ни было структурных отношений между ними.

Следует отметить, что проблема выбора признакового пространства обучения является актуальной с самого возникновения задачи распознавания образов как отдельной теории. Все развитие теории распознавания образов тесно связано с проблематикой определения размерности пространства, конструированием и выбором наиболее подходящих признаков, изучением их взаимосвязей [1, 7, 28, 32, 42, 46, 51, 80, 86-88].

Тем не менее, наличие проблемы выбора признаков никак не о тражено в постановке классической задачи распознавания образов: считается, что к этому моменту признаковое пространство уже сформировано. Отметим, что в известных алгоритмах распознавания, основанных на вычислении оценок [35-39], используются различные подмножества («опорные» множества) множества исходных признаков. Это позволяет нам здесь, в целом, считать, что в этом случае проблема выбора признаков фактически сведена к использованию всевозможных подмножеств исходного множества признаков, причем подмножества признаков также сформированы до задачи распознавания образов.

В то же время существует широкий класс практических задач, в которых признаки объектов распознавания сами могут рассматриваться как элементы некоторого упорядоченного массива. Упорядоченность его элементов относительно друг друга позволяет говорить о соседстве таких элементов, т.е. об их смежности. Естественное предположение, что соседние элементы, скорее всего, более похожи друг на друга, чем на остальные элементы, является важной априорной информацией об искомом решающем правиле. Эту информацию необходимо использовать для регуляризации процесса обучения, особенно в условиях малых выборок.

Яркими примерами таких задач являются задачи распознавания сигналов, каждый из которых представлен последовательностью измерений одной и той же физической величины вдоль некоторой оси, которые рассматриваются как совокупность непосредственных признаков сигнала [64,65. 101]. Строго говоря, сигналами называют только последовательности измерений вдоль оси времени, но мы используем здесь этот термин в несколько более широком смысле, допуская что роль аргумента может играть переменная любой природы, например, пространственная координата, частота и т.п.

Признаки такого рода оказываются естественным образом упорядоченными вдоль последовательности их порядковых номеров. В классических методах обучения распознаванию образов нумерация признаков не имеет значения. Но в данном случае порядок весьма важен, поскольку такие сигналы, если они обладают, например, явно выраженной гладкостью, порождаю! преимущественно «гладкие» векторы признаков.

Упорядоченность признаков обусловливает упорядоченность компонент направляющего вектора разделяющей гиперплоскости, что следует рассматривать как существенную особенность задачи распознавания сигналов. Естественная гладкость векторов признаков означает, что соседние признаки несут почти одинаковую информацию о принадлежности объекта к определенному классу. Предположение о гладкости признаков эквивалентно принятию тезиса о существовании априорной информации о значениях соседних элементов искомого направляющего вектора разделяющей гиперплоскости, который теперь следует искать прежде всего среди достаточно гладких последовательностей. Такое смещение акцента поиска следует использовать как регуляризующий фактор при построении алгоритмов обучения распознаванию сигналов.

В качестве примера задачи распознавания образов, в которой в едином массиве данных упорядочены как объекты распознавания, так и их признаки, можно привести рассмотренную выше задачу поиска зон коллекторов нефти и газа в массивах кристаллического фундамента по данным сейсмической разведки [50. 120, 131]. В качестве признаков локальной текстуры трехмерного массива сейсмических данных удобно использовать локальные спектры, как сейсмических сигналов (одномерных вертикальных сечений), так и одномерных горизонтальных сечений массива, которые, в свою очередь, являются сигналами, упорядоченными вдоль оси частоты 1120. 131 ]. Таким образом, массив данных сейсмической разведки после обработки, направленной на оценивание локальных спектров пространственной сейсмической текстуры, представляет собой уже не трехмерный, а, по крайней мере, четырехмерный массив, в котором по первым трем осям упорядочены точки подземного пространства (объекты распознавания), а по дополнительной четвертой оси упорядочены их признаки, в качестве которых выступают отдельные спектральные составляющие текстуры.

На первый взгляд, несколько менее очевидным, но, в сущности, не менее ярким примером наличия внутренней структуры на множестве признаков является задача построения решающего правила распознавания класса пространственной структуры полимерной молекулы белка по исходной последовательности составляющих ее аминокислотных остатков [94, 95, 100, 102, 104-107, 1 1 1, 1 14, 119, 122, 126, 132, 133, 135, 136, 149, 153], чрезвычайно актуальная в современной биоинформатике. При обучении распознаванию класса пространственной структуры удобно строить вектор признаков каждого отдельного белка в составе обучающей выборки белков с заранее известной структурой как совокупность относительно легко вычисляемых количественных показателей. Эти показатели определяют степень «сходства» или «несходства» аминокислотной последовательности белка, имеющей вид цепочки из нескольких сотен символов над алфавитом двадцати существующих в природе аминокислот, с аминокислотными последовательностями некоторого фиксированного множества базовых признакообразующих белков. При этом знание пространственной структуры признакообразующих белков, вообще говоря, не требуется. Важно лишь, чтобы они достаточно хорошо представляли разнообразие аминокислотных последовательностей белков рассматриваемого типа.

Возможность измерить различие между любыми двумя аминокислотными цепочками позволяет естественным образом рассматривать признако-образующие белки, то есть сами признаки, как элементы метрического пространства. Тогда оказывается возможным различать «близкие» и «далекие» признаки в смысле метрики данного пространства.

Тогда при построении, например, линейного решающего правила распознавания по обучающей выборке белков с известными пространственными структурами элементы направляющего вектора разделяющей гиперплоскости оказываются связанными с соответствующими признакообразующими белками. Но тогда естественным оказывается априорное предположение, что близким признакам должны соответствовать не слишком сильно отличающиеся друг от друга коэффициенты разделяющей гиперплоскости.

В итоге, как и в рассмотренной выше задаче обучения распознаванию сигналов, мы приходим к идее априорной «гладкости» коэффициентов разделяющей гиперплоскости, но теперь уже не на оси линейного порядка, а в метрическом пространстве признаков. Проведенные эксперименты показывают, что штраф на негладкость позволяет существенно улучшить экстрапо-ляционные свойства решающих правил распознавания классов пространственной структуры белков, полученных при обучении по малым выборкам.

Таким образом, существует широкий класс практических задач распознавания образов в массивах взаимосвязанных данных, которые не укладываются в традиционную постановку задачи распознавания образов. Необходимость расширения классической постановки связана с тем обстоятельством, что априорными структурными соотношениями связаны как объекты, предъявленные для распознавания, так и их признаки.

Примером такого расширения классической постановки является задача распознавания образов в сигналах с изменяющимися вероятностными свойствами, получившая название динамического подхода к проблеме распознавания образов [68]. Данный подход основан на модельном представлении о совокупности объектов как о последовательности событий. Предъявление очередного объекта рассматривается как случайное событие, последовательность которых образует случайный поток классифицированных событий, а изменение признаков понимается как условный случайный процесс на интервале от момента появления данного события до следующего. Но в данном подходе рассматривается только один возможный вид взаимозависимости объектов - их упорядоченная последовательность (цепочка). Более сложные и типичные для практики виды взаимосвязи объектов в данном подходе не рассматривается, как не рассматривается и взаимосвязанность признаков.

В целом, взаимосвязанность элементов массива данных вносит существенную специфику, как в процесс обучения, так и в процесс распознавания.

С одной стороны, заранее известные структурные отношения между элементами массива и их признаками несут существенную априорную, информацию об искомом решающем правиле и ожидаемом результате, сокращая степень его неопределенности. Наличие естественной априорной информации создает принципиальную возможность значительного повышения статистической стабильности результата распознавания. С другой стороны, эта же взаимосвязанность резко усложняет решение задач обучения и распознавания с теоретической и вычислительной точек зрения. А именно, появляется проблема учета данной информации в математической постановке задачи и проблема усложнения алгоритмов обучения и распознавания.

В данной работе предложена неклассическая постановка проблемы обучения распознаванию образов, понимаемая прежде всего как расширение классической постановки в связи с тем, что рассматриваются априорные структурные соотношения, заданные как на объектах распознавания, так и на их признаках.

В этой связи рассмотрены как общеметодологические проблемы, обусловленные наличием отношения порядка на множестве элементов массива данных, которые характерны для всех приложений, так и специальные, которые обусловлены особенностями классов решаемых задач.

Новая постановка задачи распознавания образов привела к необходимости разработки новых принципов построения алгоритмов распознавания и обучения на массивах взаимосвязанных данных. В данной работе раскрыта типовая структура таких алгоритмов и их связь с классическими алгоритмами распознавания и обучения. В частности, показаны условия, при которых алгоритмы обучения не отличаются от классических. В то же время показано, что алгоритмы собственно распознавания оказываются существенно сложнее, чем в классическом случае, когда распознавание заключалось в единичном акте отнесения предъявленного объекта к тому классу, на который укажет решающее правило распознавания.

Содержание диссертационной работы изложено в девяти главах.

В первой главе рассмотрена проблема распознавания образов в анализе массивов взаимосвязанных данных. Показано, что многие актуальные задачи обработки сложноорганизованных данных могут быть рассмотрены как задачи анализа массивов взаимосвязанных данных. Часто характерная особенность таких задач заключается в том, что объекты, подлежащие распознаванию, необходимо сначала выделить на фоне остального массива (локализовать объекты в поле носителя). Взаимосвязанность в наиболее простом одномерном случае понимается как упорядоченность на оси некоторого аргумента, образованная естественным развитием процесса, предъявленного к обработке. В более сложном случае взаимосвязанность понимается в смысле некоторого графа смежности (соседства), определенного на элементах многомерного массива, как на вершинах. Другой принцип взаимосвязанности представлен упорядоченностью признаков, образующих координаты многомерного пространства. Показана специфика задачи распознавания образов в массивах взаимосвязанных данных и, как следствие, необходимость развития теории распознавания образов для данного класса задач обработки. Приведен обзор методов распознавания в сигналах со сложной структурой (одномерных упорядоченных последовательностях), а также рассмотрена проблема малой выборки и известные методы регуляризации процесса обучения.

Во второй главе рассмотрен вероятностный подход к распознаванию взаимосвязанных объектов. Предложено определять структуру взаимных связей в виде графа смежности, заданного на множестве объектов распознавания как на его вершинах. В вероятностной постановке предполагается, что скрытое от наблюдателя случайное поле принадлежностей объектов к классам проявляется в виде доступного для наблюдения поля значений некоторых характеристик, зарегистрированных в виде массива данных. Вероятностная модель наблюдаемого поля состоит в том, что скрытое случайное поле принадлежностей объектов к классам предполагается марковским относительно графа взаимосвязи объектов, а компоненты наблюдаемого случайного поля предполагаются условно независимым относительно реализации скрытого поля принадлежностей объектов к классам. Показано, что при таких предположениях апостериорное случайное поле принадлежностей объектов к классам также является марковским относительно того же графа взаимосвязи объектов. Рассмотрены трудности, возникающие при попытках применить скрытые марковские модели к произвольным графам смежности.

В третьей главе предложен способ разрешения данной теоретической трудности, состоящий в замене графов смежности общего вида древовидными графами смежности. Показано, что для таких графов процедура распознавания принадлежностей объектов к классам может быть построена как трех-шаговая процедура, в которой число необходимых вычислительных операций лишь линейно возрастает с увеличением числа объектов в массиве. Сначала вычисляются априорные вероятности принадлежности всех объектов к классам при движении от корня дерева к его листьям. Затем вычисляются так называемые фильтрационные апостериорные вероятности принадлежностей к классам при обратном движении от листьев к корню, и, наконец, в ходе еще одного движения от корня к листьям вычисляются окончательные апостериорные вероятности принадлежности объектов распознавания к классам, названные интерполяционными вероятностями.

В четвертой главе рассмотрена задача обучения распознаванию образов в массивах взаимосвязанных объектов для общего случая марковских случайных полей априорной принадлежности объектов к классам. Показано, что в принципе задача обучения распознаванию образов в массивах взаимосвязанных объектов не отличается от классической задачи обучения для совокупности изолированных объектов, и на этапе обучения информация о взаимосвязи объектов в массиве не нужна. Специфика заключается в требуемой форме решающего правила распознавания, которое должно быть" найдено в результате обучения. В классической задаче достаточно построить решающее правило окончательного отнесения объекта к определенному классу на основе анализа значений его признаков. В данном же случае решающее правило, получаемое в результате обучения, предназначено для дальнейшего использования в алгоритме распознавания с учетом взаимосвязи объектов, и должно иметь вид функции, указывающей для каждого набора значений признаков отдельно взятого объекта апостериорные вероятности его принадлежности ко всем классам. Показаны пути применения классических методов обучения на основе метода опорных векторов [103, 148, 151] и восстановления функций апостериорных вероятностей классов [2, 8].

В пятой главе рассмотрено распознавание линейно упорядоченных совокупностей объектов, являющихся частным случаем совокупностей с древовидной смежностью объектов, когда дерево смежности имеет простейший вид цепи (последовательно связанных вершин). Рассмотрены априорная и апостериорная марковские цепи априорной последовательности классов как частный случай древовидного марковского поля, а также процедуры вычисления фильтрационных и интерполяционных апостериорных вероятностей классов на оси аргумента. Показано, что задача распознавания линейно упорядоченных совокупностей объектов является известной вероятностной задачей распознавания потока случайных классифицированных событий, появление которых в некоторые моменты времени вызывает характерные для их классов возмущения на зарегистрированной кривой. Также рассмотрена детерминистская задача распознавания последовательности событий, где каждое событие распознается с грубостью в виде интервала, содержащего момент появления события. Качество распознавания оценивается грубостью и определяется длиной максимального интервала в последовательности. Исследована проблема разделимости обучающего множества при минимизации грубости распознавания, предложен алгоритм распознавания, основанный на методе динамического программирования.

В шестой главе рассмотрена задача распознавания образов в пространствах взаимосвязанных признаков. Рассмотрены примеры задач, где полезно применение таких пространств. Основная проблема в обучении распознаванию образов заключается в обеспечении требуемого качества решающего правила при его применении к новым объектам, не участвовавшим в обучении. Трудность реализации этого требования состоит в том, что в условиях малых выборок качество решающего правила оказывается неудовлетворительным из-за недостаточности информации о генеральной совокупности, содержащейся в обучающей выборке. Известны различные способы повышения качества решающего правила, называемые методами регуляризации обучения [78,79, 140-142, 144, 145]. Регуляризация, в итоге, заключается в наложении ограничений на множество допустимых решающих правил в заданном классе. Использование упорядоченности признаков позволяет предложить новый принцип регуляризации, использующий типичную для большинства практических задач плавность изменения значений признаков вдоль оси линейного порядка. Это позволяет предположить, что и их весовые коэффициенты в составе решающего правила также должны изменяться плавно. Такое предположение реализовано как модификация задач обучения по методу опорных векторов и по методу восстановления функций апостериорных вероятностей классов путем введения штрафа на «негладкость» решающего правила. В работе исследована задача выбора величины штрафа на негладкость и проведено экспериментальное исследование алгоритмов обучения.

В седьмой главе рассмотрена задача обучения распознаванию образов в пространстве так называемых метрических признаков, когда сами признаки оказываются элементами некоторого метрического пространства. Необходимость решения такой задачи возникает, когда отсутствует пространство исходных признаков, а имеется лишь информация о попарных различиях объектов обучающей выборки. Тогда каждый объект характеризуется своим вектором вторичных признаков, компоненты которого характеризуют его расстояние до остальных объектов (или его сходство с остальными объектами). Показано, что задача обучения распознаванию в пространстве метрических признаков по методу опорных векторов, так же, как и в обычном признаковом пространстве [151], приводит к задаче квадратичного программирования с ограничениями типа неравенств [47, 73, 85, 92]. Но в силу самой природы пространства метрических признаков оказывается, что число объектов обучающей выборки всегда совпадает с его размерностью, так как оно образовано самими обучающими объектами. Это означает, что обучение всегда происходит в условиях малой выборки, и, следовательно, нельзя рассчитывать на статистическую стабильность результата обучения без применения дополнительных методов регуляризации. Предложенный метод регуляризация процесса обучения основан на идее, что близким признакообразующим объектам (близким элементам метрического пространства) должны соответствовать близкие коэффициенты соответствующих компонент направляющего вектора разделяющей гиперплоскости, поскольку такие признаки несут почти одну и ту же информацию о классе объекта.

В восьмой главе рассмотрена прикладная задача распознавания зон коллекторов нефти и газа в монолитных породах по косвенным сплошным данным сейсмической разведки исследуемого фрагмента подземного пространства в сочетании с результатами прямых испытаний в редкой сети разведочных скважин. Присутствие нефти и газа в монолитных породах возможно лишь в зонах коллекторов, характеризующихся повышенной пустотностью из-за наличия в них трещин и каверн [50, 97, 124, 131, 146J. Трехмерный массив данных сейсмической разведки представляет собой модель толщи пород так, что его отдельные элементы соответствуют определенным точкам подземного пространства, которые рассматриваются как объекты распознавания, упорядоченные по трем координатам, каждый из которых объективно принадлежит одному из двух классов - коллекторов или неколлекторов. Предыдущие исследования показали, что зоны трещиноватости определяют локальные особенности локальной текстуры в пределах соответствующих фрагментов сейсмического поля [50, 120, 131]. С другой стороны, достоверные данные о коллекторских свойствах пород получают дорогостоящим глубоким бурением, вскрывающим толщу массивных пород. В данной работе предложено использовать методы распознавания образов в массивах взаимосвязанных объектов для получения сплошной характеристики коллекторских свойств всего исследуемого фрагмента толщи пород с использованием прямой информации из редкой сети разведывательных скважин как данных учителя. Результатом решения данной задачи является прогноз зон коллекторов в кристаллическом фундаменте месторождения Бомбей Хай в Индии. Работа выполнена по заказу Индийской государственной компании Oil & Natural Gas Corporation Ltd.

В девятой главе предлагается метод решения задачи обучения распознаванию класса пространственной структуры полимерной молекулы белка по исходной последовательности составляющих ее аминокислотных остатков. Используется так называемый беспризнаковый подход к обучению распознаванию образов, когда невозможно до получения обучающей выборки указать набор осмысленных признаков объектов распознавания, которые могут быть восприняты только через значения некоторой меры их взаимного несходства, т.е. как элементы соответствующего метрического пространства [126]. При обучении и распознавании аминокислотная цепочка белка представляется совокупностью своих относительных признаков, в качестве кого

20 рых выступают ее расстояния до некоторых фиксированных признакообра-зующих аминокислотных цепочек, т.е. элементов того же метрического пространства. Задача такого рода дает яркий пример ситуации, когда признаки объекта распознавания являются элементами метрического пространства, и представляют собой взаимосвязанную совокупность, характеризуемую матрицей взаимных расстояний. Этот факт использован для регуляризации процесса обучения распознаванию классов пространственной структуры белков в условиях неизбежно малых обучающих выборок на основе понятия гладкости коэффициентов линейного решающего правила в пространстве метрических признаков. Метод проверен на коллекции белков, сформированной для этой цели д-ром Сан-Хо Кимом из Национальной лаборатории Lawrence Berkley в США. Исследование выполнено в рамках договора о творческом сотрудничестве между кафедрой автоматики и телемеханики Тульского госуниверситета и лабораторией биоинформатики университета Ратгерс, США.

Библиография Двоенко, Сергей Данилович, диссертация по теме Теоретические основы информатики

1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

2. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970. 384 с.

3. Алгоритмы и программы восстановления зависимостей/Под ред. В.Н.Вапника. М.: Наука, 1984. 816 с.

4. Аркадьев А.Г., Браверман Э.М. Обучение машины классификации объектов. М.: Наука, 1971. 192 с.

5. Беллман Р. Динамическое программирование. М.: ИЛ, 1960. 400 с.

6. Блинов А.Б. Алгоритмы сегментации составных текстурных изображений на основе марковских моделей строк// Канд. дисс., ТулГУ, Тула, 1996. 150 с.

7. Бонгард М.М. Проблема узнавания. М.: Наука, 1967. 320 с.

8. Браверман Э.М., Мучник И.Б. Структурные методы обработки данных. М.: Наука, 1983. 464 с.

9. Вазан М. Стохастическая аппроксимация. М.: Мир, 1972. 295 с.

10. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 448 с.

11. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. Статистические проблемы обучения. М.: Наука, 1974. 416 с.

12. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 1987. 262 с.

13. Гантмахер Ф.Р. Теория матриц. М.: Наука, 1988. 552 с.

14. Губерман Ш.А., Овчинникова М.И. О машинной корреляции пластов в разрезах скважин по геофизическим данным. Изв. АН СССР. Физика Земли. 1972, №3.

15. Двоенко С.Д. Автоматизация обработки сигналов, представленных дискретными кривыми// Автоматизация и современные технологии, 1997, №4.С.2-7. '

16. Двоенко С.Д. Алгоритмы обучения распознаванию событий на экспериментальных кривых// Канд. дисс., ИЛУ АН СССР, Москва, 1991. 245 с.

17. Двоенко С'.Д. Неиерархический дивизимный алгоритм группировки// Автоматика и телемеханика, N9, 1999, с. 47-57.

18. Двоенко С.Д. Обучение распознаванию событий на оси времени с минимизацией грубости распознавания// Автоматика и телемеханика, 1995, №8. С.142-150.

19. Двоенко С.Д. Распознавание последовательности событий в режиме реального времени// Автоматика и телемеханика, 1996, №1. С.149-157.

20. Двоенко С.Д. Распознавание последовательности событий на конечном интервале времени// Автоматика и телемеханика, 1991, №5. С. 143-153.

21. Двоенко С.Д. Система обработки данных, представленных экспериментальными кривыми// Известия ТулГУ. Серия ВТ. Автоматика. Управление. Т.1. Вып.1. Вычислительная техника. Тула, 1997. с. 35-42.

22. Двоенко С.Д., Моттль В.В. Основы обработки данных: Уч. пособие. Тула: Издательство ТулГУ, 1997. 154 с.

23. Двоенко С.Д. Неиерархический дивизимный алгоритм кластеризации// Автоматика и телемеханика, N4, 1999, с. 117-124

24. Де Гроот М.Оптимальные статистические решения.М.Мир, 1974. 492с.

25. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения. М.: Мир, 1971. Выпуск 1. 316 с.

26. Дидэ Э. Метода анализа данных. М.: Финансы и статистика, 1985. 357 с

27. Дорофекж A.A. Алгоритмы автоматической классификации// Автоматика и телемеханика, 1971, № 12. С.78-113.

28. Дорофеюк A.A., Лумельский В.Я. Реализация алгоритмов обучения распознаванию образов «без учителя» на ЭВМ// Алгоритмы обучения распознаванию образов/ Под ред. В.Н.Вапника. М.: Советское радио, 1973. С.181-198.

29. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. 512с.

30. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. 128 с.

31. Жданов М.С., Шрайбман В.И. Корреляционный метод разделения геофизических аномалий. М.: Недра, 1973.

32. Журавлев Ю.И. Избранные научные труды. М.: Изд. Магистр, 1998. 420 с.

33. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. I.//Кибернетика, 1977, Киев, №4, с. 14-21.

34. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов.II.// Кибернетика, 1977, Киев, №6, с. 21-27.

35. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации// Проблемы кибернетики, Вып.33,1978, с.5-68.

36. Журавлев Ю.И., Камилов М.М., Туляганов Ш.Е. Алгоритмы оценок и их применение. Ташкент: Фан, 1974. 124 с.

37. Журавлев Ю.И., Никифоров В В. Алгоритмы распознавания, основанные на вычислении оценок// Кибернетика, Киев, 1971, №3, с. 1-11.

38. Загоруйко Н.Г. Методы распознавания и их применение. М.: Советское радио, 1972. 206 с.

39. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд. Института математики, 1999. 270 с.

40. Загоруйко Н.Г., Елкина В.Н., Емельянов C.B., Лбов Г.С. Пакет прикладных программ ОТЭКС (для анализа данных).М.: Финансы и статистика,1986. 160 с.

41. Клигене H., Телькснис JI. Методы обнаружения моментов изменения свойств случайных процессов// Автоматика и телемеханика, 1983, №10. С 5-56.

42. Козинец Б.Н. Рекуррентный алгоритм разделения выпуклых оболочек двух множеств/'/ Алгоритмы обучения распознаванию образов/ Под ред. В.Н.Вапника. М.: Советское радио, 1973. С.43-50.

43. Колмогоров А.Н., Фомин C.B. Элементы теории функций и функционального анализа. М.: Наука, 1976. 542 с.

44. Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с.

45. Кузин Л.Т. Основы кибернетики. Т. 1. М.: Энергия, 1973. 504 с.

46. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981. 160 с.

47. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд. Института математики, 1999. 212с.

48. Мандель И.Д. Кластерный анализ.М.:Финансы и статистика, 1988.176с.

49. Мансуров М.С. Сейсмология и сейсмометрия. М.: Знание, 1982, 48 с.

50. Моттль В.В. Марковские модели и методы распознавания образов в сигналах с изменяющимися вероятностными свойствами. Докт. дисс., ИПУ РАН, Москва, 1993. 367 с.

51. Моттль В В. Параметрическое обучение распознаванию потока событий I, II// Автоматика и телемеханика, I. 1989, №6. С. 107-112; II. 1989, №7. С 157-167.

52. Моттль В В. Распознавание потока случайных событий// Автоматика ителемеханика, 1985, №4. С.92-100.

53. Моттль В.В., Двоенко С.Д., Блинов А.Б. Древовидные марковские случайные поля в задачах анализа массивов упорядоченных данных// Математические методы распознавание образов. Труды 9 конференции ММРО, 1999, 15-19 ноября. С. 80-83.

54. Моттль В.В., Двоенко С.Д., Левянт В.Б. Распознавание коллекторских зон в кристаллическом фундаменте земной коры, предположительно содержащих нефть и газ// Известия ТулГУ. Серия ВТ. Автоматика. Управление. Т.2. Вып.З. Управление. Тула, 2000. с. 127-132.

55. Моттль В.В.^ Двоенко С.Д., Лисицын C.B., Ключарева Ю.С. Процедуры мультиэлаймента в задачах обучения распознаванию сигналов разной длительности// Математические методы распознавания образов. Труды 9 конференции ММРО, 1999, 15-19 ноября. С. 83-85.

56. Моттль В.В., Двоенко С.Д., Середин О.С. Обучение распознаванию образов путем оценивания функции степени достоверности // Распознавание образов и анализ изображений: новые информационные технологии. РОАИ-3. Тез. докл. Н. Новгород. 1997. 4.1. С.26-30.

57. Моттль В.В., Двоенко С.Д., Середин О.С. Распознавание образов в метрическом пространстве// Распознавание образов и анализ изображений: новые информационные технологии. 5 Международная конференция РОАИ, Самара, 2000, 16-22 октября. Том 1. С. 100-104.

58. Моттль В.В., Двоенко С.Д., Середин О.С. Распознавание событий в сигналах с изменяющимися вероятностными свойствами// Известия ТулГу. Серия ВТ. Автоматика. Управление. Т.1. Вып.2. Автоматика. Тула, 1997. С.68-76.

59. Моттль В.В., Двоенко С.Д., Середин О С., Долгова О.В. Обучение распознаванию сигналов с учетом критерия гладкости решающего правила// Известия ТулГУ. Серия ВТ. Автоматика. Управление. Т.2. Вып.З. Управление. Тула, 2000. с. 121-126.

60. Моттль В.В., Мучник И.Б. Алгоритм распознавания потока случайных событий// Автоматика и телемеханика, 1986, №2. С. 142-146.

61. Моттль В.В., Мучник И.Б. Динамический подход к проблеме распознавания образов I, II, III// Автоматика и телемеханика, I. 1991, №3. С. 120-132; II. 1991, №4. С. 141-146; III. 1991, №5. С. 154-162.

62. Моттль В.В., Мучник И.Б. Сегментация структурных кривых на основе метода динамического программирования// Автоматика и телемеханика, 1985, №1. С. 101-108.

63. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М.: Физматлит, 1999. 352 с.

64. Моттль В.В., Мучник И.Б., Яковлев В.Г. Оптимальная сегментация экспериментальных кривых// Автоматика и телемеханика, 1983, №8. С. 8495.

65. Моттль В.В., Двоенко С.Д., Блинов А.Б., Копылов A.B. Случайные марковские поля с древовидной структурой в задачах анализа массивов упорядоченных данных// Известия ТулГУ. Серия ВТ. Автоматика. Управление. Т.2. Вып.З. Управление. Тула, 2000. с. 109-120.

66. Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение М.: Наука, 1970. 707 с.

67. Немирко А.П. Цифровая обработка биологических сигналов. М.: Наука, 1984. 145с.

68. Никольский М.Н., Филиппов Ю.А. Алгоритм обработки сейсмических сигналов с применением стохастического уравнения авторегрессии// Применение математических методов и ЭВМ в естественнонаучных задачах. Владивосток: ДВО АН СССР, 1987. С. 72-83.

69. Обнаружение изменения свойств сигналов и динамических систем/ Под ред. М. Бассвиль, А. Банвениста. М.: Мир, 1989. 278 с.

70. Прэтт У.К. Цифровая обработка изображений. М.: Мир. 4.1. 1982. 310 с. 4.2. 1982. 473 с.

71. Раудис Ш.Ю. Методы борьбы с размерностью в статистическом распознавании образов// Заводская лаборатория, №3, 1991. С. 49-54.

72. Раудис Ш.Ю. Ограниченность выборки в задачах классификации// Статистические проблемы управления, Ин-т математики и кибернетики АН ЛитССР, Вильнюс, 1976, вып. 18. С. 1-186.

73. Раудис Ш.Ю. Ошибки классификации при выборе признаков// Статистические проблемы управления, Ин-т математики и кибернетики АН ЛитССР, Вильнюс, 1979, вып. 38. С. 9-26.

74. Рихтер Ч.Ф. Элементарная сейсмология, М.: Изд. иностранной литературы, 1963, 670 с.

75. Розенблатт Ф. Принципы нейродинамики. Перцептроны и теория механизмов мозга. М.: Мир, 1965. 480 с.

76. Розенфельд А. Распознавание и обработка изображений. М.: Мир, 1972. 230 с.

77. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 412с.

78. Уайлд Д.Дж. Методы поиска экстремума. М.: Наука, 1967. 268 с.

79. Уилкс С. Математическая статистика. М.: Наука, 1967. 632 с.

80. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. 216 с.

81. Феллер В. Введение в теорию вероятностей и ее приложения. T.l. М.: Мир, 1984. 528 с.

82. Фомин В.Н. Математическая теория обучаемых опознающих систем. Ленинград: Изд. Ленинградского университета, 1976. 236 с.

83. Фомин В.Н., Якубович В.А. Обучаемые опознающие системы и рекуррентные конечно-сходящиеся алгоритмы// Алгоритмы обучения распознаванию образов/ Под ред. В.Н.Вапника. М.: Советское радио, 1973. С.29-42.

84. Фукунага К. Введение в статистическую теорию распознавания образов. М.: Наука, 1979. 368 с.

85. Хедли Дж. Нелинейное и динамическое программирование. М.: Мир, 1967. 506 с.

86. Шеповальников А.Н. Активность спящего мозга. Л.: Наука, 1971, 186 с.94. "The Human Genome. Survey", The Economist, July 1st, 2000, pp. 3-16.

87. Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z„ Miller, W., and D.J. Lipman, "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res, 1997, 25: 3389-3402.

88. Besag, J.E., "On the Statistical Malysis of Dirty Pictures (with discussions)". Journal of Royal Statistical Society, B48, 1986, pp. 259-302.

89. Biot, M.A., "Mechanics of Deformation and Acoustic Propagation in PorousMedia", Journal of Applied Physics, Vol. 33, No. 4, 1962, pp. 240-253.

90. Bodnstein, G., and H.M. Praetorius, "Feature extraction from the electrocardiogram by adaptive segmentation" Proceedings IEEE, 1977, No.5, pp. 642-652

91. Bohme, H. Herz- und Gefafischall in Bild und Pon, Leipzig: Johann Ambrosius Barth, 1972, 116 s.

92. Burke, L., Niloff, J., Kobelin, M., Abu-Jawdeh, G., Zelenchuk, A., and M. Modell, "Use of Autofluorescence to Evaluate Cervical Neoplasia", Journal of Gynecologic Pechniques, Vol. 2., No. 4, 1996, pp. 187-190.

93. Cleland, Jeffrey L., and Charles S.Craik, Editors, Protein Engineering: Principles and Practice, Wiley-Liss, Inc., 1996.

94. Cortes, C., and V.Vapnik, "Support-Vector Networks", Machine Eearning, Vol.20, No.3, 1995, pp. 273-297.

95. Di Francesco, V., Gamier, J., and J. Munson, "Protein Tpology Recognition from Secondary Structure Sequences: Application of the Hidden Markov Models to the Alpha Class Proteins", Journal Mol. Biol., 267, 1997, pp. 446463.

96. Dubchak, I., Holbrook, S., and S.-H. Kim, "Prediction of protein class from amino acid composition", Proteins, 1993, 16:79-91.

97. Dubchak, I., Muchnik, I., Mayor, C., Dralyuk, I., and S.-H. Kim, "Recognition of a protein fold in the context of the SCOP classification", Proteins: Structure, Punction, and Genetics, 1999, 35, 401-407.

98. Durbin, R., Eddy, S., Krogh, A., and G. Mitchison, Biological sequence analysis: Probabilistic models of proteins and nucleic acids, Cambridge Univ. Press, 1998. 356 p.

99. Dvoenko, S.D., and V.V. Mottl,. "Real Time Recognition of Events in an Experimental Curve" Pattern Recognition and Image Analysis, Vol.7, No.2, 1997, pp.208-217.

100. Dvoenko, S.D., Mottl, V.V., Muchnik, I.B., and M.N. Nikolsky, "Pattern Recognition in Experimental Waveforms", Pattern Recognition and Image Analysis, Vol.1, No.l, 1991, pp. 87-98.

101. Fetrow, J.S., and S.H. Bryant "New programs for protein tertiary structure prediction", Biotechnology, Vol. 11, April 1993, pp. 479-484.

102. Fukunaga, K., and R.R. Hayes, "Effects of Sample Size in Classifier Design", IEEE Trans, on PAMI, Vol.11, No.8, August, 1989, pp. 873-885.

103. Geman, S., and D. Geman, "Stochastic Relaxation, Gibbs Distributions, and The Bayesian Restoration of Images", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 6, November 1984, pp. 721-741.

104. Henikoff, S., and J.G. Henikoff, "Performance evaluation of amino acid substitution matrices", Proteins, 1993, 17:49-61

105. Hong, Zi-Q., and J-Yu Yang, "Optimal discriminant plane for a small number of samples and design method of classifier on the plane", Pattern Recognition, Vol.24, No.4, 1991, pp. 317-324.

106. Jarke, M., Lenzerini, M., Vassiliou, Y., and P. Vassiliadis, Fundamentals of Data Warehousing, Springer Verlag, N.Y., 1999, 198 p.

107. Kickpatrick, S., Gelatt, C., and M. Vecci, "Optimization by Simulated Annealing", Science, 1983,220, pp. 671-680.

108. Kittler, J. "Combining Classifiers: A Theoretical Framework", Pattern Analysis & Apphc., 1, 1998, pp. 18-27.

109. Lander, Eric S., and Michael S. Waterman, Editors, Calculating the Secretsof Life, National Academy Press, Washington, DC, 1995.

110. Li, S.Z., Wang, H., and M. Petrou, "Relaxation Labeling of Markov Random Fields", Proceedings of the 12th International Conference on Pattern Recognition, ICPR'94, Vol.1, Conference A, Jerusalem, Israel, October 9-13, 1994, pp. 488-492. ' .

111. McLachlan, G.J., Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, N.Y., 1992, 526 p.

112. McQuillin, R., Bacon, M., Barclay, W. and W. Sheriff, An Introduction to Seismic Interpretation, Graham & Trotman Limited, 1979.

113. Michalski, R., Kubat, M., Bratko, I., and A. Bratko. Machine Learning and Data Mining: Methods and Applications, John Wiley & Sons, N.Y., 1998, 456 p.

114. Mottl, V.V., and I.B. Muchnik, "Linguistic Analysis of Experimental Curves", Proceedings IEEE, Vol.67, No.5, 1979, pp.714-736.

115. Mottl. V.V., and S.D. Dvoenko, "Supervised recognition of events in signals with changing probabilistic properties", IEEE Workshop on Nonlinear Signal and Image Processing, June 20-22, 1995, Neos Marmaras, Greece, Vol.1, pp. 238-241.

116. Muchnik, I.B., and V.V. Mottl, Bellman Functions on Trees for Segmentation, Generalized Smoothing, Matching and Multi-Alignment in Massive Data Sets, Technical Report 98-15, DIMACS, Rutgers University, USA, February 1998,63 p.

117. Muchnik, I.B., Mottl, V.V., and V.B. Levyant, Massive Data Set Analysis in-Seismic Explorations for Oil and Gas in Crystalline Basement Interval, Technical Report 99-3, DIMACS, Rutgers University, USA, January 1999, 35 p.

118. Okliawa, T., and H. Nakamura, "Non-topological Structural Comparison of Proteins Based on Symbolic Representation", Proc. of the 5th Joint Conf On Inf. Sei. (JCIS 2000), Feb.27-March.3, 2000, Atlantic City, NJ, USA, pp. 774777.

119. Okhawa, T., Hirayama, S., and H. Nakamura, "A Method of Comparing Protein Structures Based on Matrix Representation of Secondary Structure Pairwise Topology", IEEE Int. Conf. on Inf. Intell. and Sys., Oct.31-Nov.3, 1999, Maryland, USA, pp. 10-15.

120. Pavlidis, T., "Linguistic Analysis of Waveforms", Software Engineering, J.T. Tou (Ed.), Vol.2., N.Y., Academic Press, 1971, pp. 203-225.

121. Pearson, W.R. "Rapid and sensitive sequence comparison with FASTP and FASTA", Methods in Enzymology, 1990, 183, 63-98.

122. Poinar, G., Jr., "Ancient DNA", American Scientist, Vol. 87, September-October, 1997, pp. 446-457.

123. Price, K.E., "Relaxation Matching Techniques A Comparison", IEEETransactions on Pattern Analysis and Machine Intelligence, PAMI-7(5), September, 1985.

124. Rabiner, L.R., "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings IEEE, Vol.77, No.2, 1989, pp. 257285.

125. Radig, B., Niemann, H., Zhuravlev, Y., Gourevich, I., and I. Laptev (Eds ), Pattern Recognition and Image Understanding: 5th Open German -Russian Workshop, Sankt Augustin: Infix, 1999, 330 p.

126. Raudys, S., "On Dimensionality, Sample Size, and Classification Error of Nonparametnc Linear Classification Algorithms", IEEE Trans, on RAMI, Vol.19, No.6, June, 1997, pp. 667-671.

127. Raudys, S., and A.K. Jain, "Small Sample Size Effects in Statistical Pattern Recognition: Recommendations for Practitioners", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 13, No. 3. 1991, pp. 252-264.

128. Reinartz, T., Focusing Solutions for Data Mining, Springer Verlag, N.Y., 1999, 309 p.

129. Skurichina, M., and R.P.W. Duin, "Bagging for linear classifiers", Pattern Recognition, Vol.31, No.7, 1998, pp. 909-930.

130. Skurichina, M., and R.P.W. Duin, "Stabilizing Classifiers for Very Small Sample Sizes", Proceedings of the 13th International Conference on Pattern Recognition ICPR'96, Vol.2, Track B, Vienna, Austria, August 25-29, 1996. pp.891-896.

131. Smit, J. , "Oil Recoveiy and Fracture Distribution in Basement Reservoirs", EAGE 61st Conference and Technical Exhibition, 5-07, Helsinki, Finland, 7-1 1 June, 1999.

132. Smith, A.F.M., and G.O. Roberts, "Bayesian Computation via The Gibbs Sampler and Related Markov Chain Monte-Carlo Methods", Journal of Royal Statistical Society, B55, No.l, 1993, pp. 3-23.

133. Stitson, M.O., Weston, J.A.E., Gammerman, A., Vovk, V., and V. Vapmk, Theory of Support Vector Machines, Technical Report CSD TR-96 17, Royal Holloway, University of London, December 31, 1996, 28 p.

134. Tierney, L. "Markov Chains for Exploring Posterior Distributions", The Annals of Statistics, Vol. 22, No.4, 1994, pp. 1701-1762.

135. Yapnik, V.N., Statistical Learning Theory, John Wiley & Sons, 1998, 736 p.

136. Vapnik, V.N., The Nature of Statistical Learning Theory, Springer Verlag, N.Y., 1995, 188 p.

137. Wei, L., Altman, B., and J.T. Chang, "Using the radial distributions of physical features to compare amino acid environments and align amino acid sequences", Pacific Symposium on Biocomputing'97, 12 p.

138. Wu, C.-H., and P.C. Doerschuk, "Tree Approximation to Markov Random Fields", ILEE transactions on Pattern Analysis and Machine Intelligence, Vol 17, No.4, April 1995, pp. 391^102.