автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Метод упругих карт для визуализации данных

кандидата технических наук
Зиновьев, Андрей Юрьевич
город
Красноярск
год
2001
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Метод упругих карт для визуализации данных»

Оглавление автор диссертации — кандидата технических наук Зиновьев, Андрей Юрьевич

Введение.

Принятые обозначения.

1. Алгоритмы визуализации данных.

1.1. Постановка задачи.

1.2. Линейные методы.

1.2.1. Метод главных компонент.

1.2.2. Линейный факторный анализ.

1.3. Нелинейные методы.

1.3.1. Целенаправленное проецирование

1.3.2. Многомерное шкалирование

1.3.3. Главные поверхности , г,;. •-. •.•.:.

1.3.4. Алгоритм 80М и его модификации.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Зиновьев, Андрей Юрьевич

В окружающем нас мире существует огромное количество информационных массивов, оформленных в виде больших числовых таблиц. Это таблицы автоматизированных экспериментальных исследований, информация собранная в результате наблюдения за каким-либо объектом или явлением (от состояния экологической обстановки до поведения клиентов на коммерческом \УеЬ-сайте), данные социологических опросов, полнотекстовые индексы поисковых машин в Интернет и многое другое. Характерное число строк (объектов) в таких таблицах - несколько десятков тысяч, характерное число столбцов (признаков) - несколько сотен.

Таблицы данных давно являются основной областью приложений методов прикладной статистики. Однако в последнее время наблюдается кардинальное обновление арсенала исследователей в этой области. Это вызвано несколькими причинами. Во-первых, существует необходимость анализа «плохих», с точки зрения традиционных статистических подходов, таблиц данных - содержащих либо слишком малое число строк (что не позволяет использовать таблицу в качестве представительной выборки какого-либо распределения), либо высокую концентрацию «пробелов» - пропущенных значений. Во-вторых, анализ и представление очень больших таблиц данных ресурсоемкими методиками сталкивается с определенными техническими трудностями, и не всегда ведет к прояснению интересующих исследователя вопросов.

Арсенал средств прикладной статистики в настоящее время огромен. В конкретном исследовании приходится выбирать из бесчисленного количества модификаций различных методик анализа, зачастую разные методики дают различные с точки зрения интерпретации результаты. Тогда встает проблема сравнения эффективности применения различных подходов. Исследователю необходимо сопоставить числовые характеристики набора данных, полученные в результате расчета со своим интуитивным представлением о характере закономерностей в предметной области. В связи с этим большую ценность представляют практические инструменты для представления наборов данных и результатов их обработки в наглядной форме.

Для того, чтобы стать реальным практическим инструментом анализа больших информационных массивов, современный метод анализа данных должен, по возможности, обладать следующими признаками. Его сложность (число вычислительных операций) должна расти линейно с ростом числа объектов и признаков в таблице. Также крайне желательна «встроенная» возможность распараллеливания расчетов. Зачастую требуется, чтобы алгоритм был способен к быстрому «доучиванию» на вновь поступающих данных (обучение online). Многие практические задачи требуют от метода «умения» работать с неполными или недостоверными данными. Развиваемые в данной работе методы обладают всеми перечисленными характеристиками.

Помимо вспомогательной роли инструмента визуализации для формирования у исследователя наглядного образа набора данных, предлагаемый подход может быть использован для решения задач информационного моделирования, то есть такого моделирования предметной области, при котором строится математическая модель массива доступной (возможно, неполной или недостоверной) информации об объекте. С ростом мощностей вычислительной техники, а также сложности исследуемых систем, такой подход становится все более актуальным. В данной работе рассматривается постановка задачи информационного моделирования применительно к методу упругих карт, подчеркиваются ее особенности по сравнению с нейросетевыми средствами информационного моделирования, а также формулируется ряд подзадач с указанием способов их решения в данной идеологии.

Предложенные методы иллюстрируются приложениями в разных областях исследования, но особенно детальное рассмотрение получила область биоинформатики. Такой выбор обусловлен тем фактом, что именно в биоинформатике сейчас существует огромное количество экспериментального материала, для которого актуальной задачей является разработка средств их эффективного анализа с возможностью извлечения из «сырых» информационных массивов нового, ранее не формализованного, знания. Перспективы применения современных методов анализа данных оцениваются разными авторами по-разному: оценка меняется от глубокого скепсиса (неверия в то, что новое знание может быть получено «бездумным» применением математических методов) до необоснованной эйфории. Технология визуализации данных представляет собой в этом отношении некий компромисс - она рассчитана на то, чтобы «подсказать» исследователю новые закономерности, но не автоматически формулировать их. В последней главе работы продемонстрировано, как такая подсказка приводит к изобретению нового подхода в одной из задач биоинформатики.

В работе были поставлены и до определенной степени решены следующие задачи:

1) Разработка технологии визуализации и моделирования данных, то есть последовательности алгоритмов и приемов, позволяющих исследователю наглядно отобразить те или иные закономерности исследуемого набора данных и при необходимости сконструировать модель набора данных в виде последовательности математических объектов (нелинейных многообразий, или факторов).

В работе сделан критический обзор существующих подходов в данной области и предложен новый базовый алгоритм для расчета аппроксимирующего многообразия, который дополнен набором методик для эффективной реализации поставленной задачи.

2) Разработка программного обеспечения, реализующего предложенную технологию.

В данной задаче преследовалась цель создания иерархии программных объектов, которые содержали бы необходимую функциональность для решения задач исследователя. Программный код было решено реализовать в рамках объектно-ориентированной идеологии на языке программирования

Delphi 5.0. С самого начала предполагалось создание полнофункционального приложения с интуитивно понятным MDI-интерфейсом пользователя, которое бы являлось законченным инструментом для любого исследователя в области анализа данных. Предполагалось реализовать в программе набор популярных методик анализа данных (кластерный анализ, метод главных компонент, линейный дискриминантный и регрессионный анализ), снабдив его средствами визуализации самих данных и результатов применения перечисленных методов. Это позволяет исследователю, с одной стороны, пользоваться традиционными инструментами анализа, с другой - визуально контролировать адекватность их применения, составляя тем временем, наглядный образ набора данных.

3) Применение разработанного инструментария для решения одной из актуальных задач биоинформатики - автоматической идентификации генов.

Данная задача носит не только и не столько характер иллюстрации предложенных методов (иллюстративным применениям метода посвящена отдельная глава). Она является законченным самостоятельным исследованием, в рамках которого активно использовались средства визуализации данных.

Все три задачи, с одной стороны, являются автономными и могут рассматриваться отдельно, с другой - их последовательное решение соответствует основным этапам работы исследователя в области современной прикладной математики: разработка метода, воплощение его в инструментальном средстве и использование в рамках решения прикладной задачи.

На основе критического анализа современных методов визуализации данных и идеи упругих многообразий был разработан новый метод построения аппроксимирующих многообразий, позволяющий строить аппроксимации главных поверхностей заданной размерности и топологии. Этот метод был реализован в компьютерной программе VidaExpert 1.0, работающей в операционных системах Windows'9x'2000'NT4, и применялся для визуализации триплетных распределений в нескольких геномах: S.Cerevisiae,

P.Falsiparum II (AE001362 в GenBank), Р. Wickerhamii (PWU02970 в GenBank).

Научная новизна проведенного исследования заключается в следующем:

1) Разработан метод конструирования нелинейных факторов {метод упругих карт), позволяющий строить аппроксимирующие многообразия любой, не превышающей размерность пространства данных, размерности с нетривиальной топологией. Предлагаемый алгоритм построения упругих карт позволяет строить нелинейные факторы с топологией кольца, сферы, тора и т.д.

2) Разработан экономичный кусочно-линейный алгоритм проецирования точек данных на малоразмерное кусочно-линейное многообразие. Предложенный алгоритм предназначен для проецирования данных на нелинейные многообразия, построенные методом упругих карт.

3) Показано, что значение локальной энергии связи сцепления комплементарных ветвей ДНК может быть использовано в задаче автоматической идентификации генов. Найдена оптимальная ширина скользящего окна генетической последовательнсти для расчета локальной энергии связи сцепления комплементарных ветвей ДНК с целью автоматического обнаружения кодирующих участков генома.

4) Введено понятие выделенной фазы кодирования в возможных три-плетных распределениях в скользящем окне генетической последовательности. Введено понятие энтропии смешения триплетных распределений в окне ДНК. Разработан алгоритм автоматической идентификации белок-кодирующих генов, не использующий обучающего множества известных генов. Эффективность работы алгоритма протестирована на нескольких полных геномах.

Практическая ценность проведенного исследования состоит в том, что

1) Разработана технология (последовательность алгоритмов и приемов), с помощью которой возможно визуализировать набор данных и результаты применения стандартных методов анализа. Показана возможность использования ГИС-технологий для визуализации и анализа наборов данных, не обязательно соотнесенных с географическим положением объектов (произвольных данных).

2) Разработана технология построения информационной модели данных, использующая набор аппроксимирующих многообразий (нелинейных факторов) и позволяющая решать основные задачи информационного моделирования.

3) Технология визуализации данных реализована в программе УМаЕх-реЛ, которая представляет собой законченное приложение, позволяющее визуализировать наборы данных, хранящиеся в стандартных форматах, применять к наборам данных различные стандартные методы анализа и визуализировать результаты анализа. Приложение может быть использовано специалистами в разных областях.

4) Показана эффективность применения разработанной технологии в различных областях знания. Проведен анализ таблицы экономических индикаторов для 200 крупнейших предприятий России, социологической таблицы предвыборных ситуаций в США, полнотекстового индекса, полученного на основе частотного анализа коллекции текстов.

5) Показано, что применение технологии визуализации в актуальных задачах биоинформатики может приводить к появлению нового, ранее не формализованного знания. На основе визуального анализа триплетных распределений разработан метод разбиения генетического текста на кодирующие и некодирующие участки.

Положения, выносимые на защиту:

1)Алгоритм построения упругих карт, позволяющий строить нелинейные аппроксимирующие многообразия с заданной размерностью и топологией.

2)Алгоритмы адаптивной настройки структуры упругой сетки узлов, построения растущих сеток, донастройки сетки на вновь поступающих данных.

3)Алгоритм кусочно-линейного проецирования точек данных на кусочно-линейное многообразие.

4) Технология визуализации и моделирования наборов данных, позволяющая решать задачи практического исследования и использовать для визуализации произвольных наборов данных ГИС-технологии.

5)Компьютерная программа УЮаЕхрей, реализующая технологию визуализации произвольных наборов данных.

6)Методика применения технологии визуализации в задачах анализа больших текстовых коллекций.

7)Методика визуализация экспериментальных данных, возникающих в задаче биоинформатики о компьютерной идентификации генов.

8)Процедура определения оптимальной ширины окна для расчета локальной энергии связи комплементарных цепочек ДНК и энтропии смешения триплетных распределений.

9)Процедура компьютерной идентификации белок-кодирующих экзонов в генетических последовательностях, не использующая обучающего множества известных генов.

В процессе выполнения работы была опубликована 1 монография, 4 статьи в центральной печати, 1 электронная публикация, 11 текстов докладов, 9 тезисов докладов. На момент защиты 3 статьи находятся в процессе рассмотрения экспертами для возможности публикации в зарубежной печати.

11

Принятые обозначения

Хь XI - совокупность координат /-ой точки данных (радиус-вектор); Х[-У1 или (Х1, У,)- скалярное произведение вектора^ и У/, Ху - значение у-ой координаты /-ой точки объекта (число); г] г - обозначения /-ой координаты пространства данных (как меняющейся величины); т - размерность пространства данных; \Х\, И- число объектов;

8у - «дельта-символ» Кронеккера:

1 * = ./

5у= О, 1Ф]

Заключение диссертация на тему "Метод упругих карт для визуализации данных"

Основные результаты, полученные в диссертации

1) Разработан алгоритм построения упругих карт, позволяющий строить нелинейные аппроксимирующие многообразия с заданной размерностью и топологией, а также алгоритмы адаптивной настройки структуры упругой сетки узлов, построения растущих сеток, донастройки сетки на вновь поступающих данных, повышающие эффективность метода в практических задачах.

2) Разработана технология визуализации и моделирования наборов данных, позволяющая решать задачи практического исследования и использовать для визуализации произвольных наборов данных ГИС-технологии.

3) Разработана компьютерная программа ViDaExpert, написанная на языке программирования Delphi 5.0, работающая под управлением операционных систем Windows'95'98'2000, реализующая технологию визуализации наборов данных с помощью упругих карт

4) Разработана методика применения технологии визуализации в задачах анализа текстовых коллекций, включая экспериментальные данные, возникающие в задаче биоинформатики о компьютерной идентификации генов.

5) Разработана процедура компьютерной идентификации белок-кодирующих экзонов в генетических последовательностях, не использующая обучающего множества известных генов.

Заключение

Таким образом, в предлагаемой работе были поставлены и решены три основные задачи:

1) Разработка технологии визуализации и моделирования данных, представленных в виде таблицы типа «объект-признак» и обладающей, возможно, некоторым количеством пропущенных значений.

2) Реализация разработанной технологии в виде законченного компьютерного приложения.

3) Применение предложенной технологии в задаче автоматического обнаружения протеин-кодирующих участков генетической последовательности.

Предлагаемый алгоритм построения упругих сеток отличаются рядом уникальных особенностей. Так, он позволяет легко строить нелинейные факторы с задаваемой размерностью и топологией. Использование этих особенностей на практике (например, аппроксимация облака точек двумерным фактором с геометрией сферы) показывает, что эти возможности могут оказаться преимуществами метода перед аналогами.

Было показано, что применение технологии визуализации может быть полезно в различных областях знания. При этом она не является инструментом «извлечения знаний», но, представляя набор данных в наглядной форме и предоставляя пользователю набор инструментов для его наглядного анализа, технология служит отправной точкой исследования - образ данных «подсказывает» возможные пути решения поставленных задач. Наиболее наглядно это было продемонстрировано на примере визуализации данных о распределении триплетов в окне генетической последовательности.

Построенные аппроксимирующие многообразия служат обобщенной математической моделью набора данных, представленного конечным множеством объектов в многомерном пространстве. Такая модель способна решать стандартные задачи информационного моделирования: воста-навливать в данных пропущенные или недостоверные значения, предсказывать значения одних признаков при заданных других и т.д., не используя гипотезу о статистическом порождении данных.

Дальнейшее развитие предложенных методов может быть осуществляться в нескольких направлениях.

Актуальным является обобщение метода на случай неевклидовой метрики. В этом случае задача оптимизации функционала энергии графа переходит из класса квадратичных в класс выпуклых задач. Здесь наиболее перспективным кажется применение какой-либо модификации метода Ньютона.

Необходимо дальнейшее развитие алгоритмов адаптивной настройки сетки. Также перспективным является применение многосеточных методов для более эффективного решения возникающих систем линейных уравнений.

Для решения больших задач необходимо оснастить программу VI-ёаЕхреЛ возможностью распределения процесса расчета между несколькими компьютерами.

В области биоинформатики актуальным является обобщение разработанного метода для применения к человеческому геному. Основной трудностью здесь является тот факт, что в человеческом геноме лишь 3% от общего числа нуклеотидов являются кодирующими. Это означает, что боковые кластера в распределении триплетов будут обладать малым статистическим весом.

Эффективные методы визуализации данных уже сейчас становятся стандартом в методах прикладной статистики. Самые популярные из них сейчас становятся частью известных пакетов для статистического анализа. Вероятнее всего, распространенность этих методов со временем будет только расти.

Библиография Зиновьев, Андрей Юрьевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М., 1974. 240 с.

2. Прикладная статистика. Классификация и снижение размерности. Айвазян С. А., Бухштабер В. М., Енюков И. С. и др. М.: Финансы и статистика, 1989. 607 с.

3. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 471 с.

4. Айвазян С.А., Енюков И.С., Мешалкин Л. Д. Прикладная статистика. Статистическое оценивание зависимостей. М.: Финансы и статистика, 1985. 484 с.

5. Айзенберг Л. А. Формулы Карлемана в комплексном анализе. Первые приложения. Новосибирск, 1990.

6. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз. 1963. 500 с.

7. Гареев А. Ф. Применение вероятностной нейронной сети для автоматического рубрицирования текстов//Материалы Всероссийской научной конференции «Нейроинформатика-99». М., 1999. Часть 3. С.71-79.

8. Горбань А. Н., Хлебопрос Р. Г. Демон Дарвина. Идея оптимальности и естественный отбор. М.: Наука, 1988. 208 с.

9. Горбань А. Н. Обучение нейронных сетей. М.: ПараГраф, 1990. 160 с. Ю.Горбань А. Н., Зиновьев А. Ю., Питенко А. А. Визуализация данныхметодом упругих карт // Информационные технологии. 2000. № 6. С.26-35.

10. Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере. Новосибирск, 1996. 276 с.

11. Горбань А. Н., Россиев А. А. Итерационный метод главных кривых для данных с пробелами//Проблемы нейрокибернетики: Труды 12-й Международной конференции по нейрокибернетике. Ростов-на-Дону, 1999. С.198-201.

12. Дейвисон М. Многомерное шкалирование: Методы наглядного представления данных. М.: Финансы и статистика, 1988.

13. Дорофенюк A.A. Алгоритмы автоматической классификации: Обзор // Автоматика и телемеханика. 1971, № 12. С.78-113.

14. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. 511с.

15. Дюк В. А. Компьютерная психодиагностика. СПб., 1994. 364 с.

16. Ежов А. А., Шумский С. А. Нейрокомпьютинг и его приложения в экономике и бизнесе. М., 1998.

17. Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов (Статистические методы классификации и измерения связи). М., 1977. 144 с.

18. Зиновьев А.Ю. Визуализация многомерных данных. Монография. Изд-во КГТУ. Красноярск, 2000.24.3иновьев А. Ю., Питенко А. А. Визуализация данных методом упругих карт // Радюелектрошка. 1нформатика. Управлшня. 2000. № 1, С.76-85.

19. Зиновьев А. Ю., Питенко А. А. Система визуализации произвольных данных // 2-я Всероссийская научно-техническая конференция "Нейроин-форматика-2000". Часть 1. М.: МИФИ, 2000. С.75-80.

20. Зиновьев А. Ю., Питенко А. А., Россиев А. А. Проектирование многомерных данных на двумерную сетку // 2-я Всероссийская научно-техническая конференция "Нейроинформатика-2000". Часть 1. М., 2000. С.80-88.

21. Зиновьев А. Ю. Метод построения упругих моделирующих многообразий // 3-я Всероссийская научно-техническая конференция "Нейроинфор-матика-2001". Часть 2. М.: МИФИ, 2001. С.47-54.

22. ЗО.Зиновьев А. Ю., Питенко А. А. Применение метода упругих карт для визуализации таблицы экономических показателей // 3-я Всероссийская научно-техническая конференция "Нейроинформатика-2001". Часть 2. М.: МИФИ, 2001. С.244-249.

23. Кендалл М. Методы ранговой корреляции. М., 1974.

24. Кендалл М., Стюарт А. Статистические выводы и связи. М., 1973. 900с.

25. Классификация и кластер//под. ред. Дж. Вэн Райэин. М., 1980. 390 с.

26. Колмогоров А. H. Три подхода к определению понятия "количество информации" //Проблемы передачи информации, т. 1, вып. 1. Л., 1965.

27. Кузнецов А. С. Методы поиска оптимальных групп признаков при статистическом распознавании образов. Л., 1982. С. 14-23.

28. Лбов Г. С. Выбор эффективной системы зависимых признаков//Труды Сиб. отд. АН СССР. Вычислительные системы, вып. 19. Новосибирск, 1965. С.87-101.

29. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск, 1981. 157 с.

30. Миркес Е. М. Нейрокомпьютер. Проект стандарта. Новосибирск, 1998 . 188 с.

31. Миркин Б. Г. Анализ качественных признаков и структур. М.: Статистика, 1980. 319 с.

32. Нейроинформатика // А. Н. Горбань, В. Л. Дунин-Барковский, А. Н. Кирдин и др. Новосибирск, 1998. 296 с.

33. Питенко А. А. Картографирование всех и всяческих данных. // Доклады международной конференции ИНТЕРКАРТО-5. Часть 1. Якутск, 1999. С.71-78.

34. Питенко А. А. Нейросети для геоинформационных систем // Материалы Всероссийской научной конференции «Нейроинформатика-99». Часть З.М., 1998. С.65-69.

35. Россиев Д. А., Головенкин С. Е., Шульман В. А., Матюшин Г. В. Прогнозирование осложнений инфаркта миокарда нейронными сетями // Нейроинформатика и ее приложения. Материалы III Всероссийского рабочего семинара. Красноярск, 1995. С. 128-166.

36. Россиев А. А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах // Методы нейроинформатики / Под ред. А. Н. Горбаня. Красноярск, 1998. С.6-22.

37. Справочник по прикладной статистике. В 2-х т. Т. 2 // под ред. Ллойда Э., Ледермана У., Айвазяна С. А. и др. М., 1990. 526 с.

38. Терехина А. Ю. Анализ данных методами многомерного шкалирования.-М., 1986. 168 с.

39. Терехов С. А. Нейросетевые информационные модели сложных инженерных систем. Нейроинформатика. Новосибирск, 1998. С.101-136.

40. Нейросетевая навигация в архивах трудов научно-технических конференций. Терехов С. А., Квичанский А. В., Воленко Е.В. и др. // Материалы Всероссийской научной конференции «Нейроинформатика-99». Часть 3. М.,1998. С.122-127.

41. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ.-М., 1981.693 с.

42. Харман Г. Современный факторный анализ. М., 1972. 486 с.

43. Царегородцев В. Г. Производство полуэмпирических знаний из таблиц данных с помощью обучаемых искусственных нейронных сетей // Методы нейроинформатики. Красноярск, 1998.

44. Almirantis Y. A Standard Deviation Based Quantification Differentiates Coding from Non-coding DNA Sequences and gives Insight to their Evolutionary History. J. Theor. Biol.(1999), V.196. pp.297-308.

45. Applications of Self-Organized Map (SOM) to the Composition Determination of Chemical Products. H. Tokutaka, K. Yoshihara, K. Fujimura and other // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1998.

46. Back В., Sere K., Vanharanta H. Analyzing Financial Performance with Self-Organized Maps. // Proc. of International Joint Conference on Neural NetWorks. Washington, DC, 1998.

47. Bernaola-Galvan P., Grosse I., Carpena P. and others. Finding Borders between Coding and Noncoding DNA Regions by an Entropie Segmentation Method. Phys.Rev.Letters (2000), V.85, N.6.

48. Burge C.B., Karlin S. Finding the genes in genomic DNA. Current Opinion in Structural Biology, 1998. No.8. pp.346-354.

49. Carbone A., Gromov M. Mathematical Slices Of Molecular Biology. Institut des Hautes Etudes Scientiques preprint. IHES M/01/03. (http://www.ihes.fr/PREPRINTS/MO 1 /Resu/resu-MO 1 -03 .html)

50. Chang J., Lin J., Chuieh T. Color Image Vector Quantization Using Binary Tree Structured Self-Organizing Feature Maps // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1998.

51. Chang M., Yu H., Heh J. Evolutionary Self-Organizing Map // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1998.

52. Fickett J.W. The Gene Identification Problem: An Overview For Developers. Computers Chem.,1996. Vol.20, No.l, pp. 103-118.

53. Frank-Kamenetskii M.D., Frank-Kamenetskii A.D. (1969) Mol. Biol. 3, pp. 295-301.

54. Garavaglia S. A Heuristic Self-Organizing Map Trained Using the Tani-moto Coefficient // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1998.

55. Goppert J. Regularized SOM-Training: A Solution to the Topology-Approximation Dilemma? // Proc. of International Conference on Neural NetWorks. Washington, DC, 1996. Vol.1. PP. 38-44

56. Gorban A. N., Rossiev A. A. Wunch IID. C. Neural Network Modelling of Data with Gaps: Method of Principal Curves, Carleman's Formula and Other // PaflioejieKTpoHka. lHc|)opMaTHKa. YnpaBJiiHHii. 2000. № 1. C. 47-55.

57. Gorban A. N., Waxman C. Neural Networks for Political Forecast. Proceedings of the WCNN'95 (World Congress on NeuralNetworks'95). Washington, DC, 1995. PP.176- 178.

58. Gorban A.N., Zinovyev A.Yu., Popova T.G. Statistical approaches to the automated gene identification without teacher. Institut des Hautes Etudes Scientiques preprint. IHES M/01/34 (http://www.ihes.fr/PREPRINTS/M01/Resu/resu-M01-34.html).

59. Gorban A.N., Zinovyev A.Yu. Visualization by method of elastic maps and its applications in genomics, economics and sociology. Institut des Hautes Etudes Scientiques preprint. IHES M/01/36 (http://www.ihes.fr/PREPRINTS/M01/Resu/resu-M01-36.htmn.

60. Gorban A.N., Zinovyev A.Yu, Popova T.G. Self-organizing Approach for Automated Gene Identification in Whole Genomes // http://xxx.lanl.gOv/abs/physics/0108016.

61. Hastie T., Stuetzle W. Principal curves. Journal of the American Statistical Association. 1988. Jun. V. 84, No. 406. PP.502-516.

62. Honkela T., Lagus S. K., Kohonen T. Exploration of Full-Text Databases with Self-Organizing Map // Proc. of International Conference on Neural NetWorks. Vol.1. Washington, DC, 1996. PP. 56-62

63. Jacobson H., Stockmayer W. J. Chem. Phys. 18, 1600. (1950).

64. Kiviluoto K., Bergius P. Two-Level Self-Organizing-Map's for Analysis of Financial Statements // Proc. of International Joint Conference on Neural NetWorks. Washington, DC, 1998.

65. Kivimoto K. Topology Preservation in SOM // Proc. of International Conference on Neural Networks. Vol.1. Washington, DC, 1996. PP. 294-300

66. Kohonen T. Self-Organizing Maps. Springer: Berlin, Heidelberg, 1997.

67. Kramer M. A. Nonlinear principal component analysis using autoassociative neural networks. AIChE Journal. 1991. V.37, No. 2. PP. 233-243.

68. Laaksonen J., Koskela M., Oja E. PicSOM: Self-organizing maps for content-based image retrieval // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1999.

69. LeBlank M., Tibshorany N. Adaptive principal surfaces. Journal of the American Statistical Association. 1994, Mar. V. 89, No. 425. PP. 53-64.

70. Liu Q., Ray S., Levinson S., Huang T., Huang J. Temporal sequence learning and recognition with dynamic SOM // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1999.

71. Medical and physiological applications of MultiNeuron neural simulator. Gorban A. N., Rossiev D. A., Gilev S. E. and other // Proc. WCNN 95. (World Congress on Neural Networks 95). Washington, DC, 1995.

72. Rauber A. LabelSOM: On the labeling of self-organizing maps // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1999.

73. Rossiev D. A., Golovenkin S. E., Shulman V. A. The employment of neural network to model implantation of pasemaker in patients with arrhythmias and heart blocks // Modelling, Measurement & Control. 1995. V.48. N.2. PP.39-46

74. Rossiev D. A., Golovenkin S. E., Shulman V. A., Matyushin G. V. Forecasting of myocardial infarction complications with the help of neural networks//Proc. WCNN95. (World Congress on Neural Networks 95).Washington, DC, 1995.

75. Rozmus J. M. The Density-Tracking Self-Organized Map. // Proc. of International Conference on Neural Networks. Vol.1. Washington, DC, 1996. PP. 44-50

76. Searls D.B. Bioinformatics Tools For Whole Genomes. Annu. Rev. Genomics Hum.Genet, 2000. No. 01. pp. 251-279.

77. Seely O.Jr., Feng D.-F, Smith D.W., Sulzbach D., Doolittle R. (1990) Genomics 8, 71.

78. Shaidurov V. V. Multigrid Method for Finite Elements I I Mathematics and Its Applications. Kluwer Academic Publishers, 1995.

79. Su M.-C., Liu I-Ch. Facial image morphing by self-organizing feature maps // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1999.

80. Su M.-C., Liu T.-K., Chang H.-T. An efficient initialization scheme for the self-organizing feature map algorithm // Proc. of International Joint Conference on Neural Networks. Washington, DC, 1999.

81. Wada A., Yabuki S., Husumi Y. CRC Crit. Rev. Biochem. 9, (1980). pp. 97-144.

82. Yeramian E., Claverie P. (1987) Nature 326, pp. 169-174.

83. Yeramian E., Schaeffer F., Caudron B., Claverie P., Buc H. An optimal formulation of the matrix method in statistical mechanics of one-dimensional interacting units: efficient iterative algorithmic procedures. Biopolymers, Vol.30. 1990. pp.481-497.

84. Yeramian E. Genes and the physics of the DNA double-helix. Gene 255 (2000). pp. 139-150.

85. Yeramian E. The physics of DNA and the annotation of the Plasmodium falsiparum genome. Gene 255 (2000). pp. 151-168.

86. Zhang M. Q. Statistical features of human exons and their flanking regions. Human Molecular Genetics, 1998, Vol. 7, No. 5. pp. 919-932.

87. Zhang M.Q. Identification of protein coding regions in the human genome by quadratic discriminant analysis. Proc. Natl. Acad. Sci. USA, 1997. Vol. 94, pp. 565-568.147