автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Программные средства обработки цитогенетической информации
Автореферат диссертации по теме "Программные средства обработки цитогенетической информации"
(Ч 6 од
i 3 1
на правах рукописи
Подлесный Константин Сергеевич
ПРОГРАММНЫЕ СРЕДСТВА ОБРАБОТКИ ЦИТОГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ
05.13.16 - «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях по отраслям (биофизика)»
Автореферат диссертации на соискание ученой степени кандидата технических наук
Красноярск 1996 г.
Работа выполнена в Институте цитологии РАН в г. Санкт-Петербурге.
Научные руководители: доктор физико-математических наук, профессор
Шайдуров В.В.
кандидат биологических наук Мамаева С.Е.
Официальные оппоненты: доктор биологических наук,
профессор Левин Л.А. кандидат технических наук Ноженкова Л.Ф.
Ведущая организация: Институт вычислительных технологий РАН.
Защита состоится 23 мая 1996 г. в час. на заседании Специализированного совета К064.54.01 при Красноярском государственном техническом университете по адресу: 660074, Красноярск, ул. Киренского, 26.
С диссертацией можно ознакомиться в библиотеке Красноярского государственного технического университета.
Автореферат разослан —*- апреля 1996 г.
Ученый секретарь социализированного совета кандидат технических наук, доцент
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Проблемы сохранения здоровья человека, его развития и наследственности неразрывно связаны с относительно молодой биологической дисциплиной - цитогенстикой, изучающей строение и жизнедеятельность клетки.
Исследования последних лет показали, что многие болезни, не только наследственные, в известной мере зависят от генетических особенностей. Возможность возникновения, течение, симптоматика и исход каждого заболевания обусловлены взаимодействием среды и генетических факторов.
Значительные объемы информации, анализируемой в ходе цитологических исследований, привели к появлению компьютерных систем хромосомного анализа, которые, однако, не могли полностью удовлетворить потребности цитогенети-ков из-за низкого качества распознавания. С появлением принципиально новых методов приготовления и анализа цитогенетических препаратов, а также благодаря развитию методологии машинного зрения (МЗ) появилась возможность улучшить качество автоматизированного распознавания хромосом путем использования комплексных методов анализа видеоинформации.
В связи с большим ростом числа генетических заболеваний, который наблюдается в последние годы, проблема автоматизации хромосомного анализа приобрела особую актуальность.
Цель работы. Целью диссертационной работы являлась разработка модели, адекватно описывающей цитогенетическое изображение. На ее основе требовалось разработать методы и алгоритмы обработки визуальной и ф а кто I р аф и ч е с к о й информации для создания двух программных систем:
1. автоматизированного хромосомного анализа метафазных изображений, содержащих структурно-перестроенные хромосомы;
2. управления базами данных по постоянным клеточным линиям человека и животных.
Работа проводилась в рамках Государственной научно-технической программы «Геном человека».
Научная новизна работы.
1. Разработана четырехуровневая модель цитогенетических изображений для задачи классификации серий метафазных изображений. Для каждого из уровней модели описаны содержание и структура информации.
2. Разработан алгоритм анализа серий метафазных изображений, содержащих структурно-перестроенные хромосомы.
3. На основе полученных математических соотношений разработан алгоритм формирования модельных метафазных изображений.
4. Разработаны алгоритмы построения признакового описания объекто! хромосом и на их основе предложена методика формирования эталонных онисг ний.
Методы исследования. В диссертации использовались методы и технологи искусственного интеллекта (ИИ), применяемые в машинном зрении, а также пра вила построения реляционных баз данных.
Обоснованность и достоверность выдвигаемых и использованных в диссер тации научных положений, выводов и рекомендаций подтверждается:
• теоретическим обоснованием,
• апробированием программной реализации,
• опытом внедрения разработанных систем,
• перспективой дальнейшего применения разработанных методов и алгорит
мов,
• перспективой дальнейшего совершенствования разработанных систем.
Практическая ценность.
1. Создана система автоматизированного анализа серий метафазных изображений, содержащих структурно-перестроенные хромосомы.
2. Создана система управления базами данных клеточных линий человека к животных, позволяющая осуществлять научные исследования в области цитоге-нетического анализа.
Внедрение систем подтверждено соответствующими актами.
Апробация работы. Результаты работы были представлены на международных, всероссийских и всесоюзных семинарах, симпозиумах и конференциях, в их числе:
41-й международный конгресс европейского общества клеточных культур, Италия, Верона, 1994;
Всесоюзные конференции "Геном человека - 90, 91", Переславль-Залесский, 1990, 1991;
Всесоюзная конференция АСОИЗ-89, Ленинград, 1989;
Советско-британский семинар "Medical Diagnostic and Population Screening using modern Electronic Imaging techniques", Москва, 1991;
Советско-болгарский научно-технический семинар « Микропроцессорная и компьютерная техника в машино- и приборостроении», Абакан, 1990.
Программные системы демонстрировались на научных семинарах Института цитологии РАН, в международном центре программы «Геном человека» HUGO centre, информационном центре Института молекулярной генетики РАН и на указанных ранее конференциях и семинарах.
Работа докладывалась на объединенном научном семинаре Вычислительного центра СО РАН в г. Красноярске и кафедры «Математическое обеспечение ЭВМ» Красноярского государственного технического университета.
Публикации. По теме диссертации опубликовано 10 печатных работ.
Структура и объем диссертации. Диссертация состоит списка принятых сокращений, введения, пяти разделов, заключения, списка литературы и одного приложения. Работа содержит 156 страниц машинописного текста, 64 рисунка и 10 таблиц . Список литературы включает 228 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Введение содержит общую характеристику работы, актуальность выбранной темы. Формулируются цели и задачи исследования, приводится краткое содержание работы, описываются основные результаты.
Первый раздел посвящен вопросам эффективного использования знаний применительно к обработке изображений, а также описанию особенностей анализа цитогенетических изображений. Проводится детальный анализ существующих систем автоматизированного анализа хромосом
Одной из основных проблем ИИ является проблема адекватного представления знаний предметной области. Чрезвычайная сложность формализации знаний для использования в ЭВМ привела к созданию различных формальных моделей для их хранения. Этим вопросам посвящен подраздел 1.1.
Современным технологиям обработки изображений посвящен подраздел 1.2, в котором обсуждаются проблемы МЗ и основные методы решения задач понимания изображений.
Эксплуатация систем, оперирующих обобщенными знаниями, показала их недостаточную эффективность при решении узкоспециализированных задач. Поэтому при создании высокоэффективной экспертной системы необходимо погружение в конкретную предметную область.
Методы искусственного интеллекта оказали существенное влияние на способы построения информационно-справочных систем и баз данных: появился "дружественный" интерфейс, заметно упростивший взаимодействие человека с компьютером, стали использоваться модели данных нового типа, призванные решить задачу удержания семантики предметной области. Такие системы получили название "семантические". Анализ современных технологий построения баз данных и баз знаний приведен в подразделе 1.3.
Данная работа посвящена созданию интеллектуальных программных средств, облегчающих труд специалисту - цитогенетику. Основные задачи, решаемые сейчас современной цитогенетикой, и их информационные аспекты обсуждаются в подразделе 1.4.
Объектами исследования ученых - цитогенетиков являются хромосомы -носители генетической информации (рис.1).
Для того, чтобы иметь возможность наблюдать хромосомы, их окрашивали с помощью специальных красителей. При этом ученые обратили внимание на то, что хромосомы различаются по форме и размерам. В начале 70-х годов был предложен оригинальный метод дифференциальной окраски, который позволил выявить индивидуальную яркостную структуру объектов-хромосом, что дало возможность однозначно идентифицировать все хромосомы человека. Результатом анализа метафазного изображения является таблица, носящая название кариограмма (рис.2).
Рис. 1. Исходный хромосомный препарат. Рис.2. Кариограмма.
Привлечение компьютеров к решению цитогенетических задач началось в 60-х годах. Огромный объем анализируемой визуальной информации в процессе проведения цитогенетического исследования (до 200 клеток на 1 человека), а также отсутствие требуемого числа специалистов - цитогенетиков выдвинули на передний план необходимость автоматизации этого процесса. В настоящее время исследования в области компьютерного цитогенетического анализа активно развиваются. Это объясняется все возрастающей потребностью в обработке цитогенетической информации, часто неудовлетворительным качеством классификации хромосом автоматизированными системами, а также совершенствованием цитогенетических методик анализа.
Автоматизированный анализ нормальных хромосом на ЭВМ состоит из нескольких стадий, характерных для процесса анализа изображений в целом (рис.3). Каждому этапу обработки соответствует определенный уровень представления видеоинформации. Поиск, сегментация и построение результирующей классификационной таблицы (кариограммы) имеют дело с иконическим уровнем представления изображений. Редактирование и вычисление признаков соответствуют сегментированному и признаковому уровням. Классификация имеет дело с изображениями, которые соответствуют признаковым и реляционным уровням представления.
ИКОНИЧЕСКИЙ УРОВЕНЬ
Рис. 3. Стадии, характерные для процесса анализа изображений.
Рассматривается основной объект анализа - хромосома, однозначно характеризующаяся тремя основными характеристиками:
♦ длина,
♦ центромерный индекс (отношение длины «короткого плеча» ко всей длине хромосомы),
♦ интегральный яркостной профиль, характеризующий последовательность яр-костных сегментов, однозначно идентифицирующих хромосому.
Предлагается использовать ряд дополнительных характеристических признаков: силуэт, распределение яркости по «плечам» объекта и форма его концов.
Рассматривается многообразие способов представления признаков объектов - хромосом, которое обуславливает широкий спектр используемых методов классификации и методов описаний объектов.
Далее выявляются причины низкого качества распознавания. К ним относятся случаи, когда изображение содержит искривленные, перекрывающиеся объекты, а также случаи низкого контраста.
Делается вывод, что уменьшение уровня ошибок может быть достигнуто с помощью привлечения дополнительной информации об объектах - хромосомах. Для этого используется анализ нескольких метафазных изображений, полученных из одного источника.
Наиболее сложным является случай анализа клеток, содержащих структурно-перестроенные хромосомы (маркеры). Несмотря на многообразие литературы, посвященной автоматизации цитогенетичсского анализа, очень мало внимания уделено вопросам распознавания таких хромосомных наборов. Это объясняется прежде всего резко возрастающей сложностью такой задачи. Во-первых, количество хромосом, содержащихся в такой клетке, может сильно варьироваться. Во-вторых, яркостная структура объектов меняется. В-третьих, требуется привлечение большого объема разнородных экспертных знаний, касающихся данной предметной области. В четвертых, требуется анализировать серию изображений хромосом, полученных из одного источника.
Исследование метафазных изображений, содержащих структурно-перестроенные хромосомы является одной из самых трудоемких задач современной цитогенетики.
В основе анализа серий метафазных изображений лежит подход, суть которого заключается в следующем: в большинстве случаев хромосомный материал в сумме неизменен. Поэтому отсутствие какой-либо нормальной хромосомы, как правило, влечет за собой использование ее материала при формировании маркеров. Кроме того, маркерным хромосомам одной метафазы соответствуют маркеры другой. Благодаря этому можно составить таблицу идентичности маркерных хромосом и на ее основе произвести предварительную идентификацию объектов.
Использование дополнительных приемов идентификации хромосомных маркеров (составление таблиц количественных характеристик нормальных и маркерных хромосом, а также использование дополнительных окрасок хромосом) приводит, как правило, к стопроцентной идентификации. На основе полной картины о составе и происхождении маркерных хромосом строится специальная схема, называемая реконструированным кариотипом.
Источником получения хромосомных препаратов служат обычно различные клетки, полученные от нормального индивида или от пациента с наследственной или приобретенной патологией. Однако во многих случаях требуется исследовать клетки в течение длительного времени, а также рассматривать влияние различных вредных воздействий на хромосомный материал. Очевидно, что такие исследования часто невозможно проводить с живым организмом. Для этих целей были разработаны методики получения постоянных клеточных линий - самостоятельно развивающихся популяций клеток. В последние годы клеточные линии стали использоваться как линии-продуценты, предназначенные для производства лекарственных форм, таких как интерферон, инсулин и т.п.
Изучение цитогенетических особенностей клеточных линий является крайне важной задачей современной цитогенетики. Это объясняется тем, что только ци-тогенетический подход позволяет однозначно идентифицировать линию. Кроме
того, основываясь на результатах их анализа, возможно корректировать результаты автоматизированной обработки хромосомных препаратов.
В подразделе 1.5 формулируются и конкретизируются основные цели и задачи диссертационной работы.
Во втором разделе рассматриваются вопросы, связанные с разработкой моделей, адекватно описывающих предметную область, а также разрабатываются методы и алгоритмы анализа и идентификации объектов - хромосом на основе знаний.
В подразделе 2.1 приводится описание четырехуровневой модели цитогене-тического изображения.
Любая математическая модель содержит две основные компоненты: Р=<2уЯ>, где 2 - множество знаков или объектов модели; Я - множество отношений, задаваемых на объектах.
Отношения устанавливают взаимосвязи между двумя и более объектами или выражают свойства одного объекта (в зависимости от размерности отношения). В последнем случае говорят об унарном отношении. Унарные отношения часто выделяют в отдельную компоненту. С учетом сказанного модель представляется тройкой вида: Р =< 2, Я, ,Я2 >, где Я1- множество свойств объектов (унарных отношений); Я2 - множество отношений с размерностью больше единицы.
Для решения задачи идентификации хромосом требуется привлечение знаний, соответствующих иконическому, сегментированному, признаковому и семантически-значимому уровням описания видеоинформации. Каждому уровню знаний ставится в соответствие одноименный уровень модели предметной области.
1. Иконический уровень.
Множество объектов данного уровня понимается как множество всех точек изображения. Каждой точке изображения с координатами (х,у) па этом уровне соответствует определенное значение яркости из множества допустимых значений:
В.1 = {Вг1,Вг2,...,Вгг}.
Множество отношений И2, задаваемых на элементах изображения, включает также отношение смежности, характеризующее "соседство" точек изображения.
2. Сегментированный уровень.
В качестве объектов множества 2 здесь выступают совокупности точек изображения. Тогда односвязный объект изображения В1 может быть представлен в виде совокупности замкнутой границы В и внутренней области Rg, т.е.
В1 = В и Rg .
Множество свойств объектов этого уровня описывает признаки, характеризующие свойства плоских бинарных объектов. К ним относятся топологиче-
ские, метрические и параметрические признаки. Множество отношений Л2, ус танавливаемых на объектах, включает отношения смежности и "часть-целое".
3. Признаковый уровень.
В качестве объектов модели этого уровня выступают имена тех признаков которые будут использоваться в модели семантического уровня. Множеств! свойств Rj описывает те конкретные количественные характеристики, которы соответствуют каждому признаку.
Множество отношений R2 признакового уровня модели включает отноше ние родо-видовой иерархии.
4. Уровень семантически - значимых объектов.
Множество знаков на этом уровне включает классы объектов, которые могу быть выделены на изображении.
Множество Z определяет алфавит классификации. Множество свойств объ ектов модели данного уровня описывает признаки KJiaccoi Rj = {Z j,Z 2,...,Z к}.
Множество значений свойств классов предметной области может задаватьс} интервалами значений признака, конкретными значениями из множества и логи ческими величинами true/false.
Множество отношений R2, устанавливаемых на семантически-значимы? объектах предполагает отношение частичного порядка на множестве объектов пс шкале одного из числовых признаков, родо-видовую иерархию на классах объектов, отношение включения и отношение гомологичности.
В подразделе 2.2 ставится задача классификации нормальных и маркерных хромосом человека.
Наиболее общей является задача классификации хромосомных наборов клеточных линий, содержащих маркерные хромосомы. В этом случае необходимо классифицировать как нормальные, так и маркерные хромосомы. Количество маркеров, а также классов маркерных хромосом заранее неизвестно. Кроме того, количество нормальных хромосом одного типа (гомологов) сильно варьируется и находится в диапазоне от 1 до 6.
С точки зрения формальной модели данный случай может быть описан следующим образом. Пусть S = {S1 ,S2 ,...,S46 ,...,S46+K ,...,S 46+к+2}~ множество всех семантически-значимых объектов изображения где К— количество ложных объектов, Z- количество маркерных хромосом, £,Z е {1,2,...}. Требуется отнести объекты множества S к одному из классов
W — {W1,W3,...)W24>W2S,...,W2S+q},
и
где - число классов маркерных хромосом с ограничением IV{Р| IV) = 0 при
/ , предусматривающим однозначность классификации. Для этого использует-
л**
ся решающее правило Я : Б' е IVгде I = у = 1,...,25+(2-
При анализе линии используется серия М из Л (&<20) метафазных изображений. При этом говорят об /и классах маркерных хромосом, общих для серии. Количество классов маркеров ш1 для метафазы Л/, е М р удовлетворяет неравенству /и,< /и для /= 1,..., к.
В подразделе 2.3 задача классификации рассматривается применительно анализу серий метафазных изображений. Приводится формальное описание процесса автоматизированного кариотипирования.
Решение II о принадлежности объекта 5"' классу IV} принимается исходя
из Байесовского решающего правила, основанного на вычислении апостериорной вероятности:
е IV]если Р(\Ук)р(5с1^к)< Р(1У1)р(5с\1У])У] для Ук,
где Х! - вектор измерений анализируемого объекта,
Р(1Ук) — априорная вероятность наступления события «рассматриваемый объект принадлежит классу У¥к », р() — плотность вероятности,
V] - весовой коэффициент, подбираемый в процессе обучения.
Для выявления маркерных хромосом используется пороговое ограничение апостериорной вероятности 77г. Величина порога подбирается в процессе обучения системы. Решение о наличии маркерной хромосомы принимается, когда
тах{Р(Цгг)р(х\\¥г)} < Тк при г=1,...,24.
Все "отбракованные" хромосомы метафазы М1 образуют множество 2)(, которое подвергается дальнейшему анализу на следующих этапах обработки.
В процессе анализа составляются суммарные числовые таблицы, содержащие информацию о количестве нормальных С}™7 и маркерных ц'™т хромосом метафазы М,. Полученные значения ц""' и q™n анализируются для всех метафаз серии М р. Определяются математическое ожидание Рр и дисперсия Тр распределения нормальных и маркерных хромосом для серии М При большом значении дисперсии вновь анализируются метафазы, оказывающие наибольшее влияние на увеличение Т . Если мстафаза М, содержит меньшее количество нормальных хромосом, чем остальные, изменяется величина порога Тк и процесс анализа метафазы повторяется. Проверяется, уменьшилась ли величина диспер-
сии Т . Если нет, то восстанавливается предыдущее состояние классификации
метафазы. Процесс завершается, если величина дисперсии не уменьшается при новом изменении порогового значения.
Данный алгоритм лежит в основе системы автоматизированного кариотипи-рования нормальных и маркерных хромосом, программная реализация которой описывается в следующем разделе.
В подразделе 2.4 рассматривается процесс моделирования метафазных изображений. Моделирование хромосомы предполагает как моделирование формы объекта, так и воссоздание ее яркостного состава. За основу решения первой подзадачи было взято стремление аппроксимировать форму объекта некоторой аналитической кривой. В качестве такой кривой был выбран эллипс. При этом хромосома моделируется двумя пересекающимися эллипсами, каждый из которых описывает отдельное "плечо" объекта. Клеточное ядро моделируется при помощи одного эллипса.
При моделировании яркостного состава было решено формировать его с помощью последовательности ортогональных к оси хромосомы полос различной ширины, имеющих различный уровень яркости, выбираемый из пятиградацион-ной яркостной шкалы.
Подраздел 2.5 содержит описание методов и алгоритмов, необходимых для разработки системы автоматизированной классификации нормальных и структурно перестроенных хромосом человека.
В подразделе 2.5.1 рассматриваются алгоритмы сегментации изображения. В данной работе используется метод локальной пороговой сегментации. Его применение обуславливается сравнительно простой структурой цитогенетического изображения: темные удлиненные объекты изображения - хромосомы и темные круглые объекты - клеточные ядра расположены на светлом фоне.
Подраздел 2.5.2 описывает особенности редактирования метафазного изображения. Для этого используются следующие алгоритмы:
1). алгоритм удаления крупных объектов - клеточных ядер, который использует критерии ограничения по площади, периметру и компактности;
2). алгоритм удаления мелкого "мусора", применяющий последовательное утоныпение и утолщение объектов;
3). алгоритм разделения соприкасающихся объектов на основе анализа границы и выбора участка деления с использованием яркостной информации изображения;
4). интерактивный алгоритм разделения налегающих хромосом.
Сочетание интерактивных и автоматических алгоритмов позволяет осуществить эффективное редактирование метафазного изображения.
В подразделе 2.5.3 рассматривается объект цитогенетического изображения - хромосома. Необходимо отметить его следующие характерные особенности:
1. отсутствие четкой границы объекта (наличие шума на границе);
2. большой диапазон изменения размера для хромосом одного типа;
3. большой разброс значений яркости внутри объектов одного типа для разных метафаз (совокупностей хромосом одной клетки);
4. объекты одного типа могут сильно отличаться друг от друга по форме (даже для хромосом одной метафазы).
Перечисленные особенности предполагают формирование набора признаков, инвариантного относительно формы объекта. Выделяют три основных признака, описывающих объект-хромосому: длина, центромерный индекс, интегральный яркостной профиль (ИЯП) (для дифференциальной окраски), характеризующий последовательность яркостных сегментов. Этот набор не всегда является достаточным для осуществления качественной классификации. В процессе работы был найден ряд дополнительных признаков: силуэт, компактность объекта, распределение яркости по плечам хромосомы. В подразделе приводится детальный анализ методов получения отдельных признаковых описаний объектов.
В разработанной системе применяются оригинальные алгоритмы, необходимые для формирования признакового описания хромосом:
1. алгоритм "скелетонизации" средней оси хромосомы;
2. алгоритм построения перпендикулярных отрезков к средней оси.
Используются новые подходы нахождения следующих признаков.
1. Интегральный яркостной профиль. Используется представление ИЯП как совокупность модальных значений яркости отрезков, перпендикулярных к средней оси. Формы представления ИЯП - функциональная, структурная и логическая -позволяют использовать широкий спектр алгоритмов сопоставления с эталонными описаниями, что необходимо для достоверной классификации.
2. Центромерный индекс. Центромерный район определяется по совокупности данных ИЯП и силуэта объекта, как наиболее узкое место с "темным" участком.
Кроме того, используется новый признак - распределение яркости по "плечам" объекта, что позволяет более точно сформировать группы хромосом и улучшить результаты классификации.
Подраздел 2.5.4 описывает особенности получения эталонных описаний объектов. При формировании эталонных фреймовых описаний была использована концепция обучения, которая предполагает итеративное предъявление системе обучающих выборок с целью построения разделяющей гиперповерхности в признаковом пространстве по следующему алгоритму.
1) Ввод спецификации метафазного изображения : кому принадлежат клетки, тип окраски.
2) Сегментация обучающего изображения метафазы.
3) Редактирование изображения.
4) Вычисление пространства признаков.
5) Интерактивная корректировка центромерныхрайонов.
6) Интерактивное указание принадлежности объектов - хромосом определенным типам (1-22,X, У).
7) Запись полученных результатов в массив фреймов
После обработай М0 обучающих изображений происходит выполнение следующих шагов.
8) Нормализация длин хромосом.
9) Вычисление математического ожидания и дисперсии для числовых при-
знаков.
10) Определение характерных зон ИЯЛхромосомы.
11) Вычисление значений предикатов на найденных зонах.
12) Выбор "ключевых" предикатов, определяющих тип хромосомы.
13) Построение синтаксического описания ИЯП.
14) Построение разделяющей гиперплоскости.
15) Пробная классификация объектов.
16) Интерактивный контроль выполнения классификации.
17) Повторение пунктов 1-16 при неудовлетворительном результате.
Определение характерных зон яркостной структуры, которые индивидуальны для каждого типа хромосом, происходит следующим образом. Сначала находится общее количество локальных экстремумов функции ИЯП. Далее определяются местонахождения локальных минимумов нормализованной функции ИЯП {Min1,...,Ming} для Nt объектов одного типа. Для этого организуется Nt массивов, содержащих координаты экстремумов. Исключаются из рассмотрения случайные экстремумы, которые имеются не более, чем у пяти процентов объектов. Поскольку наличие локального экстремума можно считать случайным событием, то правомерным является нахождение математического ожидания и дисперсии для каждого локального минимума. Будем теперь считать, что точки, соответствующие значениям математических ожиданий локальных минимумов, будут являться границами "характерных участков".
Далее, эти участки ИЯП обрабатываются с использованием множества предикатов типа: «на интервале существует темная область», «на интервале есть локальный минимум» и др.
Результатом обработки одного объекта-хромосомы является совокупность множеств логических значений D1 — {t},.•.,t10},...,Dm ={t1,...,tl0}, где t. e {true, false}-, m —количество «характерных» участков.
В результате сопоставления результатов обработки для Q объектов одного типа получаем матрицу множеств логических значений, которая обрабатывается при помощи следующего правила: если значение предиката ti принимает одно и то же значение для более 70% предъявляемых объектов, то оно считается "ключевым". Все остальные значения предикатов исключаются из множеств Dr "Ключевые" предикаты образуют множество Vj, характеризующее яркостной
профиль хромосомы j-ro типа. Очевидно, что количество элементов таких множеств для разных типов хромосом может быть различным.
Процесс наполнения базы знаний сводится к использованию интерактивной обучающей подсистемы, формирующей фреймовые описания для хромосом различных типов. Фрейм, описывающий объект-хромосому, состоит из характеристик, представленных в числовой, синтаксической и логической форме. Такое эталонное описание позволяет использовать при интерпретации метафазного
изображения комбинированные алгоритмы статистического, логического и синтаксического распознавания и получить более качественные результаты.
В подразделе 2.5.5 рассматривается сопоставление и интерпретация объектов-хромосом.
Форма представления данных в базе знаний в виде фреймов предполагает использование соответствующих методов сопоставления анализируемых объектов с эталонными описаниями. Способ сопоставления числовых данных, представленных в виде интервалов, не вызывает затруднений. Факт попадания числовой величины в заданный диапазон значений идентифицируется с логической величиной, которая может быть использована в дальнейших алгоритмах логического сравнения.
Для сравнения интегрального яркостного профиля, представленного в виде синтаксического описания-списка, используется подход, учитывающий последовательности составляющих его элементов.
Подраздел 2.5.6 затрагивает вопросы формирования результирующего изображения - кариограммы. Рассматриваются алгоритмы ее динамического построения.
В подразеле 2.5.7 рассматривается организация процесса управления анализом серий метафазных изображений. Используется смешанная стратегия управления Top-Down (TD) (сверху - вниз) и Bottom-Up (BU) (снизу-вверх). Стратегия восходящего управления (BU) или стратегия под управлением данных организует процесс обработки отдельных метафазных изображений в виде последовательности этапов преобразования видеоинформации от иконического уровня к реляционному. Стратегия нисходящего управления (TD) или стратегия под управлением моделей позволяет организовать процесс анализа серий метафазных изображений. Применение смешанной стратегии позволяет управлять процессами сопоставления знаний и вносить коррекции в работу отдельных подсистем, представленных на разных уровнях модели предметной области, что позволяет повысить качество классификации объектов.
Третий раздел посвящен программной реализации Системы автоматизированной классификации нормальных и структурно - перестроенных хромосом.
В подразделе 3.1 рассматриваются особенности программной среды специализированного компьютера MAGISCAN-2AR на котором выполнялась разработка Системы.
В подразделе 3.2 описывается структура программной Системы автоматизированной классификации серий метафазных изображений. Рассматривается общее описание, назначение и взаимодействие основных подсистем, работающих в режимах обучения и рабочем режиме.
Подраздел 3.2.1 рассматривает используемые в системе структуры данных, необходимых для описания изображений: точку, объект-хромосому, объект-изображение. Приводятся взаимосвязи рассмотренных типов описания видеоинформации. Структуры данных соответствуют четырем уровням ее представления.
В подразделе 3.2.2 рассматривается программная реализация Системы автоматизированного анализа серий метафазных изображений. Она реализована на алгоритмическом языке USCD - PASCAL и организована в виде единого комплекса подсистем, находящихся в отдельных структурных единицах типа UNIT. Управление системой осуществляется из основного модуля. Программная система состоит из семи UNIT-ob.
Все UNIT-ы представляют собой самостоятельные подсистемы, компиляция и отладка которых может происходить независимо друг от друга. На этапе компоновки они объединяются в один загрузочный модуль. Передача информации между UNIT-ши осуществляется через разработанные структуры данных и видеопамять. Разработанный программный продукт реализован в виде многоуровневой оверлейной структуры и занимает около 300 Кбайт в загрузочном виде (с учетом внутренних данных), что соответствует примерно 9000 операторам языка USCD-PASCAL.
В подразделе 3.2.3 рассмотрена организация подсистемы ВЫЧИСЛЕНИЯ ПРИЗНАКОВ как пример организации одного из UNIT-ob.
Подсистема ВЫЧИСЛЕНИЯ ПРИЗНАКОВ и библиотека процедур вычисления признаков реализована в виде отдельного UNIT-a. Она имеет 7 уровней иерархии. Для вычисления признаков под управлением головного модуля осуществляется ряд подготовительных действий: строится средняя ось объекта, сглаживаются границы, осуществляется дополнительная фильтрация изображения. Здесь также приводится описание отдельных процедур и функций подсистемы.
Подраздел 3.2.4 касается вопросов функционирования системы. Приводится описание точек интерактивного взаимодействия системы и пользователя. Рассматриваются различные режимы работы системы.
В разделе 4 приводится описание экспериментальных исследований, произведенных с Системой автоматизированного анализа серий метафазных изображений.
В подразделе 4.1 описываются цели и задачи проводимых экспериментов.
Целью проводимых экспериментальных исследований является проверка работоспособности предложенных алгоритмов обработки цитогенетической видеоинформации для отдельных подсистем, а также исследование программной системы в целом для решения практических задач цитогенетики.
В подразделе 4.2 подробно рассматриваются эксперименты по анализу функционирования подсистем обработки видеоданных в системе анализа хромосом. Рассматривается анализ двух метафаз с различной кривизной объектов. Приводятся результаты функционирования отдельных подсистем. Приводится ряд количественных характеристик, полученных в процессе исследований.
Рассматривается время выполнения отдельных этапов обработки изображений разработанной Системой, зарубежным аналогом - системой MickG и ручным способом.
Приводится сравнительная таблица, характеризующая качество идентификации отдельных объектов-хромосом автоматизированными системами с исполь-
зованием различных метафазных изображений. Процент объектов, правильно распознанных разработанной Системой, на отдельных изображениях превышает аналог не менее, чем на 10%.
В качестве основного теста для разработанной системы использовался анализ серии метафазных изображений линии RA.II. Рассматривалось 10 метафаз линии.
Анализ такого объема цитогенетических данных по экспертной оценке сотрудников группы цитогенетики лаборатории морфологии клетки Санкт-Петербургского института цитологии РАН занимает около двух недель работы двух сотрудников. Разработанная система выполняет эту задачу около двух часов.
На всех препаратах получены положительные результаты обработки, представляющие практический интерес для специалистов-цитогенетиков.
В разделе 5 рассматриваются вопросы разработки программной информационно - справочной системы по клеточным линиям человека и животных. При проектировании базы данных по клеточным линиям использована разработанная модель на уровне семантически -значимых объектов, которая была расширена применительно к клеточным линиям.
При создании реляционных БД используются различные методы, позволяющие оптимальным образом организовать структуры данных и минимизировать функциональные зависимости. При проектировании БД был использован метод НФБК декомпозиции.
В подразделе 5.1 описывается реализация базы данных. Приводится описание программного инструментария, который использовался при ее создании.
Подраздел 5.2 затрагивает особенности хранения, сортировки информации. Рассматриваются вопросы пользовательского интерфейса, особенностей заполнения БД.
Заключение содержит краткое изложение результатов работы, выносимых на защиту, которые заключаются в следующем.
1. Разработана четырехуровневая модель цитогенетических изображений для задачи классификации серий метафазных изображений. Для каждого из уровней модели описаны содержание и структура информации.
2. Разработан алгоритм анализа серий метафазных изображений, содержащих структурно-перестроенные хромосомы.
3. На основе полученных математических соотношений разработан алгоритм формирования модельных метафазных изображений.
4. Разработаны алгоритмы построения признакового описания объектов-хромосом и на их основе предложена методика формирования эталонных описаний.
5. Создана Система автоматизированного анализа серий метафазных изображений, содержащих структурно-перестроенные хромосомы.
6. Создана Система управления базами данных клеточных линий человека и животных, позволяющая осуществлять научные исследования в области цитоге-нетического анализа.
Наиболее перспективными направлениями развития двух разработанны: программных Систем являются следующие:
• интеграция Системы анализа клеточных линий с СУБД по клеточным линиям;
• перенос программного обеспечения на более совершенную аппаратную плат форму на основе компьютеров RISC архитектуры;
• создание сетевых версий систем;
• выпуск компакт-дисков с информацией но клеточным линиям.
Приложение содержит перечень документов о внедрении двух Систем.
Основное содержание диссертации опубликовано в следующих работах.
1. Денисов Д.А., Подлесный К.С. Автоматизированная система анализа ци тогенетических изображений.// Межвузовский сборник САПР, Красноярск КрПИ,-1989, С. 28-38.
2. Денисов Д.А., Подлесный К.С. Моделирование цитогенетических изобра жений на системе MAGISCAN-2AR.// Тезисы доклада на всесоюзной конферен ции АСОИЗ-89, Лснишрад, - 1989, С. 97.
3. Денисов Д.А., Дудкин А.К., Мамаева С.Е., Подлесный К.С., Савельевг Л.Г., Энсон Э.Я. CHILD - СИСТЕМА АВТОМАТИЧЕСКОГО АНАЛИЗА ХРОМОСОМ ЧЕЛОВЕКА НА ОСНОВЕ ЭКСПЕРТНЫХ ЗНАНИЙ.// Тез. Всесо юз. конф. "Геном человека - 90", Переславль-Залеский, М., 1990, С. 204-205.
4. Подлесный К.С., Мамаева С.Е., Денисов Д.А. Использование анализатор; изображений MAGISCAN-2AR для обработки цитогенетических изображе-ний.//Тез. советско-болгарского научно-технического семинара « Микропроцессорная и компьютерная техника в машино- и приборостроении». Красноярск, ■ 1990, С. 20-21.
5. Мамаева С.Е., Подлесный К.С., Соколова Л.В., Горюнова Л.Б. Созданиб банка данных цитогенетической и молекулярно-биологической информации пс нормальным и опухолевым клеточным линиям человека и животных. //Тез. Все-союз. конф. "Геном человека- 91", Переславль- Залеский, М., -1991, С. 163-164.
6. Подлесный К.С., Мамаева С.Е. Программная система комплексного анализа хромосом на базе анализатора изображений MAGISCAN-2AR. // Тез. совестко ■ британского семинара "Medical Diagnostic and Population Screening using moderr Electronic Imaging techniques". - 1991, C. 23.
7. Подлесный K.C., Мамаева С.Е. Система комплексного анализа хромосом человека на базе анализатора изображений MAGISCAN 2AR.// Тезисы конференции "Обработка изображений в медицине", Ташкент, -1991, С. 45.
8. Mamaeva S., Podlesny К., Podlesnaya О., Sokolova-Heim L., Goryunova L. Chromosome Database on Cell Lines Comprising Cytogenetical and Molecular - Biological Characteristics with Karyotype Images.// Abstracts of World Congress on Cell and Tissue Culture, Washington D.C. - 1992, pp. 97-98.
9. Podlesny K„ Podlesnaya O., Mamaeva S. Chromosome database on cell lines comprising cytogenetical and molecular-biological characteristics with karyotype images.// Proc. 41st International Congress of the European Tissue Culture Society. -1994, p. 62.
10. Подлесный К.С. Некоторые методы анализа визуальной цитогенетической информации.// Препринт ВЦК СО РАН, Красноярск, - 1996, 20 с.
-
Похожие работы
- Автоматизированная система обработки изображений и классификации хромосом
- Разработка моделей и комплексов программ для вычислительных и натурных экспериментов с объектами биологического типа
- Модельно-алгоритмическая поддержка анализа транзакционной надежности в системах обработки информации и управления
- Защита программных реализаций алгоритмов, основанных на преобразованиях регистрового типа, от анализа в недоверенных средах
- Разработка моделей и алгоритмов автоматизированного проектирования систем защиты информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность