автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Автоматизированная технология генетического анализа данных медицинских научных исследований

кандидата технических наук
Рябкова, Ольга Игоревна
город
Минск
год
1995
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Автоматизированная технология генетического анализа данных медицинских научных исследований»

Автореферат диссертации по теме "Автоматизированная технология генетического анализа данных медицинских научных исследований"

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

УДК 681.3

РГ*?

О Л РЯБКОВА Ольга Игоревна

и л п

• 14/) ¡ййс

АВТОМАТИЗИРОВАННАЯ ТЕХНОЛОГИЯ ГЕНЕТИЧЕСКОГО АНАЛИЗА ДАННЫХ МЕДИЦИНСКИХ НАУЧНЫХ ИССЛЕДОВАНИЙ

05.13.16 - применение вычислительной техники,

математического моделирования и математических методов в научных исследованиях

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

МИНСК - 1995

Работа выполнена в Белорусском государственном институте усовершенствования врачей Минздрава Беларуси и в Белорусском центре медицинских технологий, информатики, управления и экономики здравоохранения Минздрава Беларуси.

Научные руководители: доктор технических наук, член-корреспондент АН Беларуси, профессор Широков A.M., доктор медицинских наук, профессор Ростовцев В.Н.

Официальные оппоненты: доктор технических наук, академик АН Бела-ч руси ЛопатоГ.П.,

кандидат технических наук Афанасьев Г.К.

Ведущая организация: Институт технической кибернетики АНБ

Защита состоится "24 " ило^^л_на заседании

совета по защите диссертаций К 056.03.14 при Белорусском государственном университете по адресу: 220080, г. Минск, проспект Ф. Скорины, 4, главный корпус БГУ, ауд. 206

С диссертацией можно ознакомиться в библиотеке Белорусского государственного университета. - - - -----

Автореферат разослан "2 Ч " Q<TJtS^iJ^ 1995 г.

Ученый секретарь специализированного совета доктор технических наук

В.U. Скрипник

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность теш. В настоящее время возможность решения большинства важных проблем здравоохранения зависит, от уровня развития медицинской информатики. Проникновение информационных технологий в медицину в первую очередь обусловлено скоростью роста объема медицинских знаний (в 1,5-2 раза быстрее по сравнению с другими разделами науки) и необходимостью обработки большого количества данных; формализации и интеграции медицинских данных и знаний; формирования новых стратегий здравоохранения. При этом ключевой задачей медицинской информатики является создание методов разработки средств автоматизации. Наиболее остро стоит проблема информатизации исследований в области медицинской профилактики (Е.Й. Чазов, 1983; В.А. Кошечкин и др.,1983; В.Н. Ростовцев,1936; В.П. Казначеев', 1986; Ю.П. Лисицын, 1992).

Цель медицинской профилактики - обеспечение и сохранение здоровья индивидов и их семей, что достигается при наличии достаточно полной системы технологий, включающей индивидуальные и семейно-индивидуальные рекомендации и назначения на основе индивидуального прогноза заболеваний. Прогноз является основой для профилактики в таком же смысле, в каком диагноз является основой для лечения. В настоящее время более развито вторичное прогнозирование, т.е. прогноз течения заболевания и .его исхода. Первичный прогноз, т,е. прогнозирование первичного заболевания на основе генотилических и экотипических предпосылок для данного индивида, является нерешенной проблемой в медицине, особенно в аспекте распространенных заболеваний. Распространенные заболевания (сердечно-сосудистые, бронхе-легочные, онкологические и др.) имеют полигенный тип наследования и составляют более 30% вбех заболеваний. Поэтому в первую очередь необходимо создать методы, позволяющие выявлять структуру предрасположенности к различным заболеваниям и выявлять здоровых лиц с реальным риском по конкретным распространенным заболеваниям, т.е. необходимо разработать методы первичного прогноза. В качестве теоретической основы исследований по разработке методов первичного прогноза, прежде всего должна использоваться медицинская генетика, т.к. её методы позволяют строить модели патогенетической структуры предрасположенности к распространенным заболеваниям (В.И.Ростовцев, 1986; Л.И. Беляева, 1990; Ю.Р. Ковалев,1992; И.В. Василевский, 1992). Использование генетических методов в таких исследованиях невозможно без применения вычислительной техники (многомерный анализ данных большой размерности, сложные алгоритмы анализа). Указанная специфика предметной области и необходимость учета того,

что пользователь - врач не имеет достаточной подготовки как в области генетико-статистического анализа, так и информатики, обуславливают необходимость разработки автоматизированной технологии генетического анализа данных научных исследований в области медицинской профилактики.

Цель работы: разработка моделей и методов создания автоматизированной информационной технологии генетического анализа данных научных исследовании в области медицинской профилактики.

Для достижения цели необходимо решить следующие задачи:

- провести системный анализ предметной области, сформировать и обосновать требования к автоматизированной технологии генетического анализа данных медицинских НИР;

- разработать теоретическую основу для создания технологии;

- разработать методы и средства построения технологии;

- оценить эффективность созданной технологии;

Методы исследования. При решении вышеуказанных задач исполь-вовались методы теории вероятностей и математической статистики, методы построения и оценки прикладных программных систем.

Научная новизна подученных результатов. Впервые разработаны методы решения задач построения моделей прогноза полигенно наследуемых заболеваний, которые могут быть использованы при создании автоматизированных систем обработки медицинских данных. Впервые разработана концептуальная модель программной системы генетического анализа, которая может использоваться при создании автоматизированных технологий в области медицинской профилактики. Разработанные новые системотехнические модели "пользовательской задачи" и "взаимодействия компонент системы" могут применяться при создании автоматизированных информационных технологий. Впервые создана автоматизированная технология, ориентированная на генетико-экологический подход при разработке новых методов в различных областях медицины. Ее отличительной особенностью является то, что она позволяет выявлять структуру предрасположенности распространенных заболеваний. Аналоги отсутствуют.

. Практическая значимость полученных результатов. Разработанные модели и методы были использованы при создании средств автоматизации медицинских научных исследований. Создание новой технологии обеспечило возможность завершения целого ряда медицинских НИР по разработке методов первичного прогноза и профилактики, а также позволяет развернуть широкий фронт научных работ в различных областях медицины по созданию практических методов решения медицине -

ких задач на основе генетико-экологического подхода. Предложенный способ оценки прикладных программных средств был использован при определении эффективности созданной технологии.

Личный вклад соискателя. Автором выполнено системотехническое -исследование предметной области, разработаны принципы и методы построения программного обеспечения созданной технологии, алгоритмы управления процессом решения пользовательских задач, языковое обеспечение технологии, выполнена оценка эффективности созданной технологии на основе предложенного им способа. Совместно с В.Н. Ростовцевым разработана концептуальная модель прикладной системы генетического анализа. Совместно с В.Н. Ростовцевым и И.Б. Марчен-ковой разработаны методы решения задач выявления свойств признаков и построения структурных моделей прогноза. Автор принимал участие в разработке и реализации алгоритмического, программного и информационного обеспечения технологии, а также в ее эксплуатации.

Внедрение работы. Разработанная технология использовалась при проведении научных исследований в Белорусском институте усовершенствования врачей, Белорусском институте физической культуры, Всесоюзном кардиологическом научном центре АМН СССР, Петербургском педиатрическом- медицинском институте, Азербайджанском медицинском институте, Украинском институте пульмонологии, институте биоорганической химии СО АН России.

На заддггу выносятся:

- совокупность моделей для создания автоматизированной технологии генетического анализа, в том числе модели данных, концептуальная модель средств автоматизации, системотехнические модели пользовательской задачи и взаимодействия компонент системы, графовая 'модель технологии;

- методы построения автоматизированной технологии генетического анализа данных, в том числе, методы выявления свойств, признаков, методы выявления классов предрасположенности к заболеванию;

- автоматизированная технология генетического анализа данных медицинских научных исследований, обладающая высоким уровнем эффективности.

Апробация работы. Основные результаты по теме диссертации докладывались и обсуждались на Всесоюзных конференциях; "Методы и программное обеспечение обработки информации и прикладного статистического анализа", Минск, 1985; "Актуальные вопросы адапта^и человека к климато-географическим условиям и первичная профилактика", Новосибирск, 1986; "Планирование и автоматизация эксперимента

в научных исследованиях", Ленинград, 1936; "Применение многомерного статистического анализа в экономике и оценке качества продукции", Тарту, 1989; "Использование ЗШ в научной и учебной работе гуманитарного вуза", Минск, 1990; "Информатика в здравоохранении", Москва, 1990; "Применение многомерного статистического анализа в экономике и оценке качества продукции", Москва, 1ЭЗЗ; на Всесоюзной шкоде-совещании "Проблемы проектирования экспертных систем", Москва, 1988; на Республиканских конференциях: "Физические факторы и технические средства в медицине", Минск, 1986; "Информатика в здравоохранении", Минск, 1992; на научных семинарах в ИМ АН Бала-руси, ИК АН Беларуси, ИМ СО АН России.

Публикации. Основные.'научные результаты диссертационной работы отражены в публикациях И-14].

Структура и объем работы. Диссертация состоит из введения, общей характеристики работы, пяти глав, заключения, выводов, списка использованных источников, 7 приложений; изложена на 123 страницах печатного текста, содержит 11 рисунков, 10 таблиц, 221 наименование литературы, 47 страниц приложений.

" СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается необходимость работы. В общей характеристике работы показывается актуальность темы, сформулирована цель, определены основные задачи исследования, перечислены основные результаты, подчеркнута новизна и практическая ценность работы

В первой главе приводятся основные результаты системного анализа предметной области, являющейся пересечением методологий решения задач прогноза и генетического анализа, а также проблем компьютеризации научных исследований в области медицинской профилактики. Показано, что ключевой задачей в процессе информатизации научных исследований в области медицинской профилактики, является разработка программных средств построения структурных моделей предрасположенности к распространенным г-гболеваюкм. Выявлена наиболее существенная для процесса автоматизации совокупность особенностей предметной области. Определены четыре группы требований к технологии: методологическая и 3 технологических (к структуре данных, к характеристикам управления вычислительным процессом, к интерфейсу с пользователем). Главные из них - обеспечение построения структурных моделей прогноза любых полигенно наследуемых заболеваний; анализ семейных данных фенотипического и экотипического происхож-

денид, представленных в разных шкалах измерения; наличие форм представлени:: данных адекватных информационным объектам предметной области и аффективных при реализации; минимум ограничений на составление последовательности реализованных методов и их логического агрегирования; адекватность языковых средств семантике предметной области; протоколирование гтапов работы. Определена структура решаемой задачи:

Разработка автоматизированной технологии генетического анализа данных

—Кеепечение формирования информационно-управляющей среды

I-Поддержка и хранение ;:спользуемой информации

I-Управление вычислительным процессом

1—Поддержка информационных связей

-Обеспечение методов генетического анализа и моделирования

-Построение объекта исследования и его генетический анализ

-Построение информативного пространства маркерных признаков

1--Построение моделей прогноза распространенных заболеваний

Вторая глаза посвящена описанию результатов, полученных при

формировании теоретической основы создаваемой технологии. В первом разделе рассмотрена построенная концептуальная модель программных средств, которая использовалась при реализации технологии в виде 1 и 2 версии прикладной программной системы общего и медицинского генетического анализа данных (ППС ОМЕГА). Подчинение ее элементов задается формулой: концептуальная модель системы гэ{прикладная о ((теоретическая:э(лредметная и модельная)) и (прагматическая^(функциональная и информационная )))> I) <системная о ((структурная (архитектурная и языковая )) и (технологическая => (техническая и организационная ))> (1).

Во Етором разделе главы рассматриваются методы построения структурных моделей прогноза. Для медицинских данных предложена следующая модель. О » {(о)}- множество из и объектов, опиданных п'признаками из множества Р = ((р)). Для р используются шкала измерения: альтернативная, номинальная, порядковая и количественная Каздому о е О ставится в соответствие случайный вектор к => х(о)= (х ,..х ) « х^=х. (о) (1=1,11) - является случайной величиной, определенной на 0 и рассматривается в качестве математической модели рс. Матрица X = (х^ ) размерности (ш*п) (х. х] (ос ) « В1 - значение ; признака для I объекта.) - совокупность результатов обследования пациентов.

Задача построения моделей прогноза состоит в следуешем. Ищет ся.Р а Р такое, что V рье Р0 обладало бы рядом необходима исследователю свойств, выявленных на основе разработанных методов. Р0 считается информативным и дальнейшие исследования проводятся для объектов, описанных на Р . Далее необходимо найти 01 с о, такир,

о о

что п о » в, а и О з 0, т т. При этом С^ должны быть циаг-

V»» I«»

ностически информативны, т.е.1) значения векторов, описывающих пациентов из одного 0. , должны бить достаточно близкими и 2) пациенты с разными градациями изучаемого состояния должны принадлежать разным 01. Тогда полученную многомерную классификацию будем понимать как структурную модель прогноза заболевания.

Метод выявления независимых признаков, разработанный на основе уравнения фенотилической корреляции: гр = ъх *>у г0+ ехеугн ¡2), позволяет оценивать силу, направление и природу связей для всех пар р. и ^ Ь При определении гр используются статистические корреляционные меры: межклассовый коэффинис т корреляции Пирсона, точечно-биссериальный коэффициент корреляции; коэффициент сопряженности Чупрова; коэффициент ранговой корреляции Спирмена . г -

2 г

генетический коэффициент корреляции двух признаков: гс »

- коэффициент корреляции мевду х (родители) и. у (доти), .ъх, коэффициенты наследуемости х и у, .ех, еу - коэффициенты средовой изменчивости х и у. г - средовой коэффициент корре-ляяции двух признаков, определяется из уравнения (2).

Метод определения характера детерминации признака позволяет оценить процентный вклад средовых и генетических компонент в общую фенотипическую дисперсию А +■ Ю1 + с 11 ♦ Ес+ Еу (3) для каждого р^.Ее компоненты: Б - доминантная, I - эпистатическая, Ее - средовая систематическая, Е - средовая случайная. Если пренебрегают I, получают классическую модель разложения фенотилической дисперсии: А -2 гор, 0 4{г„2- г02- гвр). Ес -&4глг- 2гор-гнг1.

Если пренебрегают В, то получают несмещенную модель: А - Згор-

гмг*гог' 1 * 2{гм2~ Гог" гор'' ЕС = г ът г ОР" обеих м°Делей: Еу - 1 - гИ2. гор - усредненный коэффициент корреляции между

разными типами выборок "родители - дети", г02, гмг - коэффициенты корреляции мевду монозиготными и дизиготными близнецами. Для их оценки используется внутриклассовый коэффициент корреляции.

Н 2 г М ,2 Н 2

Г. "ЯУУ' 1-ЕХ X,,] - (М-П1(хи-х21

1*1 I -1 I ~ 1

число пар, х - значения признака у I- он пары.

Если нет данных о близнецах, рассматривается двухкомпонент-ная модель, состоящая из генетической компоненты С = 2гор и средовой Е = 1- С.

Выявление интегрированных признаков осуществляется с целью построения системных маркеров заболевания (индексов), являющихся некоторой функцией от группы взаимосвязанных р^ .Для построения индексов предлагается следующий метод. Строятся множества Рг, Р«, Р | р. е Р1 - количественные признаки). Для Ра (0 =Пб)

а х- . а 1

строится матрица (х , 1, такая что х - -их «■ —'

для всех пар Рс^ и Раг, таких что <3 = + <32. О называется рангом индекса. Отношения строятся только для пар признаков с достоверным значением коэффициента корреляции.

Свойством информативности обладают признаки, если у них обнаружена генетическая и/или фенотипическая ассоциация с исследуемым состоянием. Если точечно-биссериальный коэффициент корреляции между количественным р1 и изучаемым состоянием отлично от нуля, то считается, что р^ является фенотипическим маркером изучаемого состояния. Для обнаружения генетической ассоциации проверяется гипотеза: Но: I (ЫОдРА) - ъ(ОдРн) I г

1-кр' где ~ паРи "вольной родитель - больной потомок",

(0АРн) - пары "больной потомок - здоровый родитель".

Предлагаемый метод формирования феноклассов позволяет определять сходство между объектами; формировать классы объектов; определять сходство между классами; оценивать эффективность полученной классификации. В качестве меры сходства используется непараметрическая корреляционная мера - рангоьый коэффициент корреляции Снирмена. Критерий эффективности класте-

X У"—! N

рияации: Э - где к = -----, кмд;<. . п -

число классов, N - объём выборки, Н - число здоровых в 1-ом

классе, I - число больных в 1-ои классе. 1

Разработанные методы позволяют решить задачу построения моделей прогноза на основе генетического анализа.

В третьей главе рассматриваются модели и методы построения 1 версии программных средств обеспечения технологии (класс машин ЕС-1035, среда ЕС СВМ, языки - ассемблер и ПЛ/1).

В первом развале определяются подходы к формированию архитектуры программной системы, представленной на рис.1, рассматриваются задачи решаемые в рамках каждой иг подсистем.

Во втором разделе описываются особенности организации СЛУЖЕБНОЙ ПОДСИСТЕМЫ. Главным методическим средством при- ее построении является .модель пользовательской задачи. Поименованная и га-

Рис. 1 Схема взаимодействия подсистем ППС ОМЕГА

данная пользователем последовательность функций системы, в процессе выполнения которой достигается поставленная пользователем цель, называется в разрабатываемой технологии задачей. Все пользователи и решаемые ими вадачи регистрируются и идентифицируются. Пользовательская информация, формируемая в процессе решения задачи, называется ее пространством результатов. Вся используемая и порожденная в задаче информация определяет ее пространство данных. Каждая задача открыта для своего пользователя. Пользовательская- задача имеет следующие атрибуты: протокол, дневник, грифельная доска.

Для решения задачи по созданию информационного обеспечения технологии была разработана логическая схема СУБД, основанная на унификации внутреннего представления данных и иерархичности структуры данных. Схема имеет 5 логических уровней: страница, цепочка, логический блок, Л -файл и набор данных. Цепочка - последовательность страниц является минимальной логической единицей информации. Логический блок данных - совокупность логически связанных цепочек. Поименованные и зарегистрированное в системе логические блоки дан-нк/. гг. -файлы - конфигурация данных доступная конечному пользователи. Вся информация хранится в одном физическом нзборе данных. Предложенная модель позволяет формировать структуры данных любой

сложности и является удобным инструментом при работе как с системными так и пользовательскими данными.

Для функционирования СЛУЖЕБНОЙ ПОДСИСТЕМЫ разработана модель системных данных в виде совокупности логических блоков. Модель пользовательской задачи поддерживается в базе даннач(БД) как системный логический блок, состоящий из 8 взаимосвязанных цепочек.

Пользовательские данные представлены в БД в виде Л -файлов, каждой прикладной функции соответствует свой тип файла, имеющий уникальное имя. Идентичные по структуре типы файлов образуют класс £2. -файлов, всего имеется 4 класса файлов (прямые, обратные, матричные и уникальные). Такая структура пользовательских данных облегчает реализацию сложных.прикладных алгоритмов и сервисных функций системы.

Для решения задачи выявления функциональной структуры подсистемы ИНТЕРФЕЙС и разработки его программного обеспечения была построена модель взаимодействия компонент системы и пользователя. Предложенная модель позволяет выявлять структуру детерминированных информационных процессов при обмене данными между компонентами программной системы и пользователем. Все необходимые для реализации формы обмена были получены при рассмотрении трех классов отношений между объекта).«!: пользователь <—> ИНТЕРФЕЙС —>Х, X —> ИНТЕРФЕЙС—> пользователь и X —> интерфейс —> У, где X и У любые компоненты ППС ОМЕГА. Анализ всех вариантов отношений позволил выделить три группы функций ИНТЕРФЕЙСА: 1. поддержки языков ввода данных, языков управления вычислительным процессом, языка сообщений системы; поддержки форматов печати; 3. управления вычислительным процессом при настройке системы на решение конкретной задачи пользователя.

Задача управления вычислительным процессом решена следующим образом. Выделено 12 состояний, в которых может находиться система, и 16 классов условий перехода из одного состояния в другое, что отображено в виде графа, представленного на рис.2.

Приведенная графовая модель позволила выделить три уровня управления вычислительны!.« процессом: 1)смена состояний; 2)поддержка модели пользовательской задачи; 3)управление этапом решения задачи.

Б третьем разделе рассматриваются способы организации ПРИКЛАДНОЙ ПОДСИСТЕМЫ. Технологическая гибкость системы ОМЕГА, т.е. возможность ее применения в широком диапазоне медицинских исследований достигнута благодаря соблюдению сформулированных в данной работе следующх принципов: 1. каждая функция ПРИКЛАДНОЙ ПОДСИСТЕ-

Рис.2 Графовая модель ППС ОМЕГА.

Условные обозначения: Си-активация, Ср-рабочее состояние, Сп-предоставление инструкции, Сн-выбор варианта инициализации, •^-генерация новой БД, Сс-инициализация на основе предыдущего состояния, Сд-настройка на набор данных, Св- идентификация пользователя и задач(Св), Сз-решение задачи, Са-анализ системной информации, Со-обработка ошибок, Ск-свертка системы, 1-выход из системы по желанию пользователя; 2-работа не может быть продолжена или требуется выход по желанию пользователя; 3-можно продолжать работу; 4-требуется переход к другой задаче или другому пользователю; 5-обнаружена ощибка; 6-требуется изучение инструкции; 7- требуется генерация новой БД: 8-таблица признаков введена в БД; 9-требуется открытие сеанса работы на основе предыдущего состояния системы (9); 10-База данных сформирована; 11-база данных не сформирована и га-дан пароль администратора; 12-база данных не сформирована и задан пароль не администратора иди требуется ?ыход по желанию пользователя; 13- откав от работы с загруженной БД или требуется выход по желанию пользователя: 14- необходимость работы с загруженной БД подтверждена; 15- состояние БД позволяет решать пользовательские задачи; 16-требуется предыдущее состояние Сх.

МЫ реализуется некоторым иерархически структурированным комплексом программ, обеспечивающим выполнение этапа технологии генетического анализа данных; 2. каждый комплекс может быть реализован и использован как независимо от других так и в составе прикладной подсистемы; 3. каждый комплекс содержит средства его параметрической настройки.

В подсистеме ПРЕОБРАЗОВАТЕЛЬ выделено 3 группы функций: 1) первичное заполнение базы данных; 2)преобразования структуры и изменение объемов данных; 3) преобразования данных с целью улучшения их статистических характеристик. .

В подсистеме АНАЛИЗАТОР выделено 2 группы функций: 1) выявление свойств признаков (независимости. детерминированности, интег-рированности. информативности) и 2) построение структурной молили

предрасположенности.

В четвертом разделе данной главы приведены характеристики программного обеспечения ППС ОМЕГА, состоящего из 133 модулей. Введено понятие уровня модуля, а также предложено два критерия классификации модулей, которые поаволяют получить компактную форму представления программного обеспечения для анализа.

Таблица 1 дает представление в целом о структуре и характеристиках программного обеспечения системы ОМЕГА.

___Таблица 1

ХАРАКТЕРИСТИКА МОДУЛЕЙ ППС ОМЕГА

Уникальные Базовые Базовые

»(ПТПТТГТ* подсистемные общесистемные

МиДУЛИ Номер Язык Кол-во Номер Язык Кол-во Номер Язык Кол-во

уровня уровня уровня

Эле- 0 -РЬ 1 0 АБ 8 0 РЬ 1

мен- 2 АБ 4 5 РЬ 2 10 РЬ 5

тарные 9 РЬ 1 9 РЬ 2

10 РЬ 3 10 РЬ 9

10 АБ 4 11 РЬ 8

11 РЬ 3

Модули 4 РЬ 1 0 АБ 1

- эле- 5 РЬ 1 У РЬ 4

мен- 1 РЬ 1 10 РЬ 5

тарные 8 10 РЬ 20

алго- РЬ 27

ритмы 11 РЬ 1

Модули 1 РЬ 1 0 АБ 5

алго - 2 АЗ 1

ритмы 3 АБ 1

3 РЬ 1

4 РЬ 1

6 РЬ 1

9 РЬ 19

10 РЬ 1

В четвертой главе рассмотрена технология генетического анализа, созданная на основе результатов, представленных во второй и третьей главах. Ее общая структура приведена на рис.3.

Функционирующая компонента дает представление о структуре информационных процессов обработки информации. Регламентирующая компонента задает правила, на основании которых реализуется технологический процесс передачи, обработки и хранения информации.

Процесс ввода задается разработанными языками ввода данных (описания признаков, контроля и предобработки, описания пациентов) и языками управления вычислительным процессом (приказов и распоряжений). Язык приказов был сформирован на основе графовой модели и •иоряпляет переводить систему в требующееся пользователю состояние.

Компоненты информациойной технологии генетического анализа данных

ПРАВИМ представления информации

ПРАВИЛА ввода-вывода информации

ПРАВИЛА интерпретации результатов

ПРАВИЛА ; обучения

ПРАВИЛА обработки информации

ФУНКЦИОНИРУЩАЯ (процессы)

ВВОД ВЫВОД

ОБРАБОТКА • НАСТРОЙКА

ОБУЧЕНИЕ

Рис.3. Общая структура технологии генетического анализа

Язык распоряжений приведен в таблице 2.

Процесс вывода задается форматами выходной информации и может управляться пользователем. Структура выходного потока для печати стандартизована.

Технологическая схема обработки данных представлена рис. 4. Из выделенных 7 этапов 1 и 6 вспомогательные, 2-5 этапы соответствуют выделенным этапам первой стадии решения задач прогноза. На 0 этапе обеспечивается генетическая интерпретация данных и формализация собранной информации. На схеме жирной линией выделен основной технологический путь решения задач прогноза. Пунктирной линией показаны допустимые варианты перехода от одного этапа к другому. Сплошной тонкой линией - информационно-управляющие связи между.компонентами системы и пользователем.

Условные обозначения: Д - ДИСПЕТЧЕР; И - ИНТЕРФЕЙС; П - ПРЕОБРАЗОВАТЕЛЬ; А - АНАЛИЗАТОР; 1 - построение индексов; 2 - выявление характера детерминации признаков; 3 - выявление независимых признаков; 4 - поиск маркеров; 5 - построение классов.

Возможность использования средств генетического анализа в произвольном порядке и необязательное наличие семейных данных для отдельных методов расширяют диапазон использования ППС ОМЕГА.

Пятая глава посвящена анализу эффективности разработанной

Таблица 2

КОМАНДЫ ЯЗЫКА РАСПОРЯЖЕНИИ

Подсистема реали- зунлцая команду Команды Подкоманды

Название Назначение Название Количество параметров Количество подпараметров

1 2 3 4 6 7

НАЧАЛО Инициализация системы ОМЕГА ГЕНЕРАЦИЯ СЕАНС 1 О 0 0

ДИС- ЗАВЕРШЕ- Завершение рабо- ЗАДАЧА ПРИЗНАКИ КОНЕЦ 6 4 3 0 0 0

ПЕТЧЕР НИЕ СЕРВИС ты с системой или с задачей .Вспомогательные средства при работе с системой ПЕРЕХОД ПЕРЕРЫВ АВАРИЯ СПРАВКА 4 5 3 6 0 0 0 0

ДАННЫЕ Формирование лоль зовательскои ВВОД КОРРЕКТИРОВКА 4 5 0 0

(¡'¿-..О}- - ВЬКОРКА информации в БД Отбор и переком- 11РЬДуВНАНи ГКА ФОРМИРОВАНИЕ 1 б О 0

РАЗО-ВАТЕЛЬ ПРЕОБРАЗОВАНИЕ ФАЙЛ пановка данных без изменения их значений Преобразование данных с изменением их значений Операции над а. - файлами ТРАНСПОНИРОВАНИЕ ИНВЕРТИРОВАНИЕ КЛАСС ФУНКПИЯ ЧИСТКА ПЕЧАТЬ 3 3 4 4 4 4 6 0 0 0 0 0 0 . О

УДАЛЕНИЕ 4 0

ИНДЕКС Расширение сис - ОТНОШЕНИЕ 5 0

АНАЛИ- СВЯЗЬ ФЕНОТИП теш признаков Генетике-корреляционный анализ Генетико-диспер- МАТРФЕН МАТРГЕН 5 5 / 0 0 0

ЗАТОР СРАВНЕНИЕ сионным анализ Поиск маркерных УРОВНИ "'" АССОЦИАЦИЯ 5 7 0 4

КЛАСТЕР признаков Построение классов РАЗЛИЧИ!? " ФЕНОКЛАСС 7 6 4 6

технологии и рассмотрению перспектив развития средств автоматиза-

ции генетического анализа данных.

В первом разделе на основе анализа эксплуатации системы ОМЕГА дается качественная оценка технологии генетического анализа, ГО1С ОМЕГА эксплуатируется с 1988 года. На ее основе было проведено 14 научных исследований ч разных областях медицинской профилактики. При этом наиболее интересными результатами, являются: выявление маркеров наследственной предрасположенности к развит!® атероскле-

; 3 ТЙП {Мнициашаща

•лоаграгмой среды

1 УПРАВЛЕНИЕ

'ГшакогпндЫ'.ЗЙДЯЩ

ЕИЕРЙЦИЯ,

СЕЯИС

м

'■авРйвоткя дянных

хФтро&сшие ч анализ '■ с ¡¿степной инрорпщиа

(3)

3 777/7 оптирование исходны1 данных

УПРАВЛЕНИЕ

ПодкананНькПРИЗНЙКИ, ВВОД, КОРРЕКТИ-

ОБ РЯБО ТКЙ ДАННЫХ Нащх>«*а ттетущ» испопынеппв пространств; признакоб шесе ние данных о пацтнта^

4

3 ТЙП 3: Пасар оение объехав иилМаноя

„ УПРАВЛЕНИЕ По4копанды:<РОРМИРО-6ЙШЕ, ГРДНСЛОНН ро&яние, ИНВЕРТИРОВАНИЕ, ФУНКЦИЯ, • НОРпировяиие, чист

06РЙ50ТКЙ двнш. Пра(едеииг данных 6 со-атбетсшбие с пелюдана анализа _

ЭТДПЧ'.Йнааиз

информапшйноапи

„ управление . ПодконанЗы:ОТНОШЕ(Ш КОМПОНЕНТЫ.уровни,

обРйБа ткя дйнны,

ЭТЙП5:Поапроенас подели прогноза

УПРАВЛЕНИЕ

Падкотндсс феноклйсс

®

ОБРАБОТКИ ДАННЫХ. Выя1/ккче стржтру/гр*-¿расположенности к з<йо-

лебашм на оснобе геле-

тко-мосвернега _ ЗИЖ1Я___Ш.

ЭТЙП В'.ПодгошоЬка данных

I

| 5 ь/Зор подепей лдизна-I наб. оосяеЬоЬание I пвицснтоЬ

) Описание пвизнакеб и пациентобна язьках | ЬЬооа данных

\

А

Для всех зшвпоб'Мс шш

УПРЯ8ЛЕНИЕ

Подтандсг.ПЕ ЧДТЬ Парагкшры: ПЕЧЙТЬ, ПШОпнолГУСТР^

ОБРЯБОТКЯ ДЯННЫХ

9оргшро6аше и бидача пропютоь решения задачи сообщений

ЭТЙП б:3а6ершени£ работы_

УПРАВЛЕНИЕ

ПодгуюнЗи: КОНЕЦ, ^ ЛЕР£ХОЦ,ПЕРЕГЫ$ Й8ЙРИЯ. ^

ОБРЯБОТКЯ ДАННЫХ

Сохранение пекущего сожяния, освобождение

У**™

?ас. Технологическая схема реяения задач г сре*е ШЕ ОЫЕГ£

роза в определенных участках сосудистого русла, выявление основных патогенетических форм предрасположенности к бронхиальной астме, а также выявление структуры генетической предрасположенности к артериальной гипертензии (АГ) у детей и создание на ее основе программно-аппаратного комплекса прогноза и диагноза форм АГ у детей.

Анализ эксплуатации технологии показал, что в целом, набор технологических средств создает достаточную для решения задач и . удобную для работы пользователя среду.

Результаты научных работ доказали, что предложенная информационная технология, позволяет соадавать новце методы решения задач в области медицинской профилактики.

Во втором разделе рассматривается способ получения количественной оценки эффективности технологии. В качестве меры соответствия требований и полученных результатов используется предложенный в данной работе показатель эффективности (0<Е< =1), позволяющий в наиболее общем виде характеризовать степень выполнения системой основной свое функции. Е «> £ Д , где - групповые показатели ггеа. построенные на основе дерева свойств программного продукт;;. '1 - количество показателей, д - поправка для уточнения оценки показателя эффективности. СК" гДе -> I ~ множес-

тво номеров свойств верхнего уровня, 'а^ - весовой коэффициенты р"', такие, что 0 < а,- < 1 и 0 а^ <« 1, р*."'- оценка ]-го свой-, ства 1-го>(уровия. Оценки р^ к-гб уровня: ^

«о Р«}/ _ ,.) ¿А р „ -- _ для комплексных показателей, р - - - для

элементарных, где к - номер уровня, 1 <- к <« к», к„- количество

уровней в дереве свойств, 1 - номер свойства, п^ -количество . свойств, к+1 уровня, р.- оценка свойства к+1 уровня с номером а,

(*> Сф

ге - количество экспертов, оценивающих элементарные свойства уровня к о номером 1, - оценка гп -го эксперта свойства о номером 1 к - уровня, 0 <« г£'<= 1. Д-^Ь^а-рУ', где Ь; -число вхождений р;ч) в СЦ без единицы. Для определения Е созданной технологии введены следующие групповые показатели качествз, оценивающие степень: проблемной ориентированности (СЬ ); ориентации на конечного пользователя (С^ ); расширяемости ПО (Ц3 ). В результате обработки данных, полученных от экспертов, определены: £},-0.БЗ, Цг-0.38, £1,-0.27, Д »0.36, Е-0.84, что свидетельствует о высоком уровне эффективности созданной технологии.

В третьем разделе данной главы обосновываются и обсуждаются

направления развития средств автоматизации генетического анализа данных. В качестве основных выделено четыре направления: 1. разработка второй версии технологии для ППЭВМ; -2. разработка программно-диагностических комплексов на основе уже созданных методов первичного прогноза; 3. разработка МЭС для врачей различных специальностей на основе моделей патогенетической структуры распространенных заболеваний; 4. разработка более полной поддержки всех этапов решения задач прогноза. Показано, что три последних направления с необходимостью требуют наличия методологического и технологического аппарата работы со знаниями.

В заключении сформулированы основные результаты диссертации.

В выводах приведены основные выводы, которые можно сделать, на основе совокупности полученных результатов.

В приложении приводятся: структура алгоритмов, синтаксис языковых средств, описание форматов печати, временные характеристики выполнения подкоманд, формы карт экспертных оценок технологии.

ВЫВОДЫ

1. Проведение научных медицинских исследований на основе ге-нетико-статистического анализа возможно только с использованием проблемно ориентированных программно-технологических средств.

2. Разработанная совокупность моделей и методов позволила создать автоматизированную технологию генетического анализа данных, обладающую высоким уровнем эффективности.

3. Созданная автоматизированная технология генетического анализа данных позволила обеспечить технологическую основу для развития нового направления медицинских исследований по разработке методов прогноза и профилактики распространенных заболеваний и выполнить серию научных исследований в различных областях медицины.

4. Разработанная методика выявления свойств признаков и классов предрасположенности к заболеваниям позволила создать эффективные алгоритмы построения структурных моделей прогноза распространенных заболевании.

5. Концептуальная модель программных средств автоматизации генетического анализа данных медицинских НИР, обеспечила единство системных и прикладных проектных решений, а также позволила разработать средства регламентации процесса разработки технологии и регламентации процесса решения пользовательских задач.

6. Разработанная логическая схема СУБД позволила создать адекватное предметной области и эффективное информационное обеспечение технологии генетического анализа.

7. Предложенная модель пользовательской задачи позволила разработать программные средства, осуществляющие методическое сопровождение процесса решения задач создания методов первичного и вторичного прогноза.

3. Построенная модель взаимодействия компонент системы и пользователя позволила разработать структуру технологических средств интерфейса, включая языки ввода данных и управления вычис-лшольным процессом.

9. Построенная графовая модель технологии позволила разработать алгоритм управления вычислительным процессом решения задач генетического анализа.

10, Опыт эксплуатации ППС ОМЕГА подтвердил эффективность созданной технологии (полученный показатель эффективности Е » 0.84).

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Ротработать и внедрить прикладную программную систему общего и ысдицинского генетического анализа (ППС ОМЕГА) в ВКНЦ АМН СССР и Белорусском ГИУВе: Отчет о КИР (промеж.) /ГИДУЗ № СССР; Руководитель работы В.Н. Ростовцев, ответственный исполнитель О.И. Рябкова; N ГР 01.65.0001264 - Минск, 1984,- 88 С.

2. Rostovtsev V.N., Petrov A.A., Ryabkova 0.1. Structure and Function of Applied ProgTam System "Omega" /./ Medical Decision Makings Diagnostic Strategies and Expert Systems - North-Holland, Amsterdam, New Jork, Oxford, 1985. - P. 316 - 318.

3. Разработать и внедрить прикладную программную систему общего и медга;;шск.сго генетического анализа (ППС ОМЕГА) в ВКНЦ МЛН СССР и Белорусском ГИУВе: Отчет о НИР (заключ.) /ТИДУВ МЗ СССР; Руководитель работы В.Н. Ростовцев, ответственный исполнитель О.И. Рябкова: N ГР 01.85.0001264 - Минск, 1985.- 402 с.

4. Ростовцез В.Н., Рябкова О.И. Система ОМЕГА и геиетико-экологический подход к. первичной профилактике // Тезисы докладов IV Всесоюзной конференции "Актуальные вопросы адаптации человека к клшато-географическш условиям и первичная профклактшса" - Новосибирск, 1986. - с. 42 - 43

5. Рябкова О.И., Ростовцев В.Н. Принципы построения оистемы автоматизации профилактических исследований // Тезисы докладов,

VIII Всесоюзной конференции "Планирование и автоматизация эксперимента в научных исследованиях" - Ленинград, 1986. - с. 45

6. Рябкова О.И., Раскина A.B. Ростовцев В.Н. Средства работы с базой данных в системе "ОМЕГА" //Физические факторы и технические средства в медицине - Минск: БелНМТО, 1986 - с. 68-69.

7. Ростовцев В.Н., Розовский B.C., Рябкова О.И., Юруть H.A. Средства выявления информативных признаков в системе "ОМЕГА" //Физические факторы и технические средства в медицине - Минск: БелНМТО, 1986 - с. 6S-64

8. Разработать и внедрить вторую очередь прикладной программной системы общего и медицинского генетического анализа (ППС ОМЕГА): Отчет о НИР (эаключ.) ч/ГИДУВ МЗ СССР; Руководитель работы В.Н. Ростовцев, ответственный исполнитель О.И. Рябкова; - Минск, 1987.- 155 с.

9. Рябкова О.И., Ростовцев В.Н. Проблема порождения знаний для медицинских экспертных систем // Тезисы Всесоюзной школы-совещания "Проблемы проектирования экспертных систем" - Москва, 1988.

- с. 233-234.

10. Рябкова О.И., Марченкова И.Б. Принципы организации статистической обработки медико-генетических данных средствами программной системы "ОМЕГА" // Тезисы докладов IV Всесоюзной научно-технической конференции "Применение многомерного статистического анализа в экономике и оценке качества продукции" - Тарту, 1989. -о. 313-314.

11. Рябкова О.И., Ростовцев Б.Н. Марченкова И.Б. ППС ОМЕГА -средство автоматизации медицинских исследований // Тезисы всесоюзной конференции "Использование ЭВМ в научной и учебной работе гуманитарного ВУЗа" - Минск, 1990. - с. 99.

12. Рябкова О.И., Ростовцев В.Н. Назначение и возможности ППС ОМЕГА // Тезисы докладов Всесоюзной научной конференции "Информатика в здравоохранении" - Москва, 1990. - с.139 - 140.

13. Марченкова И.Б., Рябкова О.И. ППС ОМЕГА - средство построения прогностических моделей // Тезисы докладов Первой республиканской конференции "Информатика в здравоохранении" - Минск, 1992.

- с. 54.

14. Ростовцев В.Н., Рябкова О.И., Новик И.И., Денисов С.Bi Генетико-статистическая система ОМЕГ'А. Опыт эксплуатации и развитие // Тезисы докладов научно-технической конференции "Применение многомерного статистического анализа в экономике и оценке качества продукции"5~ Москва, 1993. - с. 125-126

РЕЗЮМЕ Рябкова Ольга Игоревна

Автоматизированная технология генетического анализа данных медицинских научных исследовании

Автоматизированная технология, прикладная система, генети-ко-птатистический метод, модель, медицинская профилактика, прогноз, распространенные заболевания.

В диссертации разработаны новые модели и методы создания автоматизированной технологии генетического анализа. Предлагаемые модели и методы позволили разработать эффективные программно -технологические средства для научных исследований в области медицинской профилактики. Созданная технология ориентирована на генети-ко-экологичес. ли подход при разработке новых методов индивидуального прогноза и диагноза в различных областях медицины. Ее отличительной особенностью является то, что она позволяет выявлять классы предрасположенности к распространенным заболеваниям. Построение структурных моделей прогноза возможно только на основе разработанной технологии. Аналоги отсутствуют. Результаты эксплуатации подтвердили эффективность созданной технологии (обобщенный показатель эффективности Е=0.84) .

РЭВШЭ Рабкова Вольга 1гарауна

Аутаматызаваная тэхналог1я генетычнага анал!эу дйдзеных медыцынсюх навуковых даследавання^

Аутаматызаваная тэхналог1я, прыкладная с1стэма, генетыка-статыстычны метад, мадэль, медыцынская прафыактыка, прагноз, распаусюджаныя ззхвораванн!.

У дысертацьи распрацаваны новыя мадэл! 1 метады стварэння а$-таматызаванай тэхналогИ генетычнага анал1зу. Прапануемыя мадэл1 1 метады дазволШ распрацаваць эффектыуныя праграммна-тэхналаг\чныя сродкл для навуковых даследавання$ у гал1не медыцынскай праф1лак-

тыцы. Отвергшая тзхналог1я арыентавана на генетика-экалагiчны пад-ход пры распрацо^цы новых метада$ индьшдуальнага прагнозу i дыяг-наау £ розных галанах медыцыны. Яе адметнай асабл1васцю з'яуляецца тое, што яна дазваляе выяуляць класы сх1льнасщ да распауооджаных аахвораванняу. Пабудова структурных мадэляу прагноау магчыма толь-Ki на падставе распрацаванай тэхналогп. Аналаг! адоутн1чаюць. Вы-HiKi эксплуатавання паццвердзШ эффектыунасць створанай тахнало-rii (абагульнены паказальнак эффектьфнасщ Е - 0.84).

SLMIERY Ryabkova Olga

The Computer technology of the genetical analisis for scientific medical investigation data

Computer technology, applied system, genetico-statistical method, model, medical prophylaxis, prognosis, common diseases.

In the dissertation new models and methods of the genetical analysis computer technology creation mere elaborated. Proposed models and methods allowed to work out effective program and technological means for the scientific elaborations in the field of the medical prophylaxis. This technology is oriented on the gene-tico-ecological approach for elaboration of new methods of the individual prognosis and diagnosis in different fields of medicine. Its distinctive feature is the opportunity, it gives, to expose classes of predisposition to common diseases. The creation of the prognosis structural models is possible only on the base of the elaborated technology. There are no analogues. Explotation results have cooborated effectiveness of the created technology (generalized effectivness index E - 0.84).

Соискатель

Рябкова О.И.