Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии

Нестерова, Ольга Андреевна

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии

кандидата технических наук: Нестерова, Ольга Андреевна
город: Тюмень
год: 2011
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии»

Автореферат диссертации по теме "Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии"

НЕСТЕРОВА Ольга Андреевна

ТЕХНОЛОГИИ, МОДЕЛИ И АЛГОРИТМЫ ПОИСКА В АРХИВАХ МЕДИЦИНСКИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ КОНТЕКСТНО-ВРЕМЕННОЙ ОНТОЛОГИИ

05.13.18 — Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Тюмень — 2011

о з

4839854

Работа выполнена на кафедре информационной безопасности Института математики и компьютерных наук ГОУ ВПО Тюменский государственный университет

Научный доктор технических наук, профессор

руководитель: Захаров Александр Анатольевич

Официальные доктор технических наук, профессор

оппоненты: Глазунов Виктор Аркадьевич

доктор технических наук, профессор Ивамко Александр Григорьевич

Ведущая организация:

Томский государственный университет систем управления и радиоэлектроники (ТУСУР)

Защита диссертации состоится «11» марта 2011 г. в 16-00 часов на заседании диссертационного совета Д 212.274.14 при Тюменском государственном университете по адресу, 625003, г. Тюмень, ул. Перекопская, 15а, ауд. 410.

С диссертацией можно ознакомиться в библиотеке Тюменского государственного университета.

Автореферат разослан «10» февраля 2011 г.

Ученый секретарь С

диссертационного совета К^^^*^ -—^ H.H. Бутакова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Повышение качества и доступности медицинской помощи — один из приоритетов государственной социальной политики. Подтверждением этого является принятая концепция развития системы здравоохранения в Российской Федерации до 2020 года. Одним из основных направлений решения проблемы информатизации медико-биологических исследований (МБИ) является предоставление информации различным специалистам из тематических электронных архивов историй болезни. Вопросам применения информационных ресурсов в МБИ посвящены работы: Г.И. Назаренко, Г.С. Осипова, А.И. Молодчен-кова, A.C. Клещева, Ф.М. Москаленко, М.Ю. Черняховской, О.Ю. Ребровой, В.М. Тавровского, В.А. Лищук, С.Е. Бащинского, В.П. Казначеева, P.M. Баевского, А.П. Берсеневой, В.Н. Евдокименкова, У. Кокрена.

Процессу проведения МБИ присущи задачи сбора, обработки информации и интерпретации результатов. Критический анализ медицинских информационных систем (МИС) — источников информационных ресурсов — выявил ряд проблем информатизации МБИ.

1. Необходимость использования неформализованных данных (неструктурированные текстовые массивы, изображения), для которых применение обычных запросов с использованием предикатной логики является затруднительным, усложняет процесс поиска нужной информации.

2. Широко используемые технологии поиска данных в тексте по точному совпадению слов не подходят для задач кодификации (распознавания) элементов системы (объектов, фактов, событий) в неструктурированных текстовых массивах.

3. Большинство разрабатываемых МИС выполняют только функции учета (хранения) данных, которые имеют заранее определенную структуру. К таким данным невозможно применить произвольный запрос в любой момент времени. Необходимы затраты на сопровождение разработчиками.

4. Решение вопроса интеграции разрозненных данных (территориально, различные разработчики МИС) не только требует финансовых затрат, но и сталкивается с проблемой интеграции семантических данных.

5. Необходимость оперативного доступа к информации, ее интеграция требует особого внимания к обеспечению безопасности с учетом закона о персональных данных.

В рамках одного исследования невозможно решить все сформулированные выше проблемы, поэтому нами определена, на наш взгляд, клю-

чевая проблематика в организации научно-исследовательской деятельности врача по сбору и анализу данных: оптимизация механизмов поиска и кодификации элементов учетной МИС, содержащихся в неструктурированных текстах медицинских электронных записей.

Теоретическое обоснование методов поиска и анализа текстов рассмотрено в работах Г. Сэлтона, Т. Джойса, Р. Нидхема, К. Маннинга, П. Рагха-вана, Г. Шютце. Методы поиска на основе семантической сети находятся еще только в стадии развития. Делаются попытки использования семантических сетей для поиска в сети Internet. Разработке семантических моделей информационного поиска посвящены работы С. Дамайса, Г. Фурнаса, С. Дирвестера, К. Маннинга, Т. Груббера, Е.А. Рабчевского, Н.В. Лукашевича, Б.В. Доброва, Р.В. Шарапова, В.А. Глазунова, Р.Д. Аветисяна.

А. Гладун, Ю. Рогушина, П.С. Шеменков в своих работах отмечают, что в задачах семантического поиска в текстах важным является критерий, представляющий собой оценку информационной потребности пользователя.

Решение задачи связано с проблемой разработки технологии анализа текстовой медицинской информации, которая учитывала бы специфику электронной медицинской информации: разнородность, удаленность, многозначность, неточные формулировки, субъективность, хронологическую последовательность и неформализованное представление в виде неструктурированного текстового массива.

Объект исследования: модели, алгоритмы и технологии информационного поиска в неструктурированных текстах медицинских электронных записей для поддержки медико-биологических исследований.

Предмет исследования: условия и средства организации семантического (смыслового) распознавания различных сведений, данных о соответствующих предметах, явлениях, процессах, отношениях (элементов МИС) в неструктурированных текстовых массивах медицинских электронных записей.

Целью диссертационной работы является совершенствование механизмов информационного поиска медицинских данных для поддержки МБИ посредством обеспечения максимально возможной полноты обзора текстовых информационных ресурсов и точности нахождения информации.

Для достижения поставленной цели, в работе решаются следующие задачи:

1. Разработка технологии интерпретации смысла текста документов и запросов для представления элементов МИС в неструктурированных текстовых массивах медицинских электронных записей.

2. Разработка метода расчета соответствия образа документа запросу.

3. Разработка алгоритма поиска и сбора данных.

4. Построение модели семантико-энтропийного поиска для организации сбора данных для информационной поддержки медицинских научных исследований.

5. Разработка критерия эффективности поиска.

6. Проектирование архитектуры информационно-поисковой системы (ИПС).

7. Разработка концепции гибридизации учетных МИС.

На рис. 1 приведена структурная схема, отображающая комплексный системный подход к процессу исследования.

Методы исследований. Приведенные в работе методы исследования базируются на использовании методов теории графов, теории принятия решений, теории информации, нечеткой логики, теории вероятности и математической статистики, методов информационного поиска, математического моделирования, графовой кластеризации, модульного и объектно-ориентированного программирования.

Достоверность и обоснованность результатов. Предложенные в диссертационной работе модели и алгоритмы обоснованы теоретическими решениями, не противоречат известным положениям других авторов, определяются методологической базой исследования, сочетанием различных подходов и методов исследования, экспериментальной проверкой теоретических положений и воспроизводимостью результатов.

Положения, выносимые на защиту

• Технология семантико-энтропийного поиска:

— математическая модель контекстно-временной онтологии;

— алгоритм поиска и анализа результатов запроса.

• Архитектурная модель информационно-поисковой системы.

Научная новизна работы отражена в следующих результатах.

• Впервые понятия контекстно-временной онтологии (КВО) предметной области применены к информационному поиску в архивах медицинских данных.

• Разработана новая технология семантико-энтропийного поиска с использованием модели КВО.

• Построена новая модель КВО предметной области:

— введено понятие фактора достоверности, зависящего от времени;

— предложен метод расчета оценки неопределенности запроса с использованием энтропийной оценки;

с

9

•о

"С

«

я •о о J3

ta о ю № X

s

ta

•а я

я g

X g

р

Совершенствование механизмов информационного поиска медицинских данных для поддержки научных исследований

Дифференциация требований к сбору данных для МБИ

Математическое моделирование

X

Обработка и анализ данных

S.O Si

л z

X X

? о

4

Поиск в больших архивах данных

Большой

временной

интервал

Смысловое

значение

запроса

Произвольные запросы

Неструктурированные массивы данных

Распределенность данных

Регламентированные запросы

Модель интерпретации документов и запросов

Алгоритм поиска

12 а х с л | i î ® о у se >.

Îl l*

l|

S

Семантмко-энтропийная модель поиска

Контекстно-

временная

онтология

Подготовка

коллекции

документов

Выбор документов по запросу

Анализ

результатов

поиска

(кластерный

анаши)

Хранилище данных

Советукндив справочники

безопасность

Индексирование по словам, построение

ОНТОЛОГИИ

Обучение, построение КВО

Оценка neotv ределенносга

Контекстное индексирование

Оценке

репввягтност

Анализ

результатов

выборки

Составитель КВО

Индексирующий сервис

Поиска* вый сервис (агент)

«Анализатор» ре* зульта-тов

С fc

с_» ï

? а

1 = ч s

о л

Обобщение полученных результатов

Поиск данных по риску

ишемическо го инсульта

Поиск данных по фибрилляции предсердий

Разработан достаточно полный и точный поиск

Гибридизация МИС позволяет эффективно использовать информационные ресурсы МИС для поддержки МБИ

— предложен метод расчета оценки релевантности документов с учетом коэффициентов достоверности, как расчет меры близости графов, полученных путем построения семантических сетей документа и запроса на основании построенной экспертом контекстно-временной онтологии.

• Разработан новый алгоритм поиска с обучением с учителем, включающий в себя контекстное индексирование и анализ результатов поиска.

Теоретическая значимость. Стало возможным достижение результатов ряда новых задач.

• Интеграция семантических данных с применением КВО.

• Обработка и анализ семантических данных в системах поддержки принятия решений с использованием КВО.

• Семантико-энтропийный поиск в сети Internet.

Практическая значимость

• Алгоритм поиска с обучением позволяет учитывать соответствие документа информационной потребности пользователя.

• Механизм преобразования общего инвертированного файла (индекса) в контекстный индекс, зависящий от контекста запроса, позволяет получить контекстные образы документа, соответствующие различным запросам.

• Использование разработанной модели поиска позволяет с определенной долей достоверности формализовать семантическую информацию для получения полной выборки данных и дальнейшей обработки данных при проведении МБИ.

• Разработанная архитектурная модель ИПС, состоящая из индексирующего, поискового сервиса и виртуального хранилища данных предоставляет возможность исследователю оперативно получать данные по теме своего исследования из различных источников.

• Предложенный метод перехода от учетных к гибридным ИС позволяет наиболее эффективно использовать имеющиеся данные МИС, предоставляя инструментарий формирования произвольных запросов пользователем, не являющимся 1Т-специалистом.

• Предлагаемые методические разработки могут быть приняты во внимание разработчиками медицинских информационных систем при проектировании структуры в направлении, рассматриваемом в диссертации.

Реализация и внедрение результатов работы

• Теоретические и практические результаты работы реализованы и внедрены в качестве ИПС для сбора данных и поддержки медицинских

исследований в Тюменском кардиологическом центре (ТКЦ). В процессе эксплуатации представленная система показала свою эффективность. Внедрение системы в ТКЦ подтверждено соответствующими свидетельствами.

• Разработанная ИПС используется при сборе данных в исследованиях по ишемическому инсульту и фибрилляции предсердий, что подтверждается соответствующими публикациями совместно с научными работниками ТКЦ.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

III международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности», Санкт-Петербург, март 2007; III Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология, инновации», Москва, ноябрь 2009; И региональная конференция ИМКН ТюмГУ, Тюмень, октябрь 2009; IX международный славянский конгресс «КАРДИОСТИМ-2010», Санкт-Петербург, февраль 2010; 9-я Сибирская научная школа-семинар SIBECRYPT'10, Тюмень, октябрь 2010; IV Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология, инновации», Москва, ноябрь 2010; научные семинары НИИ КИТ, кафедры информационной безопасности ТюмГУ, Тюмень, 2006-2010.

Работа выполнена при поддержке гранта министерства образования и неуки РФ «Проведение научных исследований в области экологии языка и смежных наук» ГК № 02.740.11.0594.

Этапы исследования. Условно исследование можно разделить на четыре этапа. Первый этап (2006-2007 гг.) включал в себя анализ литературы по теме исследования, изучение опыта работы, как в России, так и за рубежом. На втором этапе (2007-2008 гг.) разрабатывались организационные модели, отрабатывалось содержание научно-исследовательской деятельности врача. На третьем этапе (2009 г.) велась опытно-экспериментальная работа по изучению возможностей организации гибридной МИС на базе ТКЦ. На четвертом этапе (2010 г.) проводилась обработка и обобщение полученных результатов.

Публикации. Основное содержание отражено в 24 публикациях, из которых 7 свидетельств о государственной регистрации программ для ЭВМ и 4 статьи, опубликованных в изданиях, рекомендованных ВАК.

Структура и объем работы. Приведенные дели и задачи определяют структуру и содержание исследования. Текст диссертации состоит из введения, четырех глав, заключения, списка литературы из 117 наименований работ российских и зарубежных авторов, 4 приложений. Общий объем — 129 страниц, в том числе 5 таблиц, 11 рисунков на 11 страницах.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи работы, научная новизна, теоретическая и практическая значимость, перечислены основные результаты работы.

В первой главе рассмотрены принципы, теоретические основы, основные задачи и цели МБИ. Проведен анализ современных типов автоматизированных МИС, сформулирована проблема использования данных учетных МИС для научных исследований. Отмечены перспективные методы развития технологий информационного поиска. Проведена сравнительная оценка вариантов возможных решений исследуемой проблемы, описаны основные принципы распознавания элементов системы в неструктурированных текстовых массивах, статистические, семантические модели информационного поиска и оценки неопределенности.

Автоматизация и поддержка научных исследований в медицине является новым и важным шагом в развитии лечебной, консультативной, профилактической, доказательной, скрининговой и восстановительной медицины. Основное содержание проблемы заключается в необходимости сбора данных электронных архивов МИС для научных исследований.

Существующие технологии информационного поиска ориентированы на экономические, маркетинговые информационные системы. Применение подобных технологий для МИС затруднено, потому что медицинские исследования обычно охватывают более широкий временной интервал и большое количество разнообразных категорий данных.

На основе обзора методов анализа текстовой информации, отличающихся в первую очередь используемой моделью, сделан вывод, что для задачи поиска медицинских данных подходят семантические сети, учитывающие информационную потребность пользователя. Это обусловлено тем, что важнее найти не первый документ, релевантный тому или иному запросу, а собрать наибольшее количество документов, удовлетворяющих информационным потребностям пользователя.

Обоснована необходимость выработки унифицированного подхода к построению автоматизированного кодификатора объектов в текстовых массивах на основе математического моделирования и алгоритмических подходов к разработке технологии информационного поиска и способов обработки результатов поиска.

В 2002 году Р. Д. Аветисян и Д.О. Аветисян показали адекватность энтропийной модели документального поиска. Для семантического поиска энтропийная оценка эффективности еще не применялась. В 2005 году Г. Зу, С.Е. Мадником и М.Д. Сайгелом описано использование контекстно-временной онтологии в системе интеграции семантических данных COIN для англоязычных экономических систем. В России таких исследований не проводилось.

Во второй главе сформулированы основные принципы семантического поиска, обозначены преимущества такого подхода. Подробно описаны методы, используемые в исследовании. Изложена общая концепция нечеткости и неопределенности. Далее описан процесс построения модели поиска, состоящей из модели представления элементов медицинской информационной системы, основывающейся на использовании онтологии предметной области, алгоритма поиска документов и оценки релевантности (пертинентности). Определение элементов системы терминами и связями между ними выражается с помощью фактора достоверности и темпоральными (временными) характеристиками — принадлежность к некоторому интервалу времени.

Модель КВО определяется следующим образом. Пусть: Х={х,} — множество понятий (/= 1,М);

— множество терминов (слово или словосочетание), элементов терминологического словаря (и= 1,U У,

R,={rk} — множество контекстно-временных отношений между понятиями, определяющих связи между элементами поиска {к^ук);

cr(t)—*R[Q.n — функция факторов достоверности отношений в момент времени t, возвращающее в любой момент времени значение в интервале [0;1]: 0 — неизвестно; (0;1) — достоверно в некоторой степени; 1 — отношение достоверно на 100%;

_ .......

=0,Vl*p; h,l,p=\,T,{\)

cr{t)=

cr,

{t),te

I'** J*' П M1);^

.0,иначе ^

где T-— количество временных интервалов.

Тогда отношение гк можно определить так: rk=<x,, xJt уи, crk(t)>, где: х„ Xj — понятия; crk{t) имеет вид (1) — функция фактора достоверности отношения гк между х, и хр определяемое термином уи\ i,j- 1,М \к= 1,К.

Fi=<Fm F> — множество функций интерпретации.

F„ — функция контекстно-временной нормализации терминов, в любой момент времени для любого термина /-го понятия возвращает номер у'-го терма, определяющий элемент поиска с максимальным фактором достоверности:

Fn (N,t) N: Vi = U/, V/0 Fn (;,/0) = arg max {cxiu (/„)) ' (2>

VH=l.t/

где cx¡u{t)-*R[o:i\ — функция фактора достоверности ы-го термина, определяющего i-e понятие в момент времени t.

Fs — функция контекстно-временной интерпретации термов, в момент времени t ставит в соответствие i-му терму вектор СХ={сх1и} факторов достоверности, отражающих степень соответствия и-го термина г'-му понятию.

F,(N,t)->tfa!Íl:Vi = lM. Ví0 F,(i.t0)=Eu*cx(t0), (3) где Еи — матрица UxU, элементы м-го столбца равны 1, остальные = 0:

1 ,p = u,Vl;

Ей - {e¡p}'-e¡p —

(4)

0 ,рФи,У1.

Рг, используется для построения правил выводов:

Ргг ЕСЛИ(И({г„с,/,} I;) I ИЛИ({/>с^,} |Г ) |

I НЕ({гм} |Г )) ТО({/-'„сУ',} ), (5)

где: гк - исходные отношения с коэффициентом достоверности ск в момент времени 1к (к= 1, К); г'р — выходные отношения к коэффициентом достоверности с'р в момент времени 1'р (р= 1,Р).

В результате получена модель контекстно-временной онтологии:

01 = <Х,Я1^1,Рг^>, (6)

Представление документов в виде набора триплетов образуют в модели подграф, который задает представление документа в данном контексте запроса: 0(П)е0(0). Узлы соответствуют термам, а ребра — бинарным отношениям между ними.

Веса узлов графа определены как коэффициенты достоверности сх((). Для каждого из ребер (х,, графа полагается заданным также (IхК) —

вектор весов {ст,^(0> к=\^К}, где сгик(1)=0, если термы (х„ х,) не связаны между собой отношением гь и сгк(()=сгк0) — в противном случае. Здесь сгк(1) — заданный вес отношения гк в онтологии О.

Предложено использование меры соответствия триплетов документов, формализующих близость семантических сетей поисковых образов документа О и запроса Q или, что то же самое, меры близости соответствующих графов (Э(Р) и С(()), учитывающей веса термов и связей между ними.

Мера близости вершин и ребер графов С(В) и С(()) определяется как минимальное значение коэффициентов достоверности соответствующих вершин и ребер в любой момент времени Л

Мера близости термов х, запроса и документа:

сх(х,0,х,в) = сх,(0 = тт(сх(£,(0,сх,,е(0) • (7)

Мера близости ребер г,, запроса и документа:

сг(Ь,о>гк,о) = сгк(0 = тт{сг,в{1),сгкд{1)) . (8)

Тогда пересечение графов можно С(£))пО(£>) представить как набор вершин и ребер с коэффициентами достоверности (7) и (8).

Взвешенная мера близости вершин определяется следующим образом:

2-2^(0

3х=Ъсх№+ЪсхЛ о

где: индекс а пробегает номера узлов, принадлежащих пересечению графов С?(О)ПО(0, что условно можно записать в виде ае [ 1 :п((?(£))ПС(0)]; индексы р, у пробегают номера узлов [ 1 :и(С(£>)], [ 1 -.п(С(П)] соответственно для любого времени Л

Взвешенная мера близости ребер определяется как:

р.у» уЛ"

где, аналогично (9), а пробегает номера ребер пересечения графов С(2))ПС?(0, индексы Д у пробегают номера ребер графов (?(0 и 0{В) соответственно.

___- (9)

«.V/ (10)

Мера близости графов определяется, как функция полезности мер ^ и я, (9,10). Рассмотрена аддитивная свертка мер. Методом половинного деления определен вид скалярной свертки с коэффициентом полезности д<1:

5=&,+(7-<5>,. (11)

Мерах из (11) принимается за коэффициент достоверности С7Г—доля уверенности, что определенный документ соответствует смыслу запроса.

С использованием построенной модели КВО и оценки релевантности документов в результате вычислительного эксперимента разработан алгоритм семантико-энтропийного поиска для обучения с учителем системы пониманию смысла запроса. В.В. Иванов в работе «Модели и методы интеграции структурированных текстовых описаний на основе онтологий» предлагает стратегию, в которой понятия тезауруса внедряются в онтологию как экземпляры особого метакласса онтологии. В качестве множества допустимых значений некоторого понятия выступают группы близких понятий тезауруса. На рис. 2 описаны этапы алгоритма семантико-энтропийного поиска.

Этап 1 Подготовка Шаг 1.1. Первичное индексирование (документ-предложение-слово) Шаг 1.2. Построение онтологии предметной области Шаг 1.3. Построение онтологии времени (выделение понятий времен^ Получение абстрактных образов документов, поступивших в хранилище

Этап 2 Обучение Шаг 2,1. Построение КВО Шаг 2.2. Построение семантической сети (образа)запроса Шаг 2.3. Оценка неопределенности Шаг 2.4. Оценка обучающей коллекции (полнота, точность, мера информации) Понижение уровня абстракции, конкретизация контекстно-временны хпараметров Этап.2 повторяется, пока не будет достигнута желаемая полнота и точность выборки

ЭтапЗ Тестирование Шаг 3.1. Вычисление коэффициентов достоверности Шаг 3.4. Определение временных интервалов

Этап 4 Контекстное индексирование Шаг 4.1. Поступление новых документов Шаг 4.2. Построение семантического образа документов на основе полученной КВО при обучении системы, т.е. в соответствии с полученным набором термов и отношений Поиск, Этапы 4 и 5. выполняются для всех поступающих в систему документов на время актуальности запроса

Этап 5 Обнаружение схожих документов Шаг 5.1. Оценка релевантности

Этап 6 Анализ результатов Шаг 6.1. Анализ зависимостей мехду понятиями КВО, найденными в документах Предоставление функций советующего справочника

Рис. 2. Этапы алгоритма семантико-энтропийного поиска

Обучение системы нахождению документов, отвечающих заданному в запросе смыслу, заключается в построении обучающей выборки — списка документов, поставленных в соответствие заданному запросу. Процесс построения является итеративным. Эксперт создает некоторый набор терминов, характеризующих смысл, и связей между ними.

Каждое понятие тезауруса, извлеченное из текста запроса, сопоставляется с экземпляром онтологии и используется для построения связного множества триплетов. Эксперт вводит правила, определяет множество терминов и отношений. В результате получаем контекстно-временную онтологию.

Для оценки неопределенности построения запроса при создании обучающей выборки также используется понятие меры неопределенности. Количество информации, содержащееся в среднем в одном сообщении о том, каким признан системой очередной документ вычисляется по формуле:

ир\ =Н[*р]-Н[8р\ир]=Н[ир\-Н[ир\зр1 (12)

где: яр — документ признан системой релевантным запросу; ир — документ на самом деле является релевантным запросу; Н[$р\ — неопределенность того, что наугад взятый документ будет признан релевантным системой; Н[$р\ир] — неопределенность того, что документ, признанный системой релевантным на самом деле является релевантным.

С помощью подбора таких параметров, как глубина индексирования (количество документов, которые будет индексировать поисковый сервис) и глубина терминологического наращивания запросов (последовательного/ итерационного пополнения словаря терминов, участвующих в данном запросе) обеспечивается понижение меры неопределенности и улучшения коэффициентов полноты и коэффициентов точности, характеризующих соответствие текста заданной теме.

Результатом математического моделирования является построение модели семантического поиска и доказательство ее соответствия поставленной цели исследования. Проведен анализ полученных результатов, исследуется применимость модели в реальном мире. Модель информационно-поисковой системы включает в себя модель интерпретации документов и запросов на основе контекстно-временной онтологии и алгоритм с обучением с учителем для обучения системы контексту заданного запроса. Построенные модели подчиняются всем

законам математической логики, способны адекватно описывать исходную ситуацию. Результаты, полученные на основе данных моделей, хорошо отражают действительность в соответствии с выдвинутыми критериями.

Предложенная в работе методика оценки релевантности документов обладает высокой вычислительной сложностью. Подавляющая часть требуемых вычислительных затрат обусловлена выполнением следующих работ.

Во-первых, для каждого из документов О требуется построение соответствующей семантической сети Если онтология предметной области фиксирована, т.е. «четкая» и не зависит от времени, то эта работа выполняется лишь однажды, при помещении документа в хранилище. Во-вторых, методика требует построения аналогичной семантической сети 8{0) онтологии рассматриваемой предметной области. Опять же, если онтология предметной области фиксирована, то эта работа выполняется однократно. В-третьих, в соответствии с методикой для каждого из запросов Q также требуется формирование семантических сетей 5(0. Данная работа должна выполняться системой при обработке каждого из запросов.

Задача определения пертинентности документа является задачей оптимизации. Использованный метод аддитивной скалярной свертки является простейшим и далеко не всегда эффективным методом решения. Поэтому представляет интерес исследование целесообразности использования других, более «тонких» методов решения указанной многокритериальной задачи.

Третья глава содержит описание процесса проектирования и создания технологии распознавания элементов медицинской информационной системы. Концептуальная модель информационно-поисковой системы приведена на рис. 3.

Все операции поиска разбиты на пять групп: обучение, хранение информации, поисковые операции, выдача информации, информационный анализ. Система состоит из следующих элементов:

— виртуальное хранилище данных — средство предоставления доступа к распределенным архивам разнородных документов различных МИС; содержит описание электронных медицинских записей, ссылки на документы, терминологический словарь, тезаурус, шаблоны, репозита-рий запросов;

Источники

МНОЖЕСТВ!

объектов (документов)

Хранилище МИС1 \

Хранилище МИС2 *

Хранилище. МИСп

ИНФОРМАЦИОННОГО ИСКОВАЯ СИСТЕМА

Виртуальное хранилище данных

метасписание алектронных медицинских записей

ссыпки на документы

терминологический словарь

тмаурус

шаблоны

реооэитарий запросов

Индексирующий

с «рейс

служба

индексирования

контекстно-временное ' «ндеюгнровение

\

Контекстные образы объектов (документов)

описание документов

ЕЛ-сервис

служба «влечения данных

служба преобрвювяния данных

служба »грузки данных

Поисковый

сервис

служба поиска

и оценю

релевантности

документе»

Аналитический сервис

советующий справочник

Рис. 3. Концептуальная модель информационно-поисковой системы

— ЕТЬ-сервис — содержит инструментарий: извлечения данных из различных источников; преобразования — для первичной индексации и «очистки» данных и инструментарий загрузки данных в хранилище;

— обучающий сервис—средство составления контекстно-временной онтологии, содержит: инструментарий, позволяющий составлять новый запрос с обучением; визуальный редактор, отображающий понятия и связи между ними в удобном для восприятия виде для конструирования запросов к данным;

— индексирующий сервис — средство создания контекстных индексов поступающих в хранилище документов;

— поисковый сервис — средство организации поиска документов;

— аналитический сервис — средство обработки результатов поиска.

Далее предложен подход к реализации ИПС, основанный на создании программных сервисов, отвечающих за выполнение отдельных функций системы и имеющих единый интерфейс взаимодействия.

Спроектирована и реализована универсальная программная архитектура ИПС, позволяющая взаимодействовать с разработанными ранее автоматизированными рабочими местами (АРМ) учетной МИС. Схема многоуровневой архитектурной модели информационно-поисковой системы представлена на рис. 4.

Модуль взаимодействия с пользователем использует глубокие знания (представление о пациентах, заболеваниях, клинических тестах) для извлечения дополнительных, более детальных контекстно-временных знаний. На эксперта возлагается задача расширения и уточнения модели онтологии - понижение уровня абстракции. Эта модель затем передается индексирующему сервису. Поведение системы снова анализируется экспертом и обучающим сервисом (энтропийная оценка). Эксперт при необходимости вносит коррективы в онтологию.

Графический интерфейс позволяет эксперту создавать пиктограммы, представляющие элементы запроса, формировать из них графические структуры. Расставляя элементы на экране и вычерчивая связи между ними, эксперт формирует мнемоническую схему взаимосвязей между элементами.

Для более эффективного использования в исследованиях результатов поиска проводится анализ полученных данных. Интеллектуальная обработка результатов поиска, заключается применении метода графовой кластеризации по алгоритму Буровки.

На следующем этапе определены основные характеристики гибридной информационной системы и предложен метод перехода от учетной системы к гибридной. Разработанная технология поиска в электронных хранилищах МИС позволяет автоматизировать процесс сбора данных для научных исследований и обеспечивает, независимо от структуры и состава МИС, эффективный анализ и обработку данных. Предложенный подход к разработке архитектуры ИПС позволяет использовать ее для гибридизации учетных МИС. Вместо разработки гибридной МИС «с нуля» автором исследования выбран способ повышения интеллектуального уровня ранее разработанной учетной МИС посредством использования технологии информационного поиска.

В четвертой главе приведены результаты апробации и статистика работы программного комплекса; описан численный эксперимент по оценке эффективности и полезности ИПС, разработанной на основе модели КВО. Приведены количественные характеристики обучающих и те-

Рис. 4. Схема многоуровневой архитектурной модели информационно-поисковой системы

стовых коллекций и примеры обучения и тестирования. Проведены эксперименты с алгоритмом поиска, позволяющие судить о качестве работы алгоритма по двум основным критериям: полноте и точности.

Исследованы зависимости критериев точности и полноты от следующих параметров: количество документов обучающей выборки; сложность запроса (количество вершин и ребер графа, построенного на основе семантической сети запроса); коэффициент полезности при оценке релевантности по формуле (11).

Экспертами предоставлены выборки из подходящих для исследований документов (историй болезни), выбранных из общего количества за определенный период, на создание которых потрачено несколько месяцев. Выборки разделены на обучающую и контрольную части. Каждой паре «запрос-документ» поставлен в соответствие набор оценок релевантности информационной потребности, представленных в виде бинарных утверждений «релевантный» и «нерелевантный». По каждому запросу вычислены значения коэффициентов точности и полноты выборки для документов, с положительной релевантностью запросу. Составы коллекций и средние значения основных характеристик разработанной информационно-поисковой системы приведены в таблице 1.

Таблица 1. Состав коллекций и средние значения основных характеристик

разработанной информационно-поисковой системы

Количество Время Кол-во Критерии оценки

Тематика коллекции документов Период, гг поиска тесто- (средние значения)

№ всего выбрано «вручную», мес. вых запросов полнота точность мера F\cP фр, РР]

Пациенты

1 с риском ишемическо-го инсульта 14000 200 20072009 12 20 0,87 0,81 0,87 0,26

Пациенты

2 с симптомом фибрил- 7000 250 20072008 7 30 0,98 0,95 0,98 0,28

ляции пред-

сердий

В результате вычислительного эксперимента выявлено, что подходящим значением коэффициента полезности для (11) является 3x0,63, следовательно, вершины, определяемые термами запроса, имеют несколько большую значимость, чем связи между термами.

Для наглядного представления и визуального анализа составлены графики. График изменения значений оценок информационно-поисковой системы по запросам коллекции № 1 представлен на рис. 5.

-*-Полнота(Р!) -»-Точность(Р) -■•-■■■• [[эр.ир] -«--Я, -» -Р,

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

№ запроса

Рис. 5. График изменения значений оценок информационно-поисковой системы по запросам коллекции

Так, например, выполнение запроса № 1 Пациент принимает антикоагулянт по тестовой коллекции № 1, проведено по следующей схеме. Информационная потребность: Найти истории болезни, в анамнезе упомянуто, что пациенту назначалась антикоагулянтная терапия. На первом шаге с помощью лингвистической онтологии и логического вывода получаем новые зависимости, которые соответствуют новым триплетам, представляющим соответствующий документ или запрос. На следующем шаге итерации дополняем полученный набор (расширяем лингвистическую онтологию). Можно, например, отождествить прием и назначение препаратов, так как в определенном контексте одно следует из другого. В результате получаем дополнительный триплет, соответствующий запросу: Пациенту назначен антикоагулянт. Далее формируется правило вывода - инструкция, с помощью которой можно получить новую информацию на основе имеющейся. Общий вид: «Если (условие), то (вывод)» или «Условие, следовательно, вывод». В случае запроса № 1: Имеются противопоказания к приему антикоагулятнов, следовательно, пациент не принимает антикоагулянты.

Для каждого триплета фактор достоверности СР определяется экспертом, либо как отношение частоты данного триплета в релевантной выборке к частоте во всей совокупности документов. Если в документе или с помощью перечисленных выше операций получен триплет с отрицательным значением, например, Пациент не принимал варфарин, то фактор достоверности равен нулю.

В результате получен ориентированный мультиграф. Представление связей с помощью фактора достоверности представляет собой пропускные способности ребер графа. На рис. 6 отображено графическое представление триплетов запроса и документов.

^назначение; СР^ (0 "0,9 |£*2006год>

Рис. 6. Графическое представление триплетов запроса и документов: вершины — термы (*„ х2, х3); дуги — триплеты: запроса (г„ г2), документов (г,, гА, г,, г6); правил вывода (г7).

Задача сводится к нахояедению всех возможных путей от вершины антикоагулянт к вершине пациент. Соответствие найденных путей (триплетов, представляющих документ) потребности пользователя определяется максимальной близостью значения найденного пути значению пути в графе запроса. Документы, представленные триплетом г3, удовлетворяют запросу с достоверностью 0,9; документы, представленные триплетами г4, г5, г6, полностью не удовлетворяют запросу (СР=0)\ документы, содержащие триплет запроса г„ полностью удовлетворяют запросу (СР=1); документы, содержащие триплет запроса г2 удовлетворяет запросу на 90% (№=0,9).

В таблице 2 показано изменение значений точности и полноты поиска в зависимости от этапов обучения по результатам пяти итераций.

Таблица 2. Изменение значений точности и полноты поиска _в зависимости от этапов обучения_

№ Итерация Полнота (R) Точность (Р) Энтропия

1 Автоматическое построение онтологии по обучающей коллекции документов 0,57 0,90 -

2 Запрос: Пациент принимает антикоагулянт 0,51 0,75 0,75

3 Обучение: До 2005 года антикоагулянтам назначают варфарш в 90% случаев 0,69 0,79 1,79

4 Обучение: Антикоагулянты и противо-свертывающие — одно и то же 0,83 0,81 1,81

5 Обучение: Если пациенту не противопоказан варфарин и пациент перенес инсульт, то пациент принимает антикоагулянт с уверенностью 90% 0,95 0,87 0,9

После пятой итерации 63% документов обучающей выборки соответствовали запросу с уверенностью 100%, остальные 37% — с уверенностью 90%. Для уверенности 80% коэффициенты RuP равны единице. Для технологии полнотекстового поиска MS SQL Server 2008, использующей статистическую модель и ранжированный поиск, получены результаты: найдено 49% документов с релевантностью больше 0,6; /?=0,62; Р=0,59.

На рис. 7 показан график динамики значений коэффициентов точности и полноты разработанной ИПС в зависимости от этапов обучения. По тестирующей выборке R= 0,95 и Р=0,9 для уверенности 90%. Следовательно, разработанная технология достаточно полно и точно выполняет поиск документов по смыслу.

В исследовании проведена проверка запросов средней сложности: поиск отдельных терминов или параметров, онтологии содержат не более 4-5 термов. Проведенный анализ полученных результатов подтвердил применимость модели в реальном мире.

В заключении приведены основные результаты диссертационной работы.

• Разработанная технология представления элементов МИС в неструктурированных текстовых массивах медицинских электронных записей с использованием дополнительных характеристик онтологических связей и предложенная методика энтропийной оценки неопределенности

запроса позволяет осуществлять достаточно точный и полный смысловой поиск в медицинских документах, «слабо» чувствительный к языку, на котором написан документ, что является важным для медицинских документов, содержащих термины на русском языке и на латыни. )

0,9 0,8 0.7

£ 0,8

ё 0,5

0

1 0,4

о

0,3 02 0,\ о

0 0,1 0.2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Полнота (Н)

Рис. 7. График динамики значений коэффициентов точности и полноты в зависимости от этапов обучения

• Построенная модель семантического поиска для организации информационной поддержки медицинских научных исследований соответствует рассматриваемой предметной области, является адекватной и непротиворечивой.

• Сформулированная оценка релевантности смысла документов и запроса как мера схожести графов, соответствующих построенным семантическим сетям по созданной в процессе обучения КВО позволяет формировать достаточно полную выборку документов.

• Разработанный алгоритм семантического поиска на основе разработанной модели с обучением с учителем, включающий в себя правила вывода и лингвистическую онтологию для генерации новых онтологических связей позволяет учитывать потребности конкретного пользователя системы.

• Предложенный метод перехода от учетных к гибридным информационным системам позволяет использовать накопленные данные о пациенте для проведения МБИ без существенных затрат на доработку уже внедренных учетных МИС.

• Эффективность информационно-поисковой системы подтверждена в процессе практической эксплуатации программного комплекса для сбора и анализа данных в Тюменском кардиологическом центре.

00 ©

..........................................................-Г- ..................

№ Ш

|М3 301. Зег»ег2008'|

Приложения содержат исходные данные, результаты численного эксперимента, список терминов, применяемых в данной работе, исходный текст некоторых программных модулей.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНО В СЛЕДУЮЩИХ РАБОТАХ:

Публикации в рецензируемых журналах, рекомендованных ВАК

1. Нестерова O.A., Олейников Е.А. Некоторые подходы к решению проблемы интеграции данных результатов обследований на различном медицинском оборудовании II Вестник Тюменского государственного университета. Тюмень: ТюмГУ, 2007. №5. С. 111-115.

2. Захаров A.A., Нестерова O.A., Олейников Е.А. Проблемы информационного поиска для научных исследований в медицинских информационных системах // Вестник Тюменского государственного университета. Тюмень: ТюмГУ, 2009. №6. С. 215-219.

3. Рынков А.Ю., Близняков A.A., Хорькова Н.Ю., Нестерова O.A. Риск тромбоэмбо-лических осложнений и адекватность применения варфарина при фибрилляции предсердий неклапанной этиологии И Вестник аритмологии. СПб., 2010. №62. С. 41-44.

4. Захаров A.A., Нестерова O.A., Олейников Е.А. Алгоритм информационного поиска в медицинских архивах на основе контекстно-временной онтологии // Вестник Тюменского государственного университета. Тюмень: ТюмГУ, 2010. №6. С. 177-182.

Прочие публикации

1. Нестерова O.A., Петухов A.C. Программные способы обеспечения безопасности в медицинской информационной системе Тюменского кардиологического центра // Безопасность информационного пространства: Материалы междунар. науч.-практ. конф. Екатеринбург: ГОУ ВПО УрГУПС, 2006. С. 28.

2. Захаров A.A., Нестерова O.A., Олейников Е.А. Медицинская информационная система для Тюменского кардиологического центра // Математические методы в технике и технологиях — ММТТ-20: Сб. тр. XX Междунар. науч. конф. Ярославль: ЯГТУ, 2007. Т.8. С. 157-161.

3. Нестерова O.A., Олейников Е.А., Петухов A.C. Применение FNTER.NET-технологий в задачах телемедицины // Высокие технологии, фундаментальные и прикладные исследования, образование: Сб. тр. III междунар. науч.-практ. конф. «Исследование, разработка и применение высоких технологий в промышленности». СПб.: Политехи, ун-т, 2007. Т.9. С. 212-213.

4. Нестерова O.A. Проблемы безопасности при интеграции данных различных информационных систем в медицинских учреждениях // Безопасность информационного пространства VI: Сб. тр. межвузовской науч.-практ. конф. Тюмень: ТюмГУ, 2007. С. 39-43.

5. Нестерова O.A. Информационное моделирование, разработка и внедрение сервисно- и объектно-ориентированных технологий для использования цифровых

и картографических активов в научных исследованиях в медицине // Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений: Сб. науч. тр. I науч.-практ. регион, конф. Тюмень: Вектор Бук, 2008. С. 71-75.

6. Захаров A.A., Нестерова O.A., Олейников Е.А. Проблемы информационного поиска и анализа данных в медицинских информационных системах // Актуальные проблемы прикладной математики, информатики и механики: Сб. тр. междунар. конф. Воронеж: ВГУ, 2009. С. 82-85.

7. Нестерова O.A., ОлейниковЕ.А. Информационный поиск и интеллектуальный анализ данных в медицинских информационных системах // Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений: Сб. науч. тр. II науч.-практ. регион, конф. Тюмень: Вектор Бук, 2009. С. 80-84.

8. Рынков Ю.А., Близняков A.A., Добрынина JI.A., Нестерова O.A. Риск ишеми-ческого инсульта и профилактическое применение варфарина у пациентов с фибрилляцией предсердий неклапанной этиологии в кардиологической клинике //Инновационные диагностические и лечебные технологии в неврологии: Научно-практический медицинский журнал. Казахстан, 2009. С. 10.

9. Нестерова O.A., Олейников Е.А. Проблема сбора и анализа данных для научных исследований в медицинских информационных системах // Искусственный интеллект: философия, методология, инновации: Материалы III Всерос. конф. студентов, аспирантов и молодых ученых. М.: Связь-принт, 2009. С. 371-373.

10. Нестерова O.A., Близняков A.A., Рычков А.Ю., Олейников Е.А. Разработка технологий онтологического поиска на основе энтропийной модели и их использование в системах поддержки принятия решений // Вестник аритмологии. Материалы IX Международного славянского конгресса по электростимуляции и клинической электрофизиологии сердца «КАРДИОСТИМ-2010». СПб., 2010. С. 581.

11. Нестерова O.A. Использование ориентированных графов для кодификации элементов в неструктурированных текстовых массивах медицинских электронных записей // Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений: Сб. науч. тр. III науч.-практ. регион, конф. Тюмень: Вектор Бук, 2010. С. 181-185.

12. Захаров A.A., Олейников Е.А, Пуртов В.Г, Нестерова O.A. Подходы к созданию единого информационного пространства медицинского учреждения // Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений: Сб. науч. тр. III науч.-практ. регион, конф. Тюмень: Вектор Бук, 2010. С. 94-99.

13. Нестерова O.A. Контекстно-временная онтология предметной области в информационном поиске медицинских данных // Искусственный интеллект; философия, методология, инновации: Материалы IV Всерос. конф. студентов, аспирантов и молодых ученых. М.: Радио и связь, 2010. 4.1. С. 106-109.

Перечень результатов интеллектуальной деятельности

1. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009613527 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения ультразвуковой диагностики. Версия 1.0».

2. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009613529 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача клинико-диагностической лаборатории. Версия 1.0».

3. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009613528 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача клинического отделения. Версия 1.0».

4. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009613530 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача-ангиохирурга. Версия 1.0».

5. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009614868 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача кардиолога. Версия 1.0».

6. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009614869 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения рентгенохирургических методов обследования и лечения. Версия 1.0».

7. Захаров A.A., Нестерова O.A., Олейников Е.А., Петухов A.C., Пуртов В.Г. Свидетельство, регистрационный № 2009614867 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения лечебной физкультуры. Версия 1.0».

Подписано в печать 07.02.2011. Тираж 100 экз. Объем 1,0 уч. изд. л. Формат 60x84/16. Заказ 125.

Издательство Тюменского государственного университета 625000, г. Тюмень, ул. Семакова, 10 Тел./факс (3452) 46-27-32 E-mail: izdatelstvo@utmn.ru

Оглавление автор диссертации — кандидата технических наук Нестерова, Ольга Андреевна

ТАБЛИЦА СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. ДИФФЕРЕНЦИАЦИЯ ТРЕБОВАНИЙ К СБОРУ ДАННЫХ ДЛЯ ИНФОРМАТИЗАЦИИ МЕДИКО-БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ.

1.1. Характеристика медико-биологических исследований.

1.2. Специфика электронной медицинской информации.

1.3. Анализ технологий информационного поиска.

1.4. Выводы по главе.

ГЛАВА 2. МОДЕЛИРОВАНИЕ СЕМАНТИКО-ЭНТРОПИЙНОГО ПОИСКА С ИСПОЛЬЗОВАНИЕМ КОНТЕКСТНО-ВРЕМЕННОЙ ОНТОЛОГИИ.

2.1. Описание основных понятий семантико-энтропийного поиска.

2.2. Построение модели интерпретации смысла текстов документов и запроса с учетом контекста и времени.

2.3. Метод расчета меры соответствия текстов документов и запроса.

2.4. Метод расчета оценки эффективности этапов обучения и поиска.

2.5. Описание работы алгоритма выбора документов.

2.6. Выводы по главе.

ГЛАВА 3. РАЗРАБОТКА ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО

ПОИСКА В АРХИВАХ МЕДИЦИНСКИХ ДАННЫХ.

3.1. Проектирование архитектуры информационно-поисковой системы.

3.2. Обучение системы.

3.3. Интерпретация и анализ результатов поиска.

3.4. Гибридизация учетных медицинских информационных систем.

3.5. Выводы по главе.

ГЛАВА 4. ОЦЕНКА ЭФФЕКТИВНОСТИ РАЗРАБОТАННОЙ

ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ.

4.1. Результаты разработки информационно-поисковой системы.

4.2. Описание численных экспериментов.

4.3. Оценка модели семантико-энтропийного поиска.

4.4. Выводы по главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Нестерова, Ольга Андреевна

Актуальность работы. Повышение качества и доступности медицинской помощи - один из приоритетов государственной социальной политики. Подтверждением этого является принятая концепция развития системы здравоохранения в Российской Федерации до 2020 года. Одним из основных направлений решения проблемы информатизации медико-биологических исследований (МБИ) является предоставление информации различным специалистам из тематических электронных архивов историй болезни. Вопросам применения информационных ресурсов в МБИ посвящены работы: Г.И. Назаренко, Г.С. Осипова, А.И. Молодченкова,

A.C. Клещева, Ф.М. Москаленко, М.Ю. Черняховской, О.Ю. Ребровой,

B.М. Тавровского, В.А. Лищук, С.Е. Бащинского, В.П. Казначеева, P.M. Баевского, А.П. Берсеневой, В.Н. Евдокименкова, У. Кокрена.

Процессу проведения МБИ присущи задачи сбора, обработки информации и интерпретации результатов. Критический анализ медицинских информационных систем (МИС) - источников информационных ресурсов -выявил ряд проблем информатизации МБИ.

1. Необходимость использования неформализованных данных (неструктурированные текстовые массивы, изображения), для которых применение обычных запросов с использованием предикатной логики является затруднительным, усложняет процесс поиска нужной информации.

2. Широко используемые технологии поиска данных в тексте по точному совпадению слов не подходят для задач кодификации (распознавания) элементов системы (объектов, фактов, событий) в неструктурированных текстовых массивах.

3. Большинство разрабатываемых МИС выполняют только функции учета (хранения) данных, которые имеют заранее определенную структуру. К таким данным невозможно применить произвольный запрос в любой момент времени. Необходимы затраты на сопровождение разработчиками.

4. Решение вопроса интеграции разрозненных данных (территориально, различные разработчики МИС) не только требует финансовых затрат, но и сталкивается с проблемой интеграции семантических данных.

5. Необходимость оперативного доступа к информации, ее интеграция требует особого внимания к обеспечению безопасности с учетом закона о персональных данных.

В рамках одного исследования невозможно решить все сформулированные выше проблемы, поэтому нами определена, на наш взгляд, ключевая проблематика в организации научно-исследовательской деятельности врача по сбору и анализу данных: оптимизация механизмов поиска и кодификации элементов учетной МИС, содержащихся в неструктурированных текстах медицинских электронных записей.

Теоретическое обоснование методов поиска и анализа текстов рассмотрено в работах Г. Сэлтона, Т. Джойса, Р. Нидхема, К. Маннинга, П. Рагхавана, Г. Шютце. Методы поиска на основе семантической сети находятся еще только в стадии развития. Делаются попытки использования семантических сетей для поиска в сети Internet. Разработке семантических моделей информационного поиска посвящены работы С. Дамайса, Г. Фурнаса, С. Дирвестера, К. Маннинга, Т. Груббера, Е.А. Рабчевского, Н.В. Лукашевича, Б.В. Доброва, Р.В. Шарапова, В.А. Глазунова, Р.Д. Аветисяна.

А. Гладун, Ю. Рогушина, П.С. Шеменков в своих работах отмечают, что в задачах семантического поиска в текстах важным является критерий, представляющий собой оценку информационной потребности пользователя.

Решение задачи связано с проблемой разработки технологии анализа текстовой медицинской информации, которая учитывала бы специфику электронной медицинской информации: разнородность, удаленность, многозначность, неточные формулировки, субъективность, хронологическую последовательность и неформализованное представление в виде неструктурированного текстового массива.

Объект исследования: модели, алгоритмы и технологии информационного поиска в неструктурированных текстах медицинских электронных записей для поддержки медико-биологических исследований.

Предмет исследования: условия и средства организации семантического (смыслового) распознавания различных сведений, данных о соответствующих предметах, явлениях, процессах, отношениях (элементов МИС) в неструктурированных текстовых массивах медицинских электронных записей.

Целью диссертационной работы является совершенствование механизмов информационного поиска медицинских данных для поддержки МБИ посредством обеспечения максимально возможной полноты обзора текстовых информационных ресурсов и точности нахождения информации.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Разработка технологии интерпретации смысла текста документов и запросов для представления элементов МИС в неструктурированных текстовых массивах медицинских электронных записей.

2. Разработка метода расчета соответствия образа документа запросу.

3. Разработка алгоритма поиска и сбора данных.

4. Построение модели семантико-энтропийного поиска для организации сбора данных для информационной поддержки медицинских научных исследований.

5. Разработка критерия эффективности поиска.

6. Проектирование архитектуры информационно-поисковой системы (ИПС).

7. Разработка концепции гибридизации МИС.

На рис. 1 приведена структурная схема, отображающая комплексный системный подход к процессу исследования. В о

СО а о X о

5» к о

5> 3 а о р? о о о о о

4 о о -1 о а о ы

X о й са я

43 о с о о о ^ о о а о £1 О И о

Оценка эффективности

2 3 З-0 - У

5 о й га = х о и: За ^ <"> о л. а

- ---~ 8> За ^ 5-а {Г

1 5 ? I 2 я а - ® и

5 ■ а СП

-.•а

X <д) 3 С.

0 О — ~ и д -О- ш

2 2 о ь а -0 о з

1 ? 3 3

ЗЗа о 1 Й Й Т

В- сг О ы а, = -С X и х >, -о

1 = о ы

2 -1 з о ®

1?|?? СО О О О -О о5< » : » » I?! п

3 Й 3 О 2 О -С н а 5 § * ° о я »«нш 3 сг

О о ш ф о

Е ф х о •ч го о го и х г ф

Зз » з О 2а

Зз ф

•О р; 2 ф X Ы X г и О го г = § ы о 73

Е л О

5 О О ы ф

2л О го в> х г п № СО =1 о о сл

•< Г о

Ь

СГ ф ь н 03 —) X Ф

X X о СГ X го X ф X о I о =1 о г о я »м

2 ф

Зз х: г х о X

Ь а> х X

О"

Методы исследований. Приведенные в работе методы исследования базируются на использовании методов теории графов, теории принятия решений, теории информации, нечеткой логики, теории вероятности и математической статистики, методов информационного поиска, математического моделирования, графовой кластеризации, модульного и объектно-ориентированного программирования.

Достоверность и обоснованность результатов. Предложенные в диссертационной работе модели и алгоритмы обоснованы теоретическими решениями, не противоречат известным положениям других авторов, определяются методологической базой исследования, сочетанием различных подходов и методов исследования, экспериментальной проверкой теоретических положений и воспроизводимостью результатов.

Положения, выносимые на защиту

• Технология семантико-энтропийного поиска:

- математическая модель контекстно-временной онтологии;

- алгоритм поиска и анализа результатов запроса.

• Архитектурная модель информационно-поисковой системы.

Научная новизна работы отражена в следующих результатах.

• Впервые понятия контекстно-временной онтологии (КВО) предметной области применены к информационному поиску в архивах медицинских данных.

• Разработана новая технология семантико-энтропийного поиска с использованием модели КВО.

• Построена новая модель КВО предметной области:

- введено понятие фактора достоверности, зависящего от времени;

- предложен метод расчета оценки неопределенности запроса с использованием энтропийной оценки;

- предложен метод расчета оценки релевантности документов с учетом коэффициентов достоверности, как расчет меры близости графов, полученных путем построения семантических сетей документа и запроса на основании построенной экспертом контекстно-временной онтологии.

• Разработан новый алгоритм поиска с обучением с учителем, включающий в себя контекстное индексирование и анализ результатов поиска.

Теоретическая значимость. Стало возможным достижение результатов ряда новых задач.

• Интеграция семантических данных с применением КВО.

• Обработка и анализ семантических данных в системах поддержки принятия решений с использованием КВО.

• Семантико-энтропийный поиск в сети Internet.

Практическая значимость

• Алгоритм поиска с обучением позволяет учитывать соответствие документа информационной потребности пользователя.

• Механизм преобразования общего инвертированного файла (индекса) в контекстный индекс, зависящий от контекста запроса, позволяет получить контекстные образы документа, соответствующие различным запросам.

• Использование разработанной модели поиска позволяет с определенной долей достоверности формализовать семантическую информацию для получения полной выборки данных и дальнейшей обработки данных при проведении МБИ.

• Разработанная архитектурная модель ИПС, состоящая из индексирующего, поискового сервиса и виртуального хранилища данных предоставляет возможность исследователю оперативно получать данные по теме своего исследования из различных источников.

• Предложенный метод перехода от учетных к гибридным ИС позволяет наиболее эффективно использовать имеющиеся данные МИС, предоставляя инструментарий формирования произвольных запросов пользователем, не являющимся 1Т-специалистом.

• Предлагаемые методические разработки могут быть приняты во внимание разработчиками медицинских информационных систем при проектировании структуры в направлении, рассматриваемом в диссертации.

Реализация и внедрение результатов работы

• Теоретические и практические результаты работы реализованы и внедрены в качестве ИПС для сбора данных и поддержки медицинских исследований в Тюменском кардиологическом центре (ТКЦ). В процессе эксплуатации представленная система показала свою эффективность. Внедрение системы в ТКЦ подтверждено соответствующими свидетельствами.

• Разработанная ИПС используется при сборе данных в исследованиях по ишемическому инсульту и фибрилляции предсердий, что подтверждается соответствующими публикациями совместно с научными работниками ТКЦ.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

III международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности», Санкт-Петербург, март 2007; III Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология, инновации», Москва, ноябрь 2009; II региональная конференция ИМКН ТюмГУ, Тюмень, октябрь 2009; IX международный славянский конгресс «КАРДИОСТИМ-2010», Санкт-Петербург, февраль 2010; 9-я Сибирская научная школа-семинар ЗЮЕСИТРТ'Ю, Тюмень, октябрь 2010; IV Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология, инновации», Москва, ноябрь 2010; научные семинары НИИ КИТ, кафедры информационной безопасности ТюмГУ, Тюмень, 2006 - 2010.

Работа выполнена при поддержке гранта Министерства образования и науки РФ «Проведение научных исследований в области экологии языка и смежных наук» ГК № 02.740.11.0594.

Этапы исследования. Условно исследование можно разделить на четыре этапа. Первый этап (2006 - 2007 гг.) включал в себя анализ литературы по теме исследования, изучение опыта работы, как в России, так и за рубежом. На втором этапе (2007 - 2008 гг.) разрабатывались организационные модели, отрабатывалось содержание научно-исследовательской деятельности врача. На третьем этапе (2009 г.) велась опытно-экспериментальная работа по изучению возможностей организации гибридной МИС на базе ТКЦ. На четвертом этапе (2010 г.) проводилась обработка и обобщение полученных результатов.

Публикации. Основное содержание отражено в 24 публикациях, из которых 7 свидетельств о государственной регистрации программ для ЭВМ и 4 статьи, опубликованных в изданиях, рекомендованных ВАК.

Структура и объем работы. Приведенные цели и задачи определяют структуру и содержание исследования. Текст диссертации состоит из введения, четырех глав, заключения, списка литературы из 117 наименований работ российских и зарубежных авторов, 4 приложений. Общий объем - 129 страниц, в том числе 5 таблиц, 11 рисунков на 11 страницах.

Заключение диссертация на тему "Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии"

Основные результаты диссертационной работы заключаются в следующем.

• Разработанная технология представления элементов МИС в неструктурированных текстовых массивах медицинских электронных записей с использованием дополнительных характеристик онтологических связей и предложенная методика энтропийной оценки неопределенности запроса позволяет осуществлять достаточно точный и полный смысловой поиск в медицинских документах, «слабо» чувствительный к языку, на котором написан документ, что является важным для медицинских документов, содержащих термины на русском языке и на латыни.

• Построенная модель семантического поиска для организации информационной поддержки медицинских научных исследований соответствует рассматриваемой предметной области, является адекватной и непротиворечивой.

• Сформулированная оценка релевантности смысла документов и запроса как мера схожести графов, соответствующих построенным семантическим сетям по созданной в процессе обучения КВО позволяет формировать достаточно полную выборку документов.

• Разработанный алгоритм семантического поиска на основе разработанной модели с обучением с учителем, включающий в себя правила вывода и лингвистическую онтологию для генерации новых онтологических связей позволяет учитывать потребности конкретного пользователя системы.

• Предложенный метод перехода от учетных к гибридным информационным системам позволяет использовать накопленные данные о пациенте для проведения МБИ без существенных затрат на доработку уже внедренных учетных МИС.

• Эффективность информационно-поисковой системы подтверждена в процессе практической эксплуатации программного комплекса для сбора и анализа данных в Тюменском кардиологическом центре.

ЗАКЛЮЧЕНИЕ

Предложенные в диссертационной работе модели и алгоритмы обоснованы теоретическими решениями, не противоречат известным положениям других авторов, определяются методологической базой исследования, сочетанием различных подходов и методов исследования, экспериментальной проверкой теоретических положений и воспроизводимостью результатов.

Библиография Нестерова, Ольга Андреевна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аветисян Р.Д., Аветисян Д. О. Теоретические основы информатики. -М.: Вильяме, 2002. - 168 с.

2. Алефелъд Г., Херцбергер Ю. Введение в интервальные вычисления / Пер. с англ. М.: Мир, 1987. - 356 с.

3. Андриенко Е.В. Исследование и разработка методов и моделей поиска адекватной информации в полнотекстовых базах данных : Диссертационная работа к.т.н. : 05.13.17 / Таганрог, 2004. 211 с.

4. Барсегян A.A. Технологии анализа данных: Data Mining, Visual mining, Text Mining, OLAP / Барсегян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. СПб.: БХВ-Петербург, 2007. - 384 с.

5. Белякин А.Ю., Козадой Ю.В., Мусин Г.Ш. Единое информационное пространство лечебно-профилактического учреждения. Вопросы интеграции и защиты данных // Информатизация образования и науки. 2010. -№1(5). - С. 72 - 87.

6. Бледное A.M. Применение векторной модели представления текстовой информации для пополнения базы знаний // Вестник ИжГТУ, 2006. №4. - С. 56 - 60.

7. Бойцов И. Системы поиска по массивам неструктурированной информации. URL: http://www.trtu.hl2.ru/p220.htm (дата обращения: 15.04.2003).

8. БрукингА. Экспертные системы. Принципы работы и примеры / Пер.с англ. / Брукинг А., Джонс П., Кокс Ф. и др.; под ред. Р.Форсайта. М.: Радио и связь, 1987. - 224 с.

9. Бураковский В.И. Компьютерная технология интенсивного лечения: контроль, анализ, диагностика, лечение, обучение / Бураковский В.И., Бокерия JI.A., Газизова Д.Ш., Лищук В.А., Люде М.Н., Работников B.C., Соколов М.В., Цховребов С.В. М., 1995. - 85 с.

10. Воройский Ф.С. Индексирование документов в АБИС // Библиотека, 1996. №9. - С. 42 - 44.

11. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. Учебник. СПб.: Питер, 2000. - 384 с.

12. Гладун А., Рогушина Ю. Семантическая википедия как источник онтологий для интеллектуальных поисковых систем // Book 2 Advanced Research in Artificial Intelligence, 2008. C. 172 178.

13. Глазунов В.А. Многокритериальный подход к проблемам виртуальности и выбора научной теории / Концепция виртуальных миров и научное познание. Институт философии РАН. СПб.: Изд. Русского христианского гуманитарного института, 2000. - С. 186 — 196.

14. Глазунов В.А., Чистоходова Л.И. Моделирование творческого процесса / В кн.: Искусственный интеллект: междисциплинарный подход. Под ред. д.ф.н. Д.И. Дубровского и чл.-корр. РАН В.А. Лекторского. М.: ИнтеЛЛ, 2006. - С. 259 - 263.

15. Глазунова О.В., Глазунов В.А., Дремайлов А.В. Разработка алгоритмов идентификации параметров объектов музейного хранения / Научно-технические проблемы развития Московского мегаполиса.

16. Московская конференция молодых ученых. Тезисы докладов. — М.: ИМАШ РАН, 2002. С. 68.

17. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. -М.: Изд-во стандартов, 2001. 14 с.

18. ГОСТ 7.59-2003. Индексирование документов. Общие требования к систематизации и предметизации. М.: Изд-во стандартов, 2005. - 8 с.

19. ГОСТ 7.66-92. Система стандартов по информации, библиотечному и издательскому делу. Индексирование документов. Общие требования к координатному индексированию. М.: Изд-во стандартов, 1992. - 14 с.

20. ГОСТ 7.73-96. Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения. М.: Изд-во стандартов, 1997. — IV. — 15 с.

21. ГОСТ 7.74-2002. Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения. М.: Изд-во стандартов, 2002. - 11 с.

22. ГОСТ Р 52636-2006. Электронная история болезни. Общие положения. М.: Изд-во стандартов, 2008. - 20 с.

23. Граванова Ю. Защита информации в медицинских системах с точки зрения ILM. URL: http://www.cnews.ru/reviews/free/national2006/articles/ilm/ (дата обращения: 06.05.2010).

24. Гусев A.B. Медицинские информационные системы: Монография / Гусев A.B., Романов Ф.А., Дуданов И.П., Воронин A.B. Петрозаводск: ПетрГУ. - 404 с.

25. Гусев A.B. Обзор рынка медицинских информационных систем // Второй международный форум MedSoft 2006. URL: http://www.armit.ru (дата обращения: 28.11.2009).

26. Доброе Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: Учебно-методическое пособие. — Казань: Казанский государственный университет, 2006. 198 с.

27. Дюбуа Д., ПрадА. Теория возможностей. Приложение к представлению знаний в информатике / Пер. с фр. М.:Радио и связь, 1990.-288 с.

28. Евдокименков В.Н. Компьютерные технологии сбора, обработки и анализа данных медико-биологических исследований: Учебное пособие. М.: МАИ, 2005. - 436 с.

29. Захаров A.A., Нестерова O.A., Олейников Е.А. Алгоритм информационного поиска в медицинских архивах на основе контекстно-временной онтологии // Вестник Тюменского государственного университета. — Тюмень: ТюмГУ, 2010. №6. - С. 177 - 182.

30. Захаров A.A., Нестерова O.A., Олейников Е.А. Проблемы информационного поиска для научных исследований в медицинских информационных системах // Вестник Тюменского государственного университета. Тюмень: ТюмГУ, 2009. - №6. - С. 215-219.

31. Иванов В.В. Модели и методы интеграции структурированных текстовых описаний на основе онтологий : Диссертационная работа к. ф-м н. : 05.13.11 / Казань, 2009. 145 с.

32. Иванов В.К., Иванов К.В. Введение в информационно-поисковые системы: Методические указания. Тверь: ТГТУ, 2005.

33. Иванова И.В. Некоторые подходы к индексированию документов ключевыми словами. URL: http://rlst.org.by/bulletin/bulletin0616.htm (дата обращения: 13.06.2010).

34. Информационно-поисковый тезаурус. Русская версия тезауруса EUROVOC. В 3-х томах. М.: Издание Государственной Думы, 2001.

35. Казначеев В.П., Баевский P.M., Берсенева А.П. Донозологическая диагностика в практике массовых обследований населения. М.: Медицина, 1992.-208 с.

36. Какорина Е.П., Михайлова ПЛ., Хальфин P.A. Статистический учет и отчетность учреждений здравоохраниния. М.: МЦФЭР, 2005. - 386 с.

37. Карпенко А.П. Меры важности концептов в семантической сети онтологической базы знаний Электронный ресурс. // Наука и образование: электронное научно-техническое издание, 2010. URL: http://technomag.edu.ru/doc/151142.html (дата обращения: 20.11.2010).

38. Карпенко А.П. Оценка релевантности документов онтологической базы знаний Электронный ресурс. // Наука и образование: электронное научно-техническое издание, 2010. URL: http://technomag.edu.ru/doc/157379.html (дата обращения: 20.11.2010).

39. Клипов 77. Немного о неопределенности и нечеткости в онтологиях. URL: http://shcherbak.net/2009/03/nemnogo-o-neopredelennosti-i-nechetkosti-v-ontologiyax/ (дата обращения: 20.01.2010).

40. Когаловский М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс, 2003. - 288 с.

41. Коганов A.B. Понятие энтропии в структуре моделей времени. URL: http://www.chronos.msu.ru/RREPORTS/koganovtezisy.htm (дата обращения: 27.07.2010).

42. Кокрен У. Методы выборочного исследования. М.: Статистика, 1976. - 440 с.

43. Косинов Д.И. Использование статистической информации при выявлении схожих документов // Интернет-математика 2007: Сборник работ участников конкурса научных проектов по информационному поиску. -Екатеринбург, 2007. С. 205 207.

44. Красилъников И.А., Мусийчук Ю.И. Анализ предложений различных фирм в области медицинских информационных технологий // 2 международный форум MedSoft 2006. URL: http://www.armit.ru (дата обращения: 28.11.2009).

45. Кузина И. Новые поколения поисковых машин // Изд. «Открытые системы», 1997. URL: http://www.osp.ru/cw/1997/32/23154/ (дата обращения: 28.11.2009).

46. Лищук В.А. Интеллектуальное обеспечение диагностики и лечения нарушений кровообращения // Лекции по сердечнососудистой хирургии. Под ред. JI.A. Бокерия. В 2-х томах. М.: НЦССХ им. А.Н. Бакулева РАМН, 1999.-Т.1.-348 с.

47. Лищук В.А. Информатизация клинической медицины // Научно-методический журнал «Клиническая информатика и телемедицина», 2004. №1. - С. 17-27.

48. Лищук В.А., Гаврилое А.В., Данилевич А.И., Шевченко Г.В. Информатизация клинической медицины: все течет ничто не меняется? // Журнал «Информационные технологии в здравоохранении», январь-февраль 2002. - №1 - 2. - С. 4 - 11.

49. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980. - 316 с.

50. Молодченков А.И. Формализация описания лечебно-диагностических процессов. Нечеткие системы и мягкие вычисления: сб. статей Третьей Всероссийской научной конференции: В 2-х томах. -Волгоград, 2009. Т. 1. - С. 103- 109.

51. Мордвинов В.А. Онтология моделирования и проектирования семантических информационных систем и порталов : Справочное пособие. -М.: МИРЭА, 2005.-237 с.

52. Москин Н.Д. Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация : Диссертационная работа к.т.н. : 05.13.18 / Петрозаводск, 2006. 121 с.

53. Назаренко Г.И., Замиро Т.Н., Михеев А.Е., Гулиев Я.И., ХаткевичМ.И. Проблемы создания медицинских информационных систем.

54. Поддержка мультипликативных структур ЛПУ в МИС // Врач и информационные технологии. М.: Менеджер здравоохранения, 2007. - №4. -С. 48-50.

55. Назаренко Г.И., Осипов Г. С. Основы теории медицинских технологических процессов. М.: ФИЗМАТЛИТ, 2005. -4.1. - 144 с.

56. Назаренко Г.И., Осипов Г. С. Основы теории медицинских технологических процессов. Исследование медицинских технологических процессов на основе интеллектуального анализа данных. М.: ФИЗМАТЛИТ, 2006. - 4.2. - 144 с.

57. Некипелова ИМ. Проблемы описания и вопросы моделирования семантики слова в базах данных // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам. -Ижевск: ИжГТУ, 2006. С. 140 147.

58. Некрестъянов И.С. Тематико-ориентированные методы информационного поиска : Диссертационная работа к.ф.-м.н. : 05.13.11 / СПб., 2000. 88 с.

59. Нестерова O.A., Олейников Е.А. Некоторые подходы к решению проблемы интеграции данных результатов обследований на различном медицинском оборудовании // Вестник Тюменского государственного университета. Тюмень: ТюмГУ, 2007. - №5. - С. 111-115.

60. Ноженкова Л.Ф. Применение технологии оперативной аналитической обработки данных в задачах здравоохранения. URL: http://www.government.nnov.ru/data/objects/29538/novozhenkova.doc (дата обращения: 06.05.2010).

61. Норенков И.П. Интеллектуальные технологии на базе онтологий // Информационные технологии. М.: Новые технологии, 2010. -№1.-С. 17-23.

62. Оре О. Теория графов / Пер. с англ. М.: Либроком, 2009. - 354 с.

63. ОрловА.И. Теория принятия решений. Учебное пособие.- М.: Март, 2004. 656 с.

64. Реброва О.Ю. Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики // Новости искусственного интеллекта, 2004. -№3. -С. 16 — 80.

65. Рынков А.Ю., Близняков A.A., Хоръкова Н.Ю., Нестерова O.A. Риск тромбоэмболических осложнений и адекватность применения варфарина при фибрилляции предсердий неклапанной этиологии // Вестник аритмологии. -СПб., 2010.-№62.-С. 41 -44.

66. Скороходъко Э.Ф. Семантические сети и автоматическая обработка текста. Киев: Наукова думка, 1983. - 218 с.

67. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.

68. Тавровский В.М. Автоматизация лечебно-диагностического процесса. Тюмень: Вектор Бук, 2009. - 464 с.

69. Урсул А.Д. Природа информации. М.: Политиздат, 1968. - 287 с.

70. УэноХ., Исидзука М. Представление и использование знаний / Пер.с.яп. М.: Мир, 1989. - 220 с.

71. Хинчин А.Я. Три жемчужины теории чисел. М.: Наука. Главная редакция физико-математической литературы, 1979. - 64 с.

72. Целых Ю.А. Теоретико-графовые методы анализа нечетких социальных сетей Электронный ресурс. URL: http://swsys.ru/print/articlep rint.php?id=742 (дата обращения: 28.11.2009).

73. Чугреев B.JI. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации : Диссертационная работа к.т.н. : 05.13.01 / СПб., 2003. 156 с.

74. Шарапов Р.В., Шарапова Е.В., Саратовцева O.A. Модели информационного поиска // Вестник Московского городского педагогическогоуниверситета. Серия "Информатика и информатизация образования". Казань: Фолиантъ, 2007. - №1. - С. 326 - 329.

75. Шеменков П.С. Разработка и исследование модели нейросетевого метода анализа текстовых документов : Диссертационная работа к.т.н. : 05.13.18/СПб., 2009,- 153 с.

76. Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностранной литературы, 1963. - 830 с.

77. Шрейдер Ю.А. Информация и метаинформация // Научно-техническая информация. Сер. 2. Информационные процессы и системы, 1974. №4. - С. 3 - 10.

78. Эльянов М.М. Медицинские информационные технологии: Каталог. М.: Третья медицина, 2007. - Вып.7. - 300 с.

79. Эльянов М.М. Медицинские информационные технологии: цивилизованный рынок или "зоопарк" // Информационные технологии в медицине- 2002: сб. тезисов. М.: ВК ВВЦ "Наука и образование", 2002. С. 54 58.

80. Эльянов М.М. Медицинские информационные технологии: Каталог. М.: ТДДС-Столица - 8, 2010. - Вып. 10. - 300 с.

81. Bahl L.R., Baker J.K., Jelinek F., Mercer R.L. Perplexity a measure of the diculty of speech recognition tasks. Program of the 94th Meeting of the Acoustical Society of America J. Acoust. Soc. Am., vol. 62 p. S63, 1977. Suppl. no. 1.

82. BunkeH. Graph matching: theoretical foundations, algorithms, and applications // Proc. Vision Interface. Montreal, 2000. Pp. 82 - 88.

83. Chakrabarti S. Mining the Web. Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers, 2003. 345 p.

84. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze Schutze. Introduction to Information Retrieval. Cambridge UP. Online edition (c), 2009. 544 p.

85. Davies J., Studer R, Warren P. Semantic Web Technologies: Trends and Research in Ontology-based Systems. Wiley, 2006. - 326 p.

86. Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science 41, 1990. Pp. 391 407.

87. Dempster, Arthur P. A generalization of Bayesian inference, Journal of the Royal Statistical Society, Series B, Vol. 30, 1968. Pp. 205 247.

88. Faloutsos C., Oard D. A survey of Information Retrieval and Filtering Methods. Technical Report, College Park, MD: University of Maryland Computer Science Dept., College Park; 1996.

89. Gruber T.R. A Translation Approach to Portable Ontology Specification. Knowledge Acquisition, 1993. Vol.5, №2. - Pp. 199 - 220.

90. Gupta M.M. Cognition, perception and uncertainty I I Fuzzy logic in knowledge-based systems, decision and control / Ed. Gupta M.M., Yamakawa T. -Elsevor Science Publishers B.V, 1988. Pp. 3 10.

91. Joyce T., Needham R.M. The Thesaurus Approach to Information Retrieval // American Documentation, 1958. vol.9, issue 3. - Pp. 192 - 197.

92. Lewis D., Sparck Jones K. Natural Language Processing for Information Retrieval. Communications of the ACM, Jan. 1996. №39(1) - Pp. 92 - 101.

93. LIV (Legislative Indexing Vocabulary). Congressional Research Service. The Library of Congress. Twenty-first-Edition, 1994. 546 p.

94. Robertson S.E., Sparck Jones K. Relevance weighting of search terms, Journal of the American Society for Information Science, 1976. №27. - Pp. 129 - 146.

95. Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Performance: A Longitudinal Study // Proc. of the RIAO 2000 Conference. -Paris, 2000. Pp. 894 907.

96. ZobelJ., Moffat R.A., Ramamohanarao K. Inverted Files Versus Signature Files for Text Indexing // ACM Transactions on Database Systems, December 1998. Vol.23, №4. - Pp. 453 - 490.1. СПИСОК ИЛЛЮСТРАЦИЙ

97. Рис. 1. Структурная схема комплексного системного подхода к процессуисследования .8

98. Рис. 2. Совокупность проблем различных технологий и направлений,определяющих цель исследования.17

99. Рис. 3. Структурная схема информационно-поисковой системы в общемвиде.34

100. Рис. 4. Представление семантической сети в виде ориентированноговзвешенного мультиграфа.52

101. Рис. 5. Этапы алгоритма семантико-энтропийного поиска.62

102. Рис. 6. Концептуальная модель информационно-поисковой системы.68

103. Рис. 7. Схема многоуровневой архитектурной модели информационнопоисковой системы .70

104. Рис. 8. Общая структура базы данных поисковых образов .75

105. Рис. 9. График изменения значений оценок информационно-поисковойсистемы по запросам коллекции .102

106. Рис.10. Графическое представление триплетов запроса и документов .104

107. Рис.11. График динамики значений коэффициентов точности и полноты в зависимости от этапов обучения .105