автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Проблемы создания тематически ориентированной гипертекстовой системы для поиска информации в области клинической медицины

кандидата технических наук
Лаптев, Михаил Владимирович
город
Москва
год
1993
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Проблемы создания тематически ориентированной гипертекстовой системы для поиска информации в области клинической медицины»

Автореферат диссертации по теме "Проблемы создания тематически ориентированной гипертекстовой системы для поиска информации в области клинической медицины"

' РОССИЙСКАЯ АКАДЕМИЯ НАУК

МИ^Су^СТВО НАУКИ, ВЫСШЕЙ ШКОЛЫ И ТЕХНИЧЕСКОЙ " ПОЛИТИКИ РФ

ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ И ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

На правах рукописи ЛАПТЕВ Михаил Владимирович

ПРОБЛЕМЫ СОЗДАНИЯ ТЕМАТИЧЕСКИ ОРИЕНТИРОВАННОЙ ГИПЕРТЕКСТОВОЙ СИСТЕМЫ ДЛЯ ПОИСКА ИНФОРМАЦИИ В ОБЛАСТИ КЛИНИЧЕСКОЙ МЕДИЦИНЫ

05.13.17 — теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва 1993

Работа выполнена в Институте промышленной собственности и шшова-тики Комитета по патентам и товарным знакам и Министерства науки, высшей школы и технической политики РФ, г. Москва.

Научный руководитель: доктор технических наук, профессор Б. С. Розов.

Официальные оппоненты: доктор технических наук, лауреат Ленинской премии, профессор В. Р. Серов; доктор филологических наук, профессор Р. С. Гиляревский.

Ведущая организация: Научно-производственное объединение медико-социальных исследований, экономики и информатики Министерства здравоохранения РФ (НПО «Медсоцэкономинформ» МЗ РФ), г. Москва.

Защита состоится 1993 г. в « » часов на

заседании Специализированного совета (Д-003.02.01) при Всероссийском институте научной и технической информации Российской АН п Министерства науки, высшей школы и технической политики РФ (125219, Москва, ул. Усиевича, 20а).

С диссертацией можно ознакомиться в библиотеке института.

Автореферат разослан « *г.

Ученый секретарь Специализированного совета, доктор технических наук Л. А. ПЕТРОВА

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Применение компьютеров в клинической .медицине до настоящего времени наталкивается па ряд проблем, носящих как объективный, так и субъективный характер. Одной из них остается проблема наиболее полного и быстрого обеспечения спсциалист'ов медицинской информацией. В силу сложности и неоднозначности представления данных в соответствующих документальных массивах, процесс их переработки несомненно следует рассматривать как творческий акт взаимодействия потребителя информации с ее источником. Тем не менее возможности современных ЭВМ могут быть использованы в подобной ситуации для моделирования некоторых закономерностей чтения специалистами научной и технической литературы. Соответствующая технология получила название гипертекстовой. При этой подразумевается, что процесс чтения состоит в мысленном расчленении печатной работы на отдельные относительно самостоятельные смысловые блоки и прослеживании связей между ними, опираясь на какие-либо неформальные, полезные для потребителя информации в данный момент критерии. Таким образом, если предоставить пользователю доступ к сети объединенных перекрестными связями фрагментов текста и структурированных данных (гипертексту) и возможность обрабатывать ее, то есть строить на ее основе различные линейные тексты, двигаясь от одного узла сети к другому, то можно отчасти решить проблему быстрого поиска сложно организованной и представленной преимущественно па естественном языке медицинской информации.

Естественно, что разработка гипертекстовой системы в конкретной области и для конкретного употребления требует на первоначальном этапе ее концептуального оформления, в виде обоснованных на фактическом материале предложений о типах узлов сети, храпящих те или иные сведения по тематике выбранного научного направления, типах связей между ними, способе

навигации в достаточно сложном гипертекстовом пространстве, методе выделения подструктур сети и т. п. Ответить на подобные вопросы можно только после тщательного анализа потока научно-технической документации на макро- и микроуровне, отделения главного от второстепенного в выявленных закономерностях и уяснения специфики данной предметной области.

Цель и задачи исследования. Целью работы является наукометрический и структурный анализ документального информационного потока (ДИП) в одной из традиционных областей клинической медицины — дерматологии — и выработка на основе полученных данных концептуального подхода к организации медицинского гипертекста.

В соответствии с поставленной целью работа посвящена решению следующих основных задач:

— структурно-динамическому по Е. В. Стась и статистическому анализу ДИП по дерматологии для установления качественных и количественных особенностей развития данной тематической области на современном этапе;

— терминологическому и композиционному анализу текстов научно-технических публикаций с целью выделения наиболее употребительных медицинских и прочих понятий и определения ст£уктуры документов с учетом их внутренних и внешних взаимосвязей;

— выработке на базе полученных данных специфической концепции медицинского гипертекста, позволяющей перейти на очередном этапе к формированию системы поиска информации в подходящей аппаратно-программной среде.

Методы исследования. В диссертационной работе применялись методы математического моделирования и статистики.

Научная новизна. В работе получены следующие научные результаты:

— осуществлен структурно-динамический анализ по Е. В. Стась системы ДИП по дерматологии на современном этапе, на основе которого получены данные о качественных особенностях ее развития на выделенном временном промежутке и условиях перехода системы из одного состояния в другое;

— проведено статистическое исследование ДИП в той же тематической области, выделены наиболее бурно развивающиеся в настоящее время научные направления, определены тенденции их дальнейшего развития;

— получены данные по терминологическому анализу массивов отечественных и зарубежных документов по дерматологии, произведено их сравнение, установлены классы наиболее упот-

ребительпых понятий, а также различая в их употребительности и наиболее вероятные причины этих различий;

— проанализирована композиционная структура и структура связей наиболее распространенных видов публикаций в данной области медицины, что позволило выделить основные типы смысловых фрагментов текстов журнальных статей различной тематики и соотнести их с таковыми патентных описаний, определить относительный вес каждого в общей структуре текста, а также типы и относительный вес связей между фрагментами и публикациями в целом;

— на базе полученных данных предложены перечни основных типов узлов и связей медицинского гипертекста, концептуальная схема целостной гипертекстовой сети, способ определения степени узла для облегчения навигации в сложном гипертекстовом пространстве и прокладывания маршрута в нем, метод выделения подструктур сети, некоторые виды операций в пей; произведена оценка объемов внешней памяти, требующейся для хранения текстовой и структурированной информации в данной тематической обасти.

Практическая ценность. Полученные и работе результаты позволяют:

— рационально осуществлять управление формированием информационных массивов автоматизированных систем в выделенном научном направлении, группе направлений или тематической области в целом, ориентируясь па входные и выходные характеристики системы ДИП;

— совершенствовать лингвистическое обеспечение систем на основе данных анализа терминологической лексики;

— разрабатывать экспериментальные версии гипертекстовых систем, опираясь на предложенную концепцию медицинского гипертекста и способов работы с ним.

Реализация результатов исследования. Результаты наукометрического анализа ДИП по дерматологии внедрены в виде 2 информационных писем в 7 учебных, научных и практических учреждениях Российской Федерации, в том числе в городах Москве, Ижевске, Самаре, Казани и других.

Апробация работы. Содержание работы, основные выводы и результаты докладывались: на заседании кафедры патентной информации и систем поиска Института промышленной собственности и инноватики Комитета по патентам и товарным знакам Министерства науки, высшей школы и технической политики РФ (1989 г.), на научном семинаре кафедры информатики Российского государственного гуманитарного университета того же министерства (1991 г.), на ученом совете Нижегородского

научно-исследовательского кожно-венерологического института Министерства здравоохранения РФ (1992 г.).

Публикации. По теме исследования в НПО «Союзмедин-форм» депонировано 4 рукописи общим объемом 2,5 печатных листа.

Объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы. Работа содержит 104 страницы машинописного текста, список литературы включает 44 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, определены цель, направления и задачи исследования, дан краткий обзор содержания работы.

В первой главе работы обсуждаются достижения, недостатки и перспективы использования ЭВМ в дерматологии и некоторых связанных с ней областях. Проанализировано применение компьютеров в лечебно-диагностической, организационной, научно-исследовательской и учебной деятельности. Показано, что наиболее медленно их внедрение осуществляется в такие специфические виды деятельности, как диагностика и терапия заболеваний. Это может свести на нет попытки широкого распространения столь популярных в настоящее время экспертных систем. Причина такого положения состоит в угрозе профессиональному статусу и роли врана в обществе. Широкое применение компьютеры получили в области организационной деятельности для решения финансовых и других вопросов. В научно-исследовательской работе ЭВМ используются прежде всего для поиска литературы по теме, статистическог-о анализа полученных в результате проведения исследований данных и разработки на их основе различных моделей. Здесь необходимость широкого использования компьютеров у специалистов не вызывает сомнений. То же относится и к их применению для облегчения усвоения знаний студентами и специализирующимися врачами. Таким образом, наиболее широкое распространение компьютеры получили в организационной, научной и учебной деятельности. Там же следует искать перспективные области их дальнейшего использования в медицине.

В научно-исследовательской и учебной работе большое значение имеет поиск информации по теме. В настоящее время ЭВМ, как правило, приспособлены лишь к обеспечению автоматизированного поиска реферативно-библиографических сведе-

ний об источниках в массивах большого объема. Разработка систем поиска фактических данных носит ограниченный характер, ввиду сложности обработки слабоструктурпрованной медицинской информации. Однако пс так давно в мире начали разрабатываться технологические решения, которые позволяют производить с помощью компьютеров поиск данных именно и такого рода информационных массивах. Эти технологии получили название гипертекстовых. Для них характерно неформализованное представление данных из литературных источников и поддержка традиционных подходов к обследованию объективно сложившейся информационной среды. В качестве таковой в данном случае выступает динамически меняющийся во времени поток литературы по теме, включающий сведения, необходимые для всех категорий специалистов, независимо от сферы их деятельности.

Ясно, что для решения проблемы создания гипертекстовой системы в какой-либо конкретной области необходимо предварительно получить данные о динамических характеристиках ДИП этой области на момент разработки, а также о структуре публикаций того или иного вида на разных уровнях композиции элементов текста. Это позволит выработать концептуальное представление о тематически ориентированном гипертексте, без которого практическая реализация системы будет ничем не обоснованной спекуляцией.

Все перечисленные вопросы применительно к клинической медицине, на примере дерматологии, рассматриваются в последующих главах настоящей работы.

Во второй главе диссертации приводятся результаты наукометрического анализа ДИП по дерматологии на современном этапе. Показано, что с доверительной вероятностью не менее 05,5 % (объем выборки составил 10617 документов) 94,2 % всей профильной информации помещается в настоящее время в журнальных статьях н описаниях изобретений к патентам и заявкам. За пятилетие (1984—1988 гг.) работы дерматологической тематики были обнаружены в 194 периодических изданиях, в том числе 58 отечественных.

Исследование системы ДИП методом структурно-динамического моделирования по Е. В. Стась, основанное па численном решении уравнения

описывающего влияние роста числа документов потока Ц1:) и их используемости р(1) на структурную характеристику систе-

мы ДИП — ее энтропию Н, и учете устойчивости системы вторым методом Ляпунова, продемонстрировало существование на большей части исследуемого временного интервала этапа устойчивого развития тематической области «Дерматология». Наблюдающиеся при этом колебания величины энтропии, по-видимому, указывают на тенденции, в направлении которых в данный период развивается система: от беспорядка к порядку или наоборот, то есть в сторону увеличения или уменьшения устойчивости текущего состояния. В первом случае существующее состояние должно сохраняться, во втором — можно при определенных условиях ожидать перехода системы через будущую неустойчивость к новому устойчивому состоянию.

В-начале анализируемого промежутка времени (1985 г.) установлено наличие локальной неустойчивости, отражающей, по нашему мнению, инерционные свойства системы ДИП. Инерционность является следствием преемственности в развитии тематического направления, поскольку ассимиляция, закрепление нового знания (овеществленного в виде совокупности публикаций 1984 г.) тормозится наличием старого. В результате этого цитируемость элементов потока информации в 1985 г. оказалась настолько низкой, что возникла кратковременная неустойчивость системы.

Явным признаком перехода научной области в новое состояние могут служить изменения, наблюдающиеся в структуре классификационных рубрик, по которым распределяются элементы ДИП. При этом динамическую картину отмирания старых и появления новых рубрик следует интерпретировать как переход системы из одного состояния в другое, а каждый их фиксированный набор связывать с одним из конкретных состояний. В отслеживании подобной динамики большую роль может оказать статистический анализ закономерностей роста с течением времени числа документов потока информации в данной тематической области.

В структуре ДИП по дерматологии установлено существование следующих рубрик (представленных здесь в порядке убывания среднегодовой доли совокупности отнесенных к ним документов): косметология (20,27 %): общие вопросы (13,88%); другие (редкие) дерматозы (13,17%); опухоли кожи (8,96%); псориаз, красный плоский лишай (8,10%); микозы (5,15%); болезни придатков кожи (4,59%); генодерматозы (3,42%); пузырные дерматозы (3,23 %); дерматиты, экзема (3,02 %); вирусные дерматозы (3,01 %); коллагенозы (2,86%); нейродермит, пруриго, крапивница (2,31%); профдерматозы (1,62%); гемодермии (1,50%); дерматозоонозы (1,49%); пиодермия

(1,33%); туберкулез кожи, лепра (0,83%); дерматозы у детей (0,75 %); васкулиты (0,41 %).

Положительный относительный прирост числа документов наблюдался в рубриках: косметология (7,41 %); опухоли кожи (2,67%); геиодерматозы (1,18%); профдерматозы (0,79%); нейродермит, пруриго, крапивница (0,24%); дерматиты, экзема (0,20%).

Отрицательный прирост выявлен в разделах: общие вопросы (—4,49%); микозы (—1,61 %); псориаз, красный плоский лишай (—1,26%); другие (редкие) дерматозы (—1,21%); ге-модермии (—1,15%); вирусные дерматозы (—0,83%); пиодермия (—0,80%); коллагенозы (—0,55%); дерматозоонозы (—0,29%); васкулиты (—0,28%); туберкулез кожи, лепра (—0,24 %); дерматозы у детей (—0,07 %).

Никаких изменений в структуре ДИП за исследуемый период времени не установлено, что подтверждает сделанный ранее вывод об устойчивом развитии дерматологии на современном этапе.

Полученные данные могут быть использованы в процессе разработки автоматизированных информационных систем в данной области для уточнения их возможных входных и выходных характеристик.

В третьей главе диссертации описываются результаты структурного анализа научно-технической документации по дерматологии на разных уровнях композиции текстового материала.

Первая часть работы посвящена статистическому исследованию закономерностей использования терминологической лексики.

Ее анализ в целом, на базе массива объемом около 42,5 тысячи слов и словосочетаний, позволил оценить употребительность терминов в следующих 11 выделенных на предварительном этапе лексических классах (приводятся в порядке убывания средней доли отнесенной к ним совокупности элементов): наименования химических веществ и медикаментов (30,08 %); наименования болезней (21,77%); немедицинские (общенаучные и др.) термины (14,55%); анатомические термины (11,69%); наименования методов исследования, диагностики, ле'чения и профилактики (7,22%); другие (фармацевтические и пр.) термины (6,51%); наименования живых организмов (2,87%); медико-биологические (иммунологические, биохимические и др.) термины (2,72 %); гигиенические и эпидемиологические термины (1,12%); физиологические термины (0,94%); социально-гигиенические и организационно-управленческие термины (0,53 %).

Как видно из приведенного перечня, около 80 % всех терминологических единиц падает всего на 4 из 11 представленных лексических классов, причем среди них имеется класс немедицинской терминологии, что объясняется, по нашему мнению, глубоким проникновением в медицину понятийного аппарата из различных отделов современного естествознания.

Корреляционный анализ употребительности лексических элементов отдельно в отечественных и зарубежных изданиях продемонстрировал наличие тесной прямой зависимости между ними (коэффициент корреляции равен 0,80). Тем не менее наблюдаются и определенные различия. Так, в зарубежных публикациях ведущую позицию занимает класс «Наименования химических веществ и медикаментов» (32,42 %), а в отечественных — «Немедицинские термины» (25,85 %). Класс «Наименования методов исследования, диагностики, лечения и профилактики» в национальных работах находится па 4 месте по употребительности (10,31 %), в то время как в иностранных — па 6 (6,00%). В зарубежных публикациях группа физиологической лексики более представительна (0,88%), чем социально-гигиенической и организационно-управленческой (0,39%). В отечественных же источниках они имеют почти одинаковую употребительность (1,14 и 1,17 %,соответственно).

Композиционный анализ текстов журнальных статей по дерматологии на уровне фрагментов позволил установить два основных принципа их членения: логический, применяющийся в публикациях оригинального содержания, и аспектный, используемый при составлении литературных обзоров.

Набор смысловых блоков, характерных для работ оригинального плана, включает 6 позиций, которые в порядке относительной встречаемости располагаются следующим образом: обсуждение результатов исследования (их интерпретация, комментарий к ним, дискуссия) — 22,84 %; пациенты, материалы и методы исследования—12,33%; результаты работы—'11,69%; описание случая заболевания (клиническая казуистика) —• 8,63%; заключение (выводы работы, краткое резюме) ■— 8,46%; введение (с анализом литературных данных и целыо работы) — 1,58 %.

Обзорные публикации включают фрагменты, посвященные следующим наиболее распространенным аспектам изложения: терапевтический, профилактический, хирургический — 6,60%; клинический — 4,79%; общий — 3,98%; иммунологический, аллергологнческий — 3,10%; диагностический, лабораторный — 2,58%; исторический — 2,04%; морфологический — 1,85%; этиологический, патогенетический — 1,76%; биохими-

ческий, молекулярно-бнологпческий — 1,39%; фармакологический — 1,26%; нозологический — 0,97%; микробиологический, вирусологический, паразитологичсский — 0,66%; медико-генетический — 0,59%; эпидемиологический — 0,54%; физиологический — 0,40%; теоретический — 0,34 %; биофизический, технический — 0,30 %; экспериментальный — 0,28 %; географический - 0,20%; прогностический — 0,19%; прочий (редкий) — 0,19%; психопатологический — 0,13%; эндокринологический — 0,12%; статистический — 0,11%; экологический — 0,10 %.

Непосредственное примыкание каких-либо текстовых фрагментов в научной публикации друг к другу, по нашему мнению, должно означать существование определенной смысловой связи между ними. Такую связь целесообразно назвать структурной или композиционной, поскольку их совокупность «цементирует» отдельные части работы в единое целое. Ясно, что общее число таких связей в массиве объемом N документов будет равно

CN= S (ni—1),

n=i

где n¡— число фрагментов в i-ой публикации.

Кроме структурных, как показал проведенный анализ, для всех журнальных статей характерно наличие связей ссылочного типа. При этом на один фрагмент в оригинальных работах приходится, в среднем, 3,25 литературных и 1,16 иллюстративных ссылок, а в обзорных — 9,84 и 0,96, соответственно. .

В оригинальных публикациях наибольшее количество литературных ссылок наблюдается во фрагменте «Обсуждение результатов исследования» (7,32). За ним идут фрагменты «Введение» (5,62) и «Пациенты. Материалы и методы исследования» (2,07). Ссылки на иллюстративный материал характерны в первую очередь для разделов «Случай заболевания. Казуистика» (3,25), «Результаты работы» (2,80) и «Пациенты. Материалы и методы исследования» (0,52).

В обзорных работах наибольшее количество ссыпок на первоисточники приходится на фрагменты общего (15,78), биохимического (15,28) и медико-статистического плана (14,54). Ссьглкн па иллюстрации чаще всего встречаются во фрагментах общей (2,37), географической (1,36) и эпидемиологической (1,21) тематики.

Структурированные объекты научно-технических документов по дерматологии можно разделить на табличную и графическую информацию. Как показало проведенное исследование,

на каждые 100 черно-белых (штриховых и полутоновых) приходится 15 цветных графических изображений и 36 таблиц.

В четвертой главе диссертации излагается концептуальный подход к организации медицинского гипертекста, основанный на результатах анализа научно-технической документации по дерматологии. Проведенный анализ показал, что научная медицинская информация, овеществленная в виде печатных работ, имеет ряд специфических особенностей, отличающих ее от таковой других отраслей знания. К ним относятся: 1. Преимущественно текстовой характер представления данных в литерату-турных источниках. 2. Четкое смысловое структурирование текстов, осуществляемое авторами публикаций с помощью подзаголовков различного уровня на стадии подготовки работы к печати. 3. Наличие разветвленной системы ссылок, связывающих каждую отдельную публикацию с другими, близкими к ней по содержанию.

В качестве источников для формирования гипертекстовой системы рационально выбрать журнальные статьи и описания изобретений к патентам, содержащие основную долю выходящей в мире профильной информации.

Четкая структурированность журнальных публикаций позволяет предложить выделенные на предыдущем этапе работы виды смысловых фрагментов в качестве основы для типизирования узлов медицинского гипертекста. При этом фрагмент «Введение» в статьях оригинального плана целесообразно разделить на два самостоятельных: «Анализ литературных данных» и «Цель работы», а раздел «Выводы» объединить с разделом «Обсуждение результатов исследования». В итоге образуется набор из 6 узлов для хранения оригинальных данных, по существу аналогичных пунктам стандартного описания технического решения (см. Правила составления заявки на выдачу патента). Приплюсовав к нему еще 26 узлов, включающих текстовую информацию обзорного характера и 3 узла для хранения структурированной и библиографической информации, получим полный список возможных типов узлов, состоящий из 35 позиций. Узел библиографической информации необходим для обеспечения целостности структуры гипертекста и доступа к текстовой и структурированной информации по связям ссылочного типа.

Связи между узлами, по нашему мнению, можно классифицировать в зависимости от направления и вида сочетаемых ими узлов. Исходя из этого нетрудно подсчитать с помощью формул элементарной комбинаторики, что максимально возможное число типов связей будет равно 892.

Для упрощения навигации в сложном гипертекстовом пространстве необходимо умение выбирать очередной узел или сравнивать выделенные структуры, используя какой-либо достаточно простой с практической точки зрения критерий. В качестве такого критерия можно предложить семантический «вес» узла. Он равен отношению суммы функциональных весов предложений, включенных в данный фрагмент, к их общему числу. Функциональный вес оценивается по числу значимых слов в данном предложении, совпадающих с таковыми в других предложениях текста. Навигация в этом случае может осуществляться (в том числе автоматически) путем прокладывания оптимального маршрута от начального узла к конечному. Оптимальность здесь понимается в смысле получения цепочки, состоящей из минималного числа узлов, имеющих максимальный семантический вес.

Такой подход, кроме всего прочего, позволяет производить просмотр семантически наиболее весомых узлов сети в целях ознакомления с тематикой гипертекста.

Выбор узла или подструктуры в такой сети целесообразно осуществлять в два этапа: 1. Усечение гипертекстового пространства одним из традиционных методов поиска библиографической информации. В результате будет актуализировано подмножество библиографических узлов, содержащих данные, релевантные некоторому запросу. При этом задается тема и сужается пространство поиска. 2. Актуализация текстовых узлов, непосредственно примыкающих к выделенным на первом этапе библиографическим. Данная процедура может усложняться путем предварительного задания нижней границы значений удельной информативности узлов, подлежащих актуализации.

ВЫВОДЫ

На основе полученных в работе результатов можно сделать следующие выводы: *

1. Поиск информации по- теме является в настоящее время одним из основных направлений использования компьютеров в клинической медицине. Однако его развитие сдерживается трудностями, связанными с формализацией данных, представленных в виде текстов на естественном языке. Такое положение должно кардинально измениться после внедрения гипертекстовой технологии, ориентированной па поиск информации в неформализованной, привычной для специалистов среде. Предварительно необходимо установить специфику представления ин-

формации в данной области и предложить рациональную структуру медицинского гипертекста и способов его обработки.

2. На макродокументальном уровне специфическими особенностями научной медицинской информации являются: а) устойчивый характер динамики ДИП, выражающийся в незначительном влиянии прироста числа его элементов и их используемости па энтропию потока за исследуемый промежуток времени; б) богатство тематических рубрик, по которым распределяются элементы ДИП в данной области.

3. На уровне анализа терминологической лексики можно указать на высокую концентрацию наиболее употребительных понятий в 4 из И выделенных лексических классах и сильную степень корреляции их употребительности в отечественных и зарубежных источниках информации.

4. К особенностям композиции текстов журнальных статей относятся: а) четко выраженная с помощью подзаголовков различного уровня структурированность публикаций в виде отдельных смысловых фрагментов; б) наличие разветвленной системы ссылок на аналогичные работы и собственный иллюстративный материал; в) преобладание в тексте графической информации над табличной.

5. На основе результатов проведенного исследования можно предложить список типичных узлов и связей медицинского гипертекста. При этом оказалось целесообразным выделить 32типа узлов, содержащих только текстовую информацию (из них 26 являются элементами композиционной структуры обзорных и 6 — оригинальных статей), один узел для хранения библиографических сведений об источнике и 2 — структурированных данных (табличных и графических).

6. При таком подходе связи между узлами устанавливаются авторами публикаций на стадии их подготовки к печати, то есть являются максимально неформализованными. С учетом направления и типа сочетаемых ими узлов, максимально возможное число типов связей оказывается равным 892.

7. Поскольку большинство _узлов медицинского гипертекста предназначены для хранения информации на естественном языке, навигацию в сложном гипертекстовом пространстве можно упростить, если при прокладывании маршрута использовать весовую характеристику таких узлов — их удельную информативность. Она рассчитывается по среднему числу ключевых понятий, встречающихся в предложениях текста, хранящегося в данном узле.

8. Выбор узла или подструктуры сети целесообразно осуществлять в два этапа: 1) усечение сети посредством поиска

узлов библиографической информации, релевантной некоторому запросу; 2) актуализация текстовых узлов, непосредственно примыкающих к уз'лам, выделенным на предыдущем этапе.

Основное содержание диссертации отражено в следующих депонированных рукописях:

1. Анализ и категоризация текстов рефератов патентов по дермато-венерологии. — Горький, 1989. — 15 с. — Деп. во ВНИИМИ 04.09.89, № Д-18439.

2. Об организации патентного фактографического банка данных в области дермато-венерологии. — Горький, 1989. — 12 с. — Деп. во ВНИИМИ 04.09.89, № Д-18440.

3. Структурно-динамический и статистический анализ документального информационного потока по дерматологии. — Н. Новгород, 1991. — 18 с. — Деп. в НПО «Союзмединформ» 12.12.91, № Д-21963.

4. Терминологический анализ массива публикаций по дерматологии. — Н. Новгород, 1991. — 12 с. — Деп. в НПО «Союзмединформ» 12.12.91, № Д-21962.

Подписано к печати 26.01.93. Формат бОХЭО'/гз. Бумага типографская. Гарнитура «Литературная». Печать высокая. Усл. печ. л. 1,0. Тираж 130 экз.

Заказ 243.

Дзержинская типография Нижегородского областного управления издательств, полиграфии и книжной торговли. Дзержинск, пр. Циолковского, 15.