автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах

кандидата технических наук
Люстиг, Инга Владимировна
город
Москва
год
2007
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах»

Автореферат диссертации по теме "Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах"

На правах рукописи

Люстиг Инга Владимировна

РАЗРАБОТКА И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕ ГОДА СЕМАНТИЧЕСКИ-ОРИЕНТИРОВАННОГО ПОИСКА ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ

Специальность 05 13 11 Математическое и программное обеспечение вычислительных машин, комплексов и

компьютерных сетей

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва — 2007

003071487

Работа выполнена на кафедре математического обеспечения систем обработки информации и управления факультета прикладной математики Московского государственного института электроники и математики (технический университет).

Научный руководитель

доктор технических наук, доцент Фомичев Владимир Александрович

Официальные оппоненты доктор технических наук, профессор

Царегородцев Анатолий Валерьевич

кандидат технических наук, доцент Толчеев Владимир Олегович

Ведущая организация

Межотраслевой Научно-исследовательский институт «Интеграл»

Защита диссертации состоится « 29 » мая 2007 г в 14 00 на заседании диссертационного совета Д212 133 01 при Московском государственном институте электроники и математики (МИЭМ) (технический университет) по адресу 109028, Москва, Б Трехсвятительский пер, д 1-3/12 стр 8, зал Ученого совета

С диссертацией можно ознакомиться в библиотеке МИЭМ

Автореферат разослан « Хб » лл^г^Х 2007 г

Ученый секретарь

диссертационного совета Д 212 133 О1 при МИЭМ (ТУ)

к т н,доцент

С Е Бузников

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Проблема информационного поиска, вставшая особенно остро из-за постоянно растущего о&ьема электронных документов в разного рода информационных системах, электронных библиотеках, а также в сети Интернет, обусловлена функциональной ограниченностью разработанных поисковых систем Большинство поисковых систем не позволяет учитывать в работе семантику естественного языка, а использование метода поиска по ключевым словам приводит к выводу большого объема нерелевантных данных Системы семантически-ориентированного поиска развиты недостаточно используемые в них модели представления конструкций естественного языка весьма ограничены и не претендуют ни на универсальность, ни на инвариантность относительно выбора предметной области

Семантически-ориентированный поиск информации предоставляет более широкие возможности по сравнению с традиционными поисковыми системами, где поиск ведется по ключевым словам, вводимым пользователями Это обусловлено тем, что система, обладающая данными о синтаксисе и семантике естественного языка (в частности, русского языка), может осуществлять поиск с учетом его особенностей В частности, вместо простой проверки наличия определенных слов в тексте в заданной форме (как при поиске по ключевым словам), может производить поиск смысловых отношений между словами текста, выражающих искомую информацию Словами-участниками смыслового отношения могут оказаться любые слова естественного языка, удовлетворяющие семантическим и грамматическим ограничениям, являющимся необходимыми условиями реализации рассматриваемого смыслового отношения

Важной областью применения информационно-поисковых систем является здравоохранение Это связано со сложной структурой и многообразием форм медико-санитарной информации, которая включает трудно формализуемые понятия и категории, а также зачастую значительные по объему массивы подлежащих учету данных

Анализ ограничений информационно-поисковых компьютерных систем, в том числе информационно-поисковых систем в области медицины, описанных в доступной научной литературе, позволяет сделать вывод об актуальности разработки новых подходов к автоматическому поиску информации, учитывающих значения лексических единиц и существование определенных смысловых отношений между лексическими единицами в текстах электронных документов

Описаний программных систем, осуществляющих поиск медикаментов для лечения заболеваний с учетом синтаксиса и семантики русского языка, в доступной литературе обнаружить не удалось

Цель работы данной диссертационной работы заключалась в разработке принципов и метода семантически-ориентированного поиска, а также в программной реализации информационно-поисковой системы «СЕМПМЕД», осуществляющей поиск информации с применением разработанных принципов и метода по текстам описаний лекарственных препаратов на русском языке

Задачи исследования. Для достижения данной цели потребовалось решить следующие задачи

- выбрать наиболее адекватную (с практической точки зрения) методологическую основу для осуществления семантического анализа и представления семантико-синтаксической информации о лексических единицах русского языка,

- формально описать структуру семантико-синтаксических данных, предполагаемых к использованию при поиске,

- выделить плйет медицинских знаний, который должен войти в базу знаний информационно-поисковой системы «СЕМПМЕД»,

- предложить способ представления знаний о медицине, в том числе информации об основных целях при лечении заболеваний

Научная новизна результатов диссертационного исследования определяется

1) разработкой новых принципов семантически-ориентированного поиска информации, направленных на создание теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов,

2) разработкой формальной модели лингвистической базы данных (ЛБД), обладающей рядом преимуществ по сравнению с ЛБД, предложенной в теории К-представлений В А Фомичевым,

3) разработкой метода семантически-ориентированного поиска информации, являющегося инвариантным по отношению к выбору предметной области (в частности, применимого к поиску медикаментов, в области юриспруденции и в области косметологии),

4) разработкой алгоритмов, детализирующих отдельные шаги метода семантически-ориентированного поиска информации в текстах электронных документов на русском языке

Положения, выносимые на защиту. На защиту выносятся следующие укрупненные научные результаты

1 На основе анализа наиболее известных подходов к автоматическому поиску и оценке информации в электронных документах предложены новые принципы построения информационно-поисковой системы, предназначенной для семантически-ориентированного поиска информации в электронных документах Цель разработки этих принципов состояла в создании теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов

2 Разработана формальная модель лингвистической базы данных (ЛБД), представляющая собою определение класса формальных объектов, называемых проблемно-ориентированными лингвистическими базисами Главными отличиями понятия проблемно-ориентированного лингвистического базиса от введенного В А Фомичевым понятия лингвистического базиса являются

- рассмотрение понятия проблемно-ориентированного концептуального базиса вместо понятия концептуального базиса (преимуществами нового понятия является возможность отражения иерархии понятий и возможность выделения подкласса информационных единиц),

- разработка и определение единого словаря шагольно-предложных и предложных семантико-синтаксических фреймов, в предложенной модели ЛБД такой

словарь используется вместо двух словарей— словаря глагольно-предложных фреймов и словаря предложных фреймов, являющихся компонентами ЛБД в формальной модели ЛБД, предложенной В А Фомичевым

3 Разработан предметно-независимый алгоритм (названный Поиск Текстов) нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему) Этот алгоритм использует информацию семантико-синтаксического характера, представленную проблемно-ориентированным концептуальным базисом

4 Разработана система алгоритмов, создающих предпосылки применения алгоритма Поиск_Тексгпов к поиску лекарственных препаратов, применяемых для лечения заданного заболевания

5 Программно реализована информационно-поисковая система «СЕМПМЕД», использующая предложенные в работе алгоритмы и метод семантико-синтаксического поиска информации в задаче нахождения лекарственных препаратов по текстам их описаний на русском языке

Практическая ценность и предложения по использованию результатов. Практическую ценность представляют, во-первых, предложенные в работе формальное описание структуры лингвистической базы данных, метод и алгоритм реализации семантически-ориентированного поиска Эти результаты могут быть использованы разработчиками лингвистических процессоров для создания систем с похожей функциональностью в других предметных областях Во-вторых, разработанная информационно-поисковая система (ИПС) «СЕМПМЕД» может использоваться на практике фармацевтами, медицинскими сотрудниками в клиниках, а также применяться в учебных заведениях медицинского профиля в ходе учебного процесса— для пополнения знаний студентов о лекарственных препаратах, поскольку реализация в ИПС «СЕМПМЕД» предложенных в работе принципов и метода семантически-ориентированного автоматического поиска информации в текстах медицинской тематики улучшает качество поиска нужных лекарственных препаратов Это обусловлено тем, что появляется возможность ухода от типичных проблем, возникающих при работе с традиционными поисковыми системами Пользователю не требуется вводить ключевые слова для поиска по тексту система выбирает искомые смысловые отношения для каждого типа запроса, а также набор допустимых лексических единиц для участников отношения и их возможные морфологические характеристики Наличие базы знаний об основной цели лечения заболевания не только расширяет функциональные возможности системы по поиску лекарств, но и дает возможность использовать систему в качестве программного средства для подготовки студентов-медиков и фармацевтов

Апробация работы и публикации. Результаты работы докладывались на ряде научных конференций, в том числе на международной конференции 1Шег8ушр по системным исследованиям, информатике и кибернетике (Германия, 2001), научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ (2002-2005), Международной научной конференции «Гагаринские чтения» (Москва, «МАТИ» — Российский государственный технологический университет им К Э Циолковского, 2001, 2002, 2004, 2005), XIV международной конференции «Проблемы теоретической кибернетики» (Пенза, 2005), международных научных

конференциях «Компьютерная лингвистика и интеллектуальные технологии Диалог'2004» и «Диалог'2005»

По теме диссертационного исследования автором опубликовано 17 научных работ В двух работах, выполненных в соавторстве, не менее половины результатов получены автором данной диссертации

Структура и объем работы. Диссертационная работа содержит 170 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 115 наименований и трех приложений, включает 20 таблиц и 11 рисунков

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении приводится обоснование актуальности темы диссертационной работы, определены цели и задачи исследования, показана научная новизна, практическая ценность и перечислены положения, выносимые на защиту

В первой главе рассмотрены различные способы автоматического анализа электронных документов, главным образом в контексте задачи поиска информации Анализ документов в некоторых информационно-поисковых системах применяют для блокирования нерелевантной информации, а также для ранжирования документов, что помогает пользователям классифицировать результаты поиска Методы фильтрации документов и способы оценки содержания документов используются для организации управляемого просмотра сети Интернет, при наличии ограничений по времени пользователи получают возможность в первую очередь обращаться к документам, которые считаются более информативными и оцениваются выше прочих В этой главе также изложены наиболее известные теоретические подходы к построению семантических представлений естественно-языковых конструкций теория концептуальных графов, компьютерная семантика русского языка, неоднородные семантические сети, эпизодическая логика, теория К-представлений Показано, что все подходы, за исключением теории K-представлений, наделены рядом недостатков, которые сужают область применения этих подходов, так как не позволяют передавать смысловую структуру произвольных текстов на естественном языке (ЕЯ), встречающихся в реальных предметных областях Помимо этого, приведены преимущества теории K-представлений по отношению к перечисленным выше, а также к другим известным подходам к формализации содержания ЕЯ-текстов Проведенный в первой главе диссертации анализ основных подходов к поиску информации в электронных документах показал, что методы семантико-синтаксического поиска информации по текстам электронных документов и их коллекциям, базирующиеся на лингвистическом анализе их содержания, в настоящее время недостаточно развиты Это обусловлено тем, что разработка универсальных, предметно независимых информационно-поисковых систем, учитывающих семантику языка, требует существенных трудозатрат как по созданию, так и в дальнейшем по настройке производительности Исходя из этого, представляются актуальными работы в направлении создания информационно-поисковых систем, в работе которых достигался бы разумный компромисс между системами поиска по ключевым словам и семантическим поиском с построением полных семантических представлений запросов и анализируемых текстов на ЕЯ

Вторая глава содержит постановку задачи диссертационного исследования, вытекающую из анализа научной литературы, приведенного в первой главе диссертации Этот анализ показал, что в настоящие время недостаточно развиты методы поиска информации в электронных документах, основанные на анализе их содержания (другими словами, на семантике этих документов). Поэтому в диссертационной работе была поставлена задача разработки метода поиска информации, который удовлетворял бы следующим условиям

- учитывал существование значений (семантики) лексических единиц, входящих в текстовые компоненты электронных документов, а также существование смысловых взаимосвязей между такими лексическими единицами,

- предусматривал не полный, а только частичный семантико-синтаксический анализ текстовых компонентов электронных документов,

- базировался на формальной модели лингвистической базы данных, т е базы данных, содержащей такие сведения о лексических единицах, которые используются алгоритмом семантико-синтаксического анализа текстов на естественном языке

Неформально задачу этого исследования можно охарактеризовать как нахождение разумного компромисса между учетом семантики лексических единиц при поиске информации и отказом от полного семантико-синтаксического анализа каждого текстового компонента электронного документа в связи с высокой сложностью и трудоемкостью реализации такого анализа

В поставленную задачу входила также задача апробации полученных принципов и методов посредством их программной реализации для практически важной модельной области применения Для этого была поставлена задача разработки информационно-поисковой системы «СЕМПМЕД», представляющей собою поисковую машину для получения информации о лекарственных препаратах по текстам их описаний на русском языке Входной информацией для системы является название заболевания, которое предполагается лечить, с его учетом отбираются лекарственные препараты, которые лечат его или оказывают воздействие, являющееся основной целью при лечении этого заболевания (например, понижают уровень холестерина в крови в случае заболевания атеросклерозом).

Целью разработки метода такого семантически-ориентированного поиска информации являлось стремление ухода от типичных проблем, возникающих при работе с традиционными поисковыми системами Поскольку семантически-ориентированный поиск предоставляет более широкие возможности для получения интересующей информации по сравнению с традиционными поисковыми системами, где поиск ведется по ключевым словам, вводимым пользователями Это обусловлено тем, что обладание данными о синтаксисе и семантике позволяет осуществлять поиск с учетом особенностей русского языка В предлагаемом методе поиска информации вместо простой проверки присутствия ключевых слов в тексте осуществляется выявление смысловых отношений между лексическими единицами, выражающими искомую информацию. Наличие смыслового отношения в тексте считается возможным, если слова, входящие в него, удовлетворяют семантическим и грамматическим ограничениям, являющимся необходимыми условиями реализации рассматриваемого смыслового отношения

В работах В А Фомичева по теории К-представлений (Фомичев В А Формализация проектирования лингвистических процессоров — М МАКС Пресс,

2005) построена математическая модель для описания системы первичных единиц концептуального уровня, используемых лингвистическим процессором. Эта модель является первой частью теории стандартных концептуальных языков (СК-языков) и предназначалась для того, чтобы быть отправной точкой для описания таких 10 операций на концептуальных структурах, которые позволяют строить семантические представления ЕЯ-текстов

Проведенный автором диссертационного исследования анализ потребностей организации семантического поиска информации в контексте поставленной задачи привел к выводу о необходимости формализации дополнительных предположений о первичных единицах концептуального уровня теории СК-языков, используемых лингвистическим процессором

1 Предлагается выделить в первичном информационном универсуме конечное подмножество Semunits, элементы которого интерпретируются как обозначения понятий Тогда множество сортов St (предельно общих понятий предметной области) будет являться подмножеством Semunits

2 Заметим, что работа алгоритмов семантико-синтаксического анализа ЕЯ-текстов базируется на использовании лингвистической базы данных (ЛБД), задающей взаимосвязь лексических и семантических единиц, а также связывающей с лексическими и/или семантическими единицами определенные шаблоны, выражающие необходимые условия существования семантических связей между элементами текста Так как объем ЛБД может быть достаточно большим, целесообразно постараться его уменьшить Одно из наблюдений, позволяющих реализовать такое уменьшение объема, заключается в следующем Глаголы плыть, идти, бежать, летать образуют осмысленные сочетания едиными средствами Например, можно идти к лесу, плыть к берегу и лететь к городу Поэтому можно ввести семантическую единицу «перемещение в пространстве» и связать с этой единицей также семантико-сшггаксические шаблоны, которые описывают свойства конкретизаций этой единицы, т е свойства семантических единиц ходьба, плавание и полет

Поэтому будем предполагать, что на множестве Semunits задан такой частичный порядок Gener, что для любых s, и е St (s, и) е Gener <=> (s, и) е Gen Таким образом, на множестве сортов St отношение Gener должно совпадать с отношением общности Gen, являющимся бинарным отношением (частичным порядком) на множестве St и задающем иерархию сортов

Например, могут выполняться соотношения (перемещ-в-пространстве, бег) £ Gener и (перемещ-в-пространстве, плавание) е Gener

3 При поиске в описаниях лекарственных препаратов таких, которые используются для лечения заданного заболевания (например, астмы), недостаточно найти в одном предложении (из описания препарата) форму глагола лечить и название заболевания Дело в том, что в описаниях лекарственных препаратов нередко встречаются конструкции «противопоказано использовать для лечения», «нельзя принимать при лечении» и т д В связи с этим для организации семантического поиска медикаментов (предназначенных для лечения данного заболевания) или других объектов, наделенных некоторым свойством, важно формально выделить подмножество семантических единиц с отрицательным значением

Поэтому будем считать, что во множестве семантических единиц Semunits выделено некоторое конечное подмножество Negumts, включающее, в частности,

семантическую единицу, соответствующую частице не

Высказанные выше дополнительные предположения о системе первичных единиц концептуального уровня, используемых лингвистическим процессором, объединены и формально представлены с помощью формального понятия проблемно-ориентированного концептуального базиса, предложенного в работе во второй главе

Словарь глагольно-предложных фреймов описывает шаблоны, представляющие собою требования для реализаций тематических ролей вида «Глагольная форма + Предлог + Зависимая группа слов», где предлог может быть пустым, а зависимой группой слов могут являться существительные, в том числе с зависимыми словами, или конструкт— числовое значение параметра Например, «открыть окно», «пойти к врачу», «выспаться за 8 часов»

Словарь предложных семантико-синтаксических фреймов описывает требования к реализации смысловых отношений в сочетании «Существительное 1 + Предлог + Существительное 2»

Предложено объединить описания предложных и глагольно-предложных семантико-синтаксических фреймов в один словарь— единый (объединенный) словарь предложных и глагольно-предложных фреймов Формальное определение этого словаря содержится во второй главе диссертации

Предложено определение класса проблемно-ориентированных лингвистических базисов, рассматриваемое в качестве формальной модели ЛБД, которая необходима для осуществления семантически-ориентированного поиска информации, описанного в постановке задачи диссертационного исследования

Преимуществами данной модели по сравнению с моделью ЛБД, предлагаемой В А Фомичевым в теории K-представлений, являются

- построение иерархии всех информационных единиц,

- выделение класса информационных единиц с отрицательным значением,

- формирование единого и компактного словаря предложных и глагольно-предложных фреймов

Третья глава посвящена разработке метода и алгоритмов, необходимых для реализации предлагаемого семантически-ориентированного поиска информации в электронных документах В том числе, в этой главе предлагаются метод и алгоритм выявления смысловых отношений в текстах на русском языке

Проектируемый класс информационно-поисковых систем ориентирован на поиск данных в электронных документах Примерами источников (хранилищ) таких документов могут являться различные базы данных (например, реляционные и объектные), а также слабоструктурированные ресурсы, описанные в форматах HTML, XML, RDF, OWL идр Постулировано существование алгоритма Поиск_Строки, который ищет вхождение заданной строки (в частности, словоформы) в тексте электронного документа

При ответе на запрос на получение перечня объектов, которые обладают желаемым свойством, например, влияют определенным образом на некоторый фактор, предлагается использовать поиск смысловых отношений Поиск смысловых отношений позволяет расширить возможности информационно-поисковой системы по сравнению с системами поиска по ключевым словам

При формировании запроса к информационно-поисковой системе пользователь должен указать название фактора, на который должны оказывать

воздействие искомые объекты Соответственно, одним из участников смысловых отношений, которые будут искаться в тексте, будет указанный фактор или более общее понятие, определяемое согласно расширенному отношению общности Сепег. Поэтому при выявлении смысловых отношений осуществляется анализ лишь тех описаний объектов, в которых найдено или введенное пользователем название фактора, или более общее (согласно Сепег) понятие При выборе более общих понятий учитывается, что высота иерархии в расширенном отношении общности Сепег не ограничена

Поскольку в каждом из искомых смысловых отношений параметр запроса (название фактора) является одним из участников— первым или вторым, то для каждого искомого смыслового отношения должна существовать возможность получения номера его участника, которым, предположительно, должен являться параметр запроса, введенный пользователем Алгоритм

Поиск_Участника_для_Параметра предназначается для его выявления

Данные лексико-семантического словаря ЛБД, где для лексических единиц прописываются соответствия в единицах семантического (другими словами, информационного) уровня используются во вспомогательном алгоритме Получение_Сем_Слова

Для реализации смыслового отношения в предложении текста необходимо наличие в нем двух словоформ, каждая из которых должна удовлетворять семантическим и грамматическим требованиям соответственно на первого и второго участника искомого смыслового отношения Если данное смысловое отношение требует наличия предлога, то этот предлог должен находиться в предложении между этими словами При этом в предложении не должно содержаться слов с отрицательным значением, поскольку смысл, выражаемый предложным или глагольно-предложным фреймом при наличии такого слова, становится обратным

Таким образом, для найденного вхождения параметра запроса в текст электронного документа с помощью алгоритмов Получение_Морф_Свойств_Слова и Получение_Сем_Слова определяются соответственно морфологические и семантические характеристики этого (найденного) слова

Зная морфологические и семантические характеристики найденного слова, они должны поочередно сравниваться с соответствующими требованиями на того участника смыслового отношения, которым должен являться параметр запроса в случае данного смыслового отношения (этот номер участника определяется с помощью алгоритма Поиск_Участника _для_Пар аметра)

Для всех смысловых отношений, которым семантически и морфологически удовлетворяет найденное в тексте слово, должен осуществляться дальнейший анализ на предмет проверки их реализации в тексте (точнее, в предложении найденного слова) Остальные смысловые отношения в процессе получения ответа на данный запрос пользователя не участвуют

Если в формальном описании фрейма указан предлог, то в зависимости от номера участника параметра запроса в рассматриваемом смысловом отношении проверяется наличие указанного предлога в определенной части предложения

При положительном результате поиска предлога анализ продолжается По номеру смыслового отношения из словаря предложных и глагольно-предложных фреймов извлекается набор семантических ограничений на другого участника смыслового отношения На основании данных лексико-семантического словаря

формируется набор лексем, которые обладают указанными семантическими характеристиками С помощью алгоритма Получение _Словоформ_Слова для каждой лексической единицы формируется набор ее словоформ, которые обладают грамматическими характеристиками, указанными в требованиях к другому участнику рассматриваемого смыслового отношения

Полученные таким образом слова ищутся в тексте с требованием точного вхождения Как только удается найти вхождение другого участника, считается, что реализация смыслового отношения в тексте весьма вероятна, иначе— смысловое отношение отсутствует

Существуют ситуации, когда смысловое отношение в тексте присутствует, но в обратном значении Например, в описании лекарственного препарата может быть написано «не помогает при астме», «грипп не лечит», «лечение мигрени противопоказано» В этом случае смысл «лечить заболевание» отсутствует — отрицается В приведенных примерах это обусловлено наличием частницы не и слова противопоказано

Во второй главе во множестве семантических единиц Бетин^ было выделено конечное подмножество Negumts, включающее семантические единицы с отрицательным значением Лексические единицы, имеющие (среди прочих) семантическую единицу из множества Negunlts считаются «словами-отрицаниями»

Таким образом, когда оба участника и предлог (если он требуется) найдены в тексте, проверяется, что в рассматриваемом предложении не встречаются слова-отрицания в любой из их возможных словоформ (перечень словоформ для лексемы можно получить с помощью алгоритма Получение_Словоформ_Слова) Если это действительно так, то считается, что поиск смыслового отношения дал положительный результат

В третье главе описан алгоритм Поиск_Текстов для нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему), соответствующую параметру запроса (который указан пользователем) Этот алгоритм использует вспомогательный алгоритм Поиск_Фреймов, с помощью которого проверяется реализация заданного смыслового отношения в определенном предложении ЕЯ-текста в сочетании с некоторой лексической единицей

Метод семантически-ориентированного поиска, основанный на выявлении смысловых отношений в текстах электронных документов, реализуется с использованием алгоритма Поиск_Текстов

Четвертая глава описывает разработку структуры и программную реализацию информационно-поисковой системы «СЕМПМЕД». построенной с целью апробации предложенного в третьей главе метода семантически-ориентированного поиска информации

Для практической реализации семантически-ориентированного поиска в ИПС «СЕМПМЕД», частности, потребовалось

- разработать физическую структуру ЛБД, основываясь на структуре ЛБД, предложенной в третьей главе диссертации, и в зависимости от способов программной реализации ИПС,

- программно реализовать компонент морфологического анализа слов русского языка,

- адаптировать метод и алгоритм выявления смысловых отношений и метод семантически-ориентированного поиска, разработанные в третьей главе диссергационного исследования, под конкретную физическую структуру данных ЛБД и других компонентов ИПС «СЕМПМЕД»

Система «СЕМПМЕД» имеет базу данных описаний лекарственных препаратов в электронном виде и обладает средствами для осуществления

- поиска по ключевым словам,

- лингвистического анализа,

- морфологического анализа;

- работы с медицинскими знаниями (информацией о заболеваниях и их группах, а также сведениями об основной цели при их лечении)

Основные цели лечения различных заболеваний хранятся в системе «СЕМПМЕД» в базе знаний о медицине Они используются для поиска медикаментов, в описаниях которых нет указания того, что они лечат рассматриваемое заболевание, но есть информация о том, что они позволяют достичь основной цели его лечения Например, основной задачей при лечении атеросклероза является понижение уровня содержания холестерина в крови пациента Таким образом, при поиске лекарственных препаратов для лечения этого заболевания будут представлять интерес те препараты, в описаниях которых есть указание того, что они лечат атеросклероз, а также препараты, уменьшающие содержание холестерина в крови Фиксация знаний об основных целях лечения заболеваний осуществляется в виде семантических представлений соответствующих ЕЯ-конструкций, представляющих собою выражения СК-языка Информация об основных целях лечения должна поступать от инженера по знаниям в виде предложений на ограниченном русском языке Для предоставленных знаний должны формироваться семантические представления, которые заносятся в базу медицинских знаний системы «СЕМПМЕД»

Рекомендуемой инженеру по знаниям структурой представления сведений для системы является «Инфинитив + Название параметра + Вещество» Если название параметра, например, «уровень» или «уровень содержания», то указание вещества обязательно, иначе оно может отсутствовать

Предоставленные знания об основной цели лечения заболевания преобразовываются к выражению СК-языка вида

Цеяь(е1, semverb * (Параметр, рагат)(Вещество, substance)),

где рагат — название параметра,

semverb — семантическая единица типа повыш-знач-парам, пониж-знач-парам,

substance — обозначение вещества

Фрагмент (Вещество, substance) будет отсутствовать в формуле, если во входной ЕЯ-конструкции нет информации о веществе

Описание метода и алгоритма преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление разработано в четвертой главе диссертационной работы Предложен метод использования семантического представления об основной

цели лечения заболевания при поиске информации о лекарственных препаратах

Для осуществления морфологического анализа в рамках системы «СЕМПМЕД» решено использовать данные морфологического словаря проекта «ДИАЛИНГ» Этот словарь базируется на грамматическом словаре А. А Зализняка, словаре имен собственных, словаре географических слов Этот словарь составлен в электронном виде и является общедоступным на сайте проекта http //www aot ru

Структура морфологических словарей в ИПС «СЕМПМЕД» разработана и описана в четвертой главе работы

В этой главе предложена также структура лексико-семантического словаря ИПС «СЕМПМЕД», назначение которого состоит в том, чтобы предоставлять данные о семантике лексических единиц ЕЯ Для получения этих данных используются данные следующих словарей

- словаря семантических единиц,

- словаря привязки семантических единиц к псевдоосновам слов из морфологического словаря,

- словаря иерархии семантических единиц

Под семантическими единицами понимаются обозначения понятий рассматриваемой предметной области (пространственный объект, интеллектуальная система, заболевание и др) При этом с одним словом (точнее, псевдоосновой) может быть связано несколько семантических единиц Например, человек одновременно является интеллектуальной системой и физическим объектом, т е имеет две семантические характеристики «интеллектуальная система» и «физический объект» Количество возможных семантических единиц у лексической единицы не ограничено Семантические единицы могут образовывать иерархию, при этом одна семантическая единица может входить в несколько более широких по смыслу семантических единиц

Семантически-ориентированный поиск информации в электронных документах осуществляется в ИПС «СЕМПМЕД» путем проверки реализации определенных смысловых отношений между словами в тексте этих документов Для этого в ЛБД системы хранятся формальные представления искомых смысловых отношений, в виде, удобном для применения при поиске

Предложные фреймы и глагольно-предложные фреймы представляют собой формальные описания условий для реализации смысловых отношений в сочетании «Существительное 1 + Предлог + Существительное 2» и «Глагольная форма + Предлог + Зависимая группа слов» соответственно Предлог в обоих случаях необязателен Зависимой группой слов может являться либо существительным с зависимыми словами или без них, либо конструкт, т е числовое значение параметра Предложные и глагольно-предложные фреймы описываются в едином словаре предложных и глагольно-предложных фреймов, формальное определение которому предложено во второй главе работы В четвертой главе разработана структура единого словаря предложных и глагольно-предложных фреймов в ИПС «СЕМПМЕД»

Метод и алгоритм выявления смысловых отношений, разработанные во второй главе работы, в этой главе адаптированы под предложенную структуру ЛБД ИПС «СЕМПМЕД»

Разработаны также структуры для хранения текстов описаний лекарственных препаратов в базе данных системы, а также структура базы знаний о медицине Приведена общая структура ЛБД ИПС «СЕМПМЕД», разработанная на основе

формальной модели ЛБД, предложенной во второй главе диссертационной работы

Все данные системы «СЕМПМЕД» и ее функциональные модули реализованы средствами объектно-реляционной СУБД Oracle версии 9 2 0 1 В работе лингвистического процессора системы используется также компонент Russian Context Optimizer компании «Гарант-Парк-Интернет» для СУБД Oracle, являющийся локализованным для России стандартным компонентом СУБД Oracle, называемым в оригинале Oracle Text. Этот компонент разрабатывался для хранения в БД и работы с текстовыми электронными документами, представленными в разных форматах (Microsoft Word, PDF, обычный текст, HTML, XML и других) В системе «СЕМПМЕД» с помощью Russian Context Optimizer осуществляется поиск вхождения искомого слова в тексты документов, причем в любой морфологической форме

Весь программный код системы «СЕМПМЕД» написан на языке PL/SQL — процедурном расширении языка SQL в СУБД Oracle Листинг программы приведен в приложении к диссертационной работе

В четвертой главе обоснованы возможности применения предлагаемых в работе принципов и метода семантически-ориентированного поиска информации к решению задач из других предметных областей В частности, обоснованы возможности применения результатов диссертационного исследования в области юриспруденции и в области косметологии

В заключении приведены основные научные результаты проведенного диссертационного исследования

Работоспособность представленного в диссертации метода семантически-ориентированного поиска информации и ИПС «СЕМПМЕД» подтверждена актом внедрения результатов, приведенным в приложении 1 к диссертационной работе

В приложении 2 в качестве примера приведен фрагмент таблицы кодов словоформ русского языка, используемых лингвистическим процессором системы при анализе морфологических характеристик слов русского языка

Приложение 3 содержит программный код информационно-поисковой системы «СЕМПМЕД» на языке PL/SQL для СУБД Oracle 9 2 0 1, а также сценарии создания объектов базы данных этой системы

ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

Задачи исследования, обусловленные поставленной целью работы и перечисленные во введении, были успешно решены

В итоге проведенного диссертационного исследования лично автором были получены следующие основные научные результаты, выносимые на защиту

1 Проанализированы основные подходы к автоматическому поиску и оценке информации в электронных документах

2 Предложены новые принципы построения информационно-поисковой системы, предназначенной для семантически-ориентированного поиска информации в электронных документах, цель разработки этих принципов заключалась в создании теоретической основы для достижения разумного компромисса между поиском по

ключевым словам и поиском, предусматривающим полный семантико-синтаксический анализ каждого предложения из электронного документа

3 Предложено формальное понятие проблемно-ориентированного концептуального базиса (сложного упорядоченного набора формальных объектов, представляющего наиболее общие сведения о выбранной предметной области), позволяющее по сравнению с введенным В А Фомичевым понятием концептуального базиса

- отразить существование иерархии понятий по степени их общности, а не только существование иерархии наиболее общих понятий (сортов),

- выделить подкласс информационных единиц с отрицательным значением (соответствующих выражениям «противопоказано», «исключено» и некоторым другим)

4 Разработана формальная модель лингвистической базы данных (ЛБД), представляющая собою определение класса формальных объектов, называемых проблемно-ориентированными лингвистическими базисами Главными отличиями понятия проблемно-ориентированного лингвистического базиса от введенного В А Фомичевым понятия лингвистического базиса являются

- рассмотрение понятия проблемно-ориентированного концептуального базиса вместо понятия концептуального базиса,

- разработка и определение единого словаря глагольно-предложных и предложных семантико-синтаксических фреймов, в предложенной модели ЛБД такой словарь используется вместо двух словарей — словаря глагольно-предложных фреймов и словаря предложных фреймов, являющихся компонентами ЛБД в формальной модели ЛБД, предложенной В А Фомичевым

5 Разработан предметно-независимый алгоритм (названный ПоискТекстов) нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему) Этот алгоритм использует информацию семантико-синтаксического характера, представленную проблемно-ориентированным концептуальным базисом

6 Разработана система алгоритмов, создающих предпосылки применения алгоритма Поиск Текстов к поиску лекарственных препаратов, применяемых для лечения заданного заболевания

- алгоритм 1 предназначен для построения семантических представлений естественно-языковых описаний основной цели лечения заболевания в виде выражений некоторого СК-языка,

- алгоритм 2 предназначен для поиска по названию заболевания таких препаратов, которые применяются для лечения заданного заболевания, преимуществом алгоритма по сравнению с поиском по ключевым словам является поиск смысловых отношений между лексическими единицами текста, выражающими искомую информацию,

- алгоритм 3 осуществляет поиск препаратов для лечения заданного заболевания по основной цели его лечения, представленной выражением СК-языка в базе знаний информационно-поисковой системы

7 Разработана информационно-поисковая система «СЕМПМЕД». использующая алгоритм 1 для формирования базы знаний об основных целях лечения

заболеваний, а также алгоритм 2 и алгоритм 3 для поиска препаратов, предназначенных для лечения заданного заболевания; программная реализация системы выполнена на языке PL/SQL для СУБД Oracle 9 2 0.1 Работоспособность ИПС «СЕМПМЕД» подтверждена актом внедрения

8 Обоснована возможность применения разработанной формальной модели лингвистической базы данных и алгоритма Поиск_Текстов для поиска информации в электронных документах, относящихся другим предметным областям, в частности, к юриспруденции и косметологии

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1 ЛюстигИ В Разработка компьютерного интеллектуального агента для классификации сообщений электронной почты // XXVII Гагаринские чтения Тезисы докладов Международной молодежной научной конференции Москва, 27 апреля 2001 г — M Изд-во «ЛАТМЭС», 2001 — Том 4 — С 20-21

2 Fomichov V А, Lustig I V. A Computer Intelligent Agent for Semantic Classification of E-mail Messages // Preconference Proceedings "Advances in Computer-Based and Web-Based Collaborative Systems" (Focus Symposia in conjunction with the 13th International Conference on Systems Research, Informatics and Cybernetics — InterSymp-2001, July 31-August 1,2001, Germany) Focus Symposia Chairs Jens Pohl and Thomas Fowler, IV — Collaborative Agent Design (CAD) Research Center, Cal Poly, San Luis Obispo, CA, USA, 2001 — P 29-37.

3 ЛюстигИ В Принципы разработки Интернет-системы для поиска информации по медицине // Научно-техническая конференция студентов, аспирантов и молодых специалистов института, посвященная 40-летию МИЭМ Тезисы докладов.—M МИЭМ,2002 —С 186-187

4 ЛюстигИ В Структура и принципы разработки системы для поиска информации по медицине в сети Интернет // «Новые информационные технологии» Тезисы X Юбилейной Международной студенческой школы-семинара в 2-х томах — M МГИЭМ, 2002 — С 406-407

5 Люстиг И В Структура Интернет-системы с лингвистическим процессором для поиска информации по медицине II XXVIII Гагаринские чтения Тезисы докладов Международной научной конференции Москва, 912 апреля 2002 г.— M Изд-во «МАТИ»— Российского государственного технологического университета им К Э Циолковского, 2002 — Том 5 — С 28-29

6 ЛюстигИ В Исследование возможностей применения теории К-исчислений к отображению содержания медицинских текстов и представлению знаний по медицине//Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ Тезисы докладов — M МИЭМ, 2003 — С. 257-258

7 ЛюстигИ В Основные принципы семантико-синтаксической обработки электронных документов в поисковой системе MEDSEARCH // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ Тезисы докладов, —M МИЭМ, 2004 — С 292-294

8 ЛюстигИ В Основные принципы лингвистического анализа текстов в поисковой системе MEDSEARCH // XXX Гагаринские чтения Тезисы докладов международной научной молодежной конференции Москва, 6-10 апреля 2004 г — М.РГТУим К Э Циолковского, 2004 — Т 5 — С 108-109

9 ЛюстигИ В Анализ естественно-языковых конструкций средствами поисковой системы МЕОБЕАКСН // «Новые информационные технологии» Тезисы докладов XII Международной студенческой школы-семинара — М МГИЭМ, 2004 —С 253-254

10 ЛюстигИ В, ФомичевВ А Принципы формального отображения семантики лексических единиц, предложений и дискурсов в интеллектуальной поисковой системе МЕББЕАКСН // Компьютерная лингвистика и интеллектуальные технологии Тр междунар конференции Диалог'2004 («Верхневолжский», 2-7 июня 2004 г)/Под ред И М Кобозевой, А С Нариньяни, В П Селегея — М Наука, 2004 — С 431-435

11 ЛюстигИ В Реализация лингвистического анализа в системе МЕББЕАКСН // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ Тезисы докладов —М МИЭМ, 2005 — С 251-252

12 ЛюстигИ В Реализация семантико-синтаксического анализа естественноязыковых конструкций в интеллектуальной поисковой системе МЕОЗЕАЯСН // Компьютерная лингвистика и интеллектуальные технологии Труды международной конференции «Диалог'2005» (Звенигород, 1-6 июня 2005 г) / Под ред И М Кобозевой, А С Нариньяни, В П Селегея — М: Наука, 2005 —- С 369372

13 ЛюстигИ В Задачи и реализация лингвистического анализа в поисковой системе МЕОБЕАЯСН // Проблемы теоретической кибернетики Тезисы XIV международной конференции, Пенза 23-28 мая 2005 г — М Издательство механико-математического факультета МГУ им М. В. Ломоносова, 2005. — С 90.

14 ЛюстигИ В Интеллектуализация поиска информации в системе МЕОЗЕАЯСН // XXXI Гагаринские чтения Тезисы докладов международной научной молодежной конференции Москва, 5-9 апреля 2005 г — М РГТУим К Э Циолковского, 2005 — Т4 — С 19-20

15 ЛюстигИ В Семантико-синтаксический анализ естественно-языковых конструкций в поисковой системе МЕ08ЕАЯСН // «Новые информационные технологии» Тезисы докладов XIII Международной студенческой школы-семинара.—М МГИЭМ, 2005 — С 220-221

16 ЛюстигИ В Интеллектуальный поиск информации// Закон и право — 2007 — № 1 —С 81-82

17 ЛюстигИ В Логическая структура лингвистической базы данных в информационно-поисковой системе «СЕМПМЕД»// Качество Инновации Образование —2007 — №2 — С 41-49

Формат 60x84 1/16, Уел Печ Лист 1,5 Подписано в печать 25 04 07 г Тираж 100 экз Заказ № 1257 Отпечатано в типографии «АллА Принт» Тел (495) 621-86-07, факс (495) 621-70-09 www allapnnt ru

Оглавление автор диссертации — кандидата технических наук Люстиг, Инга Владимировна

ВВЕДЕНИЕ.

1. ОСНОВНЫЕ ПОДХОДЫ К ПОИСКУ ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ.

1.1. Способы поиска информации в электронных документах.

1.1.1. Анализ электронных документов, основанный на их содержании.

1.1.1.1. Анализ отдельных электронных документов, основанный на содержании.

1.1.1.2. Анализ коллекций электронных документов, основанный на содержании

1.1.1.3. Контекст информации.

1.1.1.4. Внутренние ярлыки документов.

1.1.2. Анализ документов, основанный на исследовании поведения отдельных пользователей.

1.2. Семантические аннотации информационных ресурсов.

1.2.1. Язык расширенной разметки XML.

1.2.2. Язык описания метаданных об информационных ресурсах RDF.

1.2.3. Онтологии.

1.2.4. Основные схемы метаданных.

1.3. Методы построения семантических представлений текстов на естественном языке.

1.3.1. Теория концептуальных графов.

1.3.2. Компьютерная семантика русского языка.

1.3.3. Расширенные семантические сети.

1.3.4. Неоднородные семантические сети.

1.3.5. Эпизодическая логика.

1.3.6. Теория К-представлений.

1.3.7. Выбор теории К-представлений в качестве методологической основы диссертационного исследования.

1.4. Медико-биологические информационно-поисковые системы.

1.5. Выводы по материалам главы 1.

2. ПОСТАНОВКА ЗАДАЧИ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ И РАЗРАБОТКА ЛОГИЧЕСКОЙ СТРУКТУРЫ ЛИНГВИСТИЧЕСКОЙ БАЗЫ ДАННЫХ.

2.1. Постановка задачи диссертационного исследования.

2.2. Краткие сведения о модели для описания системы первичных единиц концептуального уровня, предложенной в теории СК-языков.

2.2.1. Общая характеристика модели.

2.2.2. Основные идеи определения класса сортовых систем.

2.2.3. Типы, порождаемые сортовыми системами, и конкретизации типов.

2.2.4. Концептуально-объектные системы.

2.2.5. Система кванторов и логических связок.

2.3. Формализация дополнительных предположений о рассматриваемых первичных единицах концептуального уровня.

2.4. Модель лингвистической базы данных в теории К-представлений.

2.5. Разработка структуры лингвистической базы данных.

2.5.1. Объединенный словарь предложных и глагольно-предложных фреймов как новый компонент лингвистической базы данных.

2.5.2. Формальное определение единого словаря предложных и глагольно-предложных фреймов.

2.5.3. Примеры статей единого словаря предложных и глагольно-предложных фреймов.

2.6. Общая логическая структура лингвистической базы данных.

2.7. Выводы по материалам главы 2.

3. РАЗРАБОТКА МЕТОДА СЕМАНТИЧЕСКИ-ОРИЕНТИРОВАННОГО ПОИСКА ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ.

3.1. Основные предположения о рассматриваемом классе электронных документов.

3.2. Описание алгоритма нахождения документов, в которых реализуется смысловое отношение в сочетаниях с лексической единицей, имеющей заданную базовую форму.

3.3. Описание предлагаемого метода поиска смысловых отношений.

3.3.1. Поиск участников смыслового отношения.

3.3.2. Проверка отсутствия слов-отрицаний.

3.3.3. Детализация метода и описание алгоритма поиска смысловых отношений.

3.3.3.1. Детализация метода поиска смысловых отношений.

3.3.3.2. Описание алгоритма поиска смысловых отношений.

3.4. Описание метода семантически-ориентированного поиска.

3.5. Пример применения семантически-ориентированного поиска.

3.6. Выводы по материалам главы 3.

4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННОГО МЕТОДА СЕМАНТИЧЕСКИ

ОРИЕНТИРОВАННОГО ПОИСКА ИНФОРМАЦИИ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ПОИСКА

ЛЕКАРСТВЕННЫХ ПРЕПАРАТОВ.

4.1. Основные направления доработки метода семантически-ориентированного поиска с целью его применения для поиска лекарственных препаратов.

4.2. Получение списка объектов, оказывающих воздействие на некоторый фактор.

4.3. Получение списка объектов, оказывающих воздействие на некоторый фактор, с учетом способа достижения результатов этого воздействия.

4.4. Описание основных подсистем проектируемой системы.

4.5. Разработка метода и алгоритма построения семантического представления основной цели лечения заболевания, сформулированной на ограниченном русском языке.

4.5.1. Структура семантического представления для описания основной цели лечения заболевания.

4.5.2. Метод и алгоритм преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление.

4.5.2.1. Описание метода преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление.

4.5.2.2. Описание алгоритма преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление.

4.6. Выбор средств для программной реализации поисковой системы «СЕМПМЕД».

4.7. Словари морфологии.

4.7.1. Морфологический анализ и способы его реализации.

4.7.2. Словари морфологии проекта «ДИАЛИНГ».

4.7.3. Словари морфологии в системе «СЕМПМЕД».

4.8. Логическая структура лексико-семантического словаря.

4.9. Реализация единого словаря предложных и глагольно-предложных семантико-синтаксических фреймов.

4.9.1. Предложные и глагольно-предложные семантико-синтаксические фреймы.

4.9.2. Струкгура единого словаря предложных и глагольно-предложных семантико-синтаксических фреймов.

4.10. Вариант структуры для хранения текстов описаний объектов.

4.11. Метод получения обобщенных параметров для параметра запроса пользователя

4.12. Выявление разделов текста описания объекта для поиска данных.

4.13. Поиск параметра запроса в текстах описаний объектов.

4.13.1. Цель осуществления поиска параметра запроса в текстах описаний объектов.

4.13.2. Компонент Russian Context Optimizer компании «Гарант-Парк-Интернет» для СУБД Oracle.

4.14. Алгоритм определения целесообразности семантического анализа фрагмента текста.

4.15. Извлечение предложения из фрагмента текста.

4.16. Связь смысловых отношений с видами пользовательских запросов.

4.17. Поиск смысловых отношений.

4.17.1. Поиск участников смыслового отношения.

4.17.2. Проверка отсутствия слов-отрицаний.

4.17.3. Детализация метода и алгоритма поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных.

4.17.3.1. Детализация метода поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных.

4.17.3.2. Детализация вычисления значений основных вспомогательных структур для алгоритма поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных.

4.18. Использование семантического представления выражения об основной цели лечения заболевания для поиска лекарственных препаратов.

4.19. Общая логическая структура лингвистической базы информационно-поисковой системы «СЕМПМЕД».

4.20. Сведения об информационно-поисковой системе «СЕМПМЕД».

4.21. Анализ возможностей адаптации к другим предметным областям.

4.21.1. Анализ возможностей и способы адаптации к другим предметным областям, в том числе в области косметологии.

4.21.2. Анализ возможностей применения разработанного метода семантически-ориентированного поиска в области юриспруденции.

4.22. Применение результатов диссертационного исследования на предприятии

4.22.1. Информация о предприятии.

4.22.2. Цели внедрения ИПС «СЕМПМЕД» на предприятии.

4.22.3. Результаты применения.

4.23. Выводы по материалам главы 4.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Люстиг, Инга Владимировна

Актуальность темы исследования. Проблема информационного поиска, вставшая особенно остро из-за постоянно растущего объема электронных документов в разного рода информационных системах, электронных библиотеках, а также в сети Интернет, обусловлена функциональной ограниченностью разработанных поисковых систем. Большинство поисковых систем не позволяет учитывать в работе семантику естественного языка, а использование метода поиска по ключевым словам приводит к выводу большого объема нерелевантных данных. Системы семантически-ориентированного поиска развиты недостаточно: используемые в них модели представления конструкций естественного языка весьма ограничены и не претендуют ни на универсальность, ни на инвариантность относительно выбора предметной области.

Семантически-ориентированный поиск информации предоставляет более широкие возможности по сравнению с традиционными поисковыми системами, где поиск ведется по ключевым словам, вводимым пользователями. Это обусловлено тем, что система, обладающая данными о синтаксисе и семантике естественного языка (в частности, русского языка), может осуществлять поиск с учетом его особенностей. В частности, вместо простой проверки наличия определенных слов в тексте в заданной форме (как при поиске по ключевым словам), может производить поиск смысловых отношений между словами текста, выражающих искомую информацию. Словами-участниками смыслового отношения могут оказаться любые слова естественного языка, удовлетворяющие семантическим и грамматическим ограничениям, являющимся необходимыми условиями реализации рассматриваемого смыслового отношения.

Важной областью применения информационно-поисковых систем является здравоохранение. Это связано со сложной структурой и многообразием форм медико-санитарной информации, которая включает трудно формализуемые понятия и категории, а также зачастую значительные по объему массивы подлежащих учету данных.

Анализ ограничений информационно-поисковых компьютерных систем, в том числе информационно-поисковых систем в области медицины, описанных в доступной научной литературе, позволяет сделать вывод об актуальности разработки новых подходов к автоматическому поиску информации, учитывающих значения лексических единиц и существование определенных смысловых отношений между лексическими единицами в текстах электронных документов.

Описаний программных систем, осуществляющих поиск медикаментов для лечения заболеваний с учетом синтаксиса и семантики русского языка, в доступной литературе обнаружить не удалось.

В связи со сказанным цель данной диссертационной работы заключалась в разработке принципов и метода семантически-ориентированного поиска, а также в программной реализации информационно-поисковой системы «СЕМПМЕД», осуществляющей поиск информации с применением разработанных принципов и метода по текстам описаний лекарственных препаратов на русском языке.

Для достижения данной цели потребовалось решить следующие задачи:

- выбрать наиболее адекватную (с практической точки зрения) методологическую основу для осуществления семантического анализа и представления семантико-синтаксической информации о лексических единицах русского языка;

- формально описать структуру семантико-синтаксических данных, предполагаемых к использованию при поиске;

- выделить пласт медицинских знаний, который должен войти в базу знаний информационно-поисковой системы «СЕМПМЕД»;

- предложить способ представления знаний о медицине, в том числе информации об основных целях при лечении заболеваний.

В процессе поиска методологической основы для осуществления лингвистического анализа текстов анализировались наиболее известные в настоящее время подходы к формализации естественного языка: теория концептуальных графов, эпизодическая логика, теория представления дискурсов, компьютерная семантика русского языка, теория расширенных семантических сетей, теория неоднородных сетей, а также теория К-представлений. Выбор был сделан в пользу теории К-представлений, поскольку в этой теории сформулирована гипотеза о возможности построения концептуальных структур, выражающих смысл произвольных предложений и дискурсов на естественном языке, относящихся к любым областям деятельности человека; кроме того, данная теория предлагает формальный аппарат для использования при разработке лингвистических процессоров.

Научная новизна результатов диссертационного исследования определяется:

1) разработкой новых принципов семантически-ориентированного поиска информации, направленных на создание теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов;

2) разработкой формальной модели лингвистической базы данных (ЛБД), обладающей рядом преимуществ по сравнению с ЛБД, предложенной в теории К-представлений

В. А. Фомичевым;

3) разработкой метода семантически-ориентированного поиска информации, являющегося инвариантным по отношению к выбору предметной области (в частности, применимого к поиску медикаментов, в области юриспруденции и в области косметологии);

4) разработкой алгоритмов, детализирующих отдельные шаги метода семантически-ориентированного поиска информации в текстах электронных документов на русском языке.

Положения, выносимые на защиту. На защиту выносятся следующие укрупненные научные результаты.

1. На основе анализа наиболее известных подходов к автоматическому поиску и оценке информации в электронных документах предложены новые принципы построения информационно-поисковой системы, предназначенной для семантически-ориентированного поиска информации в электронных документах. Цель разработки этих принципов состояла в создании теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов.

2. Разработана формальная модель лингвистической базы данных (ЛБД), представляющая собою определение класса формальных объектов, называемых проблемно-ориентированными лингвистическими базисами. Главными отличиями понятия проблемно-ориентированного лингвистического базиса от введенного В. А. Фомичевым понятия лингвистического базиса являются:

- рассмотрение понятия проблемно-ориентированного концептуального базиса вместо понятия концептуального базиса (преимуществами нового понятия является возможность отражения иерархии понятий и возможность выделения подкласса информационных единиц.);

- разработка и определение единого словаря глагольно-предложных и предложных семантико-синтаксических фреймов; в предложенной модели ЛБД такой словарь используется вместо двух словарей — словаря глагольно-предложных фреймов и словаря предложных фреймов, являющихся компонентами ЛБД в формальной модели ЛБД, предложенной В. А. Фомичевым.

3. Разработан предметно-независимый алгоритм (названный Поиск Текстов) нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему). Этот алгоритм использует информацию семантико-синтаксического характера, представленную проблемно-ориентированным концептуальным базисом.

4. Разработана система алгоритмов, создающих предпосылки применения алгоритма ПоискТекстов к поиску лекарственных препаратов, применяемых для лечения заданного заболевания.

5. Программно реализована информационно-поисковая система «СЕМПМЕД», использующая предложенные в работе алгоритмы и метод семантико-синтаксического поиска информации в задаче нахождения лекарственных препаратов по текстам их описаний на русском языке.

Практическая ценность и предложения по использованию результатов. Практическую ценность представляют, во-первых, предложенные в работе формальное описание структуры лингвистической базы данных, метод и алгоритм реализации семантически-ориентированного поиска. Эти результаты могут быть использованы разработчиками лингвистических процессоров для создания систем с похожей функциональностью в других предметных областях. Во-вторых, разработанная информационно-поисковая система (ИПС) «СЕМПМЕД» может использоваться на практике фармацевтами, медицинскими сотрудниками в клиниках, а также применяться в учебных заведениях медицинского профиля в ходе учебного процесса— для пополнения знаний студентов о лекарственных препаратах, поскольку реализация в ИПС «СЕМПМЕД» предложенных в работе принципов и метода семантически-ориентированного автоматического поиска информации в текстах медицинской тематики улучшает качество поиска нужных лекарственных препаратов. Это обусловлено тем, что появляется возможность ухода от типичных проблем, возникающих при работе с традиционными поисковыми системами. Пользователю не требуется вводить ключевые слова для поиска по тексту: система выбирает искомые смысловые отношения для каждого типа запроса, а также набор допустимых лексических единиц для участников отношения и их возможные морфологические характеристики. Наличие базы знаний об основной цели лечения заболевания не только расширяет функциональные возможности системы по поиску лекарств, но и дает возможность использовать систему в качестве программного средства для подготовки студентов-медиков и фармацевтов.

Апробация работы и публикации. Результаты работы докладывались на ряде научных конференций, в том числе на международной конференции InterSymp по системным исследованиям, информатике и кибернетике (Германия, 2001); научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ (2002-2005); Международной научной конференции «Гагаринские чтения» (Москва, «МАТИ»— Российский государственный технологический университет им. К. Э. Циолковского, 2001, 2002, 2004, 2005); XIV международной конференции «Проблемы теоретической кибернетики» (Пенза, 2005); международных научных конференциях «Компьютерная лингвистика и интеллектуальные технологии. Диалог'2004» и «Диалог'2005».

По теме диссертационного исследования автором опубликовано 17 научных работ. В и двух работах, выполненных в соавторстве, не менее половины результатов получены автором данной диссертации.

Структура работы. Диссертационная работа содержит 170 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 115 наименований и трех приложений; включает 20 таблиц и 11 рисунков.

Заключение диссертация на тему "Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах"

4.23. Выводы по материалам главы 4

1. Основной результат данной главы заключается в разработке структуры и программной реализации информационно-поисковой системы (ИПС) «СЕМПМЕД», построенной с целью апробации предложенного в предыдущей главе метода семантически-ориентированного поиска информации. Программная реализация ИПС «СЕМПМЕД» имеет объем около 1350 строк кода на языке PL/SQL.

2. Рассмотрена основная область применения ИПС «СЕМПМЕД» — поиск медикаментов, лечащих указанное пользователем заболевание или оказывающих на организм человека такое воздействие, которое, по сути, и является основной целью лечения рассматриваемого заболевания.

3. Разработаны метод и алгоритм построения семантического представления основной цели лечения заболевания, сформулированной на ограниченном русском языке. Получаемые таким образом семантические представления входят в состав базы знаний о медицине ИПС «СЕМПМЕД» и используются ею для поиска лекарств, оказывающих воздействие, описанное в основной цели лечения заболевания.

4. Предложен состав подсистем ИПС «СЕМПМЕД» и разработана структура данных лингвистической базы данных системы (включая компонент морфологического анализа), базы знаний о медицине и хранилища документов — описаний лекарственных препаратов.

5. Обоснованы возможности применения предлагаемых в работе принципов и метода семантически-ориентированного поиска информации к решению задач из других предметных областей. В частности, обоснованы возможности применения результатов диссертационного исследования в области юриспруденции и в области косметологии.

6. Работоспособность представленного в диссертации метода семантически-ориентированного поиска информации подтверждена актом внедрения результатов, приведенным в приложении 1 к данной работе.

ЗАКЛЮЧЕНИЕ

Задачи исследования, обусловленные поставленной целью работы и перечисленные во введении, были успешно решены.

В итоге проведенного диссертационного исследования лично автором были получены следующие основные научные результаты, выносимые на защиту.

1. Проанализированы основные подходы к автоматическому поиску и оценке информации в электронных документах.

2. Предложены новые принципы построения информационно-поисковой системы, предназначенной для семантически-ориентированного поиска информации в электронных документах; цель разработки этих принципов заключалась в создании теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском, предусматривающим полный семантико-синтаксический анализ каждого предложения из электронного документа.

3. Предложено формальное понятие проблемно-ориентированного концептуального базиса (сложного упорядоченного набора формальных объектов, представляющего наиболее общие сведения о выбранной предметной области), позволяющее по сравнению с введенным В. А. Фомичевым понятием концептуального базиса:

- отразить существование иерархии понятий по степени их общности, а не только существование иерархии наиболее общих понятий (сортов);

- выделить подкласс информационных единиц с отрицательным значением (соответствующих выражениям «противопоказано», «исключено» и некоторым другим).

4. Разработана формальная модель лингвистической базы данных (ЛБД), представляющая собою определение класса формальных объектов, называемых проблемно-ориентированными лингвистическими базисами. Главными отличиями понятия проблемно-ориентированного лингвистического базиса от введенного В. А. Фомичевым понятия лингвистического базиса являются:

- рассмотрение понятия проблемно-ориентированного концептуального базиса вместо понятия концептуального базиса;

- разработка и определение единого словаря глагольно-предложных и предложных семантико-синтаксических фреймов; в предложенной модели ЛБД такой словарь используется вместо двух словарей — словаря глагольно-предложных фреймов и словаря предложных фреймов, являющихся компонентами ЛБД в формальной модели ЛБД, предложенной В. А. Фомичевым.

5. Разработан предметно-независимый алгоритм (названный ПоискТекстов) нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему). Этот алгоритм использует информацию семантико-синтаксического характера, представленную проблемно-ориентированным концептуальным базисом.

6. Разработана система алгоритмов, создающих предпосылки применения алгоритма ПоискТекстов к поиску лекарственных препаратов, применяемых для лечения заданного заболевания:

- алгоритм 1 предназначен для построения семантических представлений естественно-языковых описаний основной цели лечения заболевания в виде выражений некоторого СК-языка;

- алгоритм 2 предназначен для поиска по названию заболевания таких препаратов, которые применяются для лечения заданного заболевания; преимуществом алгоритма по сравнению с поиском по ключевым словам является поиск смысловых отношений между лексическими единицами текста, выражающими искомую информацию;

- алгоритм 3 осуществляет поиск препаратов для лечения заданного заболевания по основной цели его лечения, представленной выражением СК-языка в базе знаний информационно-поисковой системы.

7. Разработана информационно-поисковая система «СЕМПМЕД», использующая алгоритм 1 для формирования базы знаний об основных целях лечения заболеваний, а также алгоритм 2 и алгоритм 3 для поиска препаратов, предназначенных для лечения заданного заболевания; программная реализация системы выполнена на языке PL/SQL для СУБД Oracle 9.2.0.1. Работоспособность ИПС «СЕМПМЕД» подтверждена актом внедрения.

8. Обоснована возможность применения разработанной формальной модели лингвистической базы данных и алгоритма Поиск Текстов для поиска информации в электронных документах, относящихся другим предметным областям, в частности, к юриспруденции и косметологии.

Библиография Люстиг, Инга Владимировна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аношкина Ж. Г. Морфологический процессор русского языка // Альманах «Говор». — Сыктывкар, 1995. — С. 17-23.

2. Башмаков А. И., Башмаков И. А. Интеллектуальные информационные технологии. — М, Изд-ство МГТУ им. Н. Э. Баумана, 2005. — 302 с.

3. Бездушный А. А., Бездушный А. Н., Жижченко А. Б., Кулагин М. В., Серебряков В. A. RDF схема метаданных ИСИР // Сборник научных трудов X научно-практического семинара «Новые технологии в информационном обеспечении науки».— М., 2003.— С.141-159.

4. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — СПб.: ПИТЕР, 2000. — 382 С.

5. Кузнецов И. П. Механизмы обработки семантической информации. — М: Наука, 1978. —174 с.

6. Кузнецов И. П. Семантические представления. — М: Наука, 1986. — 290 с.

7. Кузнецов И. П. Система обработки декларативных структур знаний ДЕКЛАР-2. — М.: Ин-т проблем информатики АН СССР, 1989. — 106 с.

8. Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. — М.: Русский язык, 1986.

9. Люгер Дж. Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем. 4-е издание. Пер. с англ. — М.: Издательский дом «Вильяме», 2003. — 864 с.

10. Мельчук И. А. Опыт теории лингвистических моделей «Смысл — Текст». — М.: Наука, 1974, —314 С.

11. Осипов Г. С. Построение моделей предметных областей. Неоднородные семантические сети // Изв. АН СССР. Техн. Кибернетика —1990. — № 5. — С. 32-45.

12. Осипов Г. С. Приобретение знаний интеллектуальными системами: основы теории и технологии. — М.: Наука, Физматлит, 1997. — 112 с.

13. Попов Э. В. Общение с ЭВМ на естественном языке. — М.:Наука, Главная редакция физико-математической литературы, 1982. — 360 с.

14. Селезнев К. Обработка текстов на естественном языке // Открытые системы. — 2003. —№12.

15. Солтон Дж. Динамические библиотечно-информационные системы.— М.: Мир,1979.

16. Тихонов А. Н. Морфемно-орфографический словарь: Русская морфемика. — М.: Школа-Пресс, 1996.

17. Тузов В. А. Математическая модель языка. — Д.: Изд-во ЛГУ, 1984. —176 с.

18. Тузов В. А. Компьютерная семантика русского языка // Труды Междунар. семинара Диалог'2001 по компьютерной лингвистике и ее приложениям: Том 2. Прикладные проблемы. — М.: РосНИИ Искусственного Интеллекта, 2001. — С. 356-363.

19. Фомичёв В. А. Представление информации средствами К-исчислений. — М., Московский институт электронного машиностроения (МИЭМ), 1988. — 60 с.

20. Фомичёв В. А. К-языки и разработка новых информационных технологий // Новые информационные технологии в системотехнике / Под ред. JT. С. Болотовой. — М.: Радио и Связь, 1990. —С. 53-62.

21. Харин Н. П. Некоторые особенности семантического поиска текстовой информации // Новости искусственного интеллекта. — 2002. —№ 2. — С. 22-25.

22. Хорошевский В. Ф. Обработка естественно-языковых текстов: от моделей понимания языка к технологиям извлечения знаний// Новости искусственного интеллекта.— 2002, —№6. —С. 19-26.

23. Manning, С., Schutze, Н. Foundations of Statistical Language processing. —The MIT Press, 1999.

24. Andreas Paepcke, Hector Garcia-Molina, Gerard Rodriguez-Mula, Junghoo Cho. Beyond Document Similarity: Understanding Value-Based Search and Browsing Technologies — Stanford University, Draft, 2000. — 21 P.

25. Benjamins V. R., Fensel D., et. all, 1998, Community is Knowledge! in KA2, Submitted to KAW'98, Banff, Canada, April 1998.

26. DobsonS.A., BurrillV. A., 1995, Lightweight databases, Computer Networks and ISDN Systems 27(6), April 1995, pp. 1009-1015. In the Proceedings of the 3rd International World Wide Web Conference, Darmstadt.

27. Fomichov, V. Mathematical models of natural-language-processing systems as cybernetic models of a new kind. Cybernetica (Belgium), 1992. — XXXV (1). — P. 63-91.

28. Luke S., Spector L., Rager D., Hendler J. Ontolodgy-based Knowledge Discovery on the World-Wide-Web, In the Proceedings of the Workshop on Internet-based Information Systems, AAAI-96, Portland, Oregon. —1996.

29. Quillian M. R. Semantic memory // Semantic Information Processing, M. Min-sky (ed.). Cambridge, Massachusetts. — 1968. — P. 27-70.

30. Ramamohanarao, K. and J. Harland, 1994, An Introduction to Deductive Database Languages and Systems // VLDB Journal. — April 1994. — P. 107-122.

31. Sandwall E. Towards a World-Wide Data Base, Fifth International World Wide Web Conference, May 6-10,1996, Paris, France. — 1996.

32. Schubert L. K., Hwang С. H. An episodic knowledge representation for narrative texts // Proceedings of the First Int. Conf. on Principles of Knowledge Representation and Reasoning (KR'89), Toronto, Canada. —1989. — P. 444-458.

33. Simmons R. F. Semantic networks: their computation and use for understanding English sentences // Computer Models of Thought and Language, R. Schank and K. Colby (eds.). — San Francisco: Freeman, 1973. — P. 63-113.

34. Sowa, J. F. Conceptual Structures:Information Processing in Mind and Machine // Addison-Wesley Publ. Сотр.: Reading, MA. —1984.

35. Sowa, J. F. Toward the expressive power of natural language // In Sowa, J. F. (Ed.), Principles of Semantic Networks. Explorations in the Representation of Knowledge. Morgan Kaufman Publ., Inc. —1991. — P. 157-189.

36. Sowa, J. F. Conceptual graphs: draft proposed American National Standard // Conceptual Structures: Standards and Practices / Ed. By W. Tepfenhart & W. Cyre. Lecture Notes in AI #1640. Springer-Verlag. Berlin. 1999. — P. 1-65.