автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации

кандидата технических наук
Чепайкин, Алексей Олегович
город
Москва
год
1999
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации»

Текст работы Чепайкин, Алексей Олегович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Министерство общего и профессионального образования Российской Федерации

Московская государственная академия приборостроения и информатики

На правах рукописи

Чепайкин Алексей Олегович

Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей»

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель -доктор технических наук, профессор Л.П. Коричнев

Научный консультант -доктор технических наук, профессор И.Ю. Каширин

к

Москва - 1999

ОГЛАВЛЕНИЕ

Введение_5

Глава 1. Системы управления знаниями_11

1.1. Применение систем управления знаниями в поиске информации_11

1.2. Функции экспертной системы в системе управления знаниями_17

1.3. Модели представления знаний_23

1.3.1. Логические модели_25

1.3.2. Семантические сети_26

1.3.3. Фреймы_29

1.3.4. Продукционные системы_30

1.3.5. Нейронные сети_32

1.4. Определение универсальной алгебры _36

1.5. Понятие нечетких множеств_38

Основные результаты_41

Глава 2. Система управления знаниями для поиска информации в БД, основанная на семантических сетях __43

2.1. Структура системы поиска информации на основе систем управления знаниями_43

2.2. Описание семантической сети_47

2.3. Определение отношений на семантических сетях_54

2.4. Определение операций над семантическими сетями_58

Основные результаты_61

Глава 3. Поиск информации в БД с использованием системы управления знаниями__62

3.1. Механизм логического вывода_62

3.2. Модель пользователя_67

3.2.1. Понятие модели пользователя_67

3.2.2. Формирование модели пользователя_68

3.2.3. Классификация моделей пользователя_69

3.2.3.1. Векторная модель_70

3.2.3.2. Сетевая модель____ 71

3.2.3.3 Генетический граф___ 71

3.2.3.4 Модель ошибок____ 72

3.2.3.5 Модель фалынправил___ 72

3.2.3.6 Модель ограничений_73

3.2.4. Определение модели пользователя для системы поиска информации на основе ЭС_74

3.3. Модель действий пользователя_77

3.4. Применение модели пользователя для поиска информации_79

Основные результаты_89

Глава 4. Программная реализация системы поиска информации с использованием информационно-документальной базы знаний _91

4.1. Определение основных задач реализуемых программным пакетом_91

4.2. Архитектура системы поиска информации_92

4.3. Технические и программные средства для создания и функционирования системы поиска информации_101

4.4. Проектирование интерфейса эксперта для системы приобретения знаний_102

4.5. Принципы функционирования системы поиска информации_105

4.5.1. Определение названия модели предметной области_106

4.5.2. Выделение и ввод понятий с отношениями между ними_106

4.5.3. Ввод документов и определение принадлежащих ему понятий_107

4.5.4. Поиск информации в информационно-документальной

базе знаний_108

Основные результаты_113

Заключение _114

Литература

116

Приложение 1 Фрагменты текста программы_127

Приложение 2 Экранное представление функционирования программы "Семантик"_144

Приложение 3 Документы по внедрению_148

Введение

Актуальность проблемы. Системы управления знаниями в настоящее время с успехом используются во многих областях применения автоматизированных информационных систем, ориентированных на интеллектуальные методы. С другой стороны, информатизация современного общества привела к появлению крупнейших информационных банков в различных отраслях научно-технических знаний. Попытки разработки и внедрения многокритериальных систем классификации информации, а также автоматизации информационного поиска пока не приводят к сколько-нибудь существенным результатам с точки зрения увеличения релевантности и комфортности информационного поиска.

Развитие новых информационных технологий и образование реальной всемирной компьютерной сети настоятельно требует предоставления новых возможностей получения актуальной информации и знаний, которые предприятия и физические лица могут использовать в своей деятельности. Таким образом, возникает проблема интеллектуального поиска необходимой пользователю научно-технической и технологической информации. Решение этих проблем может быть найдено в развитии методологии проектирования систем управления знаниями для информационного поиска.

На современном этапе к числу проблем поиска информации можно отнести следующие.

• При получении пользователем большого объема информации в результате автоматизированного поиска много времени затрачивается на ее просмотр и выбор, в то время, как даже простой выбор необходимой информации зачастую представляет собой нелегкую проблему.

• Выбор информации, осуществляемый человеком, нередко не является рациональным и строго последовательным, что существенно осложняет поиск информации.

• Пользователь при поиске информации обычно не строго определяет цель поиска, то есть использует нечетко определенные понятия.

Недостатки существующих систем управления знаниями заключаются в том, что при построении с целью поиска персональной модели знаний для организации или пользователя и при последующем поиске информации в базе знаний не учитываются отношение к знанию пользователя и взаимодействие элементов информации между собой, что ведет к увеличению объема выборки из баз данных.

Процедура проведения поиска информации, необходимой пользователю, предполагает в ходе опроса выявление ключевых понятий поиска и их значимости для пользователя.

Наиболее известными результатами, которые можно использовать в рассматриваемой области, являются теоретические концепции построения экспертных систем, моделей представления знаний, универсальных алгебр, нечетких множеств и применение теории выбора. Эти вопросы освещены, в частности, в работах Попова Э. В., Дородницына A.A., Поспелова Г.С., Поспелова Д.А., Минского М. JL, Нильсона Н., Глушкова В.М., Заде JL, Кофмана А., Саати Т., Айзермана М.А. и др.

Использование формального подхода к построению модели предметной области для информационного поиска является малоизученной проблемой. Решение этой проблемы позволило бы упростить не только идентификацию свойств модели предметной области, но и облегчить процесс обработки и поиска информации, необходимой пользователю. Наиболее пригодным математическим аппаратом автоматизации решения упомянутых проблем являются семантические сети, универсальные алгебры и нечеткие множества, позволяющие автоматизировать процесс построения и обработки модели предметной области.

В диссертации предлагается новый подход к построению и обработке модели предметной области для систем управления знаниями, ориентированными на поиск информации, а также новый подход к созданию систем управ-

ления знаниями для поиска информации в информационно-документальной базе знаний.

Целью работы является разработка и исследование способов построения систем управления знаниями, используемых при поиске информации. Исходя из цели, в работе поставлены следующие задачи исследования:

- определение формальной модели построения предметной области, используемой при создании информационно-документальной базы знаний,

- создание модели пользователя, используемой при поиске информации,

- описание новых механизмов логического вывода, используемых при поиске информации в информационно-документальной базе знаний,

- создание методики извлечения знаний для формирования персональной модели знаний пользователя с целью последующего поиска информации;

- выработка проектных решений по программной реализации компонентов системы поиска информации.

Методы исследования. Исследования осуществлялись на основе теории алгоритмических алгебр, теории множеств, теории нечетких множеств, теории принятии решений, методов структурного и объектно-ориентированного программирования.

Научная новизна. Предложена концепция генерации возможных альтернатив выбора документов, в основе которой используется гипотеза о подобии: для выбранного документа находится другой документ, базовые понятия которого наиболее близки по смыслу понятиям выбранного. На основе предложенной концепции разработаны:

1) методика построения модели предметной области на основе семантической сети информационно-документальной базы знаний,

2) сформулированы основные принципы построения механизма логического вывода для выбора информации, основанного на теории принятия решений,

3) методология выбора необходимой пользователю информации из информационно-документальной базы знаний,

4) алгоритм определения количества групп документов в информационно-документальной базе знаний для их эффективной идентификации;

5) предложен механизм извлечения знаний эксперта, основанный на многослойных репертуарных решетках Келли.

Практическая ценность. Результаты работы являются основой для проектирования систем управления знаниями, используемых при поиске информации. Предложенные в диссертации формализм и методы позволяют производить поиск документов, необходимых пользователю, предлагать возможные альтернативные документы, обеспечить построение последовательной цепочки выдачи документов для пользователя по степени релевантности.

Результаты диссертации нашли отражение в реальной программе "Семантик", предназначенной для построения информационно-документальной базы знаний и поиска информации, необходимой пользователю.

Разработанные средства могут быть приняты за основу при создании систем управления знаниями, используемыми для поиска информации в распределенных информационных системах, глобальных и локальных сетях типа Internet и Intranet.

Внедрение результатов. Результаты диссертационной работы внедрены в Научно-информационном центре проблем интеллектуальной собственности (г. Москва); в Рязанском Центре научно-технической информации, а также в учебном процессе в Рязанской государственной радиотехнической академии.

Структура диссертационной работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.

Во введении дается обоснование актуальности темы работы, сформулированы цели исследования, кратко излагается содержание диссертации.

Первая глава посвящена обоснованию темы диссертации В главе определяются основные цели и задачи разработки и анализа систем управления знаниями, приводится обзор работ по теме диссертации, вводятся основные понятия и определения. Особое внимание уделено вопросам построения экспертных систем, использованию моделей представления знаний, универсальных алгебр и нечетких множеств.

Во второй главе рассматривается структура системы поиска информации на основе экспертной системы. Введено понятие информационно-документальной базы знаний. Рассматриваются основные операции, отношения и структуры, образованные информационно-документальной базой знаний, основанной на семантической сети.

Третья глава посвящена вопросам поиска информации в информационно-документальной базе знаний, описано построение моделей пользователя и обучаемого, моделей действий пользователя и обучаемого. Спроектирован новый алгоритм получения предварительного определения количества групп документов в информационно-документальной базе знаний для эффективной идентификации документов.

В четвертой главе приводится постановка задачи проектирования программы поиска информации на основе системы управления знаниями. Приведена архитектура системы поиска информации "Семантик". Рассмотрена структура информационно-документальной базы знаний, приводится ее инфо-логическая схема. Затронуты принципы построения информационно-документальной базы знаний, приведены основные классы, описывающие поиск информации для конкретного пользователя.

В заключении проводится обобщение основных результатов диссертационной работы.

Апробация работы. Основные результаты работы докладывались и обсуждались на Международном научно-техническом семинаре "Проблемы передачи и обработки информации в информационно-вычислительных сетях", Москва, 1997 г.; на 2-ой научно-практической конференции "Человек, эколо-

гия, здоровье", Рязань, 1997 г.; на 2-ой Всероссийской научно-практической конференции " Современные информационные технологии в образовании ", Рязань, 13-14 мая, 1998 г.; на 2-ой Международной научно-технической конференции "Моделирование и исследование сложных систем", Москва, 1998 г.; на Всероссийской научно-технической конференции "Компьютерные технологии в науке, проектировании и производстве", Нижний Новгород, Нижегородский государственный технический университет, 3 -4 февраля, 1999 г.; а также на научных семинарах кафедры ВПМ РГРТА.

Публикации. По результатам работы диссертационного исследования опубликовано 12 печатных работ.

Глава 1. Системы управления знаниями

1.1. Применение систем управления знаниями в поиске информации

Проблема формализации человеческого опыта, создания интерактивных систем поиска информации в сложных, распределенных массивах информации, которые плохо формализуются, все более привлекает сейчас специалистов по системному анализу и искусственному интеллекту. Важность ее объясняется, в первую очередь, необходимостью анализа слабо структурированных массивов данных.

Информация, существенный компонент в сегодняшней интеллектуальной экономике, является динамической, дорогой и непрерывно изменяемой. Постоянное овладение новой и необходимой информацией оказывает существенное влияние на работу организаций. Имеются четыре области, на которые могут опираться организации для получения информации: информационный интерес, интеллектуальный капитал и управление знаниями, ревизия информационных ресурсов и виртуальные информационные сети. Эффективное использование этих областей может обеспечить организации персональное и профессиональное конкурентоспособное преимущество в экономической деятельности^ 1 - 3].

Моделирование процесса обработки информации и принятие решений человеком, экспликация и формализация тех соображений, которыми руководствуется человек при выборе информации из массива данных, могут оказаться весьма полезными при создании систем поиска информации, необходимой человеку.

В настоящей работе рассматриваются системы управления знаниями, используемыми для сбора, обработки и выдачи информации пользователю. Под управлением знаниями понимается процесс получения знания из доступных пользователю источников и выдача ему полученного знания[4 - 6]. Это

опирается на две основы: использование и эксплуатация информации, которой может владеть организация. Управление знанием помогает отслеживать временное изменение информации для организаций. Это форма централизованного экспертного управления, которое сосредоточено на использовании экспертизы специалистов в представлении знания. К типичным инструментальным средствам управления знаниями относят программные системы: World Wide Web, Lotus Notes, Internet, и Intranets. Разработки в области искусственного интеллекта, такие как интеллектуальные агенты, базы знаний, открытые знания, онтологии и экспертные системы, также играют важную роль в системах управления знаниями.

Типичная архитектура системы управления знаниями приведена на рис. 1.1 [5, 7, 8]. На увеличение используемости систем управления знаниями влияет несколько факторов.

• Влияние окружающей среды. Под влиянием окружающей среды понимается увеличение поступающей информации от различных источников. Возникает проблема определения: "является поступившая информация важной или нет для дальнейшего применения?" Глобализация и географическое распределение ресурсов также создают спрос на системы управления знаниями.

• Развитие технологий. Развитие технологии позволило за счет образования Internet облегчить создание систем управления знаниями. Практически все использование систем управления знаниями строится на основе броузеров Internet[9 - 12].

• Способность создавать ценную информацию. Системы управления знаниями позволяют создавать новое знание, преобразовывая информацию и доступное знание для индивидуального использования.

Процесс управления знаниямм строится по следующей схеме (рис. 1.2.):

1) создание (приобретение) знания - используется экспертная система для создания знаний, формируется база данных общения с пользователем;

Пользователь

Рис. 1.1. Архитектура системы управления знаниями

2) организация (сохранение) знания - создается репозитарий знаний, используются инструменты корректировки созданных (приобретенных) знаний;

3) распределение знания - создается репозитарий знаний, используются инструменты поиска для распределения скорректированных знаний;

4) применение знания - используется общение с пользователем системы