автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации
Текст работы Чепайкин, Алексей Олегович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Министерство общего и профессионального образования Российской Федерации
Московская государственная академия приборостроения и информатики
На правах рукописи
Чепайкин Алексей Олегович
Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации
Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей»
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель -доктор технических наук, профессор Л.П. Коричнев
Научный консультант -доктор технических наук, профессор И.Ю. Каширин
к
Москва - 1999
ОГЛАВЛЕНИЕ
Введение_5
Глава 1. Системы управления знаниями_11
1.1. Применение систем управления знаниями в поиске информации_11
1.2. Функции экспертной системы в системе управления знаниями_17
1.3. Модели представления знаний_23
1.3.1. Логические модели_25
1.3.2. Семантические сети_26
1.3.3. Фреймы_29
1.3.4. Продукционные системы_30
1.3.5. Нейронные сети_32
1.4. Определение универсальной алгебры _36
1.5. Понятие нечетких множеств_38
Основные результаты_41
Глава 2. Система управления знаниями для поиска информации в БД, основанная на семантических сетях __43
2.1. Структура системы поиска информации на основе систем управления знаниями_43
2.2. Описание семантической сети_47
2.3. Определение отношений на семантических сетях_54
2.4. Определение операций над семантическими сетями_58
Основные результаты_61
Глава 3. Поиск информации в БД с использованием системы управления знаниями__62
3.1. Механизм логического вывода_62
3.2. Модель пользователя_67
3.2.1. Понятие модели пользователя_67
3.2.2. Формирование модели пользователя_68
3.2.3. Классификация моделей пользователя_69
3.2.3.1. Векторная модель_70
3.2.3.2. Сетевая модель____ 71
3.2.3.3 Генетический граф___ 71
3.2.3.4 Модель ошибок____ 72
3.2.3.5 Модель фалынправил___ 72
3.2.3.6 Модель ограничений_73
3.2.4. Определение модели пользователя для системы поиска информации на основе ЭС_74
3.3. Модель действий пользователя_77
3.4. Применение модели пользователя для поиска информации_79
Основные результаты_89
Глава 4. Программная реализация системы поиска информации с использованием информационно-документальной базы знаний _91
4.1. Определение основных задач реализуемых программным пакетом_91
4.2. Архитектура системы поиска информации_92
4.3. Технические и программные средства для создания и функционирования системы поиска информации_101
4.4. Проектирование интерфейса эксперта для системы приобретения знаний_102
4.5. Принципы функционирования системы поиска информации_105
4.5.1. Определение названия модели предметной области_106
4.5.2. Выделение и ввод понятий с отношениями между ними_106
4.5.3. Ввод документов и определение принадлежащих ему понятий_107
4.5.4. Поиск информации в информационно-документальной
базе знаний_108
Основные результаты_113
Заключение _114
Литература
116
Приложение 1 Фрагменты текста программы_127
Приложение 2 Экранное представление функционирования программы "Семантик"_144
Приложение 3 Документы по внедрению_148
Введение
Актуальность проблемы. Системы управления знаниями в настоящее время с успехом используются во многих областях применения автоматизированных информационных систем, ориентированных на интеллектуальные методы. С другой стороны, информатизация современного общества привела к появлению крупнейших информационных банков в различных отраслях научно-технических знаний. Попытки разработки и внедрения многокритериальных систем классификации информации, а также автоматизации информационного поиска пока не приводят к сколько-нибудь существенным результатам с точки зрения увеличения релевантности и комфортности информационного поиска.
Развитие новых информационных технологий и образование реальной всемирной компьютерной сети настоятельно требует предоставления новых возможностей получения актуальной информации и знаний, которые предприятия и физические лица могут использовать в своей деятельности. Таким образом, возникает проблема интеллектуального поиска необходимой пользователю научно-технической и технологической информации. Решение этих проблем может быть найдено в развитии методологии проектирования систем управления знаниями для информационного поиска.
На современном этапе к числу проблем поиска информации можно отнести следующие.
• При получении пользователем большого объема информации в результате автоматизированного поиска много времени затрачивается на ее просмотр и выбор, в то время, как даже простой выбор необходимой информации зачастую представляет собой нелегкую проблему.
• Выбор информации, осуществляемый человеком, нередко не является рациональным и строго последовательным, что существенно осложняет поиск информации.
• Пользователь при поиске информации обычно не строго определяет цель поиска, то есть использует нечетко определенные понятия.
Недостатки существующих систем управления знаниями заключаются в том, что при построении с целью поиска персональной модели знаний для организации или пользователя и при последующем поиске информации в базе знаний не учитываются отношение к знанию пользователя и взаимодействие элементов информации между собой, что ведет к увеличению объема выборки из баз данных.
Процедура проведения поиска информации, необходимой пользователю, предполагает в ходе опроса выявление ключевых понятий поиска и их значимости для пользователя.
Наиболее известными результатами, которые можно использовать в рассматриваемой области, являются теоретические концепции построения экспертных систем, моделей представления знаний, универсальных алгебр, нечетких множеств и применение теории выбора. Эти вопросы освещены, в частности, в работах Попова Э. В., Дородницына A.A., Поспелова Г.С., Поспелова Д.А., Минского М. JL, Нильсона Н., Глушкова В.М., Заде JL, Кофмана А., Саати Т., Айзермана М.А. и др.
Использование формального подхода к построению модели предметной области для информационного поиска является малоизученной проблемой. Решение этой проблемы позволило бы упростить не только идентификацию свойств модели предметной области, но и облегчить процесс обработки и поиска информации, необходимой пользователю. Наиболее пригодным математическим аппаратом автоматизации решения упомянутых проблем являются семантические сети, универсальные алгебры и нечеткие множества, позволяющие автоматизировать процесс построения и обработки модели предметной области.
В диссертации предлагается новый подход к построению и обработке модели предметной области для систем управления знаниями, ориентированными на поиск информации, а также новый подход к созданию систем управ-
ления знаниями для поиска информации в информационно-документальной базе знаний.
Целью работы является разработка и исследование способов построения систем управления знаниями, используемых при поиске информации. Исходя из цели, в работе поставлены следующие задачи исследования:
- определение формальной модели построения предметной области, используемой при создании информационно-документальной базы знаний,
- создание модели пользователя, используемой при поиске информации,
- описание новых механизмов логического вывода, используемых при поиске информации в информационно-документальной базе знаний,
- создание методики извлечения знаний для формирования персональной модели знаний пользователя с целью последующего поиска информации;
- выработка проектных решений по программной реализации компонентов системы поиска информации.
Методы исследования. Исследования осуществлялись на основе теории алгоритмических алгебр, теории множеств, теории нечетких множеств, теории принятии решений, методов структурного и объектно-ориентированного программирования.
Научная новизна. Предложена концепция генерации возможных альтернатив выбора документов, в основе которой используется гипотеза о подобии: для выбранного документа находится другой документ, базовые понятия которого наиболее близки по смыслу понятиям выбранного. На основе предложенной концепции разработаны:
1) методика построения модели предметной области на основе семантической сети информационно-документальной базы знаний,
2) сформулированы основные принципы построения механизма логического вывода для выбора информации, основанного на теории принятия решений,
3) методология выбора необходимой пользователю информации из информационно-документальной базы знаний,
4) алгоритм определения количества групп документов в информационно-документальной базе знаний для их эффективной идентификации;
5) предложен механизм извлечения знаний эксперта, основанный на многослойных репертуарных решетках Келли.
Практическая ценность. Результаты работы являются основой для проектирования систем управления знаниями, используемых при поиске информации. Предложенные в диссертации формализм и методы позволяют производить поиск документов, необходимых пользователю, предлагать возможные альтернативные документы, обеспечить построение последовательной цепочки выдачи документов для пользователя по степени релевантности.
Результаты диссертации нашли отражение в реальной программе "Семантик", предназначенной для построения информационно-документальной базы знаний и поиска информации, необходимой пользователю.
Разработанные средства могут быть приняты за основу при создании систем управления знаниями, используемыми для поиска информации в распределенных информационных системах, глобальных и локальных сетях типа Internet и Intranet.
Внедрение результатов. Результаты диссертационной работы внедрены в Научно-информационном центре проблем интеллектуальной собственности (г. Москва); в Рязанском Центре научно-технической информации, а также в учебном процессе в Рязанской государственной радиотехнической академии.
Структура диссертационной работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.
Во введении дается обоснование актуальности темы работы, сформулированы цели исследования, кратко излагается содержание диссертации.
Первая глава посвящена обоснованию темы диссертации В главе определяются основные цели и задачи разработки и анализа систем управления знаниями, приводится обзор работ по теме диссертации, вводятся основные понятия и определения. Особое внимание уделено вопросам построения экспертных систем, использованию моделей представления знаний, универсальных алгебр и нечетких множеств.
Во второй главе рассматривается структура системы поиска информации на основе экспертной системы. Введено понятие информационно-документальной базы знаний. Рассматриваются основные операции, отношения и структуры, образованные информационно-документальной базой знаний, основанной на семантической сети.
Третья глава посвящена вопросам поиска информации в информационно-документальной базе знаний, описано построение моделей пользователя и обучаемого, моделей действий пользователя и обучаемого. Спроектирован новый алгоритм получения предварительного определения количества групп документов в информационно-документальной базе знаний для эффективной идентификации документов.
В четвертой главе приводится постановка задачи проектирования программы поиска информации на основе системы управления знаниями. Приведена архитектура системы поиска информации "Семантик". Рассмотрена структура информационно-документальной базы знаний, приводится ее инфо-логическая схема. Затронуты принципы построения информационно-документальной базы знаний, приведены основные классы, описывающие поиск информации для конкретного пользователя.
В заключении проводится обобщение основных результатов диссертационной работы.
Апробация работы. Основные результаты работы докладывались и обсуждались на Международном научно-техническом семинаре "Проблемы передачи и обработки информации в информационно-вычислительных сетях", Москва, 1997 г.; на 2-ой научно-практической конференции "Человек, эколо-
гия, здоровье", Рязань, 1997 г.; на 2-ой Всероссийской научно-практической конференции " Современные информационные технологии в образовании ", Рязань, 13-14 мая, 1998 г.; на 2-ой Международной научно-технической конференции "Моделирование и исследование сложных систем", Москва, 1998 г.; на Всероссийской научно-технической конференции "Компьютерные технологии в науке, проектировании и производстве", Нижний Новгород, Нижегородский государственный технический университет, 3 -4 февраля, 1999 г.; а также на научных семинарах кафедры ВПМ РГРТА.
Публикации. По результатам работы диссертационного исследования опубликовано 12 печатных работ.
Глава 1. Системы управления знаниями
1.1. Применение систем управления знаниями в поиске информации
Проблема формализации человеческого опыта, создания интерактивных систем поиска информации в сложных, распределенных массивах информации, которые плохо формализуются, все более привлекает сейчас специалистов по системному анализу и искусственному интеллекту. Важность ее объясняется, в первую очередь, необходимостью анализа слабо структурированных массивов данных.
Информация, существенный компонент в сегодняшней интеллектуальной экономике, является динамической, дорогой и непрерывно изменяемой. Постоянное овладение новой и необходимой информацией оказывает существенное влияние на работу организаций. Имеются четыре области, на которые могут опираться организации для получения информации: информационный интерес, интеллектуальный капитал и управление знаниями, ревизия информационных ресурсов и виртуальные информационные сети. Эффективное использование этих областей может обеспечить организации персональное и профессиональное конкурентоспособное преимущество в экономической деятельности^ 1 - 3].
Моделирование процесса обработки информации и принятие решений человеком, экспликация и формализация тех соображений, которыми руководствуется человек при выборе информации из массива данных, могут оказаться весьма полезными при создании систем поиска информации, необходимой человеку.
В настоящей работе рассматриваются системы управления знаниями, используемыми для сбора, обработки и выдачи информации пользователю. Под управлением знаниями понимается процесс получения знания из доступных пользователю источников и выдача ему полученного знания[4 - 6]. Это
опирается на две основы: использование и эксплуатация информации, которой может владеть организация. Управление знанием помогает отслеживать временное изменение информации для организаций. Это форма централизованного экспертного управления, которое сосредоточено на использовании экспертизы специалистов в представлении знания. К типичным инструментальным средствам управления знаниями относят программные системы: World Wide Web, Lotus Notes, Internet, и Intranets. Разработки в области искусственного интеллекта, такие как интеллектуальные агенты, базы знаний, открытые знания, онтологии и экспертные системы, также играют важную роль в системах управления знаниями.
Типичная архитектура системы управления знаниями приведена на рис. 1.1 [5, 7, 8]. На увеличение используемости систем управления знаниями влияет несколько факторов.
• Влияние окружающей среды. Под влиянием окружающей среды понимается увеличение поступающей информации от различных источников. Возникает проблема определения: "является поступившая информация важной или нет для дальнейшего применения?" Глобализация и географическое распределение ресурсов также создают спрос на системы управления знаниями.
• Развитие технологий. Развитие технологии позволило за счет образования Internet облегчить создание систем управления знаниями. Практически все использование систем управления знаниями строится на основе броузеров Internet[9 - 12].
• Способность создавать ценную информацию. Системы управления знаниями позволяют создавать новое знание, преобразовывая информацию и доступное знание для индивидуального использования.
Процесс управления знаниямм строится по следующей схеме (рис. 1.2.):
1) создание (приобретение) знания - используется экспертная система для создания знаний, формируется база данных общения с пользователем;
Пользователь
Рис. 1.1. Архитектура системы управления знаниями
2) организация (сохранение) знания - создается репозитарий знаний, используются инструменты корректировки созданных (приобретенных) знаний;
3) распределение знания - создается репозитарий знаний, используются инструменты поиска для распределения скорректированных знаний;
4) применение знания - используется общение с пользователем системы
-
Похожие работы
- Семантическое программирование задач спектрального метода теории управления
- Разработка методов дедуктивного вывода на семантических сетях в системах оперативно-диспетчерского управления сложными объектами
- Инструментальные средства семантического моделирования для разработки программного обеспечения автоматизированных систем
- Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр
- Исследование и разработка электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность