автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей

кандидата технических наук
Хлопотов, Михаил Викторович
город
Уфа
год
2004
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей»

Автореферат диссертации по теме "Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей"

На правах рукописи

ХЛОПОТОВ Михаил Викторович

МЕТОДЫ И АЛГОРИТМЫ ОБНАРУЖЕНИЯ СЕМАНТИЧЕСКИХ ОШИБОК В ГИПЕРТЕКСТОВЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ НА ОСНОВЕ ОНТОЛОГИЧЕСКИХ МОДЕЛЕЙ

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Уфа 2004

Работа выполнена в Южно-Уральском государственном университете

Научный руководитель - доктор технических наук, профессор

Мельников Андрей Витальевич

Официальные оппоненты - доктор технических наук, профессор

Куликов Геннадий Григорьевич

доктор технических наук, профессор Чапцов Рудольф Петрович

Ведущая организация - Институт проблем управления им. Трапезникова

Российской академии наук

Защита состоится «17» декабря 2004 года в 10:00 часов, на заседании диссертационного совета К-212.288.01 Уфимского государственного авиационного технического университета по адресу: 450000, Уфа-центр, ул. К. Маркса, 12, УГАТУ

С диссертацией можно ознакомиться в библиотеке Уфимского государа венного авиационного университета.

Автореферат разослан «15» ноября 2004г.

Ученый секретарь диссертационного совета, кандидат физико-математических наук, доцент P.A. Гараев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Благодаря развитию, распространению и доступности глобальной информационной сети Internet её ресурсы - гипертекстовые информационные ресурсы (ГИР) - стали одним из основных источников повседневной, деловой и оперативной информации. Для того, чтобы информационный ресурс был действительно полезным, представленная в нем информация не должна содержать семантических ошибок.

На практике большинство документов, доступных через ГИР, содержат фактические противоречия даже с документами того же ГИР.

Часто это связано с тем, что документ, однажды размещенный в рамках ГИР, хранится в нем и не претерпевает никаких изменений за время своего существования, несмотря на то, что представленная в нем информация могла устареть по сравнению с информацией, приведенной в других документах.

Чем крупнее ресурс, тем больше вероятность того, что очередной документ содержит смысловые ошибки - редакторы ресурса не знают о необходимости внести исправления в некоторые документы.

Концептуальные проблемы создания моделей и систем для интеллектуального анализа информации рассматриваются в научных трудах Д.А. Поспелова, И. Хоррокса, Э. Йордана, Н.И. Юсуповой, О.П. Кузнецова В.И. Васильева и др.

Классические подходы к поиску ошибок в текстах основаны на анализе синтаксиса и морфологии. Очевидно, что поиск взаимопротиворечащих фрагментов может быть осуществлен только при помощи анализа смысла, содержащегося в ГИР, т.е. при помощи анализа семантики.

Несмотря на интенсивность работ в области обработки естественных текстов и их семантики, в настоящее время отсутствует научнообоснованный подход к обнаружению семантических ошибок в текстах на естественном языке, и, в частности, в ГИР. В связи с этим разработка методов и алгоритмов для обнаружения семантических ошибок является актуальным направлением исследований.

Для обнаружения смысловых ошибок ГИР при проведении анализа семантики необходима информация о предметной области, свойственных ей понятиях и отношениях между ними, а также ограничениях, свойственным этим отношениям. Такую информацию принято называть Онтологией, и автор считает, что онтологическая информация может быть использована для эффективного обнаружения нарушений правил предметной области.

Исследования проблемы формирования моделей онтологий посвящены работы Ю.М. Гусева, A.C. Нариньяни, Т.А. Гавриповой, Э.В. Попова, В.Ш. Рубашкина и др.

Последние годы наибольшие усилия ученых сосредоточены вокруг направления SemanticWeb, поддерживаемого консорциумом World Wide Web

Consortium, и основанного на таких технологиях, как XML и RDF. Это обеспечивает эффективное взаимодействие ученых со всего мира и позволяет воплотить их труды в виде технических рекомендаций и стандартов.

Однако все эти модели носят декларативный характер, и не обладают продукционными возможностями, необходимыми для семантического поиска ошибок.

На основании сказанного выше сформулирована основная цель диссертационной работы и задачи исследования.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов и алгоритмов обнаружения семантических ошибок в ГИР на основе семантических моделей выявления парадоксов в информационных ресурсах.

В процессе достижения данной цели были сформулированы и решены следующие задачи:

- разработка модели представления семантики ГИР, способной отражать понятия и структуры, свойственные текстам естественного языка;

- разработка алгоритмов обработки семантики ГИР и проверки её соответствия ограничениям, характерным для конкретной предметной области;

- разработка формальных методов записи и алгоритмов обработки контекста отношений, с учетом необходимости наложения ограничений на них;

- предложены методы и алгоритмы проверки семантической целостности ГИР и, как следствие, обнаружения семантических ошибок;

- разработка базовой онтологии «ГИР организации» для использования при проверке информационных ресурсов;

- разработка информационной системы «TergereLibrum», осуществляющей обнаружение семантических ошибок в ГИР.

Методы исследования. При выполнении исследования был использован математический аппарат теории множеств, теории графов, теории формальных семантик, логики двухместных и N-местных предикатов. Результаты, выносимые на защиту:

1. Результаты анализа ошибок, характерных для гипертекстовых информационных ресурсов.

2. Теоретическое описание модели онтологий, её особенностей и элементов, обеспечивающих синтез парадоксов в семантической сети.

3. Типовые алгоритмы поиска семантических ошибок в ГИР.

4. Архитектура информационной системы «TergereLibrum».

Научная новизна работы заключается в следующем:

- разработан метод обнаружения смысловых ошибок в ГИР, основанный на исследовании семантической целостности семантической сети, моделирующей

ГИР, относительно онтологии, описывающей структуру и свойства предметной области ГИР;

- предложен формализм «семантические правила», позволяющие описывать алгоритмы семантической обработки в терминах семантических сетей. Эти правила используются для создания особых объектов-парадоксов, позволяющих описывать нарушения семантической целостности сети;

- разработана модель представления контекстной зависимости свойств онтологии предметной области, соответствующей N-местным предикатам, а также новый алгоритм обработки N-местных предикатов в виде набора 2 местных предикатов.

Практическая значимость и внедрение результатов. Основными практическими результатами исследования является следующее:

1. Разработана информационная система «TergereLibrum», предназначенная для обнаружения семантических ошибок в ГЙР и управления его содержимым.

2. Разработана базовая онтология предметной области «ГИР организации».

3. Разработана методика и алгоритмы обнаружения семантических ошибок в ГИР путем проверки семантической целостности семантической сети.

Разработанные в ходе диссертационного исследования модели, методы и алгоритмы используются в программных системах управления Web-сайтами ряда промышленных предприятий и организаций, в том числе ОАО «Автомобильный завод «Урал», ЗАО «Интерсвязь», ГОУ ВПО «Челябинский государственный университет».

Апробация работы. Положения диссертации и результаты исследования докладывались на 6 научных и научно-практических конференциях, в том числе:

- Международная научно-практическая конференция «Автоматизированные системы управления промышленным предприятием АСУ-ПП 2003», г. Москва, ИПУ РАН 2003 г,

- Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2003» г. Уфа, УГАТУ, 2003г.

- Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2004», 2004 г. Будапешт, Венгрия

- Российская научно-практическая конференция «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. РБП-СУЗ 2004»,2004 г. Москва, МЭСИ и РАИИ, 2004. Связь с государственными программами. Исследование выполнено в рамках тематики пункта № 5 плана дополнительных мероприятий федеральной целевой программы «Электронная Россия»: «Разработка концепции и реализация практических мер по обеспечению общедоступности государственных информационных ресурсов с учетом мероприятий по обеспечению их

целостности и достоверности» и федеральной целевой программы «Информатизация образования».

Публикации. Основные положения исследования нашли отражение в 6 публикациях, в том числе в сборниках научных трудов и материалах научно-технических конференций.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложения. Общий объем работы составляет 125 страниц. В работу входит 23 рисунка, 17 таблиц. Список литературы содержит 109 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертационной работы, формулируются цель, научная новизна и практическая значимость полученных результатов.

В первой главе рассматриваются понятие ошибки, особенности ошибок, свойственных гипертекстовым информационным ресурсам, основные методы и модели обнаружения смысловых ошибок.

Для обнаружения смысловых ошибок ГИР при проведении анализа семантики необходима информация о предметной области, свойственных ей понятиях и отношениях между ними, а также ограничениях, свойственным этим отношениям. Такую информацию принято называть Онтологией. Онтологическая информация может быть использована для эффективного обнаружения нарушений правил предметной области.

Определим понятие «семантической целостности» как отсутствие противоречий между знаниями о предметной области, описанными в виде онтологии, и знаниями, приведенными в текстах ГИР.

На сегодняшний день разработано и разрабатывается множество моделей онтологии. Среди них 1DEF5, DAML+OIL, OIL, KIF, OWL, CYCL. Все они так или иначе базируются на модели семантических сетей или сводимы к ней.

Среди моделей наблюдается разнообразие используемых терминов. Так, модель OIL использует понятия фрейма и слота, модели OWL и DAML используют в том же смысле понятия классов и свойств (отношений), а модель CYCL -коллекция и предикат.

Рассмотренные модели имеют три основных цели их создания: автоматизированное понимание текстов, построение логического вывода на основе знаний о предметной области, и интероперабельное описание предметной области. Ни одна из рассмотренных моделей не проектировалась с целыо

обнаружения семантических ошибок, кроме того, большинство моделей не поддержаны стандартизующими организациями.

Модель OWL, разработанная консорциумом W3 в рамках проекта SemanicWeb, учитывает опыт разработчиков DAML, OIL и многих других моделей. В настоящее время она принята как стандарт. В работе используется модель OWL как основа для синтеза модели онтологии, удовлетворяющей задачам исследования.

Во второй главе разрабатывается онтологическая модель, совместимая со стандартом OWL и дополняющая его поддержкой контекстно-зависимых свойств, семантическими правилами и возможностью интерпретации парадоксальной семантики.

Для анализа смысла, содержащегося в семантической сети, составим её интерпретацию.

Под интерпретацией будем понимать теоретико-множественное представление знаний, записанных в семантической сети, в котором идентификаторам URL сопоставлены абстрактные сущности, соответствующие понятиям реального мира. Будем считать, что семантическая сеть описывает «мир», вернее - минимальный набор условий, которым «мир» должен соответствовать, чтобы каждому утверждению сети соответствовал конкретный аспект «мира». Такой подход называется концепцией открытого мира, т.е. мира, в котором есть всё, что описано семантической сетью, а всё остальное возможно, но не обязательно. Определение 1

Интерпретация I семантической сети - это отображение из множества сетей во множество логических значений {истина, ложь}, определяемое кортежем Q и рекурсивными правилами. Кортеж Ci имеет вид

С, = <V,, Ri, Р„ EXT,, Si, Lb LV, > (1)

где Vi — множество URL, словарь ПрО, Ri - множество ресурсов,

Si - отображение V => Rb т.е. отображение множества URL во множество ресурсов,

Pi с Ri - множество свойств,

EXTi: отображение Pj=>R,xR| - из множества свойств во множество множеств пар вида <xeRi,yeRi>, расширение свойства, LVi - множество строковых значений литералов, Li - отображение из LV в множество ресурсов, а правила заданы таблично:

__Таблица 1

Если Е то 1(Е)= Примечание

тройка-утверждение <s> <р> <о>. истина, если и только если б, р, О € V,, 5](р)еР| и <Б,(з),8, (о^еЕХТ,^ (р)) или <8, (8),Ь, (о)>бЕХТ]($1 (р)) Интерпретация утверждения истинна, если утверждение интерпретировано

RDF-сеть ложь, если 3 Е' = <5><р><о>., такое, что Е' е Е, ](Е') = ложь, иначе истина Интерпретация сети Е ложна, если в ней есть хотя бы одно утверждение, не соответствующее интерпретации

Определение 2

Интерпретация семантической сети с учетом модели Q называется Q-интерпретацией и определяется:

- словарем модели Q с: R,

- описанием семантики элементов словаря Q.

При этом под моделью понимается совокупность правил интерпретации сети, смысл, вложенный в предопределенные идентификаторы и т.д. В качестве примера можно привести: базовую RDF-интерпретацию, интерпретацию с учетом иерархии классов - RDFS-интерпретацию, и интерпретацию разработанной модели.

Цель, поставленная в данной диссертационной работе, определяет основные задачи. Одной из них является синтез модели представления ограничений семантики, характерных для конкретной предметной области.

Такая модель разработана на основе модели OWL путем определения ключевых ограничений и учета их в интерпретации.

Из модели OWL и RDFS унаследованы понятия класса, иерархии классов, свойства и иерархии свойств.

Класс - абстрактный узел семантической сети, представляющий собой обобщение некоторого множества объектов.

Расширение класса - множество объектов, принадлежащих классу.

Для классов наиболее важным является понятие подкласса: а называется подклассом Ь, если все элементы а являются элементами Ь, и а называется суперклассом Ь, если все элементы а являются элементами Ь.

Для каждого класса определим 0 или более необходимых условий принадлежности классу. Если объект относится к классу, он должен удовлетворять всем наложенным на класс условиям. Иначе принадлежность

объекта к классу является нарушением семантической целостности. Ограничение определяется:

- классом, к которому оно применяется,

- свойством, к которому оно применяется в контексте выбранного класса,

- типом ограничения:

owkallValuesFrom - все значения свойства должны принадлежать указанному классу, локальное ограничение на диапазон свойства;

owhsomeValuesFrom - хотя бы одно значение свойства должно принадлежать указанному классу;

owkminCardinality, owkmaxCardinality и owlxardinality - минимальное, максимальное и точное количество значений свойства;

owkhasValue - у объектов данного класса указанное свойство имеет конкретное значение.

Класс наследует ограничения всех его родительских классов.

Для составления онтологий предметной области, предназначенных для выявления семантических ошибок в ГИР, ограничений, предусмотренных в языке OWL, оказывается недостаточно, модель OWL не способна описывать ограничения контекстно-зависимых свойств, т.е. отношений, возникающих между понятиями в определенном контексте.

Будем рассматривать контекстные свойства как N-местный предикат, имеющий один субъект и упорядоченное множество объектов:

Тогда можно произвести декомпозицию свойства Рко„т на несколько обычных свойств: РкоитЭ, Рко1п01, Ркопт02> ••••

В работе предлагается использовать для записи таких свойств метод реификации. Создадим для отношения РК01гг объект Ок01ГГ и включим его в отношения Рконтв, Ркоитоь Ршп02. ••• следующим образом:

Pko„T(S,0„02,... )

(1)

Pkonts(S,OKO|,t), PkoiitOi(OkoiitjOi), Ркоит02(Окопт5 o2).

(2)

Рис. 1. Контекстное отношение

Рис. 2. Реификационная запись контекстного отношения

В такой форма записи ограничения контекстного свойства средствами OWL выразимы не полностью. Для возможности описания ограничений на контекстных свойствах и дополнительных ограничений, которые могут потребоваться при составлении онтологии предметной области, включим в состав модели онтологий семантические правила.

Запишем правило в виде трех RDF-сетей: С, N и А, где С - сеть условий, N -сеть отрицательных условий, и А - сеть расширения.

Для обеспечения возможности записи гибких условий введем понятие пустого узла. Пустой узел может участвовать в отношениях наравне с URL и литералами (в качестве субъекта, объекта или предиката), и подразумевает собой существование ресурса, о природе и идентификации которого ничего не известно.

Определим правило кортежем R = <С, N, А>, (3) где С - RDF-сеть условий, N - RDF-сеть отрицательных условий, А - RDF-сеть расширения.

Если существует преобразование Z из анонимных узлов во множество ресурсов, такое что любая интерпретация I сети G истинна для сети условий и ложна для всех утверждений сети отрицательных условий, то эта интерпретация истинна и для сети расширения.

3Z: Q=>R, V I(G)=true: I(Z(C))=true & VSeZ(N), I(S)=false => I(Z(A))=true

В контексте задачи данного диссертационного исследования будем различать правила, определяющие интерпретацию семантически целостных сетей, и правила, определяющие интерпретацию сетей с нарушениями семантической целостности.

Это определяет существенное отличие разрабатываемой модели онтологий от модели OWL: в модели OWL, сеть, имеющая нарушения семантической

целостности, не может быть интерпретирована, тогда как в данной модели для нарушений семантики существует особая интерпретация.

Важнейшей особенностью разработанной модели онтологии является её способность выявлять и локализовать семантические ошибки. Для обеспечения такой возможности в модели определено понятие парадокса:

Парадокс - явление существования в семантической сети утверждений, не удовлетворяющих условиям ассоциированной онтологии.

С другой стороны, Парадокс - особый объект семантической сети ГИР, описывающий нарушение семантической целостности, имеющееся в этой сети.

Парадоксы определяются при помощи правил (ограничений), формирующих онтологию.

Парадокс может быть выявлен относительно ограничений классов - для некоторого объекта заявлена принадлежность классу, но как минимум одно из условий принадлежности не выполнено.

В третьей главе разрабатываются алгоритмы обнаружения семантических ошибок с использованием онтологических моделей. Определяются основные структуры и форматы данных.

гШэЛуре

Рис. 3. Объект-парадокс В терминах семантической сети парадокс локализуется следующим образом: Р - объект класса рс1х:Рагас!ох, может быть наделен следующими свойствами: Р рск'.ргореЛу РР, где РР - свойства парадокса, которые могут быть: Р рсктезНчсиоп Я, где Я - нарушенное ограничение, Р рс!х:аг§итеп1 А, где А - аргументы нарушенного ограничения.

Р рсЬсюЬуесЛ О — объект, нарушающий ограничение Я,

Р рсЬсгоУейРгореЛу ОР, где ОР - свойства объекта, нарушающие ограничение, и

Р рс!х:уа1ие V, где V - значения свойств, нарушающие ограничение.

Разрабатывая общий алгоритм обнаружения семантических ошибок в ГИР, рассмотрим наиболее общий случай изменения ресурса - когда к исходному ГИР добавляется новый документ, и требуется произвести поиск ошибок в обновленном ГИР.

Обобщенный алгоритм проверки семантической целостности сети:

1. Построить семантическую сеть С добавляемого документа Б.

2. Добавить семантическую сеть й нового документа в сеть В. (В+С=В')

3. Выполнить расширительные правила (В,=>Вра':ш).

4. Выполнить проверочные правила (Врасш=>Впров).

5. Найти множество Р объектов-парадоксов и извлечь их свойства.

6. Сформировать отчет К о найденных парадоксах Р и их причинах.

А— -

1. 1 ь

О в

в В В-

3.

1

В'

Рис. 4. Алгоритм поиска семантических ошибок в ГИР

Будем выполнять правила последовательно и в цикле, до тех пор, пока очередной проход цикла вносит изменения в семантическую сеть. Формализуем этот процесс в виде следующего алгоритма:

1. Для каждого правила составить все возможные отображения Z из множества пустых узлов во множество URL.

2. Добавить исполнительную часть правила в исходную сеть с использованием операции слияния семантических сетей.

3. Если хотя бы одно правило добавило хотя бы одно утверждение в исходную сеть, то процесс повторяется с пункта 1.

Рассмотрим алгоритм поиска отображений Z.

Составим список утверждений, формирующих оба графа условий, при этом для каждого утверждения определим признак существования. Если утверждение получено из сети положительных утверждений, то признак существования будет иметь значение «ИСТИНА», а если из сети отсутствующих утверждений - то «ЛОЖЬ».

Тогда каждое из утверждений (сейчас они уже рассматриваются как условия) может содержать до трех пустых узлов. Если идентификатор пустого узла встречается впервые за время выполнения данного правила, то будем искать подходящее для него значение URL, а если повторно - то заменим его на найденным ранее значением. Для представления соответствия между идентификаторами пустых узлов и URL будем использовать ассоциативный массив, где в качестве ключа будет выступать имя пустого узла, а в качестве значения - найденный для него URL, например:

z=(

а => "http://comp.susu.ac.rU/a", b => "http://comp.susu.ас.ru/b"

},

где а и b - имена пустых узлов, а «http://comp.susu.ac.ru/a» и «http://comp.susu.ac.ru/b» - найденные для них значения.

Наличие в Z к моменту проверки условия одной из указанных в нем переменных уменьшает количество неизвестных в условии.

Алгоритм поиска отображения Z для расширительных правил:

1. Z-пустое.

2. В очередном условии заменим пустые узлы в соответствии с Z.

3. Если в условии остались пустые узлы, то найдем для них все возможные значения URL.

4. Если признак существования для рассматриваемого условия «ЛОЖЬ», и утверждение существует в сети, то обработка правила прекращается с признаком «не выполнено», иначе переход к следующему условию в цепочке и возврат значения, полученного от выполнения этого условия.

5. Если признак существования «ИСТИНА», и в текущем шаге не найдено ни одного нового элемента Ъ, то обработка правила прекращается с признаком «не выполнено», иначе выполняется следующее условие со всеми найденными в текущем шаге вариантами Z. При этом если для одного из вариантов Ъ будет возвращен статус «выполнено», то и текущее правило возвращает «выполнено».

6. Если далее по цепочке правил нет, то перейти к выполнению исполнимой части. Выполнение исполнимой части состоит в слиянии исходной сети с исполнимой частью условия, преобразованной с учетом Ъ. Операция слияния возвращает количество измененных утверждений, и если это количество оказалось равным 0, то возврат из правила осуществляется с признаком «не выполнено».

В четвертой главе разрабатывается архитектура информационной системы, предназначенной для обнаружения семантических ошибок в гипертекстовых информационных ресурсах, а также описывается процесс разработки онтологии для конкретной организации и её гипертекстового ресурса.

Наиболее эффективным способом внедрения программного обеспечения, предназначенного для обнаружения семантических ошибок в ГИР, является разработка информационной системы, основанной на системе управления содержимым информационного ресурса.

Для каждого документа, поступающего в ГИР, создается собственная семантическая сеть, которая вливается в общую семантическую сеть ГИР. Специальный программный модуль - онтопроцессор - на основании онтологического описания предметной области ГИР производит анализ и выявление парадоксов, указывая на возможный источник ошибки. Сведения об ошибках поступают редактору ГИР (оператору ИС), который имеет возможность внести изменения в документы ИС и исправить парадокс, действуя по той же цепочке, что и при первоначальном вводе документа.

Рис. 5. Общая технологическая схема поиска семантических ошибок

Основная функциональность по обнаружению парадоксов лежит на онтологическом процессоре. Онтологический процессор - это программный модуль, входными данными для которого являются естественная семантическая сеть (см 2.3.3.) и онтология. На выходе семантического процессора -расширенная семантическая сеть, содержащая весь объем логических выводов, сделанных при помощи онтологии, и объекты-парадоксы, возникшие из-за нарушения условий онтологии. Онтопроцессор выполняет все правила, содержащиеся в онтологии согласно алгоритмам, описанным в главе 3.

Поскольку хранилище семантических сетей построено на базе Redland RDF Application Framework, то онтопроцессор строится на базе той же программной среды. Процессор онтологий реализуется как надстройка к REDLAND, и осуществляет все манипуляции над сетями при помощи Redland API.

XSLT - универсальный язык преобразования документов XML, разработанный W3C. Процессор XSLT является ядром системы управления

документами. Он используется для преобразования XML-форматов и диалектов. XSLT-процессор выполняет следующие основные функции:

- преобразование документов, поступающих от интерфейсной части ИС в формате HTML в формат, используемый при хранении документов (XML);

- преобразование из формата хранения (XML) в формат xHTML для выдачи посетителю ресурса (применение стилевого оформления);

- синтез информации о структуре ресурса для клиентской части в формате RDF;

- обновление индексных файлов при добавлении, перемещении или удалении документов;

- изменение, удаление или добавление атрибутов к существующим документам и разделам.

Инженер знаний

Онтология Семантика Текст Стиль

Онто^процёссор

м / ,\ ;

/_Семантический \_JL_

анализатор

We

XSÜ'-npao.'eccop

Ь-сервер

Интерфейс редактора

Web-браузер

И1

t

Дизайнер

Редактор ГИР

Пользователь ГИР

Рис. 6. Архитектура информационной системы «TergereLibrum»

Использование архитектуры, построенной на открытых стандартах линейки XML, позволяет получить гибкую и открытую к изменению систему, которая может быть дополнена модулями или включена в информационную среду предприятия.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ

Проведенные в рамках данной работы исследования образуют теоретическую и практическую основу для решения задачи обнаружения семантических ошибок в ГИР. К основным результатам диссертационного исследования следует отнести следующее:

1. Проведен анализ категорий ГИР и ошибок ГИР, на основе которого выделена предметная область «ГИР организации» как основной объект применения разрабатываемых методов и алгоритмов.

2. Определено понятие семантической целостности, которое определяется как отсутствие противоречий между знаниями о предметной области и знаниями, представленными в текстах ГИР, которое позволяет делать выводы о наличии семантических ошибок в текстах информационного ресурса.

3. Разработаны методы поиска семантических ошибок в текстах ГИР, использующие модель онтологии, дополненную механизмом расширения на основе семантических правил, который позволяет интерпретировать нарушения семантической целостности при помощи объектов-парадоксов.

4. Предложены типовые алгоритмы проверки семантической целостности семантической сети, поиска парадоксов, локализации текстовых фрагментов, повлекших за собой возникновение парадоксов и, как следствие, предложен алгоритм обнаружения семантических ошибок в ГИР.

5. Разработана типовая онтология предметной области «ГИР организации», включающая в себя понятия, характерные для корпоративных Internet-сайтов: общие сведения о предприятии, продукция, сотрудники, взаимодействие с другими предприятиями.

6. Предложена методика раздельного хранения семантики ГИР и его естественного текста, позволяющая установить связь между фрагментом семантики и фрагментом текста, его породившим. Эта связь является необходимым звеном для перехода от нарушений семантической целостности семантической сети к смысловым ошибкам в текстах на естественном языке.

7. Разработана и внедрена в нескольких организациях информационная система «TergereLibrum», реализующая рассмотренные в исследовании принципы и алгоритмы. Использование в ИС индустриальных стандартов XML, RDF и IEEE 1600.1 позволило построить гибкую модульную систему, способную к расширению и совместимую с большим количеством программного обеспечения, обработки текстов, семантического анализа и анализа с учетом онтологий.

По теме диссертационной работы опубликованы следующие работы:

1. Мельников А.В, Хлопотов М.В. Парадоксы в семантике гипертекстового информационного ресурса (ГИР), достоверность ГИР. Материалы седьмой научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями - 2004»//М.: МЭСИ, 2004с. 189-192

2. Хлопотов М.В. Применение RDF для описания структуры информационных ресурсов. // Интеллект, логистика, системология. Сборник научных трудов. Вып. 7 \ Под ред. Р.П. Чапцова. / Челябинск: Издание ЧНЦ РАЕН, РУО МАИ, ЧРО МАНПО, ЧРО МААНОИ, 2002. - 207 с.

3. Хлопотов М.В. Обеспечение достоверности Internet-pecypcoB // Современные проблемы атомной энергетики. Сборник трудов международной научно-практической конференции/Снежинск, 2003, стр. 208-212

4. Мельников A.B., Хлопотов М.В. Поддержание достоверности гипертекстового информационного ресурса (на англ.)/Материалы 5-й Международной конференции по проблемам информатики и информационных технологий CSIT'2003.- Уфа, УГАТУ, 2003.- Т.-1.- С. 197198.

5. Мельников A.B., Хлопотов М.В. Онтологии: Семантическое программирование (на англ.)/ Материалы 6-й Международной конференции по проблемам информатики и информационных технологий CSIT'2004.-Будапешт, Венгрия, 2004.- Т.-2.- С.11-12.

6. Мельников A.B., Хлопотов М.В. Обеспечение достоверности информационного ресурса промышленного предприятия// АСУ-ПП-2003. Сборник трудов международной научно-практической конференции /Москва, 2003.

ХЛОПОТОВ Михаил Викторович

МЕТОДЫ И АЛГОРИТМЫ ОБНАРУЖЕНИЯ СЕМАНТИЧЕСКИХ ОШИБОК В ГИПЕРТЕКСТОВЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ НА ОСНОВЕ ОНТОЛОГИЧЕСКИХ МОДЕЛЕЙ

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Подписано в печать 12.11.2004 Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Объем 1.0 - изд. л. Тираж 100 экз. Заказ 02-22. Бесплатно

Издательство «Фрегат» Центральный офис: Г. Челябинск, ул. Васенко, 96. тел. (3512) 63-34-59,98-29-22 Лицензия ЛР № 063457 Комитета Российской Федерации по печати Правительства Российской Федерации Отпечатано в типографии издательства «Фрегат» (г. Челябинск, ул. Чайковского, 9, 17-18).

РНБ Русский фонд

2007-4

1 з НОЯ 2004 I ,

\ \ : ;

Оглавление автор диссертации — кандидата технических наук Хлопотов, Михаил Викторович

ВВЕДЕНИЕ.

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ОБЗОР МОДЕЛЕЙ ОНТОЛОГИЙ.

1.1. Гипертекстовый информационный ресурс (ТИР).

1.1.1. Понятие гипертекста.

1.1.2. Понятие информационного ресурса.

1.1.3. Классификация ГИР.

1.2. Ошибки в ГИР.

1.2.1. Понятие ошибки.

1.2.2. Классификация ошибок.

1.2.3. Обнаружение ошибок.

1.3. Представление смысла.

1.4. Обзор моделей онтологий.

1.4.1. Семантическая сеть, RDF.

1.5. Формулировка задачи автоматизации обнаружения семантических ошибок в ГИР.

Выводы.

ГЛАВА 2. ОБЩАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СЕМАНТИКИ ГИР.

2.1. Представление семантики ГИР на основе стандарта RDF.

2.1.1. Интерпретация семантической сети.

2.1.2. Следование семантических сетей.

2.1.3. Понятие семантической целостности.

2.2. Онтология как математическое описание семантики предметной области.

2.2.1. Классы объектов.

2.2.2. Свойства и отношения между объектами.

2.2.3. Ограничения на классах.

2.3. Расширения модели онтологий.

2.3.1. Контекстные свойства.

2.3.2. Семантические правила.

2.3.3. Операция «расширения» семантической сети.56.

2.4. Возможные парадоксы в семантической сети представления ГИР.

2.4.1. Понятие парадокса.

2.4.2. Парадоксы ограничений классов.

2.4.3. Парадоксы свойств.

Выводы.

ГЛАВА 3. АЛГОРИТМЫ ОБНАРУЖЕНИЯ СЕМАНТИЧЕСКИХ

ОШИБОК В ГИР НА ОСНОВЕ ОНТОЛОГИЙ.

3.1. Основные операции.

3.1.1. Структуры данных.

3.1.2. Алгоритмическая поддержка объектов и свойств.

3.1.3. Базовые алгоритмы.

3.2. Алгоритм расширения семантический сети.

3.2.1. Преобразование сети условий.

3.2.2. Алгоритм выполнения расширительных правил.

3.2.3. Формирование семантической сети на основе естественных текстов ГИР.

3.3. Алгоритм проверки семантической целостности сети.

3.3.1. Выполнение проверочных правил.

3.3.2. Алгоритм поиска объектов-парадоксов.

3.3.3. Формирование отчета об обнаруженных парадоксах.

3.4. Архитектура информационной системы.

3.4.1. Общая технологическая схема.

3.4.2. Программные модули системы.

3.4.3. Интерфейс пользователя.

Выводы.

ГЛАВА 4. РАЗРАБОТКА ОНТОЛОГИИ И ВНЕДРЕНИЕ

ИНФОРМАЦИОННОЙ СИСТЕМЫ.

4.1. Базовая онтология веб-сайтов.

4.1.1. Иерархия классов.

4.2. Ограничения - правила.

4.2.1. Правило: контекстные свойства.

4.2.2. Правило: даты в диапазоне.

4.3. Настройка ИС на примере A3 Урал.

4.4. Взаимодействие с ИС.

4.4.1. Ввод документов.

4.4.2. Обнаружение, исследование и устранение парадоксов.

Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Хлопотов, Михаил Викторович

Развитие, распространение и доступность глобальной информационной сети Internet сделали Internet-pecypcbi - одним из основных источников повседневной, деловой и оперативной информации. Оперативность размещения информации, отсутствие затрат на тиражирование и минимальные затраты на обслуживание объемных публикаций позволяют размещать в рамках Internet-ресурсов большие объемы справочной информации [18].

Полезность информационного ресурса возрастает с ростом объема доступной через него информации. Например, более детальная и разнообразная информация о предприятии и его продукции позволяют повысить сбыт продукции, укрепить положительный образ предприятия в массовом сознании и привлечь инвестиции.

Естественно, что для того, чтобы информационный ресурс был действительно полезным, представленная на нем информация не должна содержать семантических ошибок.

Достоверность информационных ресурсов является важным аспектом для государственных информационных ресурсов, исследование выполняется по тематике пункта №5 плана дополнительных мероприятий федеральной целевой программы «Электронная Россия»: «Разработка концепции и реализация практических мер по обеспечению общедоступности государственных информационных ресурсов с учетом мероприятий по обеспечению их целостности и достоверности»

На сегодняшний день наиболее популярным видом Internet-pecypcoB являются гипертекстовые информационные ресурсы (далее - ГИР), представляющие информацию в виде набора гипертекстовых страниц, т.е. страниц текста, снабженных ссылками, позволяющими осуществлять быстрый переход к другим страницам.

Оперативная (on-line) природа ГИР обеспечивает возможность предоставления наиболее актуальной и достоверной информации, ведь если технически передача информации из ресурса к пользователю осуществляется непосредственно в момент запроса, устаревших сведений она содержать не должна.

К сожалению, на практике большинство документов, доступных через ГИР, содержат фактические противоречия даже с документами того же ГИР.

Документ, однажды размещенный в рамках ГИР, хранится в нем и не претерпевает никаких изменений за время своего существования, несмотря на то, что представленная в нем информация могла устареть по сравнению с информацией, приведенной в других документах.

Предприятие развивается, осваивает новые виды продукции, изменяет характеристики старой, меняет собственные реквизиты и т.д., а подготовленные ранее обзоры, спецификации и статьи по-прежнему содержат информацию о предыдущем состоянии дел.

Нередки случаи, когда изменение существенной информации о предприятии, организации или продукции отражено на главной странице ГИР, в разделе новостей или обновлений, но не отражено в других документах. Зачастую это связано с тем, что задача отслеживания актуальности документов чрезвычайно трудоемка - при появлении очередной новости требуется просмотреть все документы ГИР на предмет возможных изменений. Чем крупнее ресурс, тем больше вероятность того, что очередной документ содержит семантическую ошибку - редакторы ресурса просто не знают о необходимости внести исправления в конкретный документ.

Текстовые поисковые системы также не способны справиться с обнаружением устаревших или содержащих ошибки фрагментов документов -одна и та же информация может представляться в разной форме и с различной степенью детальности. Очевидно, что поиск взаимопротиворечащих фрагментов может быть осуществлен только при помощи анализа смысла, содержащегося в ГИР, т.е. при помощи анализа семантики.

На сегодняшний день разработано большое количество моделей представления семантики[32,45,51] и программного обеспечения, осуществляющего извлечение семантики из естественного текста [3, 93], поэтому построение семантического представления документов (семантический анализ) не является задачей данного диссертационного исследования.

Для обнаружения смысловых ошибок ГИР помимо собственно представления семантики необходима информация о предметной области, свойственных ей понятиях и отношениях между ними, а также ограничениях, свойственным этим отношениям. Такую информацию принято называть Онтологией, и онтологическая информация может быть использована для эффективного обнаружения нарушений правил предметной области.

Такие нарушения будем называть парадоксами, и будем рассматривать поиск парадоксов как одну из задач исследования.

Цели и задачи диссертационного исследования

Основной целью диссертационного исследования является разработка методов и алгоритмов обнаружения семантических ошибок в ГИР на основе семантических моделей выявления парадоксов в информационных ресурсах.

Для достижения этой цели необходимо решить следующие задачи:

- разработать модель представления семантики ГИР, способной отражать понятия и структуры, свойственные текстам естественного языка;

- разработать алгоритмы обработки семантики ГИР и проверки её соответствия ограничениям, характерным для конкретной предметной области;

- разработать формальные методы записи и алгоритмы обработки контекста отношений, с учетом необходимости наложения ограничений на них;

- предложить методы и алгоритмы проверки семантической целостности ГИР, и, как следствие, обнаружения семантических ошибок;

- разработать базовую онтологию «ГИР организации» для использования при проверке информационных ресурсов;

- разработать информационную систему «Те^еге1ЛЬгшп»,. осуществляющую обнаружение семантических ошибок в ГИР.

Научная новизна и практическая ценность диссертационного исследования

- разработан метод обнаружения смысловых ошибок в ГИР , основанный на исследовании семантической целостности семантической сети, моделирующей ГИР, относительно онтологии, описывающей структуру и свойства предметной области ГИР;

- предложены формализм «семантические правила», позволяющие описывать алгоритмы семантической обработки в терминах семантических сетей. Эти правила используются для создания особых объектов-парадоксов, позволяющих описывать нарушения семантической целостности сети;

- разработана модель представления контекстной зависимости свойств онтологии предметной области, соответствующей И-местным предикатам, а также новый алгоритм обработки Ы-местных предикатов в виде набора 2-х местных предикатов.

При выполнении исследования используется математический аппарат теории множеств, теории графов, теории формальных семантик, логики двухместных и N-местных предикатов.

Основными практическими результатами исследования является следующее:

1. Разработана информационная система «TergereLibrum», предназначенная для обнаружения семантических ошибок в ГИР и управления его содержимым.

2. Разработана базовая онтология предметной области «ГИР организации».

3. Разработана методика и алгоритмы обнаружения семантических ошибок в ГИР путем проверки семантической целостности семантической сети.

Практическая ценность результатов исследования

Разработанные в ходе диссертационного исследования модели, методы и алгоритмы используются в программных системах управления информационным ресурсом нескольких промышленных предприятий: ОАО «Автомобильный завод «Урал», ЗАО «Интерсвязь», Челябинский государственный университет.

Положения исследования докладывались на следующих научных и научно-практических конференциях:

- Международная научно-практическая конференция «Автоматизированные системы управления промышленным предприятием АСУ-ПП 2003», г. Москва, ИПУ РАН 2003 г;

- Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2003», г. Уфа, УГАТУ, 2003г;

- Российская научно-практическая конференция «Реинжиниринг бизнес-процессов на основе современных информационных технологий.

Системы управления знаниями РБП-СУЗ 2004», г. Москва, МЭСИ и РАИИ, 2004;

- Международная научно-практическая конференция «Computer Science & Information Technology, CSIT 2004», г. Будапешт, Венгрия, 2004г

Основные положения исследования нашли отражение в 8 публикациях, в том числе в сборниках научных трудов и материалах научно-практических конференций.

Заключение диссертация на тему "Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей"

Выводы

1. Предложена общая технологическая схема и архитектура информационной системы, обеспечивающей поиск семантических ошибок в ГИР и управление им. Использование в ИС открытых международных стандартов и программного обеспечения с открытым исходным кодом позволяет добиться высокого уровня повторного использования компонентов и возможности простого расширения и развития информационной системы.

2. Рассмотрена базовая онтология понятий, характерных для коммерческих и корпоративных ГИР, описаны принципы и подходы к разработке онтологий, составлены основные семантические правила и даны рекомендации по их разработке.

3. Описан процесс внедрения ИС, настройки ИС на особенности предприятия и его ГИР, разработка локальных онтологий. Использование механизма локальных онтологий позволило избежать перегрузки общей онтологии при разработке базовой системы и добиться соответствия каждому конкретному ГИР.

4. Приведено описание использования информационной системы, наполнения ГИР содержимым, операций с документами и обработки парадоксов. Рассмотрена работа с парадоксами в клиентской части ИС, приведены методы нахождения парадоксов и способы их устранения.

ЗАКЛЮЧЕНИЕ

Проведенные в рамках данной работы исследования образуют теоретическую и практическую основу для решения задачи обнаружения семантических ошибок в ГИР. К основным результатам диссертационного исследования следует отнести следующее:

1. Проведен анализ категорий ГИР и ошибок ГИР, на основе которого выделена предметная область «ГИР организации» как основной объект применения разрабатываемых методов и алгоритмов.

2. Определено понятие семантической целостности, которое определяется как отсутствие противоречий между знаниями о предметной области и знаниями, представленными в текстах ГИР, которое позволяет делать выводы о наличии семантических ошибок в текстах информационного ресурса.

3. Разработаны методы поиска семантических ошибок в текстах ГИР, использующие модель онтологии, дополненную механизмом расширения на основе семантических правил, который позволяет интерпретировать нарушения семантической целостности при помощи объектов-парадоксов.

4. Предложены типовые алгоритмы проверки семантической целостности семантической сети, поиска парадоксов, локализации текстовых фрагментов, повлекших за собой возникновение парадоксов и, как следствие, предложен алгоритм обнаружения семантических ошибок в ГИР.

5. Разработана типовая онтология предметной области «ГИР организации», включающая в себя понятия, характерные для корпоративных 1п1егпе1> сайтов: общие сведения о предприятии, продукция, сотрудники, взаимодействие с другими предприятиями.

6. Предложена методика раздельного хранения семантики ГИР и его естественного текста, позволяющая установить связь между фрагментом семантики и фрагментом текста, его породившим. Эта связь является необходимым звеном для перехода от нарушений семантической целостности семантической сети к смысловым ошибкам в текстах на естественном языке.

7. Разработана и внедрена в нескольких организациях информационная система «TergereLibrum», реализующая рассмотренные в исследовании принципы и алгоритмы. Использование в ИС индустриальных стандартов XML, RDF и IEEE 1600.1 позволило построить гибкую модульную систему, способную к расширению и совместимую с большим количеством программного обеспечения, обработки текстов, семантического анализа и анализа с учетом онтологий.

Библиография Хлопотов, Михаил Викторович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. A.B. Поликахин, А.Ю. Савин. Гипертекст: сущность, состояние, проблемы, перспективы // М.: ИПЕ АЕН РФ, 1993.- 127 с.

2. А.П.Веревченко. Информационные ресурсы: определение, основные понятия, параметры, особенности открытого потока информации, помехи, возникающие в каналах поступления информации. http://www.mai.ru/~gr08x07/vap/verin010.htm.

3. Автоматическая Обработка Текста, http://www.aot.ru.

4. Александров Е.А. Основы теории эвристических решений: Подход к изучению естественного и построению искусственного интеллекта. М.: Сов. Радио, 1975. 256 с.

5. Бондаренко М.Ф., Маторин С.И., Соловьёва Е.А. Особенности теории и практики решения сложных проблем на основе онтологий // Искусственный интеллект. 2000. - N3. - С. 25-33.

6. Брудно В.А. Базы данных с неполной информацией / В.А. Брудно, Д.П. Скворцов, В.К. Финн, М.Ш. Цаленко // Семиотика и информатика. -М.ВИНИТИ, 1985. Вып. 25

7. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++, 2-е изд./Пер. с англ. М.: Изд-во "Бином", СПб.: "Невский диалект", 2000. - 560 с.

8. Валиков А. Технология XSLT. СПб.; БХВ, 2002. - 544 с.

9. Веревченко А.П., Горчаков В.В., Иванов И.В., Голодова О.В. Информационные ресурсы для принятия решений. Учебное пособие. М.: Академический Проект; Екатеринбург: Деловая книга, 2002. 560 с.

10. Г. Верников. Стандарт онтологического исследования IDEF5 http://www.cfin.ru/vernikov/idef/idef5.shtml.11 .Г. Верников. Стандарты моделирования IDEF5 и ABC http://www.cfin.ru/vernikov/idef/index.shtml.

11. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. /Учебник. Спб.: Питер, 2001.-384 с.

12. Н.Головин Б.Н. Основы культуры речи. М. М., Высшая школа, 1980-с. 10

13. Горбатов В.А. Логическое управление информационными процессами/ В.А. Горбатов, П.Г. Павлов, В.Н. Четвериков. М.: Энергоатомиздат 1984. -304с.

14. Городецкий В.И. Информационные технологии и многоагентные системы // Проблемы информатизации. 1998. Вып. 1. С. 3 14.

15. Д.Л.Кречман. Визуализация гипертекста. Сб.статей "Пользовательский интерфейс: исследование, проектирование, реализация" No 3, 1993, стр.2632.

16. Дворак Д. Дамоклов меч информационной перегрузки // PC Magazine Russian Edition, №5, 1995, С. 84-85

17. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений: Пер. с англ./Под ред. H.H. Моисеева, С.А. Орловского. М.: Мир, 1976. 165 с.

18. Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник/Под редакцией Д.А. Поспелова. М.:Радио и связь, 1990. -304с.

19. Калиниченко Л.А. Стандарты ОМС: Язык определения интерфейсов в ГОЬ архитектуре СОЮЗА/ Л.А. Калиниченко, М.Р. Когаловский// СУБД. 1996. - №2, стр. 115-129

20. Капустин В.А. Основы поиска информации в Интернете. Методическое пособие. СПб.: Институт "Открытое общество". Санкт-Петербургское отделение, 1998. - 13с.

21. Клоксин У. Программирование на языке Пролог. М.: Мир,1987. - 336 с.

22. Кнут Д. и др. Сематика языков программирования:Сб.статей/Пер. с англ.-М.:Мир,1980.-394 с.

23. Кнут Д.Э. Искусство программирования. Т. 1. Основные алгоритмы. М.: Издательский дом "Вильяме", 2000.

24. Кнут Д.Э. Искусство программирования. Т. 2. Получисленные алгоритмы. М.: Издательский дом "Вильяме", 2000.

25. Кнут Д.Э. Искусство программирования. Т. 3. Сортировка и поиск. М.: Издательский дом "Вильяме", 2000.

26. Кодц Э.Ф. Расширение реляционной модели для лучшего отображения семантики// СУБД. 1996. - №5-6

27. Колчин А.Ф. Методология разработки интеллектуальных систем // Сб. научных трудов "Проектирование технологических машин". М.: МГТУ "СТАНКИН", 1997. -Вып. 7

28. Логический словарь: ДЕФОРТ/ Под ред. A.A. Ивина, В.Н. Переверзева, В.В Петрова. М.: Мысль, 1994. - 380 с.

29. Мальцев А.И. Алгоритмы и рекурсивные функции. М.: Наука, 1965. -368с.

30. Мельников A.B., Хлопотов М.В. Обеспечение достоверности информационного ресурса промышленного предприятия// АСУ-1111-2003 Сборник трудов международной научно-практической конференции /Москва, 2003.

31. Мельников A.B., Хлопотов М.В. Онтологии: Семантическое программирование (на англ.)/ Материалы. 6-й Международной конференции по проблемам информатики и информационных технологий CSIT2004.-Будапешт, Венгрия, 2004,- Т.-1.- С.108-110.

32. Мельников A.B., Хлопотов М.В. Поддержание достоверности гипертекстового информационного ресурса (на англ.)/Материалы 5-й Международной конференции по проблемам информатики и информационных технологий CSIT2003.- Уфа, УГАТУ, 2003.- T.-I.- С. 197.

33. Мельников A.B. Система обработки информации и управления: архитектура и программное обеспечение / Сб.науч. тр. Юж.-Уральского гос.ун-та.-Челябинск, Изд. ун-та, 1998.- 147 с.

34. Мельников М. Apache и PHP-удобные технологии // Интернет-Технологии.-2001.-N 6. — С. 32-36.

35. Нариньяни A.C., Иванов Д.А., Седреев С.В., Фролов С.А. Недоопределенное календарное планирование: новые возможности. Информационные технологии. 1997, N 1.

36. Нариньяни A.C., Телерман В.В., Ушаков Д.М., Швецов И.Е. Программирование в ограничениях и недоопределенные модели. Информационные технологии. Москва, "Машиностроение". 1998, N 7. С. 13-22.

37. Ожегов Сергей Иванович. Словарь русского языка: 70000 слов: 23-е изд., испр./ АН СССР, Ин-т рус. яз.;Под ред.Н.Ю.Шведовой М.:Рус.яз., 1991-915с. ;27 см45.0зхаркан. Э. Машины баз данных и управление базами данных: Пер с англ. М.: Мир, 1989. -696 с.

38. Плоткин Б.И. Универсальная алгебра, алгебраическая логика и базы данных. -М.: Наука, 1991.-116с.

39. Попов Э.В. Онтологии и реинжиниринг. Седьмая научно-практическая конференция «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями 2004»//М.: МЭСИ, 2004с. стр 16-19

40. Попов Э.В., Фридман Г.Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. М.: Наука, 1976. 456 с.

41. Расширяемый язык разметки (XML) 1.0 (вторая peдaкция).http://www.rol.ru/news/it/helpdesk/xmlO 1 .htm.

42. Россеева О.И., Загорулько Ю.А. Организация эффективного поиска на основе онтологий. // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. -Т.2. -Аксаково, 2001. -с.ЗЗЗ-342.

43. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989. — 192с.

44. Сизов В. MySQL, PHP и Microsoft Office // Интернет-Технологии.-2001 .-N 6. -С. 85.

45. Соловьёва Е.А., Маторин С.И. О моделировании понятийных знаний: системный бионический подход // НТИ. Сер. 2. 1989. -N3. - С. 2-8.

46. Субботин Д. Гипертекстовая технология отечественный опыт // Человек и Компьютер, 1992-№15(32)

47. Субботин М.М. Новая информационная технология создание и обработка гипертекстов. Научно-техническая информация. Сер. 2 -1998 - №5

48. Федеральный закон от 04.07.1996. № 85-ФЗ «Об участии в международном информационном обмене» (Ст.2).

49. Философский словарь/ под ред. И.Т.Фролова -4-е изд. -М.: Политиздат, 1981,-445 е.

50. Хлопотов М.В. Обеспечение достоверности Internet-pecypcoB // Современные проблемы атомной энергетики. Сборник трудов международной научно-практической конференции/Снежинск, 2003, стр. 208-212

51. Хлопотов М.В. Представление контекстных свойств отношений в RDF и онтологиях// Электронный журнал «Исследовано в России», 2004// http://zhurnal.ape.relarn.ru/articles/2004/198.pdf

52. Хлопотов М.В. Представление парадоксальной семантики в семантической сети гипертекстового информационного ресурса// Электронный журнал «Исследовано в России», 2004// http://zhurnal.ape.relarn.ru/articles/2004/197.pdf

53. Хлопотов М.В. Применение RDF для описания структуры информационных ресурсов. / Интеллект, логистика, системология. Сборник научных трудов. Вып. 7 \ Под ред. Р.П. Чапцова. Челябинск: Издание ЧНЦ РАЕН, РУО МАИ, ЧРО МАНПО, ЧРО МААНОИ, 2002. - 207 с.

54. Эдди Сандра Э. XML: Справочник/ Пер. с англ. С. Тамбовский -СПб. Литер, 2000.-477 с.

55. Эпштейн B.JL Гипертекст новая парадигма информатики, //Автоматика и Телемеханика, / No 11, 1991.

56. Chris Waterson. RDF In Mozilla: Frequently asked questions http://www.mozilla.org/rdf/doc/faq.html.

57. Crystal D. Language and the Internet. Cambridge Univ. Press. 2001. - 272 p.

58. David Hyatt. XUL and RDF: The Implementation of the Application Object Model http://www.mozilla.org/xpfe/xulrdf.htm.71 .Extensible Markup Language (XML) 1.0 (Third

59. Edition).http://www.w3.org/TR/2004/REC-xml-20040204/.

60. Florescu D., Levy A., Mendelzon A. Database Techniques for the World-Wide Web: A Survey // SIGMOD Record. 1998. V. 27. № 3.

61. Freshmeat: Software directory http://freshmeat.net/.

62. G. Makeev, H. Schweppe, N.I. Yussupova. Suffix trees for querying XML databases. / In proc. CSIT'2003, UFA//Ufa:USATU Publishers, 2003. p.79

63. Hypertext markup language.http://www.w3.org/MarkUp/.

64. Hypertext transfer protocol. http://www.w3.org/Protocols/.

65. I.A. Yussupova, В. König-Ries, D.V.Popov, N.I. Vainerman. Suffix trees for querying XML databases. / In proc. CSIT'2003, UFA//Ufa:USATU Publishers, 2003. p. 100

66. IDEF5 Method Report http://ww.idef.com/Downloads/pdmdef5.pdf.

67. IDEF5 Overview, http://www.idef.com/idef5.html.

68. J. Rice, A. Farquhar, P. Piernot, & T. Gruber. Using the Web as an Application Interface. Knowledge Systems Laboratory, KSL-95-69, September 1995. CHI '96 Proceedings: Conference on Human Factors in Computing Systems, 1996, Vancouver, ВС, Canada

69. Karp, P. D., & Gruber, Т. R. (1995). A Generic Knowledge-base Access Protocol. Proceedings of the International Joint Conferences on Artificial Intelligence, Montreal.

70. Kumar D.R. Professional PHP Web development solutions. Wrox Press. 2002. -613

71. Ludwig, В., Bucher, К., and Goerz, G. 2002. Corega Tabs: Mapping Semantics onto Pragmatics. In Proceedings of the KI-2002 Workshop on Applications of Description Logics ADL'02, Aachen, Germany, September 16-20, 2002.

72. Melnikov A.V, Khlopotov M.V. Keeping hypertext information resource up-to-date. /Inproc. CSIT'2003, UFA//Ufa:USATU Publishers, 2003. p. 197

73. Melnikov A.V, Khlopotov M.V. Ontology: The Semantic Programming / In proc. CSIT'2003, Budapest, Hungary//Ufa:USATU Publishers, 2004. p.84

74. Microsoft Corp. http://www.microsoft.com/

75. Mozilla Communityhttp://www.mozilla.org/.

76. Mozilla в России http://www.mozilla.ru/.

77. Nelson, T.N. A file structure for the complex, the changing, and the indeterminate // in: ACM 20th National Conference Proceedings (Clevelend, Ohio, 196)

78. OWL Web Ontology Language Reference.http://www.w3.org/TR/owl-ref/.

79. OWL Web Ontology Language Semantics and Abstract Syntax, http://www.w3 .org/TR/owl-semantics/.

80. Pease, A., and Niles, I. 2002. IEEE Standard Upper Ontology: A Progress Report. Knowledge Engineering Review, Special Issue on Ontologies and Agents, 17, 65-70.

81. RDF Semantics.http://www.w3.org/TR/rdf-mt/.

82. RDF Vocabulary Description Language 1.0: RDF Schema, http://www.w3 .org/TR/rdf-schema/.

83. RDF/XML Syntax Specification (Revised).http://www.w3.org/TR/rdf-syntax-grammar/.

84. Redland DRF Application Framework http://librdf.org/.

85. Sablotron: XSLT, DOM and XPath processor. http://www.gingerall.com/charlie/ga/xml/psab.xml.

86. Suggested Upper Merged Ontology http://ontology.teknowledge.com/.

87. Surina OWL Processor, http://www.w3 .org/2003/08/surnia/.

88. T. R. Gruber. A translation approach to portable ontologies. Knowledge Acquisition, 5(2): 199-220, 1993.

89. The Web Application Gateway, http://wag.javazen.org/.

90. Valikov A., Kazakos W. Design approaches to structure-based XML. Storage in relational data bases // Forschungszentrum Informatik Ufa, USATU, 2001.-p.79.

91. Watt D.A. Programming language syntax and semantics. Prentice-Hall. 1991. - 389 p.

92. World Wide Web Consortium http://www.w3.org/.

93. С 2001 по 2004 гг. Хлопотов М.В. занимался разработкой технологии анализа смысловых ошибок в Интернет представительствах коммерческих организаций.

94. Директор ООО «Парамон Онлайн»

95. С 2001 по 2004 гг. Хлопотов М.В. по заказу ЗАО «Интерсвязь» занимался разработкой информационной системы для выявления смысловых ошибок на Веб-сайтах предприятий и организаций.

96. В процессе разработки сайта ОАО «Автомобильный завод «Урал» проведены испытания инструментального комплекса, предназначенного для выявления смысловых ошибок и основанного результатах диссертационной работы Хлопотова М.В.

97. Методика предложена для дальнейшего использования на заводе.

98. Заместитель директора центра информационных технологий1. А. Евгеньев