автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и инструментальные средства построения семантических WEB-порталов

кандидата технических наук
Васильев, Иван Анатольевич
город
Томск
год
2005
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и инструментальные средства построения семантических WEB-порталов»

Автореферат диссертации по теме "Методы и инструментальные средства построения семантических WEB-порталов"

На правах рукописи

Васильев Иван Анатольевич

МЕТОДЫ И ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ \¥ЕВ-ПОРТАЛОВ

Специальность: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных

сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Томск-2005

Работа выполнена в Томском политехническом университете

Научный руководитель: доктор технических наук,

профессор Ямпольский Владимир Захарович

Официальные оппоненты: доктор технических наук,

профессор Бондаренко Владимир Петрович

Защита состоится « 14 » "декабря 2005 г. в 16:30 на заседании диссертационного совета Д 212.269.06 при Томском политехническом университете по адресу: г. Томск, ул. Советская, 84.

С диссертацией можно ознакомиться в библиотеке Томского политехнического университета.

Автореферат разослан «_ I/ » И^оЯГкЛ 2005 г.

Ученый секретарь диссертационного совета,

кандидат технических наук,

с.н.с. Ходашинский Илья Александрович

Ведущая организация:

Институт систем информатики имени А. П. Ершова СО РАН (г. Новосибирск)

кандидат технических наук

Сонькин М. А.

'¿ААшо

4 >} \ Ь 3 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Совершенствование существующих и разработка новых подходов к сбору, хранению, обработке и распространению информации является неотъемлемой частью процесса развития информационных технологий и информационных систем (ИС). Необходимость такого совершенствования во многом обусловлена непрерывным ростом объема электронных документов и их доступности, что на ряду со слабой структурированностью информационных фондов осложняет работу пользователей с ними. Существующие подходы к работе с информацией становятся не достаточно эффективными.

Для решения проблемы совершенствования доступа к растущему объему информации и информационным услугам, предоставляемым многочисленными источниками информации, была предложена концепция порталов. Портал является программной системой, которая призвана обеспечить унифицированный доступ к информации, хранящейся во множестве разнородных информационных источников. Портал структурирует информацшо и предоставляет средства для ее поиска.

Различные виды порталов разрабатываются и внедряются в России и за рубежом. Перспективность данного подхода к интеграции и структуризации информации отмечается аналитиками и подтверждается пользователями. Однако большие объемы информации, интегрируемые порталами, поставили вопрос о повышении эффективности и качества обработки информации в порталах.

Одним из подходов к решению данной проблемы является использование семантических технологий, призванных обеспечить обработку информации в информационных системах с учетом ее семантики.

Рассматриваемые в данном диссертационном исследовании порталы являются многопользовательскими ИС, которые предоставляют унифицированный доступ к различным информационным источникам и программным приложениям. Порталы, как правило, обрабатывают большой объем информации. С учетом этого применение в рамках порталов новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения порталов на основе семантических технологий являются актуальными.

Цель работы - разработка методов использования семантических технологий в порталах для реализации информационных процессов в них с учетом семантики контента объектов.

Для достижения поставленной цели исследования необходимо решить следующие задачи:

п разработать архитектуру семантического ядра портала;

■ разработать методы семантического описания контента объектов портала;

■ разработать методы использования описаний объектов портала для реализации его функций на семантическом уровне.

Объектом исследования являются технологии построения порталов.

Предметом исследования являются подходы и методы использования семантических технологий в порталах для реализации информационных процессов на семантическом уровне.

Методы исследования, В ходе диссертационного исследования были использованы модели и методы теории множеств, профессионально-логический анализ и обобщение, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.

Научная новизна результатов исследования заключается в следующем:

■ разработан метод семантического описания объектов портала с точки зрения контента, использующий предложенную автором структуру семантических метаданных;

■ разработан метод вычисления семантической близости метаданных, основанный на известном методе определения сотипности;

в разработаны методы поиска, категоризации и формирования рекомендаций объектов портала с учетом семантики их контента, основанные на методе вычисления близости семантических метаданных; н разработана архитектура семантического ядра портала, реализующего функции описания семантики контента объектов, поиска, категоризации и предоставления рекомендаций.

Практическая значимость исследования заключается:

н в программной реализации разработанного автором

семантического ядра портала; ° в применении предложенных методов для разработки семантического портала для современной 1Т-компании;

■ в возможности использования созданного семантического ядра портала в системах управления знаниями.

Реализация н внедрение результатов работы. Разработанное семантическое ядро портала, основывающееся на предложенных методах, полностью программно реализовано на языке С#. Вклад автора в программную реализацию составил 88% (более 15 тысяч строк кода). Результаты исследования использовались при разработке и реализации портала для «Центра профессиональной подготовки специалистов нефтегазового дела» ТПУ (г. Томск) и портала системы управления знаниями компании «ЭлеСи» (г. Томск).

Апробация работы. Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах: а Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2003». 0 Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2004». ■ Международная научно-практическая конференция «Современные средства и системы автоматизации 2004».

Публикации. По теме диссертации опубликовано 9 научных статей, в том числе одна в рецензируемом издании. Имеется свидетельство государственного координационного центра информационных технологий об отраслевой регистрации разработки «>УеЬ-портал для работы с явными и неявным знаниями организации» в Отраслевом фонде алгоритмов и программ (свидетельство №4608; авторы Тузовский А. Ф., Васильев И. А., Козлов С. В., Усов М. В.; дата выдачи 29.04.2005).

Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В опубликованных работах лично автором обоснованы варианты использования семантических технологий в информационных системах в общем [1] и в частности в порталах [2, 3, 4], пояснены разработанные методы описания семантики объектов портала и вычисления их семантической близости [5, 6], описано разработанное семантическое ядро портала [5] и приведены варианты применения разработанных методов и алгоритмов в работе порталов [5,7, 8,9].

Структура диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературных источников из 117 наименований и б приложений. Содержит 56 рисунков и 36 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, приведено краткое содержание работы.

В первой главе описаны результаты анализа исследований, выполненных отечественными и зарубежными авторами в области создания традиционных и семантических порталов.

Рассмотрена классификация порталов по различным критериям и показано, что как определения понятия «портал», так и функциональные возможности его программных реализаций варьируются.

На основании анализа описаний, опубликованных компаниями-производителями традиционных порталов, а также на основании анализа литературы выявлены наиболее часто встречающиеся функции портала. В качестве отличительных функций портала обозначены: интеграция информационных источников, интеграция приложений и поиск по всем информационным источникам. Предложена структура портала, включающая инфраструктуру и функциональные модули. Выявлено, что подходы, технологии и стандарты, используемые как в рамках инфраструктуры портала, так и при реализации его функциональных модулей, являются общеупотребительными. Это позволило описать обобщенную архитектуру портала.

Хотя подходы к разработке и реализации порталов можно считать достаточно проработанными с точки зрения методов и используемых технологий, существует объективная необходимость их развития. Эта необходимость обусловлена развитием телекоммуникационных технологий, делающих информацию более доступной, а также объективным ростом объема информации, что в свою очередь требует повышения качества информационных процессов.

В качестве подхода к решению указанной проблемы в исследовании рассматриваются активно развивающиеся в настоящее время семантические технологии. В рамках семантических технологий разрабатываются подходы, стандарты и методы, которые обеспечивают возможность явного представления семантики информации. Явное представление семантики информации должно способствовать созданию программных систем, позволяющих обрабатывать информацию на семантическом уровне. В зависимости от области применения и решаемой задачи подходы к представлению семантики и ее обработке могут варьироваться, но их объединяет наличие модели знаний, которая описывает семантику отдельных элементов информации и связи между ними.

На сегодняшний день в рамках семантических технологий наиболее активно исследуется и развивается онтологический подход к представлению знаний предметной области, на основании которого разрабатываются интеллектуальные информационные системы, и в том числе порталы.

Онтология - модель представления знаний какой-либо предметной области в виде набора понятий этой предметной области и существующих между ними отношений. То есть онтология представляет предметную область в виде некоторой сетевой структуры, в которой семантика каждого понятия определяется через его отношения с другими понятиями. Причем во множестве отношений существует отношение типа «родитель-ребенок», упорядочивающее понятия предметной области в иерархию - таксономию понятий. К отношениям того типа относятся отношения «целое-часть» (раЛ-о^, «класс-подкласс» (Ъ-а) и

т.п. В диссертации приведен обзор типов онтологий и языков описания онтологий.

Онтологическая модель предметной области задает семантику понятий, которые используются для описания информационных объектов портала. Такие описания называются семантическими метаданными, и они позволяют: 1) устранить лексическую многозначность терминов, используемых для описания информационных объектов; 2) определять соответствие между различными информационными объектами, используя онтологию. Семантические метаданные могут описывать объект с разных точек зрения: струкхуры, контекста и контента. Описание контента наиболее важно для тех ИС, которые реализуют функции полнотекстовой обработки информации. В диссертации рассмотрены существующие структуры и языки описания семантических метаданных и сделан вывод о том, что исследованиям семантических метаданных, описывающих контент, не уделяется должного внимания. Данная проблема сдерживает практическую реализацию полнотекстовой обработки информации с учетом ее семантики. В порталах, одним из основных объектов которых являются электронные документы, эта проблема особенно актуальна.

Порталы, использующих семантические технологии для реализации информационных процессов, называются семантическими порталами (СП). В ходе диссертационного исследования выполнен анализ существующих семантических порталов. В результате анализа необходимо констатировать следующее:

я исследования в области семантических технологий и их внедрения в порталы в настоящее время активно ведутся (в основном за рубежом);

0 подходы к использованию семантических технологий в порталах варьируются;

0 в области семантических технологий наработано множество различных программных инструментов, и стандартов;

° методам описания контента информационных объектов портала не уделяется достаточного внимания.

Поэтому целью диссертационного исследования является разработка методов, позволяющих использовать семантические технологии в порталах для реализации информационных процессов в них с учетом семантики контента объектов.

Во второй главе обосновывается архитектура семантического ядра, являющегося центральной подсистемой СП и предоставляющего функции, позволяющие обрабатывать объекты портала на семантическом уровне.

Проведен анализ и обобщение возможных вариантов использования онтологий. Для реализации информационных процессов в портале с учетом семантики объектов предложены варианты использования онтологии:

1. описание объектов портала;

2. семантический поиск;

3. формирование списка объектов, связанных с исходным объектом;

4. формирование списка объектов, похожих на исходный объект. Обосновано использование дескриптивной логики (ДЛ) класса SHIQ в

качестве логического формализма представления онтологической модели, а языка OWL DL - в качестве языка записи онтологии для ее хранения и передачи. На основании выбранных средств представления знаний дано формальное определение онтологии 0DL, используемое для описания предлагаемой структуры семантических метаданных и предлагаемых методов по работе с семантикой объектов портала.

Определение I. Онтология - это знаковая система

0DL ={C,CD,R,A,I,V,RI,A„L,Pc ,PR,PA,P1C,PLC,PLR,PUA,PLI), где (1) С = {с, ,...,сп} - конечное множество понятий в онтологии, CD = {cd,cdt} - множество стандартных типов данных, включающее два типа {string, integer},

R = {rp...,rm} - конечное множество бинарных отношений г;(сч,су) между понятиями,

А = {a,,...,aw} - конечное множество атрибутов, т.е. бинарных отношений а,- (сх, cdy) между понятиями и стандартными типами данных, I = {i,,..., i,} - конечное множество экземпляров в онтологии, V = {v,,..., vq) - конечное множество конкретных значений стандартного типа, R, = {ri,,..., rim} - конечное множество конкретизированных отношений, т.е. бинарных отношений rij(ix,iy) между экземплярами,

А, = {ai,,...,aiw} - конечное множество конкретизированных атрибутов, т.е. бинарных отношений между экземпляром и конкретными

значениями,

L = {l, ,...,lk} - конечное множество лексических меток (словарь онтологии),

Рс с С х С, Рс е И. - антисимметричное, транзитивное, нерефлексивное

бинарное отношение, являющееся отношением частичного порядка на множестве понятий С,

Рк сКхЯ - антисимметричное, транзитивное, нерефлексивное бинарное отношение, являющееся отношением частичного порядка на множестве отношений Я,

РА сАхА - антисимметричное, транзитивное, нерефлексивное бинарное отношение, являющееся отношением частичного порядка на множестве атрибутов А,

Р1С с I х С - бинарное отношение инцидентности между множествами I и С, Р^ с Ь х С - бинарное отношение инцидентности между множествами Ь и С, Рья с Ь х Я - бинарное отношение инцидентности между множествами Ь и В., Р1Л с Ь х А - бинарное отношение инцидентности между множествами Ь и А, Ри с Ьх I - бинарное отношение инцидентности между множествами Ь и Г.

В соответствии с выбранным подходом к определению онтологии предложена структура семантических метаданных, позволяющая описывать объекты портала с использованием не только отдельных элементов онтологии (понятий и экземпляров), но и с использованием триплетов элементов (таблица 1).

Таблица 1. Значения семантического атрибута

№ Возможные значения

Субъект Предикат Объект

1 с*

2 Ч

3 с* гу с,

4 гу К.

5 К Г, Сг

6 >х гу к

7 с* ау

8 5Х ау V,

В таблице 1 значения 1 и 2 представляют собой единичные элементы из онтологии, а значения 3-8 являются триплетами.

Семантические метаданные «связывают» объекты портала с частями предметной области. Исходя из того, что «строительными блоками» онтологии являются триплеты (семантика понятия определяется его отношениями с другими понятиями), то и использование триплетов в семантических метаданных позволяет наиболее точно отражать взаимосвязь объекта портала с частями предметной области. Ясно, что с помощью триплетов невозможно выразить семантику контента объекта абсолютно точно. Триплеты не учитывают временных, модальных и прочих характеристик описываемой информации. Для этого нужны более сложные конструкции наподобие схем концептуального анализа Шенка. Но у семантических метаданных другая функция. Они описывают семантику объекта с точки зрения контента, основываясь на онтологии. Следовательно, семантические метаданные не могут описать контент объекта точнее, чем это позволяет онтология. Чем точнее описана предметная область в виде онтологии, тем точнее можно описать контент объектов портала с использованием этой онтологии.

С учетом предложенной структуры метаданных и определения онтологии 0„, дано формальное определение семантических метаданных

Определение 2. Семантические метаданные с возможностью использования триплетов - это множество

МГ^(ч,) = 1УГОЗН МБте (Я;), где (2)

<3 = {я, ,...,як} - конечное множество объектов семантического портала,

М05Ы (я,) = {(эпп, к„),..., (эп |п, к;п)} - множество отдельных элементов

онтологии, описывающих объект я-,

вп,,, е С и I - отдельный элемент онтологии,

кт е (0;1] - коэффициент, обозначающий релевантность отдельного элемента зпш объекту я,,

МОтк(я,) = {(Ц,,к„),-,(Цг,к,,)} - множество триплетов, описывающих объект Я,'

Ц, =(зиЬ],?,ргес11Г,оЬ],г) - триплет эиЬ^ еСи] -- субъект в триплете ргеё,г eR.uA - предикат в триплете оЬ^с е С и I и V - объект в триплете

к,г е (0;1] - коэффициент, обозначающий релевантность триплета гг1Т объекту

Я.-

Описанный подход к определению и использованию онтологий и семантических метаданных позволил разработать методы формирования описаний объектов портала и их обработки с учетом семантики контента. Учет семантики контента объектов не подразумевает их детального семантического анализа. Переход на семантический уровень осуществляется за счет устранения синтаксической многозначности описаний и учета связей между понятиями предметной области. То есть разработанные методы предоставляют следующие возможности:

1. Учет в процессе обработки информационных объектов наличия омонимии и полисемии в естественном языке. Это достигается за счет моделирования знаний предметной области в виде онтологии, которая содержит понятия, которые в свою очередь имеют множественные лексические представления. В результате появляется возможность выявления омонимов и многозначных слов в предметной области и возможность устранения неоднозначности.

2. Учет в процессе обработки информационных объектов наличия эквивалентных лексических конструкций (синонимов) в естественном языке. Это достигается за счет закрепления за понятиями онтологии множественных лексических представлений - синонимов. В результате появляется возможность сравнения синтаксически различной, но семантически похожей информации.

3. Учет в процессе обработки информационных объектов иерархической природы понятий, используемых для описания объектов. Это достигается за счет использования таксономии понятий.

Для предоставления возможности использования разработанных методов в семантических порталах разработана архитектура семантического ядра (рис. 1), включающая сервер онтологий и сервер семантических метаданных.

Рис, 1. Место семантического ядра в структуре портала

Сервер онтологий (СО) - это отдельно функционирующая программная система, хранящая множество онтологий и предоставляющая к ним доступ. Для реализации в семантическом ядре выбранных вариантов использования онтологии сервер онтологий предоставляет следующие функции: 1) хранение онтологий; 2) предоставление онтологий; 3) логический вывод; 4) поиск в онтологии запрашиваемых понятий и отношений.

Сервер семантических метаданных (ССМ) ~ это отдельно функционирующая программная система, хранящая семантические метаданные, предоставляющая к ним доступ и обрабатывающая их. Для реализации выбранных вариантов использования онтологии сервер семантических метаданных, тесно взаимодействуя с сервером онтологий, предоставляет следующие функции: 1) формирование семантических метаданных; 2) хранение семантических метаданных; 3) предоставление семантических метаданных; 4) сравнение семантических метаданных.

В третьей главе поясняются разработанные методы формирования описаний объектов портала и их обработки с учетом семантики контента.

Обосновано, что онтологическая модель, используемая семантическим ядром портала, должна иметь структуру, в которой выделена неизменная часть -онтология приложения, и переменная часть, которая включает онтологии верхнего уровня, предметных областей и задач.

Разработанный метод формирования семантических метаданных определяет правила выбора элементов онтологии для описания объектов, а также определяет алгоритм поиска понятий и экземпляров в тексте. Формирование семантических метаданных объекта портала должен выполнять человек. Он должен в соответствии с сущностью объекта описания определять элементы семантических метаданных. Элементы представляют собой либо триплеты со структурой «субъект-предикат-объект», либо отдельные понятия или экземпляры из онтологии, задающие «субъект». Если субъект указывается человеком таким образом, чтобы отражать сущность предмета описания, то на выбор предиката и объекта накладываются дополнительные ограничения. Множество возможных предикатов в триплете ограничивается выбранным субъектом триплета. В таблице 2 приведены правила формирования множества МРКЕ0 возможных предикатов в триплете.

Таблица 2. Правила определения возможного значения предиката в триплете

Значение субъекта Правило

Понятие сх Мрит ={рт| еКиА^с^Су^рг^.ссу}

Экземпляр 1х Спетах) = {с,бС|Р1С(1х,с,)} Мриш = 1^ еКиА|(рг,(сх,су)ург,(сх1сс1,г))лсх еСпетСц)}

Множество возможных объектов зависит от выбранного предиката. Правила формирования множества Мош возможных объектов в триплете

приведены в таблице 3.

Таблица 3. Правила определения возможного значения объекта в триплете

Значение предиката Правило

Отношение гх Мов, = jpb.ii е Си11гх(сх>°Ьж)V(гх(сх>су)лР1С(оЬ^,су))}

Атрибут ах мои = {рЬл есс!;. |ах(сх,сс^)}

Если семантические метаданные формируются на основании текстового описания объекта, то в дополнение к правилам выбора предикатов и объектов используется алгоритмом поиска понятий и экземпляров в тексте. Это позволяет частично автоматизировать процесс выбора субъекта из онтологии. С этой целью текстовое описание анализируется на наличие понятий и экземпляров, которые могут выступать в качестве субъектов в элементах семантических метаданных. Результатом работы алгоритма являются множество понятий Мс и множество

экземпляров М,, которые могут иметь отношение к объекту, для которого формируются семантические метаданные.

Разработанный метод вычисления семантической близости элементов онтологии основан на определении онтологии 0оь • Он развивает существующий подход к оценке близости объектов, основанный на использовании сотипности (соЮру). Сотипность объектов - это оценка схожести положения сравниваемых объектов в некоторой иерархии.

§Сс с ) = 1Сакс(сь) слмс(°|)1 _ сотипность, где (3)

¡Сл^иС^с,)!

Сд^М^С^рС^с^С;} (4)

На основании метода вычисления сотипности разработаны методы вычисления семантической близости элементов онтологии (таблица 4). Пара сравниваемых элементов рассматривается как упорядоченная в том смысле, что первый элемент пары является эталоном, с которым сравнивается второй элемент пары - кандидат. Из этого следует, что в общем случае показатель семантической близости упорядоченной пары элементов (О], 02) может быть не равным показателю семантической близости упорядоченной пары элементов (02, О,).

Таблица 4. Допустимые сравнения между элементами онтологии

-4Сандидат Эталон~"~-\. Понятие Экземпляр Отношение Атрибут Значение

Понятие + +

Экземпляр ) +

Отношение +

Атрибут +

Значение +

Разработанный метод вычисления близости семантических метаданных основан на определении онтологии 0С[_, определении семантических метаданных МОЛ и использует метод вычисления семантической близости

элементов онтологии. Для оценки близости семантических метаданных предложены три показателя:

1. Показатель семантической близости пересекающихся метаданных без учета наследования

П т

X тах (к,х **■„ ^ЕДэтс^зтс! ))

п

(5)

2. Показатель семантической близости пересекающихся метаданных с учетом наследования

£ , "й* , *к>у*8ЕС(впк^апа ))

(6)

8МС5(М0ш.(С11),М0В1(Я)))=

3. Показатель семантической близости перекрывающихся метаданных с учетом наследования

ЗМсДмОи/яДМОи,^)) если ¡"¡тах^Ес^тс^тс^)) > О О, иначе

(7)

При расчете данных показателей определяется близости элементов метаданных без учета наследования БЕр^т^^тс^,) и с учетом наследования

8Ес(5тс1Ь:,зтс1]у) с использованием метода вычисления семантической

близости элементов онтологии.

Метод вычисления близости семантических метаданных позволяет количественно оценить схожесть между двумя объектами. На практике оценка близости обычно выполняется между объектом-эталоном и множеством объектов-кандидатов. Например, поисковый запрос (эталон) сравнивается с описаниями документов (множество кандидатов), хранящихся в портале, в результате чего формируется множество релевантных запросу документов. То

есть метод вычисления близости семантических метаданных можно рассматривать как средство ранжирования объектов-кандидатов на основании объекта-эталона. После ранжирования те кандидаты, семантическая близость которых эталону меньше некоторого порогового значения, исключаются из результирующего множества объектов.

Очевидно, что чем больше множество кандидатов, тем дольше выполняется ранжирование. Поэтому уменьшение множества кандидатов за счет исключения из него объектов с заведомо низким показателем семантической близости способно увеличить вычислительную эффективность операции семантического сравнения. С этой целью разработан метод фильтрации множества кандидатов. Метод фильтрации основан на использовании системы логического вывода для дескриптивной логики. Он позволяет отфильтровать из множества кандидатов те объекты, семантическая близость которых объекту-эталону равна нулю.

Метод вычисления близости семантических метаданных применяется в комплексе с методом вычисления семантической близости элементов онтологии и методом фильтрации для реализации в семантических порталах функций поиска, категоризации и формирования рекомендаций. Для выполнения семантического поиска используется показатель SMcs(MDDL(qi),MDDL(qj)),

для категоризации - SMc0(MDDL(qi),MDDL(qj)), а для формирования

рекомендаций - SMF0 (MDDL(q.,), MDDL(q,)).

В четвертой главе описывается программная реализация и внедрение разработанных структур, методов и алгоритмов построения семантических Web-порталов.

Выполнено проектирование сервера онтологий и сервера семантических метаданных, составляющих семантическое ядро портала.

Сервер онтологий реализует (рис. 2) объектную модель онтологии, описанной на языке OWL DL, и позволяет:

■ получать доступ к функциям сервера онтологий с

использованием технологии .NET Remoting; " хранить файлы с описаниями онтологий в файловой системе; " выполнять запросы к онтологии, использующие логический вывод.

Объектная модель онтологии содержит классы-сущности, представляющие элементы онтологии, класс для трансляции OWL-данных во внутреннее представление сервера и управляющий класс, реализующий программный интерфейс доступа к функциям сервера онтологий.

Рис. 2. иМЬ-диаграмма классов, реализуемых СО

В качестве классов-сущностей были выделены: атомарное понятие, экземпляр, отношение, атрибут, целочисленное значение и строковое значение.

Для первых четырех типов сущностей в онтологии заданы лексические метки, а для двух оставшихся типов лексическими метками являются их значения, представленные в текстовом виде. Лексические метки составляют словарь онтологии.

Класс «Транслятор OWL-данных» предназначен для трансляции описания онтологии на языке OWL DL в систему взаимосвязанных объектов соответствующих классов-сущностей. Результатом трансляции является наборы выявленных понятий, экземпляров, атрибутов, отношений, строковых и целочисленных значений. Сгенерированное внутреннее объектное представление онтологии используется для ускорения доступа к элементам онтологии и выполнения запросов.

Управляющий класс «Менеджер онтологии» реализует программный интерфейс TOntologyAPI, определяющий методы и свойства сервера онтологии. Для использования технологии .NET Remoting управляющий класс «Менеджер онтологии» помимо реализации интерфейса IOntoIogyAPI наследует функциональность класса System.MarshalByRefObject, входящего в состав инфраструктуры Microsoft .NET.

В качестве подсистемы хранения онтологий, описанных на языке OWL DL, была выбрана файловая система. Такой подход достаточно прост для реализации и одновременно оставляет возможность использования существующих редакторов онтологий. Все редакторы онтологий поддерживают работу с файловой системой. Для работы с файловой системой менеджер онтологии использует класс «Хранилище онтологий».

В качестве системы логического вывода (СЛВ) для дескриптивной логики была выбрана свободно распространяемая система RACER версии 1.7.24. Система RACER реализует логический вывод для дескриптивной логики класса ALCQHIn (D~), которая расширяет атрибутивный язык (AL) такими возможностями как произвольное отрицание (С), транзитивные отношения 0< ), инверсные отношения (/), иерархия отношений (Я), количественные ограничения на отношения (Q) и некоторые конкретные домены (£>"). В качестве конкретных доменов поддерживаются строки и числа. Дескриптивная логика класса ALCQHIn (D~) по выразительности является подклассом SHIQ, не поддерживая лишь перечисляемые типы (nominals). На сегодняшний день система RACER реализует наиболее выразительную дескриптивную логику с использованием высокопроизводительного алгоритма (tableau-based algorithm) логического вывода, который используется для обработки онтологий, описанных на языке OWL DL.

Для взаимодействия с СЛВ RACER был выбран протокол DIG, так как он был специально разработан для взаимодействия с различными СЛВ,

основанными на ДЛ. Использование этого протокола устраняет зависимость от RACER и при появлении новых СЛВ позволяет использовать их.

Второй сервер - сервер семантических метаданных реализует (рис. 3) объектную модель семантических метаданных предложенной структуры и позволяет:

■ получать доступ к функциям сервера семантических метаданных с использованием технологии .NET Rernoting;

■ хранить семантические метаданные различных объектов в реляционной базе данных Microsoft SQL Server 2000;

■ вычислять близость семантических метаданных с использованием предложенного метода.

Рис. 3. UML-диаграмма классов, реализуемых ССМ

Объектная модель семантических метаданных включает классы-сущности для элементов языка RDF, сам класс семантических метаданных, классы семантических выражений, входящих в состав семантических метаданных, и управляющий класс.

В соответствии со спецификацией языка RDF его основными понятиями являются ресурс, литерал и триплет. Триплет может быть двух типов: «ресурс -ресурс - ресурс» и «ресурс - ресурс - литерал». Для целей обмена данными между хранилищем семантических метаданных и управляющим классом были разработаны соответствующие классы-сущности элементов языка RDF.

Семантические метаданные представлены классом, объекты которого хранят множество семантических выражений, а также предоставляют вспомогательные методы. Количество семантических выражений в метаданных неограниченно. Для каждого из восьми типов семантических выражений (таблица 1) разработан соответствующий класс.

Управляющий класс «Менеджер семантических метаданных» реализует программный интерфейс ISemanticMetadataAPI, который определяет методы и свойства сервера семантических метаданных.

Сервер семантических метаданных предоставляет доступ к реализуемым свойствам и методам посредством технологии .NET Remoting. Для этого реализующий его класс - менеджер семантических метаданных - наследуется от системного класса System.MarshalByRefObject.

Для хранения семантических метаданных разработано специальное хранилище на базе СУБД Microsoft SQL Server 2000. Данное хранилище RDF-данных отличается от существующих решений (например, RDFGateway, Sesame). Во-первых, оно не предоставляет возможность выполнения запросов. Это обусловлено тем, что знания описываются на языке OWL DL, более выразительном, чем RDF, и поэтому функции запросов и логического вывода реализованы в сервере онтологий. Во-вторых, хранилище разработано с возможностью группировки RDF-данных. В существующих решениях все RDF-высказывания, относящиеся к одной онтологии, хранятся совместно. В разработанном хранилище есть возможность группировки RDF-высказываний в семантические метаданные отдельных объектов описания. Такой подход позволяет отделить общие знания от знаний об отдельных объектах описания. Это в свою очередь позволяет реализовать функцию семантического поиска объектов портала, а не элементов онтологии. ССМ получает доступ к хранилищу посредствам объекта класса «Хранилище семантических метаданных», который предоставляет методы по добавлению, изменению, получению и удалению RDF-данных.

Реализация предложенного метода вычисления близости семантических метаданных выполнена в виде трех функций класса «Менеджер семантических

метаданных», каждая из которых позволяет вычислить соответствующий показатель близости (выражения 5, 6, 7). Для расчета этих показателей используется сервер онтологии, предоставляющий функции логического вывода и запросов к онтологии. В частности онтология используется для расчета семантической близости элементов онтологии, являющихся частью семантических метаданных.

Разработанное и спроектированное семантическое ядро портала, включающее сервер онтологий и сервер семантических метаданных, полностью реализовано программно на платформе Microsoft .NET с использованием языка программирования С#. В общей сложности для программной реализации было разработано с использованием языка моделирования UML 177 классов и интерфейсов, а объем кода составил более 16 тысяч строк. Вклад автора диссертационного исследования в разработку и проектирование составляет 100%, а в программную реализацию - 88%.

Тестирование функций семантического ядра выполнялось с использованием онтологии, созданной для части предметной области «Автоматизация технологических процессов». Общее количество понятий в онтологии составило 578, количество отношений - 15, максимальная вложенность понятий - 12, количество лексических меток на русском языке для каждого элемента онтологии - от 1 до 9.

В онтологию было помещено 1227 экземпляров различных понятий предметной области. Из них 112 экземпляров были выявлены в результате анализа документов, относящихся к выбранной предметной области. Эти экземпляры содержали от 1 до 3 лексических меток. Остальные 1115 экземпляров были автоматически сгенерированны специально созданной программой. Для таких экземпляров использовались лексические метки родительских понятий.

Наполненная экземплярами онтология использовалась для аннотирования 27 рубрик каталога и 160 документов, относящихся к выбранной предметной области. Аннотирование выполнялось в соответствии с методом формирования семантических метаданных. В результате аннотирования объектов портала была выявлена необходимость развития средств визуального представления онтологии и текста документа при составлении семантических метаданных.

Созданные семантические метаданные объектов портала использовались для тестирования остальных функций семантического ядра - поиска, категоризации и формирования рекомендаций.

Указанные функции оценивались тремя тестерами с точки зрения качества с использованием показателей формальной полноты и формальной

точности. Показатели названы формальными потому, что они основываются на оценке формальной релевантности, а не на оценке удовлетворенности (рис. 4).

Рис. 4. Схема оценки качества работы ИПС

Нужно отметить, что выбранные показатели нельзя сравнивать с показателями полноты и точности полнотекстовых ИПС в силу того, что формальные показатели не учитывают удовлетворенность пользователей результатами поиска. В данном тестировании удовлетворенность не была оценена потому, что семантические метаданные документов были сгенерированы произвольным образом и не отражали текстового содержания документов. Тем не менее, при достижении высокой степени соответствия семантических метаданных текстовому содержанию документов можно ожидать высоких показателей полноты и точности предложенных методов семантического сравнения.

К = _- показатель формальной полноты, где (8)

ат(1 - количество релевантных семантических метаданных, выданных алгоритмом,

Ьт(1 - количество релевантных семантических метаданных, не выданных алгоритмом.

р^ = а""< - показатель формальной точности, где (9)

аш 6 +Сшс1

ат<1 - количество релевантных семантических метаданных, выданных алгоритмом,

сюа - количество нерелевантных семантических метаданных, выданных алгоритмом.

В процедурах поиска и категоризации используются одинаковые показатели семантической близости элементов онтологии - показатели с учетом наследования, - поэтому для этих процедур были получены одинаковые значения формальной полноты и формальной точности. Средняя формальная полнота составила ], а средняя формальная точность составила 0,975.

В процедуре формирования рекомендаций используется пороговое значение для рекомендации. От этого значения зависит качество рекомендации. Чем больше пороговое значение, тем выше точность и меньше полнота. И наоборот, чем ниже пороговое значение, тем меньше точность и выше полнота. Было принято решение обеспечить максимальное значение показателя полноты рекомендации. Для этого в результате тестирования было определено пороговое значение для рекомендации, которое составило 0,4469. В этом случае формальная полнота рекомендации равна 1, а формальная точность варьируется от 0,333 до 1 и в среднем составляет 0,5646 (рис. 5).

Р№ = 1 РГ= 0,333

|рАлгоритм РТосторГ]

1,2 1

о 1 .

10 0,8

С О 0.8 •

8 0,4

Ч

о С 0.2 ■

ш

2 3 4 5 6 документы

Pf=1

| О Алгоритм □ Тестер 2 |

1,2 ,о \ 0,8-| 0.68 0,4- п ё 0,2-С 0 1 >

1 2 документы

кг=1

РГ = 0,4

[□Алгоритм ПТестер 3 I

а 1

И 0,8 л

| 0.8

I 0,4

с 0,2 О

т1

: :1

1 2 3 4 5 документы

Рис. 5. Сравнение результатов работы тестеров с результатами работы алгоритма для второго тестового документа

Тестирование функций семантического ядра выявило высокие показатели качества их работы.

Разработанное семантическое ядро, реализующее предложенные структуры, методы и алгоритмы, использовалось при создании двух порталов различного уровня.

Портал «Petroleum Engineers Virtual Network» представляет собой программную систему управления явными и неявными знаниями для коллектива специалистов в области разработки нефтяных месторождений. Данный портал был внедрен в Центре профессиональной переподготовки специалистов нефтегазового дела ТПУ (г. Томск). Программная реализация портала была зарегистрирована в Отраслевом фонде алгоритмов и программ.

Корпоративная система управления знаниями разрабатывается в настоящее время для компании «ЭлеСи» (г. Томск). В качестве программно-технической части системы разработан и внедрен семантический портал, функциональность которого основывается на использовании разработанного семантического ядра. В качестве наиболее существенных функциональных подсистем портала реализуются:

■ подсистема электронной библиотеки;

в подсистема профилей компетенции ведущих сотрудников компании;

■ подсистема поиска;

0 подсистема для работы экспертов компании.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В ходе диссертационного исследования получены следующие основные результаты:

1. Выполнен анализ существующих подходов к разработке семантических порталов. Выявлена доминирующая роль онтологического подхода к созданию семантических порталов. Показано, что с помощью онтологии может решаться широкий круг задач повышения эффективности и качества работы информационных систем.

2. Проведен анализ и обобщение возможных вариантов использования онтологий в информационных системах. Для реализации информационных процессов в портале с учетом семантики объектов предложены варианты использования онтологии.

3. Разработан состав и структура семантического ядра портала. Ядро состоит из сервера онтологий и сервера семантических метаданных. Функциональность семантического ядра портала основывается на логическом формализме представления знаний - дескриптивной логике. В соответствии с указанным формализмом выбраны языки записи онтологии и семантических метаданных для использования в семантическом ядре портала. Обоснована структура онтологии, обеспечивающая работу семантического ядра портала.

4. Разработан метод формирования семантических метаданных для создания описаний объектов портала. Разработаны методы вычисления семантической близости элементов онтологии и метаданных, формализующие использование понятия сотипности. Указанные методы применены в функциях семантического поиска, категоризации и формирования рекомендаций.

5. Выполнена программная реализация разработанного семантического ядра портала, составившая в общей сложности более 16 тысяч строк кода. Осуществлено тестирование программного кода на сгенерированном множестве семантических метаданных.

6. Разработанные структуры, методы и алгоритмы построения семантических порталов, а также соответствующее программное обеспечение, внедрены в двух организациях (ЗАО «ЭлеСи», Центр профессиональной переподготовки специалистов нефтегазового дела ТПУ) при создании для них семантических порталов различного уровня.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Васильев И. А., Усов М. В. Применение онтологического подхода в информационных системах // Труды Х-ой международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные техника и технологии 2004». - Томск: Изд-во ТПУ, 2004. -Том 2.-С. 123-124.

2. Тузовский А. Ф., Васильев И. А. Структура системы управления знаниями // Труды международного симпозиума «Информационные и системные технологии в индустрии, образовании и науке. - Караганда: Издательство КарГТУ, 2003. - С. 286-288.

3. Усов М. В., Васильев И. А. Роль дескриптивной логики в порталах управления знаниями И Труды Х-ой международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные техника и технологии 2004». - Томск: Изд-во ТПУ, 2004. -Том 2.-С. 212-213.

4. Васильев И. А. Выбор средства представления знаний для их использования в работе информационного портала организации // Материалы ХЫ1 Международной научной студенческой конференции «Студент и научно-технический прогресс»: Информационные технологии. - Новосибирск: Изд-во Н1Т, 2004. - С. 56-60.

5. Тузовский А. Ф., Васильев И. А., Усов М. В. Программная реализация основных компонент информационно-программного обеспечения

системы управления знаниями // Известия ТПУ. - 2004. - Том 307. - №7. -С.116-122.

6. Васильев И. А. Оценка семантической близости объектов с использованием дескриптивной логики // Материалы 5-ой научно-практической конференции «Современные средства и системы автоматизации». - Томск: Изд-во ТУСУР, 2004. - С. 160-163.

7. Васильев И. А. Организация коллективной работы пользователей с документами в сети Internet // Материалы XL Международной научной студенческой конференции «Студент и научно-технический прогресс». -Новосибирск: Изд-во НГУ, 2002. - С. 31-32.

8. Васильев И. А., Бубнов Д. В., Козлов С. В. Использование онтологии предметной области для поддержки работы сложных технических систем // Труды IX-ой международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные техника и технологии». - Томск: Изд-во ТПУ, 2003. - Том 2. - С. 144145.

9. Васильев И. А., Бубнов Д. В., Козлов С. В. Использование сети Интернет для активизации взаимодействия специалистов предметной области // Труды Всероссийской научно-практической конференции «Технологии ИНТЕРНЕТ - на службу обществу» - Саратов: Копипринтер, 2003. - С. 164-166.

Подписано к печати 10.11.2005. Формат 60x84/16. Бумага офсетная. Печать RISO. Усл. печ. л. 1.16. Уч.-изд.л. 1. Тираж 100 экз. Центр копирования и ризографии. ИП Кнышева Л.Н. ИНН 701705650104 634034, г. Томск, Усова 4а.

РЫБ Русский фонд

2007-4 11183

Оглавление автор диссертации — кандидата технических наук Васильев, Иван Анатольевич

ВВЕДЕНИЕ.

Глава 1. Порталы и семантические технологии.

1.1. Анализ существующих подходов к реализации портала.

1.1.1. Понятие портала и классификация порталов.

1.1.2. Функции портала.

1.1.3. Архитектура портала.

1.2. Семантические технологии в порталах.

1.2.1. Онтологический подход к представлению знаний.

1.2.1.1. Понятие онтологии.

1.2.1.2. Классификация онтологий.

1.2.1.3. Языки описания онтологии.

1.2.2. Семантические метаданные.

1.2.2.1. Понятие семантических метаданных.

1.2.2.2. Структура и языки описания семантических метаданных.

1.3. Анализ существующих применений семантических технологий в порталах.

Выводы по главе.

Глава 2. Исследование и разработка семантического ядра портала.

2.1. Анализ вариантов использования онтологии.

2.2. Место и функции семантического ядра портала.

2.3. Сервер онтологий.

2.3.1. Выбор языка описания онтологии.

2.3.2. Определение онтологии, основанной на дескриптивной логике.

2.3.3. Свойства языка OWL.

2.3.4. Функции и структура сервера онтологий.

2.4. Сервер семантических метаданных.

2.4.1. Структура семантических метаданных.

2.4.2. Функции и структура сервера семантических метаданных.

2.5. Использование семантического ядра портала.

Выводы по главе.

Глава 3. Разработка методов и алгоритмов для семантического ядра портала

3.1. Состав и структура онтологической модели для использования в семантическом портале.

3.2. Метод формирования семантических метаданных.

3.3. Метод вычисления семантической близости элементов онтологии.

3.3.1. Вычисление семантической близости двух понятий.

3.3.2. Вычисление семантической близости двух экземпляров.

3.3.3. Вычисление семантической близости понятия экземпляру.

3.3.4. Вычисление семантической близости экземпляра понятию.

3.3.5. Вычисление семантической близости двух отношений.

3.3.6. Вычисление семантической близости двух атрибутов.

3.3.7. Вычисление близости конкретных значений.

3.4. Метод вычисления близости семантических метаданных.

3.5. Метод фильтрации множества кандидатов.

3.6. Применение методов вычисления семантической близости и фильтрации множества кандидатов.

Выводы по главе.

Глава 4. Проектирование, программная реализация и апробация семантического ядра портала.

4.1. Проектирование и программная реализация семантического ядра портала.

4.1.1. Проектирование и программная реализация сервера онтологий.

4.1.2. Проектирование и программная реализация сервера семантических метаданных.

4.1.3. Вспомогательные функции.

4.1.4. Степень программной реализации семантического ядра портала

4.2. Тестирование семантического ядра портала.

4.2.1. Тестирование функции аннотирования объектов.

4.2.2. Тестирование функции семантического поиска.

4.2.3. Тестирование функции категоризации.

4.2.4. Тестирование функции выработки рекомендации.

4.3. Применение семантического ядра в порталах.

4.3.1. Портал «Petroleum Engineers Virtual Network».

4.3.2. Портал «Корпоративная система управления знаниями».

Выводы по главе.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Васильев, Иван Анатольевич

Совершенствование существующих и разработка новых подходов к сбору, хранению, обработке и распространению информации является неотъемлемой частью процесса развития информационных технологий и информационных систем (ИС). Необходимость такого совершенствования во многом обусловлена непрерывным ростом количества электронных документов и их доступности, что на ряду со слабой структурированностью информационных фондов осложняет управление информацией и работу пользователей с ней. Существующие подходы к работе с информацией становятся не достаточно эффективными.

Для решения проблемы совершенствования доступа к растущему объему информации и информационным услугам, предоставляемым многочисленными источниками информации, специалистами была предложена концепция Web-порталов. Web-портал является программной системой, которая призвана обеспечить унифицированный доступ к информации, хранящейся во множестве разнородных информационных источников. Web-портал структурирует информацию и предоставляет средства для ее поиска.

Различные виды Web-порталов разрабатываются и внедряются в России и за рубежом. Перспективность данного подхода к интеграции и структуризации информации отмечается аналитиками и подтверждается пользователями. Огромное число пользователей сети Интернет обращаются к услугам различных поисковых Web-порталов, таких как «Yahoo!» (http://www.yahoo.com) или «Яндекс» (http://www.yandex.ru), а современные компании, такие как концерн Volkswagen, корейская вещательная корпорацию КОВАСО или немецкая фармацевтическая корпорация Schering AG, внедряют [1] корпоративные Web-порталы, предлагаемые ведущими разработчиками данного класса программных продуктов.

Применение Web-порталов для интеграции источников информации и структуризации ее растущего объема поставило вопрос о повышении качества обработки информации в \¥еЬ-порталах. Наиболее существенно проблема роста объема информации сказывается на качестве поиска в \УеЬ-порталах. Примером, демонстрирующим необходимость перехода на новый качественный уровень, является функционирование поисковых \УеЬ-порталов в сети Интернет. Обычно они предоставляют услуги двух типов: поиск по рубрикатору и полнотекстовый поиск. Если необходимая пользователю информация сосредоточена в какой-либо рубрике, то ему лучше воспользоваться возможностью просмотра этой рубрики, так как точность категоризации информации в рубрикаторе находится на очень высоком уровне. Это объясняется тем, что наполнение рубрикатора осуществляется вручную или полуавтоматически с участием модераторов \УеЬ-портала, которые учитывают смысл структурируемой информации. В свою очередь точность и полнота результатов полнотекстового поиска существенно ниже, чем у поиска по рубрикатору, так как информация обрабатывается без учета семантики информации. С ростом объема обрабатываемой информации возможность наполнения рубрикатора снижается — модераторы \УеЬ-портала не справляются с объемом информации. Если же пользователь обращается к полнотекстовому поиску, то проблема обработки большого объема информации возлагается на него самого - на поисковый запрос \УеЬ-портал выдает огромное количество результатов, среди которых пользователь должен дополнительно искать необходимую информацию. В настоящее время в \УеЬ-порталах информация обрабатывается на синтаксическом уровне, то есть без учета таких свойств естественного языка как синонимия, полисемия и омонимия. Это приводит к снижению качества обработки информации и в том числе к неудовлетворительным результатам поиска [2].

Для перехода на новый качественный уровень при обработке информации необходимо вести обработку на семантическом уровне, то есть учитывать ее смысл.

За последние несколько лет активное развитие получило направление в информационных технологиях, занимающееся проблемами учета семантики в рамках информационных систем. Это направление исследует семантические технологии, позволяющие создавать новый класс ИС. Созданные на основе семантических технологий ИС отличаются от традиционных тем, что:

• ИС при обработке информации в некоторой фиксированной предметной области использует знания из этой предметной области;

• знания предметной области выражаются явно — в виде модели (частично или полностью);

• модель выражает смысл терминов (понятий) предметной области через связи между ними;

• модель отражает различные точки зрения на предметную область. Рассматриваемые в данном диссертационном исследовании \Vebпорталы являются многопользовательскими ИС, которые предоставляют унифицированный доступ к различным информационным источникам и программным приложениям. \УеЬ-порталы, как правило, обрабатывают большой объем информации. С учетом этого применение в рамках \УеЬ-портала новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследование подходов и разработка методов построения \Veb-портала на основе семантических технологий являются актуальными.

В настоящее время исследования в области развития и внедрения семантических и портальных технологий ведутся как в России, так и за рубежом. Тем не менее, необходимо, констатировать значительный разрыв по количеству исследований в этой области между отечественным и зарубежным научным сообществом.

В качестве основополагающих исследований отечественных авторов нужно выделить [2-6]. Ряд работ по использованию семантических технологий поддерживается Российским Фондом Фундаментальных Исследований также, в том числе «Исследование принципов семантического поиска текстовой информации на основе использования интеллектуальных и статистических методов» (03-01-00572, Харин Н. П., МАДИ, Москва), «Инструментальные программные средства семантического поиска текстовой информации, использующие интеллектуальные и статистические методы» (04-07-90328, Михайловский О. В., РосНИИИТ и АП, Москва); осуществляется также поддержка проектов в области разработки порталов, например, «Технология разработки специализированных Интернет-порталов знаний по гуманитарным наукам» (04-01-00884, Загорулько Ю. А., ИСИ СО РАН, Новосибирск). К сожалению, результаты выполненных проектов недостаточно публикуются и с ними трудно ознакомиться в сети Интернет.

Более многочисленными и доступными в сети Интернет являются результаты исследований и внедрений семантических технологий в структуру Web-порталов, выполненных зарубежными учеными [7-18]. Среди них можно выделить такие крупные проекты как «OntoWeb: Ontology-based information exchange for knowledge management and electronic commerce» [16] или «ODESeW: Automatic génération of knowledge portais for intranets and extranets» [18].

В результате анализа выполненных исследований необходимо отметить их недостаточность в области использования семантических технологий для описания семантики контента объектов Web-порталов. В соответствии с [19] объект может быть рассмотрен в трех разных аспектах - структура, контекст и контент. В большинстве исследований семантические технологии применяются для описания контекста объекта, в то время как в Web-порталах значительный интерес представляет описание семантики объектов с точки зрения контента.

В рамках данного исследования анализируется отечественный и зарубежный опыт создания семантических Web-порталов и предлагается новый подход к использованию семантических технологий в Web-порталах.

Целью диссертационного исследования является разработка методов использования семантических технологий в Web-порталах для реализации информационных процессов в них с учетом семантики контента объектов.

Для достижения поставленной цели исследования необходимо решить следующие задачи:

• разработать архитектуру семантического ядра ХУеЬ-портала;

• разработать методы семантического описания контента объектов \Veb-портала;

• разработать методы использования описаний объектов ХУеЬ-портала для реализации его функций на семантическом уровне.

Объектом исследования являются технологии построения \Veb-порталов.

Предметом исследования являются подходы и методы использования семантических технологий в ХУеЬ-порталах для реализации информационных процессов на семантическом уровне.

Методы исследования. В ходе диссертационного исследования были использованы модели и методы теории множеств, профессионально-логический анализ и обобщение, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.

Научная новизна результатов исследования заключается в следующем:

• разработан метод семантического описания объектов ХУеЬ-портала с точки зрения контента, использующий предложенную автором структуру семантических метаданных;

• разработан метод вычисления семантической близости метаданных, основанный на известном методе определения сотипности;

• разработаны методы поиска, категоризации и формирования рекомендации объектов ХУеЬ-портала с учетом семантики их контента, основанные на методе вычисления близости семантических метаданных;

• разработана архитектура семантического ядра ХУеЬ-портала, реализующего функции описания семантики контента объектов, поиска, категоризации и предоставления рекомендаций.

Практическая значимость исследования заключается:

• в программной реализации разработанного автором семантического ядра \УеЬ-портала;

• в применении предложенных методов для разработки семантического \УеЬ-портала для современной ГГ-компании;

• в возможности использования созданного семантического ядра \Veb-портала в системах управления знаниями [20].

На защиту выносятся:

1. метод семантического описания объектов ШеЬ-портала;

2. метод вычисления семантической близости метаданных;

3. методы поиска, категоризации и формирования рекомендации объектов ШеЬ-портала;

4. архитектура семантического ядра ШеЬ-портала.

Апробация. Основные научные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях:

• Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2003»;

• Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии 2004»;

• Международная научно-практическая конференция «Современные средства и системы автоматизации 2004».

Предложенные подходы и методы были протестированы в процессе практической реализации ШеЬ-порталов. Результаты исследования использовались при разработке и реализации \УеЬ-портала для «Центра профессиональной подготовки специалистов нефтегазового дела» ТПУ и ШеЬ-портала системы управления знаниями компании «ЭлеСи».

Диссертационное исследование выполнялось в соответствии с проектом «Создание информационно-программной среды научно-образовательного комплекса Томска для работы со знаниями и объектами интеллектуальной собственности» (контракт № 2093 от 1.11.2002) в рамках Федеральной Целевой Программы «Интеграция науки и высшего образования России на 2002-2006 годы» и темой научно-исследовательской работы, проводимой по заданию Министерства образования Российской Федерации (регистрационный номер 1.38.99) «Исследование методов представления, структуризации и контекстного поиска явных и неявных знаний для построения систем управления знаниями».

Публикации. По теме диссертационного исследования опубликовано 9 печатных работ, в том числе одна в реферируемом издании [21]. Имеется свидетельство государственного координационного центра информационных технологий об отраслевой регистрации разработки «\¥еЬ-портал для работы с явными и неявным знаниями организации» в Отраслевом фонде алгоритмов и программ (свидетельство №4608; авторы Тузовский А. Ф., Васильев И. А., Козлов С. В., Усов М. В.; дата выдачи 29.04.2005).

Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В опубликованных работах лично автором обоснованы варианты использования семантических технологий в информационных системах в общем [22] и в частности в \УеЬ-порталах [20, 23, 24], пояснены разработанные методы описания семантики объектов \УеЬ-портала и вычисления их семантической близости [21, 25], описано разработанное семантическое ядро \УеЬ-портала [21] и приведены варианты применения разработанных методов и алгоритмов в работе \УеЬ-порталов [21, 26, 27, 28].

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературных источников из 117 наименований и 6 приложений. Содержит 56 рисунков и 36 таблиц.

Заключение диссертация на тему "Методы и инструментальные средства построения семантических WEB-порталов"

Выводы по главе

1. Разработанные компоненты семантического ядра реализуют предложенные методы создания и обработки семантических метаданных с использованием технологии .NET Remoting, что позволяет обеспечить независимость семантического ядра от остальных элементов инфраструктуры портала.

2. Реализуемые семантическим ядром методы тестировались с применением метода экспертных оценок. В ходе компьютерного и экспертного тестирования были зафиксированы высокие показатели качества выполнения алгоритмических процедур поиска, категоризации и предоставления рекомендаций.

3. Результаты исследований современного уровня развития семантических технологий, разработка функциональной структуры и программная реализация компонентов семантического ядра способствуют практическому решению задачи создания семантического портала.

ЗАКЛЮЧЕНИЕ

Диссертация посвящена решению научно-технической задачи разработки методов и инструментальных средств для создания семантических \УеЬ-порталов. Разработанное по результатам исследований семантическое ядро портала, реализующее предложенные методы формирования и обработки семантических метаданных объектов портала, может служить основой для создания семантических порталов в различных предметных областях.

В ходе диссертационного исследования получены следующие основные результаты:

1. Выполнен анализ существующих подходов к разработке семантических порталов. Выявлена доминирующая роль онтологического подхода к созданию семантических порталов. Показано, что с помощью онтологий может решаться широкий круг задач повышения качества работы информационных систем.

2. Проведен анализ и обобщение возможных вариантов использования онтологий в информационных системах. Для реализации информационных процессов в портале с учетом семантики объектов предложены варианты использования онтологии.

3. Разработан состав и структура семантического ядра портала. Ядро состоит из сервера онтологий и сервера семантических метаданных. Функциональность семантического ядра портала основывается на логическом формализме представления знаний - дескриптивной логике. В соответствии с указанным формализмом выбраны языки записи онтологии и семантических метаданных для использования в семантическом ядре портала. Обоснована структура онтологии, обеспечивающая работу семантического ядра портала.

4. Разработан метод формирования семантических метаданных для создания описаний объектов портала. Разработаны методы вычисления семантической близости элементов онтологии и метаданных, формализующие использование понятия сотипности. Указанные методы применены в функциях семантического поиска, категоризации и формирования рекомендаций.

5. Выполнена программная реализация разработанного семантического ядра портала, составившая в общей сложности более 16 тысяч строк кода. Осуществлено тестирование программного кода на сгенерированном множестве семантических метаданных.

6. Разработанные структуры, методы и алгоритмы построения семантических \УеЬ-порталов, а также соответствующее программное обеспечение, внедрены в двух организациях (ЗАО «ЭлеСи», Центр профессиональной переподготовки специалистов нефтегазового дела ТПУ) при создании для них семантических порталов различного уровня.

Библиография Васильев, Иван Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. IBM case studies for WebSphere software Электронный ресурс. Режим доступа: http://www-306.ibm.com/software/success/cssdb.nsf/customerVW?OpenView&Start=l& Count= 1 OOO&Expand View&RestrictToCategory=wssoftware

2. Поляков В. H. Интеллектуальная поисковая машина. Концептуальный проект // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2000 17-20 октября 2000 г. Казань: изд-во «Сэлэт», 2000. -Выпуск 5.-С. 87-119.

3. Поляков В. Н., Бодров Д. А. Проблемы создания эффективных поисковых машин // Обработка текста и когнитивные технологии. Сборник научных статей. 2002. - Выпуск 7. - С. 48-71.

4. Нариньяни А. С. Кентавр по имени ТЕОН: Тезаурус + Онтология // Труды международного семинара «Диалог'2001 » по компьютерной лингвистике и ее приложениям. 2001. - Том 1. - С. 184-188.

5. Россеева О. И., Загорулько Ю. А. Организация эффективного поиска на основе онтологий // Труды международного семинара «Диалог'2001» по компьютерной лингвистике и ее приложениям. 2001. - Том 2. — С. 333342.

6. Боровикова О. И., Загорулько Ю. А. Организация порталов знаний на основе онтологий // Труды международного семинара «Диалог'2002» по компьютерной лингвистике и интеллектуальным технологиям. 2002. -Том 2. - С. 76-82.

7. Mizoguchi R. A step towards ontological engineering // Proc. of the 12th National Conference on AI of JSAI. 1998. - P. 24-31.

8. Borst W. N. Construction of engineering ontologies for knowledge sharing and reuse. PhD Thesis. University of Tweenty, Enschede, Netherlands. Centre for Telematica and Information Technology. 1997. - 243 p.

9. Guarino N. Understanding, building and using ontologies // International Journal of Human-Computer Studies, February/March 1997. — Volume 46. — Issue 2-3.-P. 293-310.

10. Takeda H. Ontologies Электронный ресурс.: презентация. Режим доступа: http://www-kasm.nii.ac.jp/~takeda/lectures/soken/ontologies-for-lecture04.pdf

11. Uschold M., Gruninger M. Ontologies: principles, methods and applications // Knowledge Engineering Review. June 1996.-Volume 11(2).-P. 93-113.

12. Gruber T. R. Towards principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. — 1995. — Volume 43.-P. 907-928.

13. Studer R., Benjamins V. R., Fensel D. Knowledge engineering: principles and methods // Proc. of the conference on data and knowledge engineering. 1998. -Volume 25.-Issue 1-2.-P. 161-197.

14. Gomez-Pérez A. Evaluation of ontologies // International journal of intelligent systems.-2001.-Volume 16(3).-P. 391-409.

15. Staab S., Angele J., Decker S. et al. Semantic community web portals // Proc. of the 9th international World Wide Web conference. — Amsterdam: Elsevier Science, 2000. P. 473-491.

16. Spyns P., Oberle D., Volz R. et al. Onto Web a Semantic Web community portal // Proc. of 4th international conference on practical aspects of knowledge management. - 2002. - P. 189-200.

17. Woukeu A., Wills G., Conole G. et al. Ontological hypermedia in education: A framework for building web-based educational portals // Proc. of worldconference on educational multimedia, hypermedia and telecommunications. 2003. - P. 349-357.

18. Corcho O., Gómez-Pérez A., López-Cima A. et al. ODESeW: Automatic generation of knowledge portáis for intranets and extranets // Proc. of the 2nd international Semantic Web conference. 2003. - Volume 2870. - P. 802-817.

19. Тузовский А. Ф., Васильев И. А. Структура системы управления знаниями // Труды международного симпозиума «Информационные и системные технологии в индустрии, образовании и науке. — Караганда: Издательство КарГТУ, 2003. С. 286-288.

20. Тузовский А. Ф., Васильев И. А., Усов М. В. Программная реализация основных компонент информационно-программного обеспечения системы управления знаниями // Известия ТПУ. 2004. - Том 307. - №7. — С. 116-122.

21. Усов М. В., Васильев И. А. Роль дескриптивной логики в порталах управления знаниями // Труды Х-ой международной научно-практической конференции студентов, аспирантов и молодых ученых

22. Современные техника и технологии 2004». Томск: Изд-во ТПУ, 2004. -Том 2.-С. 212-213.

23. Васильев И. А. Оценка семантической близости объектов с использованием дескриптивной логики // Материалы 5-ой научно-практической конференции «Современные средства и системы автоматизации». — Томск: Изд-во ТУСУР, 2004. С. 160-163.

24. Васильев И. А. Организация коллективной работы пользователей с документами в сети Internet // Материалы XL Международной научной студенческой конференции «Студент и научно-технический прогресс». -Новосибирск: Изд-во НГУ, 2002. С. 31-32.

25. Корпоративные информационные порталы Электронный ресурс. Режим доступа: http://www.e-соттегсе.ги/Ь121есЬ/1тр1етеп1а110п/тапа§етеп1/софрог1а15.Ь1т1

26. Черняк JI. Корпоративный портал // Компьютерная неделя. 1999. - № 31(205).-С. 30-35.

27. Технологии IBM для электронного бизнеса / Итоговый отчет за 2003 г. — М.: IBM, 2003. 232 с.

28. Phifer G., Valdes R., Gootzit D. et el. Magic quadrant for horizontal portal products Электронный ресурс. 2004. - Режим доступа: http://www.g2r.com/DisplayDocument?doccd=l 20327

29. SungKook Han. Commercial portal products. Semantic Web community portal project. DERI Research Report 2003-12-31 Электронный ресурс. -2003. Режим доступа: http://sw-portal.deri.org/papers/deliverables/CommercialPortal.pdf

30. Shilakes С., Tylman J. Enterprise Information Portals. Merrill Lynch Inc., 1998.

31. Firestone J. M. Enterprise information portals and knowledge management. -Oxford: Butterworth-Heinemann, 2003. 422 p.

32. Eckerson W. Business portals: Drivers, definitions and rules. — The data warehousing institute. 1999.

33. White C. The enterprise information portal marketplace. Decision processing brief DP-99-01. Database Associates International Inc. - 1999.

34. Murray G. The Portal is the desktop. Intraspect Inc. - 1999.

35. Mercy J. A better understanding of the enterprise information portal market Электронный ресурс. Режим доступа: http://intranetjournal.com/articles/200110/eipl 0030 la.html

36. WebSphere portal server from IBM Электронный ресурс. Режим доступа: http://mithras.itworld.com/download/bloorwebportal.pdf

37. A developer's introduction to web parts Электронный ресурс. Режим доступа: http://msdn.microsoft.com/library/default.asp?url=/library/en-us/odcsp2003ta/html/sharepointnorthwindwebparts.asp

38. TopQuadrant Technology briefing. Semantic technology Электронный pe-сурс. 2004. - Режим доступа: http://www.topquad-rant.com/documents/TQ04SemanticTechnologyBriefing.PDF

39. Ding Y., Fensel D., Klein M., Omelayenko B. The Semantic Web: Yet another hip? // Proc. of conference on data and knowledge engineering. 2002. - Volume 41(3). - P. 205-227.

40. Wielinga B. J., Schreiber A. T. Reusable and sharable knowledge bases: a

41. European perspective // Proc. of international conference on building and sharing of very large-scaled knowledge bases. 1993. - P. 103-115.

42. Gomez-P6rez A., Fernandez-Lopez M., Corcho O. Ontological engineering with examples from the areas of knowledge management, e-Commerce and the Semantic Web. NY: Springer, 2004.-410 p.

43. Sowa J. F. Knowledge representation: logical, philosophical and computa-• tional foundations. С A: Brooks Cole Publishing Co, 2000. - 512 p.

44. Fellbaum C. WordNet: An electronic lexical database (language, speech and communication). The MIT Press, 1998. - 423 p.

45. Towards a methodology for ontology-driven conceptual modeling. Ontological analysis of taxonomic relationships Электронный ресурс. — Режим доступа: http://lisi.insa-lyon.fr/~jpierson/lisi-seminaires/2000-2001/download/guarino-051000.pdf

46. Brachman R. J., Schmolze J. G. An overview of the KL-ONE knowledge representation system // Cognitive Science. 1985. - Volume 9. - №2. - P. 171216.

47. Brachman R. J., Fikes R. E., Levesque H. J. KRYPTON: A functional approach to knowledge representation // IEEE COMPUTER. 1983. - Volume 16(10).-P. 67-73.

48. MacGregor R., Bates R. The Loom knowledge representation language // Proc. of the knowledge-based systems workshop. 1987. - P. 17-29.

49. Borgida A., Brachman R. J., McGuinness D. L., Resnick L. A. CLASSIC: A structural data model for objects // Proc. of the ACM SIGMOD international conference on management of data. 1989. - P. 59-67.

50. Fikes R., Farquhar A., Rice J. Tools for assembling modular ontologies in On-tolingua // Proc. of the 14th national conference on Artificial Intelligence. -1997.-P. 436-441.

51. Kifer M., Lausen G. F-Logic: A higher-order language for reasoning about objects, inheritance, and scheme // Proc. of the ACM SIGMOD international conference on management of data. — 1989. — P. 134-146.

52. Heflin J., Hendler J., Luke S. SHOE: A knowledge representation language for Internet applications. Technical Report Электронный ресурс. — 1999. -Режим доступа: http://www.cs.umd.edu/projects/plus/SHOE/pubs/techrpt99.pdf

53. RDF Vocabulary Description Language 1.0: RDF Schema Электронный pe-сурс. Режим доступа: http://www.w3.org/TR/rdf-schema

54. OWL Web Ontology Language. Overview Электронный ресурс. Режим доступа: http://www.w3.org/TR/owl-features/

55. The Learning Object Metadata standard Электронный ресурс. Режим доступа: http://ieeeltsc.org/wgl2LOM/lomDescription

56. MARC standards Электронный ресурс. Режим доступа: http://www.loc.gov/marc

57. Application profile for the government information locator service (GILS) Электронный ресурс. Режим доступа: http://www.gils.net/profv2.html

58. Standard element set for GELOS records Электронный ресурс. Режим доступа: http://www.iszp.sk/katalog/gelos.html

59. Vallet D., Fernandez M., Castells P. An ontology-based information retrieval model // Proc. of the 2nd European Semantic Web conference. NY: Springer, 2005.-P. 455-470.

60. Lassila O., Swick R.R. Resource Description Framework (RDF) Model and Syntax Specification Электронный ресурс. — Режим доступа: http://www.w3 .org/TR/1999/REC-rdf-syntax-19990222/

61. Makela E., Hyvonen E., Saarela S., Viljanen K. OntoView A tool for creating Semantic Web portals // Proc. of the 3rd international Semantic Web conference. - 2004. - P. 797-811.

62. Lei Y.-G., Motta E., Domingue J. Onto Weaver: an ontology-based approach to the design of data-intensive Web sites // Journal of Web Engineering. — 2005. Volume 4. - №3. - P. 244-262.

63. Chenxi L., Lei Z., Jian Z., Ying Y., Yong Y. SPortS: Semantic + Portal + Service // Proc. of the ECAI 2004 Workshop on Application of Semantic Web Technologies to Web Communitites. 2004. - Volume 107. - P. 161-173.

64. Mondeca ITM White Paper Электронный ресурс. Режим доступа: http://www.mondeca.com/itm-wp-introduction-en.pdf

65. Vatant В. Ontology-driven topic maps Электронный ресурс. 2004. - Режим доступа: http://www.idealliance.org/europe/04/call/xmlpapers/03-03-03.9 l/.03-03-03.html

66. Jin Y., Decker S., Widerhold G. Onto Webber: Model-driven ontology-based Web site management // Proc. of the 1st international Semantic Web working symposium. 2001. - P. 529-547.

67. Zhdanova A. V., Henke J., Bachlechner D. et al. SW-Portal Prototype: Semantic DERI Use Case Электронный ресурс. Режим доступа: http://www.deri.at/research/projects/sw-portal/papers/deliverables/dl5.pdf

68. Agarwal S., Fankhauser P., Gonzalez-Ollala J. Semantic methods and tools for information portals // Proc. of the GI Jahrestagung conference. — Volume 1. -2003.-P. 116-131.

69. Reynolds D., Shabajee P., Cayzer S., Steer D. Semantic portals demonstrator lessons learnt. SWAD-Europe deliverable 12.1.7 Электронный ресурс. -Режим доступа: http://www.w3.org/200l/sw/Europe/reports/demo2report/

70. Guarino, N. Formal ontology and information systems // Proc. of the 1st international conference on formal ontology in information systems. 1998. - P. 3-15.

71. Nebel B. Belief revision and default reasoning: syntax-based approaches // Proc. of the 2nd international conference on principles of knowledge representation and reasoning. 1991.-P. 417-428.

72. Heflin J. Towards the Semantic Web: Knowledge representation in a dynamic, distributed environment. PhD thesis. University of Maryland, College Park, USA.-2001.- 146 p.

73. Partridge C. Business objects: Re-engineering for reuse. — Oxford: Butterworth-Heinemann, 1996. —453 p.

74. Ceri S., Fraternali P. Designing database applications with objects and rules: The IDEA methodology. Addison Wesley, 1997. - 593 p.

75. Bergamaschi S., Castano S., De Capitani di Vimercati S., Montanari S., Vincini M. An intelligent approach to information integration. / In Guarino N. Formal Ontology in Information Systems. IOS Press. - 1998.

76. Wiederhold G. Intelligent integration of information. Boston: Kluwer Academic Publishers, 1996. - 216 p.

77. Snoussi H., Magnin L., Nie J.-Y. Toward an ontology-based Web data extraction // Proc. of the 15th conference of the Canadian society for computational studies of intelligence. 2002. - P. 26-33.

78. Su X., Matskin M., Rao J. Implementing explanation ontology for agent system // Proc. of international conference on Web intelligence. 2003. - P. 330336.

79. Hartmann J., Sure Y. An infrastructure for scalable, reliable semantic portals // IEEE Intelligent Systems. 2004. - Volume 19. - Issue 3. - P. 58-65.

80. Blythe J., Gil Y. Incremental formalization of document annotations through ontology-based paraphrasing // Proc. of the 13th international conference on World Wide Web. 2004. - P. 455-461.

81. Cimiano P., Handschuh S., Staab S. Towards the self-annotating Web // Proc. of the 13th international conference on WWW. 2004. - P. 462-471.

82. Hyvonen E., Saarela S., Viljanen K. Application of ontology techniques to view-based semantic search and browsing // Proc. of the 1st European Semantic Web symposium. NY: Springer, 2004. - P. 92-106.

83. Khan L. R. Ontology-based information selection. PhD thesis. Faculty of the graduate school University of Southern California, California, USA. 2000. -129 p.

84. Park J., Lee D. An adaptive agent-based framework for knowledge management and sharing Электронный ресурс. 2001. - Режим доступа: http://misrc.umn.edu/workingpapers/fullPapers/2001/0128040101 .pdf

85. Clark P., Thompson J., Holmback H., Duncan L. Exploiting a thesaurus-based semantic net for knowledge-based search // Proc. of the 12th conference on innovative applications of AI. 2000. - P. 988-995.

86. Van Heijst G., Schreiber А. Т., Wielinga B. J. Using explicit ontologies in KBS development // International journal of human and computer studies. — 1997. Volume 46. - P. 183-292.

87. Тузовский А. Ф., Чириков С. В., Ямпольский В. 3. Системы управления знаниями. Методы и технологии. Томск: Изд-во HTJI, 2005. — 260 с.

88. Semantic Portals Requirements Specification. SWAD-Europe deliverable 12.1.5 Электронный ресурс. — Режим доступа: http://www.w3.org/2001/sw/Europe/reports/requirementsdemo2/

89. Horrocks I., Fensel D., Broekstra J. et al. The Ontology Inference Layer OIL Электронный ресурс. Режим доступа: http://www.cs.vu.nl/~dieter/oil/Tr/oil.pdf

90. McGuinness D. L., Fikes R., Hendler J., Stein L. A. DAML+OIL: An ontology language for the Semantic Web // IEEE Intelligent Systems. 2002. -Volume 17. - №5. - P. 72-80.

91. The Description Logic handbook: theory, implementation, applications / ed. Baader F. Cambridge: Cambridge University Press, 2003. - 564 p.

92. Bruijn J. Using ontologies: Enabling knowledge sharing and reuse on the Semantic Web. DERI Technical Report DERI-2003-10-29 Электронный pe-сурс. 2003. - Режим доступа: http://homepage.uibk.ac.at/~c703239/publications/DERI-TR-2003-10-29.pdf

93. Unicode Standard Электронный ресурс. Режим доступа:. http://www.unicode.org/unicode/standard/standard.html

94. RFC 1630. Universal Resource Identifiers in WWW Электронный ресурс.- Режим доступа: http://www.ietf.org/rfc/rfc 1630.txt?number=l630

95. Спенсер П. XML. Проектирование и реализация. М.: Лори, 2001. - 510 с.

96. XML Schema Part 1: Structures Электронный ресурс. Режим доступа: http://www.w3 .org/TR/2004/REC-xmlschema-1 -20041028/structures.html

97. Namespaces in XML Электронный ресурс. Режим доступа: http ://www. w3 .org/TR/REC-xml-names

98. Шенк P. Обработка концептуальной информации. — М.: Энергия, 1980. — 360 с.

99. Masolo С., Borgo S., Gangemi A. et al. Ontology Library. Wonder Web Deliverable D18 Электронный ресурс. Режим доступа: http://w0nderweb.semanticweb.0rg/deliverables/d0cuments/D 18.pdf

100. Bateman J. A., Henschel R., Rinaldi F. The Generalized Upper Model 2.0 Электронный ресурс. Режим доступа: http://www.fblO.uni-bremen.de/anglistik/langpro/webspace/jb/gum/gum-2.pdf

101. Niles I., Pease A. Origins of the Standard Upper Merged Ontology: A proposal for the IEEE Standard Upper Ontology Электронный ресурс. — 2001.- Режим доступа: http://projects.teknowledge.com/IJCAI01/Niles.ps

102. Белоногов Г. Г., Зеленков Ю. Г. Алгоритм морфологического анализа русских слов // Вопросы информационной теории и практики. 1985. -№53.-С. 62-93.

103. Madche A., Staab S., Stojanovic N. et al. SEAL A framework for developing SEmantic portALs // Proc. of the 18th British national conference on databases. - Oxford: Springer, 2001. - P. 1-22.

104. Levenshtein I. V. Binary codes capable of correcting deletions, insertions, and reversals // Cybernetics and Control Theory. 1966. - Volume 10(8). - P. 707-710.

105. Ukkonen E. Approximate string matching with q-grams and maximal matches // Theoretical Computer Science. 1992. - Volume 92(1). — P. 191-211.

106. Кнут Д. Искусство программирования. — М.: Вильяме, 2000. — Том 3. — 703 с.

107. Каньковски П. «Как ваша фамилия?» или русский MetaPhone // Программист. 2002. - №8. - С. 36-39.

108. ПЗ.Маклин С., Нафтел Дж., Уильяме К. Microsoft .NET Remoting / пер. с англ. М.: Издательско-торговый дом «Русская редакция», 2003. - 384 с.

109. Haarslev V., Moller R. RACER: A core inference engine for the Semantic Web // Proc. of the 2nd international workshop on evaluation of ontology-based tools. 2003. - P. 27-36.

110. The DIG Description Logic Interface: DIG/1.1 Электронный ресурс. — Режим доступа: http://dl-web.man.ac.uk/dig/2003/02/interface.pdf

111. Боггс У., Боггс М. UML и Rational Rose. М.: Лори, 2000. - 582 с.

112. Отчет по договору «Разработка проекта и базовых элементов системы управления знаниями компании ЭлеСи». Этап: Построение онтологии на конкретном примере предметной области компании «ЭлеСи». х/д № 822/04 от 30 ноября 2004 г.