автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели и методы интеграции структурированных текстовых описаний на основе онтологий

кандидата физико-математических наук
Иванов, Владимир Владимирович
город
Казань
год
2009
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и методы интеграции структурированных текстовых описаний на основе онтологий»

Автореферат диссертации по теме "Модели и методы интеграции структурированных текстовых описаний на основе онтологий"

На правах рукописи

Иванов Владимир Владимирович

МОДЕЛИ И МЕТОДЫ ИНТЕГРАЦИИ СТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ОПИСАНИЙ НА ОСНОВЕ ОНТОЛОГИЙ

05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

2 8 \Ш 2009

Казань - 2009

003471274

Работа выполнена на кафедре теоретической кибернетики государственного образовательного учреждения высшего профессионального образования «Казанский государственный университет им. В.И. Ульянова-Ленина»

Научный руководитель:

доктор физико-математических наук, профессор Соловьев Валерий Дмитриевич

Официальные оппоненты:

доктор технических наук, профессор Гаврилова Татьяна Альбертовна доктор физико-математических наук, профессор Елизаров Александр Михайлович

Ведущая организация:

Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова

Защита состоится «4» июня 2009 г. в 1600 часов на заседании диссертационного совета Д 212.081.24 при ГОУВПО «Казанский государственный университет им. В.И. Ульянова-Ленина» по адресу: 420008, г. Казань, ул. Кремлевская, д. 35, конференц-зал научной библиотеки им. Н.И. Лобачевского.

С диссертацией можно ознакомиться в научной библиотеке Казанского государственного университета.

Автореферат разослан апреля 2009 г.

Ученый секретарь диссертационного совета, к. ф.-м. н., доцент

Еникеев А.И.

Общая характеристика диссертации

Актуальность работы. В диссертации ставятся и решаются задачи, связанные с разработкой математического и программного обеспечения процессов интеграции структурированных текстовых описаний на основе прикладной онтологии. Создание универсальных подходов и методов для интеграции и доступа к описаниям делает возможным применение разработанных методов в слабоформализуемых предметных областях, где необходима обработка смыслового содержимого структурированных текстовых данных.

В теории реляционных баз данных (БД) задачи интеграции поставлены достаточно ~ дазног однако-методы семантической интеграции - на .основе формальных моделей предметных областей {онтологии) стали развиваться относительно недавно (5-10 лет назад). Разработаны инструментальные среды для поддержки процесса интеграции, но качество их работы существенно зависит от уровня детализации используемой онтологии и компетентности эксперта, выполняющего интеграцию. Результатом работы автоматизированных систем интеграции является отображение, или т. н. мэппинг (от англ. mapping) между структурами разных БД (схемами). Предложено множество подходов, использующих для построения отображения как схему БД, так и содержимое. Однако слабо развиты подходы, направленные на спецификацию с помощью онтологий непосредственно содержимого разнородных баз данных с целью интеграции на уровне экс-тенсионала, т. е. утверждений об объектах предметной области и их свойствах, представленных в БД.

Задачи интеграции структурированных описаний возникают также при представлении информации в глобальной сети Интернет, где очевидны непригодность языка XHTML и недостаточная специализация выразительных средств языка XML для формального описания смыслового содержимого ресурсов веба. С появлением спецификаций языков описания ресурсов (RDF/RDFS) и языка представления знаний (OWL) актуальной проблемой стала реализация идеи семантического веба (Semantic Web, или Web 3.0), которая основана на автоматической обработке смыслового содержимого ресурсов веба по их онтологическому представлению. На данный момент решение этой задачи затруднено из-за слабой развитости методов выражения содержимого существующих ресурсов с помощью веб-онтологий, что объясняется трудоемкостью обработки сплошных текстовых данных при заполнении онтологии фактами. Поставленные в диссертации задачи актуальны при реализации идей семантического веба на основе

множества структурированных описаний, динамически генерируемых из онлайновых БД, т. н. «глубинного веба» (Deep Web), объемы которого во много раз превосходят объемы статического веба.

Потребность в обработке структурированных текстовых описаний возникает, в частности, в области культурного наследия, которая имеет широкий охват как по терминологии, используемой в текстах описаний, так и по разнообразию структур описаний. К данной области обычно относят такие категории организаций, как архивы, библиотеки и музеи, причем для музеев задачи интеграции представляют особую сложность в силу разнообразия и разнотипности описываемых объектов. В музеях России широко внедряются и используются автоматизированные информационные системы (АИС), ориентированные на поддержку учета коллекций и фондов, организацию электронного документооборота, каталогизацию, обработку учетно-хранительской документации. В базах данных музейных АИС содержится большинство электронных описаний предметов музейного фонда России. Несмотря на то, что по оценке Министерства культуры РФ в электронном виде представлены описания более 5 млн. музейных предметов, эта информация используется в основном внутри музеев. Поддержке другой основной функции музеев - обеспечению доступа широкой аудитории к информации по культурному наследию - разработчики отечественных АИС уделяют недостаточное внимание в силу следующих проблем.

1. Разнородность структур музейных БД порождается тем, что каждый музей имеет свои особенности, требования и ограничения, а схема БД АИС варьируется от музея к музею.

2. Разнородность терминологии порождается тем, что для описания одних и тех же сущностей в разных музеях используются различные системы терминов, в результате чего справочники различных БД существенно отличаются и не могут быть использованы при интеграции.

3. Фактическое отсутствие единого стандарта на разделяемую большинством музеев концептуальную модель представления информации о культурном наследии обусловлено наличием нескольких независимых и не связанных друг с другом концептуальных моделей.

В решении этих проблем за рубежом достигнуты определенные результаты: созданы крупные (англоязычные) терминологические ресурсы (например, словари фонда П. Гетги), стандартизирована концептуальная модель

CIDOC CRM, предназначенная для интеграции данных в сфере культурного наследия. Открытым остается вопрос о методологии интеграции разнородных музейных описаний на основе указанных ресурсов, создании модели процесса интеграции, который бы учитывал и структуру, и содержимое музейных описаний. Разработка методов семантической интеграции структурированных текстовых описаний позволит создать единый интерфейс для доступа к описаниям музейного фонда в целом, что весьма востребовано при формировании единого каталога музейных предметов.

Методы и модели интеграции, предложенные в диссертации, использовались для автоматизированного заполнения базы знаний фактами, извлеченными из структурированных текстовых описаний (представлений, построенных над музейными БД) различной структуры. Доступ к базе "знаний осуществляется на основе технологий информационного поиска--

Цель н основные задачи. Цель диссертации состоит в разработке математического, программного и лингвистического обеспечения систем семантической интеграции структурированных текстовых описаний. Для достижения цели были поставлены и решены следующие основные задачи.

1. Создание прикладной онтологии на основе онтологии верхнего уровня и информационно-поискового тезауруса (ИПТ).

2.Разработка и реализация модели процесса интеграции разнородных структурированных текстовых описаний. Данная задача распадается на две подзадачи:

- разработку методов спецификации структуры и содержимого описаний с помощью онтологии;

- разработку методов автоматизированного построения и оценки отображения структурных элементов и текстового содержимого описаний на онтологию.

3.Разработка алгоритма поиска в интегрированном хранилище описаний по запросу на языке, близком к естественному.

4. Проведение экспериментов (на примере области культурного наследия) для оценки качества предлагаемых моделей и методов.

Объект исследования. Структурированные текстовые описания, онтологии верхнего уровня, ИПТ, базы декларативных знаний.

Предмет исследования. Методы семантической интеграции разнородных структурированных текстовых описаний на основе прикладной онтологии.

Методы исследования. При выполнении работы использованы методы, разработанные в области интеграции данных, информационного поиска, машинного обучения и онтологического инжиниринга, описанные в работах отечественных и зарубежных ученых: Д.А. Поспелова, Т.А. Гавриловой, Б.В. Доброва, Г.С. Осипова, В.Ф. Хорошевского, Н.В. Лукашевич, С.Д. Кузнецова, Н. Гуарино, Н. Ной, Т. Грубера, Т. Бернерса-Ли, Д. МакГиннесс, Ф. Баадера, Д. Фенселя и др., а также элементы теории графов и математической логики.

Научная новизна работы. Научной новизной обладают следующие элементы диссертации:

1) подход к формализации связей между ИПТ и онтологией верхнего уровня в виде логических ограничений;

2) алгоритм поиска элементарных соответствий между элементами схем структурированных описаний на основе анализа текстового содержимого элементов и техники латентного семантического анализа;

3) подход к разрешению лексической многозначности и результаты ее экспериментального исследования в структурированных текстовых описаниях.

Практическая значимость. Результаты диссертации могут быть использованы в дальнейших исследованиях в области организации баз данных и знаний, технологий семантического веба, а также при решении практических задач в области интеграции музейных описаний, например, для создания сводных каталогов музейных предметов. Результаты работы использовались в учебном процессе в Казанском государственном университете при чтении курса «Онтологии и тезаурусы» и в Казанском государственном университете культуры и искусств при чтении курсов «Информационные технологии и технические средства в музейном деле» и «Компьютеризация музейных фондов».

Результаты, выносимые на защиту.

1. Подход к созданию прикладной онтологии как концептуальной основы для проектирования базы знаний, основанный на связывании онтологии верхнего уровня и тезауруса с помощью логических ограничений.

2. Модель процесса интеграции разнородных структурированных текстовых описаний для заполнения фактами единой базы знаний.

3. Метод поиска соответствий между элементами структурированного

описания и онтологией, а также подход к разрешению лексической многозначности в базе знаний, которая построена при интеграции разнородных описаний из музейных баз данных.

Апробация результатов работы. Результаты работы докладывались на следующих конференциях:

-Electronic Information, the Visual Arts & Beyond (EVA Moscow) в 2005-2007 годах;

- Theory.Engineering.Language (TEL, Казань) в 2006 - 2008 годах; -Европейской конференции по искусственному интеллекту (ECAI,

______________Рива-дель-Гарда, Италия) в 2006 году;

-конференции Комитета по документации международного совета музеев ICOM (CIDOC, Вена, Австрия) в 2007 году;

- конференции «Знания - Онтологии - Теории» (ЗОНТ, Новосибирск) в 2007 году;

- конференции по когнитивной науке (COGSCÎ, Москва) в 2008 году; -совместных семинарах факультета ВМК КГУ и НИИММ им. Н.Г. Чеботарева по перспективным информационным технологиям в 2007 и 2008 годах;

- Казанском научном семинаре «Методы моделирования» в 2007 году;

- итоговой научной конференции КГУ за 2006 - 2008 годы.

Структура диссертации. Диссертация состоит из трех глав, введения и заключения, содержит 145 страниц, 20 рисунков, 24 таблицы. Список литературы содержит 94 источника.

Краткое содержание диссертации

Во введении описаны проблемы, рассматриваемые в диссертации, обоснована актуальность исследования, сформулированы цели и задачи работы.

Глава 1 содержит обзор общедоступных ресурсов онтологического характера, на основе которых представляется возможным построить онтологию для интеграции структурированных текстовых описаний. Описаны теоретические и технологические аспекты интеграции разнородных баз данных, приведены примеры АИС, использующих онтологии для доступа к информации в сфере культурного наследия.

В качестве типичных представителей ресурсов онтологического типа

рассматриваются онтологии верхнего уровня и информационно-поисковые тезаурусы. Выбор такого рода ресурсов обоснован двумя факторами: необходимостью формального описания свойств и взаимосвязей объектов предметной области и потребностью использования разнообразной терминологии. Рассмотрены следующие онтологии верхнего уровня: SUMO [I]1, DOLCE [2], CYC [3], CIDOC CRM [4] и тезаурусы: тезаурус по архитектуре и искусству ААТ [6], тезаурус по искусству и музейному делу, разработанный в Ленинградском государственном институте культуры им. Н.К. Крупской (СПбГУКИ), а также иконографический тезаурус Ф. Гарнье.

Кроме онтологий верхнего уровня и тезаурусов, в главе рассматриваются существующие форматы описания музейных метаданных, используемые в современных музейных АИС. Описаны следующие отечественные и зарубежные форматы и стандарты: краткое описание (этикетка) музейного предмета, рекомендации Российского этнографического музея по составлению научного паспорта музейного предмета [7], рекомендации британского консорциума MDA (http://www.mda.org.uk/spectrum). Сделаны выводы о возможности использования указанных форматов для автоматической обработки содержимого соответствующих им структурированных описаний.

Выполнен обзор теоретических подходов и технологий интеграции разнородных структурированных данных. В этой области выделяют общие направления на основе федеративных БД, медиаторов и хранилищ данных [9]. В [10] отмечается, что важным аспектом при интеграции данных является наличие глобальной концептуальной схемы. В большинстве случаев задачи интеграции данных сводятся к поиску близких по значению элементов схем путем сравнения структур данных [11, 12], реже — путем сравнения содержимого [13]. Широко используются подходы на основе нейронных сетей [14], машинного обучения [15] и информационного поиска [16]. Результатом сравнения схем данных являются наборы соответствий между элементами схем, на основе которых строится отображение. В [17] рассматриваются два подхода к определению таких отображений: LAV (local-as-view) и GAV (global-as-view), различие между которыми состоит в том, элементы какой из схем (глобальной или локальной) используются как атомы при выражении смысла элементов другой схемы. Для задачи сравнения схем данных разработано множество подходов как специфичных для предметной области [18], так и направленных на использование конкретных языков представления схем [19].

Применяемые методы лингвистической обработки основаны на разнообразных идеях от сравнения n-грамм, оценки расстояния

Список использованной литературы приведен в конце автореферата.

редактирования (расстояния Левенштейна) и созвучности до анализа лексического состава [20]. Такие тезаурусы, как WordNet, используются в качестве базы синонимов при сопоставлении лексических меток элементов схем [8], а также для сравнения значений в текстовом содержимом схем.

В конце главы кратко описаны программные системы, успешно использующие онтологии для доступа к информации по культурному наследию. Среди них - финский портал Finnish Museums on the Semantic Web (http://www.museosuomi.fi/), голландская система MultimediaN (http://e-culture.multimedian.nl/) и проект единой Европейской библиотеки (http://europeana.eu). Проект SCULPTEUR (http://www.sculpteurweb.org/), охватывает 6 европейских музеев с обширными коллекциями цифровых изображений, видеоматериалов с текстовым описанием и метаданными. Система поиска дает возможность пользователю гюлучать~~доступ~к коллекции по комбинации текста, метаданных и концептов онтологии. Рассмотрены также проекты MINERVA, MICHAEL, BRICKS. В этих проектах основной формой представления описаний являются таблицы, содержащие в ячейках текстовые данные - значения атрибутов тех или иных сущностей.

Глава 2 посвящена разработке методов семантической интеграции и доступа к структурированным текстовым описаниям на основе прикладной онтологии. В начале главы описан оригинальный подход к связыванию онтологии верхнего уровня и информационно-поискового тезауруса, организованного по блочно-фасетному принципу. Оба ресурса (и онтология, и тезаурус) представлены на языке OWL DL, основанном на формализме дескриптивной логики Stf01N(<D) - разрешимом фрагменте логики предикатов. Предложен подход к формализации смысла связи между структурными элементами онтологии верхнего уровня и тезауруса. Базовым структурным элементом в онтологии является класс (множество индивидов или экземпляров), а в тезаурусе - понятие, которое также обозначает множество объектов моделируемого мира, однако не имеет явно задаваемых экземпляров, но может иметь парадигматические связи с другими понятиями тезауруса. Выделены две стратегии связывания ИПТ и онтологии:

1) понятия тезауруса становятся подклассами существующих классов онтологии. С каждым понятием тезауруса может быть связано множество его экземпляров. Новый класс-понятие наследует все формальные свойства суперкласса из онтологии;

2) понятия тезауруса внедряются в онтологию как экземпляры особого мета-класса онтологии. При этом невозможно описывать экземпляры понятий и их структуру, но возможно моделировать иерархии тезауруса, отношение синонимии, используя метасвойства онтологии.

Как более гибкая была выбрана вторая стратегия. Связывание осуществляется с помощью определения набора логических ограничений, накладываемых на множества допустимых значений формальных свойств, заданных в онтологии верхнего уровня. В качестве множества допустимых значений некоторого свойства Р выступают группы близких понятий тезауруса, которые обычно представляются как фасеты или дескрипторные блоки. Логические ограничения имеют следующий вид:

С(у)=\/х. Р{у, х)-> DB{х) (строгая форма ограничения),

либо

С(у)=Зх. Р{у ,x)aDB{x) (ослабленная форма ограничения),

где С - унарный предикат (класс С), Р ~ бинарный предикат (свойство Р класса С), a DB - унарный предикат (класс, полученный из фасета или дескрипторного блока тезауруса). В общем случае вместо DB может использоваться предикат, истинный на произвольном подмножестве понятий тезауруса. На языке дескриптивной логики ограничения выражаются следующим образом: V P.DB и 3P.DB.

Предложенный подход позволяет явно выражать значение класса онтологии верхнего уровня через подмножество понятий тезауруса, допустимых в качестве значений свойства этого класса, что поддерживает независимое ведение ресурсов и отражает фундаментальное разделение между интенсинальной (т. е. схемой) и экстенсиональной {т. е. данными) компонентами структурированных описаний. Результатом задания конкретных ограничений является прикладная онтология, которая определяет структуру базы знаний и используется для решения задач интеграции и поиска информации.

Дальнейшее изложение во второй главе строится в соответствии со следующими этапами процесса интеграции структурированных описаний. Этап 1. Представление структурированного текстового описания в виде схемы на языке OWL DL.

Этап 2. Поиск множества соответствий между элементами схем. Построение частичного отображения. Этап 3. Определение полного отображения.

Этап 4. Реализация отображения. Выполнение построенного отображения и фиксация результата.

Этап 5. Оценка качества результата отображения. При необходимости возможен возврат к этапу 3 для улучшения качества построенного отображения.

Центральным понятием в предлагаемом процессе интеграции является структурированное описание, которое моделирует форму представления структурированных текстовых описаний.

Определение 1. Пусть задано множество из п типов данных Td [d = \, 2,..., п). Тогда R назовем структурированным описанием на типах _ Tj - - Сели оно состоит из двух.частей;, интенсионала (заголовка цяи схемы описания) и экстенсионала (содержимого описания).

1. Интенсионал - множество из т атрибутов вида А,:(Т,, 7V..., Т,), где А, - имена атрибутов структурированного описания R, а каждый элемент Г, соответствует некоторому имени типа Td, /=1,2,...,«,

2. Экстенсионал - множество, состоящее из строк t, где t является множеством компонентов вида <v(v„, v,,> —. v,,). a vit - значение одного из типов Т, , связанных с соответствующим атрибутом Аг /= 1,2,..., m,j = 1,2,..., p,k-\,2,-,h.

На этапе 1 происходит приведение интенсионала структурированного описания к виду OWL DL схемы (далее — ТВох). Этот этап состоит в определении для каждого атрибута нового класса. Для R создается отдельный класс, имеющий связи со всеми «классами-атрибутами». После создания ТВох экстенсионал структурированного описания однозначно переносится в экстенсионал схемы: происходит заполнение АВох.

Наиболее важным в процессе интеграции структурированных описаний является этап поиска соответствий между структурными элементами схем описаний (этап поиска элементарных соответствий).

Определение 2. Элементарным соответствием между классами из схем S и Т назовем семерку (Сs, Subjectr, PropertyT, ObjectT, S, type, \v), где Cs - класс из схемы S, Subjectr, ObjectT - классы из схемы T, связанные свойством PropertyT из схемы Т, 5 - основа для построения данного соответствия, type - тип связи между классами С, и Objectr, \v -вес данного элементарного соответствия.

Каждое элементарное соответствие задает связь между классами Cs и Objectг. Параметр type - отношение между Cs и Object,, на домене интерпретации (например, отношение включения или эквивалентности). Параметры Subject т и Propertyт определяют контекст в схеме Т, в котором множества экземпляров Cs и ObjectT могут быть связаны отношением type. Параметр <5 указывает, на основе каких компонентов значения построено данное элементарное соответствие между классами Cs и ObjectT. Назначение параметра 5 состоит в том, чтобы моделировать интерпретацию и сравнивать содержимое классов Cs и ObjectT. Параметр 5, например, может представлять регулярное выражение или набор ключевых слов, содержащихся в текстовых представлениях экземпляров класса Cs и класса ObjectT. В случае семантической интеграции 6 представляет собой список понятий тезауруса, которые описывают экземпляры класса Сs в исходной схеме S и допустимые значения свойства Propertyт класса Subject г в результирующей схеме Т. Множество элементарных соответствий определяет отображение между схемами S и Т, которое далее называется частичным отображением.

Задача построения частичного отображения. Пусть даны исходная схема S и результирующая (глобальная) схема Т. Для заданного числового порога О<0<1 необходимо построить частичное отображение ф, содержащее элементарные соответствия, для каждого из которых выполняются условия:

1) Cj .h Object'T связаны отношением type при 1 = (5,(- )');

2) <5 = С^. П Object'T Ф 0 ;

3)w>0.

Аналогичным образом определяются элементарные соответствия между бинарными предикатами (свойствами) исходной и результирующей схем и ставится задача построения частичного отображения бинарных предикатов из исходной схемы на бинарные предикаты из результирующей.

Для решения поставленной задачи необходимо сравнить интерпретации элементов из схем S и Т, т. е определить 1=(6, (■)') для каждого возможного соответствия. Сравнение может выполняться экспертом, понимающим значение, стоящее за символами классов и свойств в схемах, но для автоматизации этого процесса необходимо моделировать интерпретацию I. Допущение, лежащее в основе данного подхода к моделированию интерпретации, состоит в том, что совокупность текстовых выражений элементов экстенсионала определяет значение (интенсионал) этого класса. Это

значение используется для поиска семантически близких классов в результирующей схеме Т. Для реализации подхода достаточно сделать следующее: для каждого класса С,, из исходной схемы S построить список, содержащий те понятия тезауруса, которые встретились в лексическом выражении жстенсионала класса Сх. Таким образом, интерпретация определяется операционально - через процедуру индексирования текстовых значений с помощью понятий тезауруса. Список понятий определяет интерпретацию класса Cs в терминах информационно-поискового языка тезауруса. Связи между классами и понятиями тезауруса, заданные при создании онтологии, используются для автоматического выделения в схеме Т классов ObjectТ, семантически близких классу Cs. Параметры Subject т и Propertyт берутся из логического ограничения.

Поскольку поиск элементарных соответствий сводится к оценке близости между текстовыми документами, то далее в рамках этапа 2 рассматриваются альтернативные подходы, используемые в области информационного поиска для вычисления близости между документами, способы выбора множества индексирующих термов (например, на основе ключевых слов), способы назначения весов термов при индексировании и т. д. Особый интерес представляет метод сжатия пространства признаков (термов) с помощью техники скрытого семантического анализа (LSA) [5], которое выполняется с помощью сингулярного разложения матрицы, составленной из векторов, представляющих документы в пространстве термов.

Рис. 1. Логическое представление модели процесса интеграции

В рамках третьего этапа процесса интеграции разработан формат определения (полного) отображения между схемой исходного источника и результирующей онтологией. Предложена реализация формата определения отображения в виде отдельной метамодели, что позволяет хранить само отображение как независимый набор утверждений и при необходимости использовать их повторно. Метамодель, используемая для описания связей между схемами Б и Т, представляется на языке дескриптивной логики как онтология отображения Оч (рис. 1).

Основным отношением в онтологии Ои является тарэТо {отображаетсяНа), совокупность значений которого и реализует искомое отображение. Прочие понятия и отношения предназначены для уточнения контекста связываемых элементов разных схем. Задача достраивания частичного отображения до полного основана на критерии связности графа, представляющего запрос к схеме Т. Вершинам графа соответствуют классы, дугам - свойства из Т. Алгоритм, автоматически достраивающий частичное отображение до полного, должен решать задачу перечисления всех связных подграфов на заданном подмножестве вершин графа и будет иметь экспоненциальную сложность. Для сокращения перебора предлагается использовать следующую эвристику: ограничивать сверху диаметр графа (т. е. длину максимального кратчайшего пути), моделирующего запрос к схеме Т.

Этап 4 основан на алгоритме, использующем определение полного отображения ( Ох,) для переноса экземпляров из схемы 8 в схему Т. Данный алгоритм материализует отображение и наполняет базу знаний отдельными фактами, извлеченными из исходного структурированного текстового описания. Одновременно с переносом экземпляров происходит индексирование текстовых значений понятиями тезауруса.

Этап оценки полного отображения основан на следующих общих требованиях. Во-первых, оценка отображения должна учитывать качество результата, который достигается при выполнении отображения. Для оценки результата могут использоваться стандартные подходы на основе критериев точности и полноты. Во-вторых, отображение строится из набора элементарных соответствий, следовательно, оценка качества отображения должна зависеть от входящих в его состав элементарных соответствий. В-третьих, если некоторые из элементарных соответствий не включены в отображение, они должны учитываться при оценке качества, поскольку указывают на то, какая информация теряется при выполнении данного отображения. Обозначим через элементарные соответствия, входящие в состав отображения (/= !,...,&), а через - элементарные соответствия,

не включенные в состав отображения (j=\,...,h—k). При выполнении отображения в базу знаний добавляются новые наборы триплетов (троек вида «объект - свойство - значение»), порожденные элементарными соответствиями. Все множество созданных при заполнении базы знаний триплетов можно оценить с точки зрения точности (отношения числа «правильных» триплетов к общему числу сгенерированных триплетов) и полноты (отношения общего числа созданных триплетов к числу значений, реально присутствующих в текстовом выражении зкстенсионала исходного класса). Значения критериев точности (Р) и полноты (R) комбинируются с помощью формулы F-меры: F(§)=2PR/(P +R). Для оценки качества результата отображения на этапе 5 предложена следующая формула:

i=i i= 1

где а[Ф) и ß(Ф) - параметры, зависящие от отображения, и ч7, -значения веса для элементарных соответствий и 5,.

Для валидации результата отображения может быть использован метод фактографического поиска описаний в базе знаний. Запрос формулируется как набор слов естественного языка и обрабатывается с помощью тезауруса в соответствии с булевской моделью поиска. Каждое понятие тезауруса, извлеченное из текста запроса, сопоставляется с экземпляром онтологии и используется для построения окрестности в базе знаний (т. е. связного множества триплетов). При построении окрестности иерархия тезауруса используется естественным образом для расширения запроса. На заключительном шаге алгоритма поиска строится пересечение извлеченных окрестностей (в общем случае может быть использована произвольная логическая формула, включающая основные теоретико-множественные операции, применяемые к окрестностям). Этот же подход лежит в основе построения индекса для ускорения выполнения запросов к базе знаний. Разработан и реализован соответствующий алгоритм поиска по запросу на языке, близком к естественному, учитывающий семантическую разметку. Проведено сравнение алгоритма поиска с одной из классических поисковых машин (ИПС Google) на 8000 описаний музейных предметов. Точность предлагаемого алгоритма поиска на 300 случайных запросах, содержащих понятия тезауруса, увеличивалась в среднем на 11 - 49%.

При индексировании текстовых значений понятиями тезауруса в базе знаний могут возникнуть противоречия, которые порождаются многозначностью лексических единиц тезауруса. Поэтому валидация

интегрированной базы знаний опирается также на оценку числа случаев лексической многозначности (конфликтов). Для поиска соответствующих конфликтов в базе знаний используется следующий подход.

Пусть i обозначает экземпляр некоторого класса С, Р - некоторое свойство класса С, а с, и с2 - экземпляры, представляющие понятия тезауруса. Предикат, описывающий случаи многозначности, определяется следующим образом:

Ambig(i,P,cuc2)=P(i ,с,)Л?(| ,c2)/\Conflict(ct ,с2),

где Conflict (с,, с2) принимает истинное значение тогда и только тогда, когда сj и с2 имеют одинаковые текстовые входы в тезаурусе. Для разрешения конфликта необходимо либо отбросить один из P{i,ct), либо уменьшить область определения Conflict (с,, сг).

В заключение главы описаны виды логического вывода, которые возможно реализовать над построенной базой знаний.

1. Вывод на структуре классов и свойств формальной онтологии. Возможно конструирование любых правил вывода, поддерживаемых стандартными средствами обработки онтологий, в частности, вывод по транзитивности.

2. Вывод значений свойств экземпляра по иерархии тезауруса. Пример правила вывода: [(х, р,у)л(у, ВТ, z))=>(x, р, z), где у, z - понятия тезауруса, ВТ - свойство, представляющее отношение частичного порядка на множестве понятий тезауруса, х - экземпляр некоторого класса в базе знаний, р - некоторое формальное свойство.

3. Вывод значений одних свойств объекта по значениям других его свойств. Пример правила вывода:

({х, имеетТип, КАРТИНА) л(х .имеетТип ,J1EC))^>(JIEC, изображенНа, х).

4. Вывод новых ассоциативных связей между понятиями тезауруса.

Пример правила вывода: ((х, р, у)Л(у, р2 z)) =>(х, связанС,z).

В главе 3 представлены результаты экспериментального исследования алгоритма поиска элементарных соответствий и результаты разрешения лексической многозначности в базе знаний.

Исходными данными при проведении экспериментов являются структурированные описания предметов, извлеченные из трех музейных баз данных: БД ВРМ - Всероссийский реестр музеев, БД ЭМКУ - Этнографический музей Казанского университета, БД РБМ - Рыбинский государ-

ственный историко-архитектурный и художественный музей-заповедник. Приведены количественные характеристики этих источников данных и примеры описаний. Проведены эксперименты с алгоритмом поиска элементарных соответствий, позволяющие судить о качестве работы алгоритма по двум критериям: полноте и точности. График зависимости точности от полноты приведен на рис. 2. Исследованы зависимости критериев точности и полноты от следующих параметров алгоритма.

1. Способ индексирования содержимого (параметр idx) на основе:

- словоформ (wordform);

- начальных форм слов (lemma);

--- понятий тезауруса (thesaurus);_

2. Способ назначения весов термов (параметр wgt) на основе:

- признака вхождения терма в документ (binary);

- числа вхождений терма в документ (count);

- величины TF*IDF (tfidf).

р 1.2

0.8

0.6

0.4

0.2

*ВРМ

■♦■ЭМКУ

"*"РБМ

0.2 0.4 0.6 0.1

1 1.2 R

Рис. 2. Соотношение средней точности и полноты при поиске элементарных соответствий для трех БД: ВРМ, ЭМКУ, РБМ

Наилучшие результаты по двум критериям получены для следующих значений параметров ¡с1х={1ешша, Леэ}, Для БД ВРМ

достигнуты значения Р = 80% при Я = 56%, а максимальная полнота (100%) достигнута при точности в 60%. Для двух других БД значения критериев были существенно ниже — на уровне 30 - 50% по точности при 60 - 80% по полноте. Такие низкие показатели, однако, не означают, что метод не подходит для автоматизации поиска соответствий. Действительно, если рассмотреть список из всевозможных элементарных соответствий, то точность (на таком списке) для БД РБМ и ЭМКУ будет менее 10%, т. е. алгоритм сокращает число вариантов, которые необходимо рассмотреть эксперту, в 3-5 раз. Отмечено, что большая часть элементарных соответствий находится в интервале 0<9 <0.05.

Оценивалось влияние размерности к пространства признаков (термов) на качество работы алгоритма поиска элементарных соответствий. Проведенные эксперименты показали, что использование техники Ь8А для сжатия пространства термов с помощью сингулярного разложения ведет к увеличению критерия полноты при ухудшении критерия точности. Размерность к влияет на выбор порога в: при уменьшении размерности до 30 большая часть элементарных соответствий находится в интервале 0<б<0.5.

Проведено сравнение предлагаемого алгоритма поиска соответствий с известными методами классификации. Для экспериментов были выбраны метод К-ближайших соседей (КИК), основанный на предварительном обучении, и метод кластеризации без предварительного обучения - К-средних (КМеапэ). Анализ результатов экспериментов показал, что предлагаемый в диссертации метод поиска элементарных соответствий дает лучшие результаты, чем метод КМеапэ, и по точности (в среднем на 15%), и по полноте (в среднем на 10%), но при этом уступает методу по точности в среднем на 10 - 20%.

Отдельное место в диссертации отводится исследованию лексической многозначности, оказывающей существенное влияние на качество работы предлагаемых методов. Предложено разрешать лексическую многозначность значений в столбце, предварительно определив множество допустимых значений атрибута (домен) как подмножество понятий тезауруса (нормативный подход к снятию многозначности).

Эксперименты по снятию многозначности при обработке музейных описаний показали (табл. 1), что учет всех понятий тезауруса ААТ при индексировании различных доменов приводит к показателям многозначности на уровне 13 -30% от общего числа проиндексированных значений, причем большинство случаев многозначности порождается небольшим

числом лексических единиц тезауруса из разных фасетов. При применении нормативного подхода многозначность была в интервале от 0 до 13%. Важно отметить существенное уменьшение полноты покрытия текстовых значений понятиями тезауруса, что наиболее заметно для столбца «Техника».

Для одних столбцов уменьшение числа многозначных единиц в фасете влечет уменьшение числа случаев многозначности при индексировании, для других эта связь нехарактерна, поскольку при описании наименований и типов музейных предметов используются многозначные (внутри фасета) лексические единицы. Поэтому уменьшение числа многозначных единиц с помощью нормативного подхода не приводит к сокращению случаев многозначности при индексировании содержимого столбцов. Для столбцов «Материал» и «Техника», напротив. многозначность "порождается .мелс-фасетньши пересечениями, отбрасывая которые, можно существенно сократить число случаев многозначности при незначительном уменьшении полноты индексирования.

Т а б л и ц а 1

Результаты экспериментов для БД ЭМКУ и БД ВРМ; ALL - индексирование всеми понятиями, NORM — нормативный подход

Критерии Материя Тип, Назваше Техника БД

ALL NORM ALL NORM ALL NORM

Полнота, % 98 96 42 3S S5 50 Э

Многозначность. % 32 1 17 13 31 0 м

Количество 15 2 42 32 26 0 к

многозначных единиц У

Полнота, 9'Ь 97 93 45 43 97 24 в

Многозначность, % 30 1 13 и 30 0 р м

Количество 44 2 53 44 43 0

многозичных единиц

В слабоформализованных предметных областях лексическая многозначность порождается метонимами. В частности, в музейной документации термины, обозначающие тип предмета, часто используются для обозначения техники или процесса создания предметов этого типа. Метонимия неявно переносится в тезаурус, а затем и в прикладную онтологию. В этом случае терминологический ресурс, используемый для автоматизированной

обработки описаний, должен содержать дополнительно отношение метонимии. Добавление этого отношения имеет практическое значение, т.к. опираясь на явное отношение метонимии, можно обосновать корректность некоторых из «ошибочных» элементарных соответствий.

Список публикаций по теме диссертации

Публикации в рецензируемых журналах, рекомендованных ВАК

1. Иванов В.В. Онтологический подход к созданию информационной системы по культурному наследию//Учёные записки Казанского государственного университета. Серия физико-математические науки. - Казань: Казанский государственный университет, 2007. - Т. 149, кн. 2. - С. 73-92.

2. Иванов В.В., Поляков В.Н., Соловьев В.Д. Обзор онтологии верхнего уровня // Вестник Казанского государственного технического университета им. А.Н. Туполева. - 2006. -№3. - С. 50-63 (автором написано 0,7 п. л.).

Прочие публикации

3. Ivanov V. Integration of thesaurus and ontology for the use in the information resource on the culture heritage // Proceedings of First Workshop on Intelligent Technologies for Cultural Heritage Exploitation at the 17Л European Conference on Artificial Intelligence. - Trento, 2006. - P. 31-36.

4. Иванов B.B. Использование лингвистических ресурсов для интеграции разнородной музейной документации // Труды Всероссийской конференции с международным участием "Знания-Онтологии-Теории". - Новосибирск: Институт математики им. С.Л. Соболева СО РАН, 2007. - Т. 1. - С. 246-253.

5. Иванов В.В., Соловьев В.Д. Создание и валидация онтологии в области культуры на базе онтологии верхнего уровня и тезауруса // Труды Казанского научного семинара "Методы моделирования". - Казань: Изд-во КГТУ, 2007. - Вып. 3. - С. 135-152 (автором написано 0,8 п. л.).

6. Иванов В.В., Соловьев В.Д. Применение онтологий для разрешения лексической многозначности в структурированных источниках данных // Третья международная конференция по когнитивной науке. - М.: Художественно-издательский центр, 2008. - Т. 2. - С. 577-580 (автором написано 0,2 п. л.).

7. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: Учебно-методическое пособие - Казань: Казанский государственный университет, 2006. - 198 с. (автором написано 6,5 п. л.).

8. Иванов В.В., Соловьев В.Д. Использование онтологий для описания знаний о культурном наследии (обзор работ) // Современный музей как важный ресурс развития города и региона: Материалы международной научно-практической конференции. - Казань: РИЦ «Школа», 2005. - С. 42-46 (автором написано 0,2 п. л.)

9. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Формирование лингвистического обеспечения информационной системы по культурному наследим // Сборник трудов конференции «Научный сервис в сети Интернет: технологии параллельного программирования», Новороссийск. - 2006. - С. 257259 (автором написано 0,05 п. л.)

10. Добров Б.В., Лукашевич Н.В., Иванов В.В. Лингвистическое обеспечение информационной системы по культурному наследию // III Международные Бодуэновские чтения: И.А. Бодуэн де Куртенэ и современные проблемы теоретического и прикладного языкознания: труды и материалы: в 2 т. - Казань: Казанский государственный университет, 2006. - Т. 2. - С. 169-171. (автором написано 0,05 п. л.).

11. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и те----заурусы: модели, инструменты, приложения: учебное пособие. - М.: Интернет.

Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2009. - 173 е.: ил. (автором написано 5,5 п. л.).

12. Ivanov V. Integrating heterogeneous museum descriptions using linguistic resources // Proceedings of CIDOC-2007 Conference. - Vienna, Austria, 2007 [Электронный ресурс]. - Режим доступа: http://cidoc.mediahost.org/content/ archive/cidoc2007/papers/Ivanov_CIDOC_2007_full_text.pdf, свободный.

13. Иванов В.В. Подход к интеграции разнородных описаний музейных предметов // Сборник тезисов конференции АДИТ-2007, Саратов [Электронный ресурс]. -Режим доступа: http://adit.association.museum/rus/conference/adit2007/ papers/paper.asp?nomei=57, свободный.

14. Иванов В.В., Соловьев В.Д. Информационная система "Культурное наследие России" // Труды Международной конференции "EVA-2005 Москва", 2005 [Электронный ресурс]. - Режим доступа: http://conf.cpic.ni/upload/eva2005/ reports/doklad_686.doc, свободный.

15. Иванов В.В. Разработка лингвистического ресурса для информатизации музеев // Труды Международной конференции "EVA-2006 Москва" [Электронный ресурс]. - Режим доступа: http://conf.cpic.i-u/eva2006/rus/reports/report_839.html, свободный.

Литература

1. Pease A., Niies I. Toward a Standard Upper Ontology // Formal Ontology in Information Systems. Proceedings of the 2nd International Conference (FOIS-200I) / Ed. by C. Welty, B. Smith. - New York: ACM Press, 2001. - P. 2-9.

2. Masolo C., Borgo S., Gangemi A., Guarino N. et al. WonderWeb Deliverable D18 Ontology Library (final). 1ST Project 2001-33052 WonderWeb: Ontology Infrastructure for the Semantic Web [Электронный ресурс]. - Режим доступа: www. loa-cnr.it/Papers/D 18.pdf, свободный.

3. Lenat D.B., Guha R.V. Building Large Rnowledge-Based Systems: Representation and Inference in the Cyc Project. - Addison-Wesley, 1990. - 372 p.

4. Crofts N., Doerr M., Gill Т., Stead S. Definition of the СШОС Conceptual Reference

Model [Электронный ресурс]. - Режим доступа: http://cidoc.ics.forth.gr/docs/ cidoc_crm_version_4.O.pdf, свободный.

5. Dumais S.T. et al. Using latent semantic analysis to improve access to textual information // Proc. Conf. on Human Factors in Computing Systems, 1988. - P. 281286.

6. Petersen T., Barnett P. Art & Architecture Thesaurus: Guide to Indexing and Cataloging With the Art & Architecture Thesaurus. - Oxford: Oxford University Press, 1994.

7. Атрибуция музейного памятника: справочник / Под ред. И.В, Дубова. - СПб.: Лань, 1999.-346 с.

8. Embley D.W., Jackmarm D., Xu L. Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration // Proceedings of Intl. Workshop on Information Integration on the Web (WIIW). - 2001. - P. 110-117.

9. Fundamentals of Data Warehousing / Ed. by M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. - Springer-Verlag, 1999.

10. Wache H., Vogele T., Visser U., Stuckenschmidt H. et al. Ontology-Based Integration of Information - A Survey of Existing Approaches // Proceedings of the IJCAI-2001 Workshop: Ontologies and Information Sharing. - Seattle, WA, 2001. - P. 108-117.

12. Do H.H., Rahm E. COMA - A System for Flexible Combination of Schema Matching Approach // Proceedings of Intl. Conference on Very Large Databases (VLDB). -2002.-P. 610-621.

13. Doan A.H., Madhavan J., Domingos P., Halevy A. Learning to Map between Ontologies on the Semantic Web // Proceedings of Intl. Conference World Wide Web (WWW). - 2002. - P. 662-673.

14. Li W.S., Clifton C., Liu S.Y. Database Integration Using Neural Networks: Implementation and Experiences // Knowledge and Information Systems. - 2000. - V. 2. -№1. - P. 73-96.

15. Berlin J., Motro A. Database Schema Matching Using Machine Learning with Feature Selection // Proceedings of Intl. Conference Advanced Information Systems Engineering (CaiSE). - 2002. - P. 452-466.

16. Cohen W. Integration of Heterogeneous Databases Without Common Domains Using Queries Based on Textual Similarity // Proceedings of ACM SIGMOD Intl. Conference Management of Data. - 1998. - P. 201-212.

17. Baader F., McGuinness D., Nardi D., Patel-Schneider P. The Description Logic Handbook: Theory, implementation and applications. - Cambridge: Cambridge University Press, 2003. - 574 p.

18. Bergamaschi S., Castano S., Vincini M., Beneventano D. Semantic Integration of Heterogeneous Information Sources // Data and Knowledge Engineering. - 2001. -№36(3). - P. 215-249.

19. Miller R.J. et al. The CLIO Project - Managing Heterogeneity // ACM SIGMOD Record. - 2001. -X°30(l). - P. 78-83.

20. Xu L., Embley D. Discovering Direct and Indirect Matches for Schema Elements // Proceedings of Intl. Conference on Database Systems for Advanced Applications (DASFAA). - 2003. - P. 39-46.

Отпечатано в множительном центре Института истории АН РТ

Подписано в печать 24.04.2009. Формат 60x84 1116 Тираж 100 экз. Усл. печ. л. 1,3 г. Казань, Кремль, подъезд 5 Тел. 292-95-68,292-18-09

Оглавление автор диссертации — кандидата физико-математических наук Иванов, Владимир Владимирович

ВВЕДЕНИЕ.

ГЛАВА 1. Обзор состояния дел в области доступа к информации и интеграции данных по культурному наследию.

Введение.

§1.1. Теоретические и технологические основы интеграции данных.

1.1.1. Обзор теоретических подходов.

1.1.2. Технологические аспекты систем интеграции данных.

§ 1.2. Обзор систем музейных метаданных.

1.2.1. Проект «Краткое описание (этикетка) музейного предмета».

1.2.2. Рекомендации Российского этнографического музея.

§1.3. Обзор онтологий верхнего уровня.

1.3.1. Онтология CIDOC CRM.

1.3.2. Онтология OpenCYC.

1.3.3. Онтология DOLCE.

1.3.4. Онтология SUMO.

1.3.5. Сравнение онтологий верхнего уровня.

1.3.6. Анализ преимуществ и недостатков онтологии CIDOC CRM.

§1.4. Тезаурусы по культурному наследию.

1.4.1. Тезаурус по искусству и музейному делу.

1.4.2. Тезаурус по архитектуре и искусству (ААТ).

§1.5. Информационные системы, использующие онтологические ресурсы.

Выводы.

ГЛАВА 2. Создание и приложения онтологии по культурному наследию.

Введение.

§2.1. Подход к связыванию онтологии CIDOC CRM и тезауруса ААТ.

§2.2. Модель процесса интеграции разнородных структурированных текстовых описаний.

2.2.1. Этап 1. Выравнивание представления структуры описания.

2.2.2. Этап 2. Поиск соответствий между элементами схем.

2.2.3. Этап 3. Определение полного отображения.

2.2.4. Этап 4. Реализация отображения. Выполнение построенного отображения и фиксация результата.

2.2.5. Этап 5. Оценка качества результата отображения.

§2.3. Разрешение лексической многозначности в структурированном хранилище описаний музейных предметов.

§2.4. Поиск в интегрированной базе знаний по запросу на естественном языке.

2.4.1. Особенности интегрированного хранилища.

2.4.2. Модель обработки запроса.

2.4.3. Алгоритм поиска описаний по запросу.

Выводы.

ГЛАВА 3. Экспериментальное исследование модели интеграции, методов поиска и снятия лексической многозначности в структурированных описаниях.

Введение.

§3.1. Описание исходных данных.

§3.2. Критерии оценки качества и параметры алгоритма поиска элементарных соответствий.

§3.3. Эксперименты с алгоритмом поиска элементарных соответствий.

§3.4. Сравнение алгоритма поиска элементарных соответствий с алгоритмами, основанными на методах классификации.

§3.5. Эксперименты с алгоритмом поиска описаний в базе знаний.

§3.6. Экспериментальное исследование лексической многозначности в структурированных описаниях.

Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Иванов, Владимир Владимирович

В диссертации описываются результаты, полученные при решении ряда проблем, возникающих в области интеграции и доступа к информации по культурному наследию на основе онтологического подхода. Предложена и реализована методология- интеграции разнородных источников данных по музейной документации. Приводятся результаты экспериментов по интеграции описаний из баз данных реальных музеев, проведены оценка качества полученных результатов и сравнение с известными методами. Предложен оригинальный подход- к автоматизированному разрешению лексической многозначности, возникающей при обработке текстовых описаний музейных предметов с помощью информационно-поискового' тезауруса.

Проблемам; связанным, с интеграцией разнородных источников, информации, посвящено > множество работ как в области технологий баз данных [57], так и в области искусственного интеллекта [27]. Главная цель при решении задачи интеграции данных состоит в обеспечении доступа к множеству разнородных источников на основе общего для всех источников интерфейса запросов. Необходимость и актуальность разработки автоматизированных средств для решения этих задач обусловлены быстрым увеличением количества источников данных и объемов хранимой в них информации. Как правило, интеграция информации производится в рамках некоторой фиксированной предметной области. Использование онтологий (как концептуальных моделей предметной области) для решения задач интеграции информации представляется перспективным направлением [19, 36, 37]. С одной стороны, онтологии предназначены для явного описания понятий и связей между понятиями предметной области, а, с другой стороны, они являются разделяемыми ресурсами и наилучшим образом подходят на роль общего интерфейса к разнородным источникам данных.

Выбор в качестве основного предмета исследования структурированных источников данных обоснован следующими факторами. Объем информации, хранимой в реляционных базах данных, электронных таблицах, слабоструктурированных описаниях и т.п., в различных областях деятельности существенно превосходит объем неструктурированных текстов. При этом, с содержательной точки зрения, тексты, могут описывать, более разнообразную информацию, но автоматическая обработка текстовых документов с учетом их смысла оказывается намного сложнее, чем аналогичная обработка структурированных данных. Этот подход лежит в основе семантического веба (Semantic Web) [22, 23, 42, 75] и предполагает развитие онто-логий как средств выражения смыслового содержимого ресурсов сети Интернет.

Различие между двумя, формами представления существенно влияет на подходы к обработке и доступу к информации, среди, которых выделяют вид информационной системы (документальной или фактографической), язык запросов (близкий к естественному или специализированный, структурированный), способ обработки запроса (оценка релевантности или точное совпадение с запросом). В диссертации в качестве предметной^ области выбрана сфера культурного наследия, в рамках которой оба способа организации информации существуют совместно. При этом наблюдаются тенденция к формализации описаний, введение стандартов метаданных, массовое внедрение в музеях и библиотеках информационных систем фактографического типа, переход от традиционных библиотек к электронным, содержащим информацию разного типа (тексты, фото, аудио и видео). Формализация структуры данных дает определенные преимущества, в особенности, если система используется изолированно. Но необходимость в использовании онтологий для спецификации концептуальной схемы «внутренней» базы данных либо не очевидна, либо просто отсутствует. Однако ситуация меняется при доступе к нескольким структурированным источникам данных: возникают проблемы, связанные с неоднородностью. Сам термин неоднородность понимается по-разному в зависимости от уровня, на котором предполагается объединение источников:

1) физическая неоднородность;

2) структурная неоднородность;

3) семантическая неоднородность.

Физическая неоднородность связана с использованием различных СУБД или типов СУБД для представления данных, соответствующих общей концептуальной схеме. Причина^ появления физической неоднородности связана с выбором технических средств (платформы, протоколов и пр.)- № лингвистического обеспечения (языков представления данных и знаний, языка запросов) при проектировании системы на основе фиксированной^, схемы данных.

Основная причина появления структурной неоднородности состоит в различных подходах к моделированию понятий и отношений предметной области, когда общий язык представления схем данных используется по-разному для выражения одних и тех же понятий. Типичные структурные различия наблюдаются при выборе формы, с помощью которой будет выражено то или иное понятие.

Семантическая неоднородность связана с несоответствиями между применяемыми системами терминов (и различиями в понимании смысла терминов), которые могут привести к разночтениям при определении смысла содержимого источников данных. Важным аспектом, рассматриваемым в диссертации, является использование онтологий при обработке разных типов неоднородности, поскольку онтологии различного уровня абстракции подходят и для формального описания структуры понятий предметной области, и для представления значений специализированной терминологии.

Известные подходы к интеграции информации сталкиваются с рядом проблем, в первую очередь, из-за отсутствия общего взгляда на структуру понятий предметной области (онтологии верхнего уровня), а также из-за отсутствия единой терминологии (набора лексических единиц). При автоматической обработке текстовых значений возникают дополнительные трудности, связанные с разрешением лексической многозначности и кореферентности. Многие современные подходы ориентированы либо на обработку структуры источника данных (метаданных, концептуальной схемы), либо на текстовое содержимое. Предлагаемые в диссертации методы и их реализация учитывают оба указанные аспекта. Для комплексного решения задачи обработки структуры описаний, и лексических значений в терминологии создана онтология по культурному наследию, формализующая основные понятия и отношения^ области музейной документации и содержащая более 20 тыс. понятий.

Поскольку материальная- культура так или иначе затрагивает многие аспекты деятельности человека, выбранная предметная область является очень широкой, как с точки зрения объемов информации, так и с точки зрения количества понятий и терминов, используемых для описания. Музейные БД в России содержат миллионы описаний музейных предметов. При этом общее число предметов,.хранящихся в фондах, составляет десятки миллионов. Специализированные словари и справочники по искусству содержат десятки, а иногда и сотни тысяч терминов. Такая ситуация имеет место при фактическом отсутствии единого стандарта описания музейного предмета и способов обмена метаданными, что сильно затрудняет доступ к информации по культурному наследию, возможность построения эффективных систем поиска. Поэтому первая задача, которая была решена в рамках диссертации, состояла в создании масштабной формальной онтологии по культурному наследию, соответствующей международному стандарту. Для, обеспечения интероперабельности наиболее распространенные в российских музеях схемы метаданных были проанализированы и связаны с созданной онтологией.

Один из основных результатов исследования состоит в создании математического и программного обеспечения для поддержки автоматизированного отображения структуры и содержимого музейных описаний на созданную прикладную онтологию. Предложена модель процесса интеграции, осуществляемого на основе онтологии по культурному наследию. Один из методов, реализованных в рамках процесса интеграции, основан на предположении о том, что- для описания значения близких по смыслу элементов данных используются близкие наборы терминов. Близость между наборами!терминов вычисляется с помощью лексической компоненты онтологии, построенной на основе информационно-поисковых тезаурусов:

Следствием,приведенияфазнородных структур к единой схеме данных и системе терминов является возможность генерации интегрированного хранилища фактов, извлеченных из нескольких исходных источников, реализации новых, механизмов доступа- к. описаниям, фактографического поиска с помощью запросов на естественном или формальном структурированном языке запросов. Схема результирующего хранилища фактов, соответствует структуре понятий формальной онтологии верхнего уровня; что позволяет применять логический вывод на фактах хранилища.

В диссертации предложен алгоритм поиска информации в хранилище по запросу на языке, близком к естественному. При разработке алгоритма учитывалась привязка отдельных элементов к понятиям тезауруса. Алгоритм поиска обрабатывает запрос на естественном языке и извлекает из структурированного хранилища связные совокупности утверждений, соответствующие смыслу запроса в целом. Алгоритм имеет ряд параметров, позволяющих варьировать глубину поиска в хранилище (т.е. максимальную длину извлекаемых цепочек утверждений), а также способ обработки запроса.

Методы связывания-разнородных схем данных и поиска по запросу на естественном языке имеют программные реализации, которые тестировались на трех музейных базах данных. Приводятся результаты оценки качества работы соответствующих алгоритмов. Проведено экспериментальное сравнение предлагаемых алгоритмов с алгоритмами, основанными на методах классификации с обучением и методах кластеризации (без предварительного обучения).

Особое место в диссертации отводится анализу лексической многозначности, появляющейся при обработке текстовых полей БД с помощью тезауруса. Показано, что использование всех понятий тезауруса для индексирования содержимого каждого структурного элемента нецелесообразно, поскольку приводит к высоким показателям многозначности (до 40% от общего числа текстовых значений, содержащих понятия тезауруса). Предложено индексировать текстовое содержимое некоторого элемента (столбца таблицы) с помощью специально подобранного подмножества понятий тезауруса (т.н. фасета), что дает значительное сокращение числа случаев многозначности на 10-35%. Анализ случаев лексической многозначности привел к пониманию особой роли отношения метонимии при решении задач семантической интеграции структурированных описаний. Следствием этого стали рекомендации по дальнейшему развитию лексической составляющей созданной прикладной онтологии в области культурного наследия.

Заключение диссертация на тему "Модели и методы интеграции структурированных текстовых описаний на основе онтологий"

Выводы

1. Наилучшие результаты работы алгоритма поиска элементарных соответствий по двум критериям (полноте и точности) получены для следующих значений параметров idx={lemma, thes}, wgt={tff:idf}. Для БД ВРМ достигнуты значения Р = 80% при R = 56%, а максимальная полнота (100%) достигнута при точности в 60%. Для двух других БД значения критериев были ниже — на уровне 30—50% по точности при 60-80% по полноте.

2. Сравнение алгоритма поиска соответствий с известными методами классификации показало, что предлагаемый алгоритм работает не хуже (по критериям точности и полноты), чем методы без предварительного обучения, и несколько хуже, чем алгоритмы, основанные на предварительном обучении. Однако алгоритм поиска элементарных соответствий строит большее число гипотез, на которых достигаются максимальные значения одного из критериев.

3. Эксперименты с алгоритмом поиска описаний предметов в структурированном хранилище на некоторых запросах, содержащих понятия тезауруса ААТ, показали улучшение критерия точности поиска по сравнению с ИПС Google на 11-49%.

4. Рекомендации по развитию лингвистического обеспечения информационных систем в области культурного наследия состоят в добавлении отношения метонимии между понятиями тезаурусов. Необходимость добавления нового типа отношения обоснована потребностью в использовании метонимии для снятия многозначности и для улучшения качества алгоритмов поиска элементарных соответствий.

ЗАКЛЮЧЕНИЕ

В настоящее время для представления понятий предметной области используются два основных направления. Подходы, находящиеся в рамках первого направления, основаны на выделении существенных свойств понятий, выявлении отношений, в которых понятия могут участвовать. Предметная область делится на два уровня: интенсиональный (уровень модели, множества классов, свойств и т.п.) и эксенсиональный (уровень данных, множество примеров понятий или экземпляров классов, связей между экземплярами и т. п.). Индивидуальные объекты предметной области моделируются экземплярами понятий. За редким исключением (например • проект CYG), реально действующие системы, созданные в рамках этого направления, имеют формальные описания не более чем для нескольких сотен или тысяч классов, но не для десятков тысяч. V

В рамках, второго направления понятия предметной- области используются в качестве значений ограниченного, заранее заданного множества признаков, с помощью которых представляются объекты предметной области. G одной стороны, не возникает необходимости формализовать внутреннюю структуру понятий, а, с другой стороны, общее число понятий может составлять десятки тысяч, что позволяет эффективно решать задачи, возникающие в «широких» предметных областях. Ярким примером ресурсов создаваемых в этом направлении, являются информационно-поисковые тезаурусы (ИПТ), формализующие терминологию (множество лексических значений) различных предметных областей. При информационном поиске понятия ИПТ (дескрипторы) используются для представления содержимого текстовых документов в качестве значений признаков, по которым документы можно извлекать из коллекции.

В рамках обоих из описанных направлений создаются принципиально отличные друг от друга ресурсы, называемые впоследствии онтологиями.

Один из основных вопросов, на которые получен ответ в диссертации, состоит в том, можно ли совместить свойства формальных (но относительно небольших) онтологий со свойствами крупных терминологических ресурсов. В диссертации была поставлена цель создать подобный ресурс для области культурного наследия, исследовать его свойства и возможность применения для решения задач, характерных для каждого из направлений, — интеграции данных и задач информационного поиска.

В качестве исходных ресурсов были выбраны онтология верхнего уровня и тезаурус по архитектуре и искусству. В качестве основного формализма — язык- дескриптивной логики. Процесс связывания онтологии верхнего уровня; и тезауруса оказался нетривиальной задачей. Основную трудность представляет формализация связей между классами онтологии верхнего уровня и понятиями тезауруса. Понятия, перенесенные из тезауруса в онтологию, не должны иметь экземпляров» (поскольку это — значения), поэтому их не имеет смысла представлять как классы (в отличие от понятий онтологии верхнего уровня); Однако понятия* тезауруса объективно описывают множества объектов (классы). Для разрешения этого противоречия предложено формализовать связи между онтологией и тезаурусом в виде логических ограничений, накладываемых на определенные свойства онтологии верхнего уровня. Результатом связывания онтологии верхнего уровня и тезауруса стал крупный онтологический ресурс по культурному наследию, объем которого составил более 20 тыс. понятий.

Основной задачей, для решения которой применялся созданный ресурс, является задача интеграции данных. Структурированные описания музейных предметов состоят из двух уровней: схемы описания и содержимого, представляемого в основном текстовыми значениями. В связи с этим интеграция разнородных структурированных описаний на основе онтологии также должна выполняться на двух уровнях. Уровню схемы источника данных соответствуют понятия формальной онтологии, а уровню текстового содержимого — понятия тезауруса.

В диссертации предложена и реализована модель процесса интеграции разнородных структурированных текстовых описаний на основе прикладной онтологии. Процесс направлен на автоматизированное формирование базы знаний1, содержащей факты, извлеченные из множества исходных описаний. Разработаны соответствующие алгоритмы, реализующие предложенную модель. В ходе проведения экспериментов описания более чем 10 тыс. музейных предметов были представлены в базе знаний. Проведены эксперименты по сравнению алгоритма поиска элементарных соответствий с алгоритмами, основанными на методах классификации с обучением и методами кластеризации. Эксперименты показали, что предложенный в диссертации метод работает в среднем не хуже методов кластеризации, но хуже методов с предварительным.обучением.

В* рамках решения задачи поиска' описаний в интегрированном хранилище разработан алгоритм поиска по запросу, сформулированному на естественном языке. Предложена модель обработки запроса, учитывающая особенности базы знаний, в которой осуществляется поиск. Алгоритм сравнивался с ИПС Google. По критерию точности на-запросах, содержащих понятия тезауруса, было получено улучшение до 50%. При этом полнота поиска либо не изменялась, либо (на некоторых запросах) за счет расширения запроса с помощью тезауруса количество извлекаемых описаний увеличивалось в 3-5 раз. Методам решения задач информационного поиска в диссертации уделено недостаточно внимание, приведенные результаты охватывают только несколько типичных поисковых запросов, в силу того, что методы поиска имеют косвенное отношение к главной цели исследования — разработке математического обеспечения процесса интеграции структурированных текстовых описаний. Предполагается, что поиску в масштабных интегрированных хранилищах описаний будут посвящены, дальнейшие исследования.

Основная цель, поставленная при написании диссертационного исследования, была достигнута: создан крупный онтологический ресурс, описывающий понятия и отношения в области культурного наследия и объединяющий свойства формальной онтологии и тезауруса. Показано наличие у ресурса всех свойств, характерных для онтологии. Свойство разделяемости следует из того, что онтология верхнего уровня CIDOC CRM является международным стандартом, а понятия тезауруса ААТ подтверждаются многими примерами из специальной литературы в данной предметной области. Онтология содержит только явные утверждения, выраженные на языке дескриптивной логики. В диссертации также показано, как построенная онтология по культурному наследию может использоваться в качестве концептуальной основы для интеграции структурированных текстовых описаний музейных предметов, информационного поиска и снятия лексической многозначности. Предполагается, что этим круг ее приложений не ограничится. К перспективным приложениям результатов диссертации можно отнести создание сводных семантически размеченных каталогов музейных фондов и программных средств, для улучшения качества многоязычного доступа к информации по культурному наследию.

Библиография Иванов, Владимир Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Атрибуция музейного памятника: справочник / Под ред. И.В. Дубова. - СПб.: Лань, 1999.-346 с.

2. Гаврилова Т., Хорошевский В. Базы знаний интеллектуальных систем: учебник для вузов. СПб.: Питер, 2000. - 384 с.

3. ГОСТ 7.25-80. Тезаурус информационно-поисковый одноязычный: правила разработки, структура, состав и форма представления.

4. Дейт К. Дж. Введение в системы баз данных. — 8-е изд. М.: Вильяме, 2006.

5. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения: учебное пособие. М.: Интернет-Университет Информационных Технологий; БИНОМ; Лаборатория знаний, 2008.-172 с.

6. Емельянов Н.Е., Ерохин В.И. Особенности систем, создаваемых на основе НИКА-Технологии (на примере системы НИКА Музей) // Сборник трудов Института системного анализа РАН. - 2004.

7. Кронгауз М.А. Семантика: учебник для вузов. М.: Российский государственный гуманитарный университет, 2001. — С. 128-132.

8. Кузьмина Е.С., Лаанье К., Эткен Ж. EROS: технические возможности и запросные средства системы // Материалы конференции EVA-2005, Москва. — 2005.

9. Кузьмина Е.С., Ноль Л.Я., Черненко В.В., Кощеева Е.Л. и др. Краткое описание музейного предмета: информационно-лингвистическое обеспечение. — Псков; М., 2001.

10. П.Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог'2002». -М.: Наука, 2002. Т. 2.

11. Лукашевич Н.В., Чуйко Д.С. Автоматическое разрешение лексической многозначности на базе тезаурусных знаний // Интернет-математика 2007: сборник работ участников конкурса. — Екатеринбург: Изд.-во Урал, ун-та, 2007. — С. 108-118.

12. Минский М. Фреймы для представления знаний. — М.: Энергия, 1979.

13. Нариньяни А.С. Кентавр по имени ТЕОН: тезаурус+онтология // Международный семинар по компьютерной лингвистике и ее приложениям «Диалог'2001». 2001 - Т. 1.-С. 184-188.

14. Нариньяни А.С. ТЕОН-2: от Тезауруса к Онтологии и обратно // Международный семинар «ДИАЛОГ'2002». Протвино, 2002. - Т. 1. - С. 307313.

15. Российский семинар по оценке методов информационного поиска // Труды III Российского семинара РОМИП'2005 / Под ред. И.С. Некрестьянова. СПб.: НИИ Химии СПбГУ, 2005. - 226 с.

16. Соколов А.В. Принцип построения фасетно-блочных тезаурусов // Информационные языки. М., 1975. - С. 222-243.

17. Суперанская А.В., Подольская Н.В., Васильева Н.В. Общая терминология: вопросы теории. — 2-е изд., стереотип. / Отв. ред. Т.Л. Канделаки. — М.: Едиториал УРСС, 2003. 248 с.

18. Baader F., McGuinness D., Nardi D., Patel-Schneider P. The Description Logic Handbook: Theory, implementation and applications. Cambridge: Cambridge University Press, 2003.

19. Bergamaschi S., Castano S., Vincini M., Beneventano D. Semantic Integration of Heterogeneous Information Sources // Data and Knowledge Engineering. 2001. -№36(3).-P. 215-249.

20. Berlin J., Motro A. Database Schema Matching Using Machine Learning with Feature Selection // Proceedings of Intl. Conference Advanced Information Systems Engineering (CaiSE). 2002.

21. Berners-Lee Т., Fischetti M. Weaving the Web: Origins and Future of the World Wide Web. Britain: Orion Business, 1999.

22. Berners-Lee Т., Hendler J., Lassila O. The Semantic Web // Scientific American. -2001.

23. Blazquez M1., Fernandez M., Garcia-Pinar J.M., Gomez-Perez A. Building Ontologies at the Knowledge Level using the Ontology Design Environment// Proceedings of Knowledge Aquisition Workshop (KAW98). 1998.

24. Caffo R. The MINERVA Project: Inintiatives for High Quality of Cultural Communication // Proceedings of Electronic Imaging and the Visual Arts (EVA-2005, Florence) Conference. Bologna: Pitagora Editrice, 2005.1. P. 24-26.

25. Calvanese D., De Giacomo G. Data integration: A logic-based perspective // AI Magazine, 2005. V. 26. -№1. - P. 59-70.

26. Calvanese D., De Giacomo G., Lenzerini M. Ontology of Integration and Integration of Ontologies // Description Logics. 2001.

27. Calvanese D., De Giacomo G., Lenzerini M., Vard M.Y. Answering queries using views over description* logics knowledge bases // Proceedings of the Description Logic Workshop. CEUR Workshop Proceedings. 1999. - V. 22. - P. 9-13.

28. Calvanese D., De Giacomo G., Lenzerini M. Description logics for information integration // Computational Logic: From Logic Programming into the Future, LNCS. -Springer-Verlag, 2001.

29. Cohen W. Integration of Heterogeneous Databases Without Common Domains Using Queries Based on Textual Similarity // Proceedings of ACM SIGMOD Intl. Conference Management of Data. 1998. - P. 201-212.

30. Corcho O. A layered declarative approach to ontology translation with knowledge preservation // Frontiers in Artificial Intelligence and its Applications. Dissertations in Artificial Intelligence. 2005. - 168 p.

31. Do H.H., Rahm E. COMA — A System for Flexible Combination of Schema Matching Approach // Proceedings of Intl. Conference on Very Large Databases (VLDB). 2002.

32. Doan A.H., Madhavan J., Domingos P., Halevy A. Learning to Map between Ontologies on the Semantic Web // Proceedings of Intl. Conference World Wide Web (WWW).-2002.

33. Doan A., Madhavan J., Domingos P., Halevy A. Ontology Matching: A Machine Learning Approach // Handbook on Ontologies in Information Systems / Ed. by S. Staab and R. Studer. Springer-VeKlag, 2004. - P. 397-416.

34. Doerr M., Hunter J., Lagoze C. Towards a Core Ontology for Information Integration // Journal of Digital Information. — 2003. — V. 4. — Issue 1.

35. Eisenberg A., Melton J. SQL:1999, formerly known as SQL3 // ACM SIGMOD Record. 1999. - V. 28. - №1.

36. Embley D.W., Jackmann D., Xu L. Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration // Proceedings of Intl. Workshop on Information Integration on the Web (WIIW). -2001.

37. Euzenat J., Shvaiko P. Ontology Matching. Heidelberg: Springer, 2007. - 340 p.

38. Farquhar A., Fikes R., Rice J. The Ontolingua server: A tool for collaborative ontology construction // International Journal of Human-Computer Studies. 1997. -№46,-P. 707-727.

39. Fensel D., Wahlster W., Lieberman H., Hendler J. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. 2003.

40. Fresa A. MICHAEL: Multilingual Inventory of Cultural Heritage in Europe // Proceedings of Electronic Imaging and the Visual Arts (EVA-2005, Florence) Conference. — Bologna: Pitagora Editrice, 2005. P. 34—40.

41. Fundamentals of Data Warehousing / Ed. by M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. — Springer-Verlag, 1999.

42. Gamier F. Thesaurus iconographique: systeme descriptif des representations. Paris, 1984.-239 p.

43. Gruber T.R. A Translation Approach to Portable Ontology Specifications // Knowledge Acquisition. 1993.-V. 5.-P. 199-220.

44. Gruber T.R. The role of common ontology in archieving shareable, reusable knowledge bases // Proceedings of the Second International Conference on Principles of Knowledge Representation and Reasoning. 1991. - P. 601-602.

45. Guarino N., Garetta P. Ontologies and Knowledge Bases. Towards a Terminological

46. Clarification // Towards Very Large Knowledge Bases; ed. by N.J.I. Mars. Amsterdam, Philadelphia: IOS Press, 1995.

47. Halevy A.Y. Answering queries using views: A survey // The VLDB Journal. -2000. V. 10. - №4. - P. 270-294.

48. Hyvonen E., Miikela E., Salminen M., Valo A. et al. MuseumFinland Finnish Museums on the Semantic Web // Journal of Web Semantics. - 2005. - V. 3. - №2. -P. 25.

49. Jackson P., Mouliner I. Natural language processing for online applications: text retrieval, extraction and categorization. — Amsterdam, Philadephia: John Benjamins Publishing Company, 2002.

50. Kifer M., Lausen G., Wu J. Logical Foundations of Object-Oriented and Frame-Based Languages // Journal of the ACM. 1995.

51. Leacock C., Charorow M. Combining local context and WordNet similarity for word sense identification // WordNet: An electronic lexical database. Cambridge, MA: The MIT Press, 1998.

52. Lahanier G., Aitken G., Pillay R. EROS: European Research Open System // Proceedings of Intl. Conference on Hypermedia and Interactivity in Museums. 2003.

53. Lenat D.B., Guha R.V. Building Large Knowledge-Based Systems: Representation1 and Inference in the Cyc Project. — Addison-Wesley, 1990,

54. Lenzerini M. Data integration: A theoretical perspective // ACM PODS Conference. -2002.-P. 233-246.

55. Levy A.Y., Mendelzon A.O., Sagiv Y., Srivatstava D. et al. Answering queries using views // Proceedings of PODS. San Jose, CA, 1995.

56. Levy A.Y., Rajaraman A., Ordille J.J. Querying heterogeneous information sources using source descriptions // Proceedings of Very Large DataBases Conference (VLDB).-Bombay, 1996.

57. Li W.S., Clifton C., Liu S.Y. Database Integration Using Neural Networks: Implementation and Experiences // Knowledge and Information Systems. 2000. -V. 2. — №1.

58. Madhavan J., Bernstein P.A., Doan А.Ы., Halevy A. Corpus-based Schema Matching // Proceedings of Intl. Conference on Data Engineering (ICDE). 2005.

59. Miller G. Nouns in WordNet // WordNet An Electronic Lexical Database / Ed. by C. Fellbaum. - Cambridge: The MIT Press, 1998.

60. Miller R.J. et al. The CLIO Project Managing Heterogeneity // ACM SIGMOD Record.-2001.-№30(1).-P. 78-83.

61. Noy N., Hafiier C. The State of the Art in Ontology Design: A Survey and Comparative Review // Al Magazine. 1997. - P. 53-74.

62. Noy N., McGuinness D. Ontology Development 101: A Guide to Creating Your First Ontology//Technical Report KSL. -2001.

63. Pease A., Niles I. Toward a Standard Upper Ontology // Formal Ontology in Information Systems. Proceedings of the 2nd International Conference (FOIS-2001) / Ed. by C. Welty, B. Smith. -New York: ACM Press, 2001. P. 2-9.

64. Poesio M. Domain modelling and NLP: Formal ontologies? Lexica? Or a bit of both? // Applied Ontology. 2005. - V. 1. -№l. - P: 27-33:

65. Schreiber G., Amin A'.,, van Assem M., De Boer V. et al. MultimediaN E-Culture Demonstrator // International Semantic Web Conference (ISWC2006). 2006: -P. 951-958.

66. Sowa J.F. Knowledge: Representation: Logical, Philosophical and Computational Foundations. Pacific Grove; CA: Brooks Cole Publishing Co., 2000:

67. Sowa J.F. "Semantic networks" // Encyclopedia of Artificial Intelligence / Ed. by S.C. Shapiro.-New York: Wiley, 1987.

68. Towards the Semantic Web: Ontology-Driven Knowledge Management / Ed. by J. Davies, D. Fensel, F. van Harmelen Chicester, UK: John Wiley & Sons, 2003.

69. Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review. 1996. - V. 11. -№2. - P. 93-155.

70. Van Ossenbruggen J., Amin A., Hardman L., Hildebrand M. et al. Searching and Annotating Virtual Heritage Collections with Semantic Web Techniques // Museums and the Web. 2007.

71. Van Rijsbergen C.J. Information Retrieval. London: Butterworths, 1979.

72. Wache H. Towards rule-based context transformation in mediators // International Workshop on Engineering Federated Information Systems (EFIS 99) / Ed. by S. Conrad; W. Hasselbring, and G. Saake.- New York, 1999.

73. Wache H., Vogele Т., Visser U., Stuckenschmidt H; et al. Ontology-Based Integration of Information A Survey of Existing Approaches // Proceedings of the IJCAI-2001 Workshop: Ontologies and Information Sharing. - Seattle, WA, 2001.

74. Xu L., Embley D: Discovering Direct and Indirect Matches for Schema Elements //

75. Proceedings of Intl. Conference on Database Systems for Advanced Applications (DASFAA). — 2003.1. Электронные ресурсы

76. Collections Trust — Collections Trust Homepage Электронный ресурс. — Режим доступа: http://www.mda.org.uk, свободный.

77. Categories for the Description of Works of Art (Research at the Getty) / Ed. by M.Baca and P. Harpring Электронный ресурс. Режим доступа: http://www.getty.edu/research/conductingresearch/standards/cdwa/index.html, свободный.

78. Art and Architecture Thesaurus (Research at the Getty) Электронный ресурс. -Режим доступа: http://www.getty.edu/research/conducting research/vocabularies/aat/, свободный.

79. OpenLink Virtuoso Universal Server: Documentation Электронный ресурс. -Режим доступа: http://docs.openlinksw.com/pdf7virtdocs.pdf, свободный.

80. DOLCE: a Descriptive Ontology for Linguistic and Cognitive Engineering Электронный ресурс. Режим доступа: http://www.loa-cnr.it/ DOLCE, html, свободный.

81. Suggested Upper Merged Ontology (SUMO) Электронный ресурс. Режим доступа: http://www.ontologyportal.org, свободный.

82. Kondylakys Н., Doerr М., Plexousakis D. Mapping language for information integration. Technical Report 385, ICS-FORTH, December 2006 Электронный ресурс. Режим доступа: http://cidoc.ics.forth.gr/ docs/MappingTR385December06.pdf, свободный.

83. Crofts N., Doerr M., Gill Т., Stead S. Definition of the CIDOC Conceptual Reference Model Электронный ресурс. Режим доступа: http://cidoc.ics.forth.gr/docs/cidoccrmversion4.0.pdf, свободный.

84. The SCULPTEUR R&D Project Электронный ресурс. Режим доступа: http://sculpteurweb.org, свободный.