автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов
Автореферат диссертации по теме "Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов"
На правах рукописи
Нгуен Мань Хунг
Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов
Специальность: 05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей
Автореферат
Диссертация на соискание ученой степени кандидата физико-математических наук
Москва, 2004
Работа выполнена в Вычислительном центре им. А.А Дородницына - РАН
Научный руководитель:
доктор физико-математических наук, профессор В.А.Серебряков
Официальные оппоненты:
доктор технических наук, профессор С.Д.Кузнецов кандидат физико-математических наук, доцент С.П.Коновалов Ведущая организация:
Всероссийский Институт Научной и Технической
на заседание диссертационного совета Д002.017.02 при Вычислительном центре им. А.А Дородницына Российской Академии Наук по адресу: 119991, ГПС-1, Москва, ул. Вавилова, дом 40, конференц-зал.
С диссертацией можно ознакомиться в библиотеке Вычислительного центра им. А.А Дородницына - РАН
Автореферат разослан« » 2004г.
Информации (ВИНИТИ) - РАН
Защита диссертации состоится «_»
2004 г в «_» часов
Ученый секретарь диссертационного совета
Общая характеристика работы
Актуальность работы
В настоящее время глобальная сеть Internet является важнейшим источником информации для всех областей знаний, однако поиск информации при помощи Internet зачастую оказывается малоэффективным. Это происходит потому, что изначально World Wide Web (Web) технологии исключительно ориентировались на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-ресурсов. Благодаря принципам, легшим в основу Web, он развивается высокими темпами, развивается как экстенсивно, так и интенсивно. Информация, находящаяся в Web слабо упорядочена, постоянно изменяется, причем как сама информация, так и ее положение. Использование всего богатства имеющихся источников информации в информационных системах сопряжено с проблемами эффективного обнаружения требуемой информации. Имеющиеся системы не позволяют осуществить эффективный поиск требуемой информации. Это связано и с возрастанием объема информации, и со способами выбора того, что следует индексировать, как обеспечить равноправное индексирование всего пространства информации, с проблемами определения, в контексте каких поисковых запросов следует выдавать ту или иную информацию. Имеется много всевозможных способов поиска информации, ее извлечения и доставки, тем не менее, отыскать нужную информацию в Интернет становится все труднее и труднее. Для решения этих проблем необходимо создавать и использовать всевозможные средства, классифицирующие, индексирующие информацию, облегчающие поиск необходимых ресурсов, делающие поиск значительно более управляемым, предметным и содержательным. В настоящее время следующие направления исследования очень актуальны:
РОС НАЦИОНАЛЬНАЯ 3 | БИБЛИОТЕКА
СПетерйТГjm
09 m'ütvcL
-Применение тезаурусов в информационных системах для классификации, поиска информационных ресурсов, аннотирования текстов, и пр.
-Применение метаданных для описания объектных моделей ресурсов информационных систем и атрибутного поиска. Использование метаданных позволяет представлять данные в семантически обусловленном формате.
Из вышесказанного следует, что значительный интерес представляет разработка и реализация информационной системы, реализация которой предусматривает: -Использование метаданных для описания ресурсов. -Использование тезаурусов для классификации ресурсов, а также для их эффективного поиска.
-Применение открытых стандартов взаимодействия систем, поиска, обмена и представления данных.
Целью диссертационной работы является исследования подходов к применению тезаурусов в информационных системах (ИС). Эта цель достигается посредством решения следующих задач:
1) Изучение структуры тезауруса и основных стандартов его описания и представления (ISO, ГОСТ, ANSI).
2) Разработка общей универсальной схемы представления тезаурусов в информационно-поисковых системах, позволяющей осуществлять эффективное использование тезауруса при поиске, классификации и навигации в пространстве ресурсов информационной системы.
3) Реализовать прикладную логику и пользовательские интерфейсы работы с тезаурусами для информационного портала ИСИР на основе универсальной схемы представления тезаурусов.
4) Реализация портала - Интегрированная Система Информационных Ресурсов Вьетнамского Министерства Образования и Подготовки (ВМОиП) с использованием
технологий ИСИР портала. Система должна строиться на основе объектной схемы данных, отображаемой в конкретные базы данных разных типов. Такой подход позволяет легко расширять систему и интегрировать свои данные с данными других систем. Система должна представлять разные права доступа к ресурсам для разных пользователей. Система должна поддерживать много языков (как для интерфейсов и так для хранимых ресурсов), предоставлять удобные интерфейсы для поиска, просмотра, редактирования, пакетной выгрузки и загрузки ресурсов.
Практическая ценность
Предложенная универсальная схема и реализация тезаурусов используются в разных системах (ИСИР Портал РАН, Math-Net.RU и системе ВМОиП).
Научная новизна
Степень новизны результатов состоит в том, что на основе анализа разных подходов к представлению тезаурусов, предложена общая универсальная схема представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса. Предложены новые механизмы работы с тезаурусами в информационных системах. Апробации работы. Некоторые из изложенных в диссертации научные результаты работы докладывались на Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2003, Санкт-Петербург, Россия, 2003.
Публикации. По теме диссертации опубликовано 4 печатные работы, а также одна публикация в электронном издании. Список этих работ приведен в конце реферата.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Общий объем диссертационной работы - 96 стр.
Содержание работы
Во введении содержатся постановка проблемы исследований, актуальность и цели диссертации
Первая глава содержит обзор некоторых стандартов для представления тезаурусов, возможных применений тезаурусов в ИС и различных подходов к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов.
В разделе 1.1 описываются тезаурусы, их роль в описании информации, и их применения в информационных системах. Тезаурусы применяются, прежде всего, для классификации, индексирования и поиска информационных ресурсов. При этом каждому ресурсу могут быть сопоставлены одно или более понятий, описываемых терминами в тезаурусе, а пользователь, осуществляющий поиск, может по тезаурусу найти интересующие его понятия в данной предметной области, а также все характеризующие их термины. То есть на основе связей тезауруса происходит расширение поискового запроса (расширение слов запроса синонимичными, более общими или более частными по смыслу терминами). Навигация по связям тезауруса помогает четче сформулировать сам запрос.
В разделе 1.2 рассмотрены стандарты для представления тезаурусов. Существует ряд стандартов разного уровня значимости и проработанности на формат представления тезаурусов. Эти стандарты представляют тезаурус в виде набора объектов нескольких типов, между которыми может быть несколько типов связей. Основными документами, регламентирующим формат представления тезауруса, являются стандарты ISO 2788-1986 для описания одноязычных тезаурусов, и ISO 5964-1985 для описания многоязычных. Стандарты ANSI/NISO Z39.19-1993 и ГОСТ расширяют и уточняют стандарт ISO 2788-1986, а также накладывают ряд дополнительных ограничений на структуру тезауруса.
В разделе 1.3 рассмотрены некоторые приложения тезаурусов в существующих информационных системах.
В разделе 1.4 описываются существующие подходы к представлению тезаурусов, а также анализ их достоинств и недостатков. Показано, что эти схемы пригодны для описания и работы с некоторыми видами тезаурусов, но никакой из этих подходов не являются универсальным.
Вторая глава посвящена описанию общей универсальной схемы представления тезаурусов. На основе анализа, проведенного в первой главе, создана схема, пригодная для представления любого тезауруса (в том числе и многоязычного). Сделан анализ некоторых возможных платформ для такой формализации, описаны особенности работы с тезаурусами в информационных системах, а также проблемы при этом возникающие, требования к реализации тезауруса в рамках Semantic Web.
В разделе 2.1 описываются особенности применения тезаурусов в информационных системах. Существует ряд тезаурусов, основная задача которых не индексация. ресурсов, а их классификация. В этом случае основными объектами таких тезаурусов (классификаторов) выступают не термины, а понятия (рубрики) и, часто, идентифицирующие их уникальные идентификаторы (коды классификации). Отношения в таком тезаурусе - не семантические связи между терминами, а характеризующие логику описываемой предметной области отношения между понятиями (рубриками). Примерами таких тезаурусов могут служить тематические классификаторы в разных отраслях науки, например, MSC, PACS, DDC.
Структура классификатора соответствует структуре обычного тезауруса, поскольку связи между его рубриками по смыслу те же, что и между терминами тезауруса, и классификатор является его частным случаем. Однако при классификации в соответствие ресурсам ставятся не термины, а обозначаемые ими понятия. Потому в схеме данных
информационной системы понятия тезауруса должны быть выделены в самостоятельные объекты. Это означает, что такая схема должна иметь структуру, отличную от вышеописанных стандартов, в которых понятия не выступают отдельными объектами, а есть лишь термины и связи между ними. В то же время, схема должна позволять работать с тезаурусами, описанными в соответствии с этими стандартами, т.е. быть совместима с ними.
Среди связей между терминами в вышеописанных стандартах следует различать связи, которые по смыслу характеризуют фактически соотношения не между терминами, а между термином и обозначаемым им понятием. К таковым относятся связи Use, Used For в ISO и связи Смотри (Use), Синоним (UF), Используй альтернативно. Используй комбинацию (Use+), Сравни альтернативный выбор, Сравни комбинацию (UF+) В ГОСТ 7.25-2001. В схеме данных для информационной системы стоит ставить такие связи между понятиями и терминами, которые их обозначают.
Аналогично, иерархические и ассоциативные связи по смыслу являются связями между понятиями. Признак Top Term также является признаком понятия, находящегося на вершине иерархии понятий.
Таким образом, получается следующее отображение связей между терминами в стандартах ISO, ANSI и ГОСТ для одноязычных тезаурусов на отношения в схеме данных тезауруса информационной системы: те связи, которые допустимы между наиболее предпочтительными терминами (дескрипторами) для каких-либо понятий, в схеме данных тезауруса информационной системы становятся отношениями между понятиями. Те связи, которые были допустимы между наиболее предпочтительным термином (дескриптором) и другими терминами (аскрипторами) данного понятия, становятся отношениями между понятием и термином.
Как указывалось выше, в многоязычных тезаурусах термины имеют атрибут язык, на котором данный термин обозначает данное понятие. Кроме того, стандартами ISO 59641985 и ГОСТ 7.24-90 предусматривается ряд отношений эквивалентности между терминами на разных языках, допускающие, помимо строгой эквивалентности, несколько видов неполной эквивалентности терминов. По смыслу атрибут язык - свойство термина, а не понятия. В то же время термины на разных языках, между которыми есть только частичная эквивалентность, строго говоря, соответствуют разным, пусть и близким, понятиям.
Таким образом, более естественной в схеме данных тезауруса для информационных систем будет привязка языка к терминам, а не к понятиям. Более того, такой подход является единственно возможным для классификаторов, в которых именно независящие от языка понятия классифицируют другие ресурсы. Обычно такие классификаторы изначально создаются как одноязычные, и лишь потом для них делаются переводы на другие языки. В этом случае между терминами на разных языках имеет место только строгая эквивалентность, поскольку при переводе для каждого термина дается его строгий эквивалент (который является эквивалентом по определению, в контексте данного классификатора, даже если фактически перевод не совсем точен). Привязка языка к понятию означала бы необходимость делать отдельную копию одного и того же понятия для каждого языка и отдельную связь между каждой копией понятия и классифицируемым им ресурсом. Привязка языка к термину позволяет привязать все эквивалентные термины на разных языках к одному и тому же понятию.
Однако в тезаурусах, где много отношений неполной эквивалентности между разноязычными терминами, а также имеются разные иерархии для терминов на разных языках, даже полностью эквивалентные термины могут оказаться в разных иерархиях, а значит, не могут быть привязаны к одному понятию.
Все это означает, что для поддержки многоязычных тезаурусов схема данных должна предусматривать описанные в стандартах ISO, ГОСТ соотношения эквивалентности между терминами на разных языках как отношения между понятиями. При этом для каждого тезауруса, в зависимости от его специфики, необходимо сделать выбор, каким образом реализовывать отношение полной эквивалентности между разными терминами:
1. Приписывать термины к разным понятиям, и ставить между понятиями отношение полной эквивалентности.
2. Приписывать термины к одному и тому же понятию. Очевидно, для классификаторов необходимо использовать второй подход, а для многоязычных тезаурусов, имеющих разные иерархии на разных языках - первый. Следует заметить, что тезаурус, в котором есть отношение неполной эквивалентности, по смыслу уже подразумевает наличие разных иерархий на разных языках, а значит, необходим первый подход при их реализации.
Еще одним важным атрибутом термина в тезаурусе является комментарий к нему {Scope Note). В тезаурусах-классификаторах, где, по сути, первично понятие, а не термин, комментарий, как правило, также характеризует понятие. Однако, в других тезаурусах комментарий может относиться именно к термину. Например, описывать случаи предпочтительного употребления именно этого синонима перед другими. Таким образом, в разных тезаурусах комментарии могут относиться, как к понятиям, так и к терминам. Выбор зависит от конкретного тезауруса. Универсальная схема данных тезауруса в информационной системе должна допускать оба варианта применения комментариев.
В разделе 2.2 описываются требования к реализации тезауруса в информационной системе. Ниже приведены эти требования:
1. Позволять хранить любые существующие тезаурусы, в частности, любые классификаторы, имеющие структуру
тезауруса в соответствии со стандартами ГОСТ 7.25-2001, ГОСТ 7.24-90, ISO и ANSI. В том числе, реализация должна позволять работать с многоязычными тезаурусами.
2.Позволять, используя тезаурус, классифицировать ресурсы понятиями тезаурусов-классификаторов. При этом работа с обоими видами тезаурусов должна осуществляться единообразно.
3.Позволять осуществлять просмотр (навигацию) по тезаурусу, а также поиск ресурсов, классифицированных тезаурусом. То есть реализация должна обеспечивать эффективное выполнение необходимых для этого запросов, а именно:
•Получить все понятия, связанные с данным понятием связями заданных видов (для связей в соответствии со стандартами ГОСТ, ISO или их детализаций).
•Получить самые верхние понятия в иерархии понятий, в которую входит данное понятие.
•Получить все термины, связанные с данным понятием связями заданных видов (для связей в соответствии со стандартами ГОСТ, ISO или их детализаций).
•Получить все понятия, связанные с данным термином связью данного вида (для связей в соответствии со стандартами ГОСТ, ISO или их детализаций).
•Получить все термины, содержащие данное слово (или ключевое слово).
•Получить полную иерархию понятий тезауруса, то есть показать термины в иерархии.
4. Позволять расширять и уточнять поисковые запросы пользователей к системе, используя связи между понятиями (терминами) тезауруса.
5. Позволять загружать и выгружать данные тезаурусов в формате RDF/XML для обмена и терминологическими данными с другими системами.
6. Быть расширяемой, то есть допускать детализацию при необходимости некоторых связей.
В разделе 2.3 сделан анализ некоторых возможных платформ для описания тезаурусов с учетом требований к реализации тезауруса в рамках Semantic Web. Из этого анализа следует, что наиболее соответствует перечисленным требованиям платформа RDFS, а также ее расширения (например, DAML+OIL). Платформа RDFS принята также в качестве основной для описания онтологии в Semantic Web.
В разделе 2.4 описываются RDF и RDF схема. RDF определяет удобный механизм для описания ресурсов, позволяющий формулировать утверждения о свойствах ресурсов. Механизм RDF/RDFS обеспечивает семантическую интероперабельность и потому принят в качестве основного формата представления информации в Semantic Web.
В разделе 2.5 описываются общая универсальная схема представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса. Эта схема данных основана на платформе RDFS. Исходя из описанных стандартов и анализа, схема содержит два основных класса объектов: ThesaurusConcept - понятие которое выражается дескриптором (preferred term), ThesaurusTerm -понятие которое выражается аскриптором (поп preferred term). Тогда отношения между дескрипторами станут отношениями между ThesaurusConcept, отношения между дескрипторами и аскрипторами станут отношениями между ThesaurusConcept и ThesaurusTerm. В схеме реализованы два варианта для установления отношений полной эквивалентности между разными терминами. Первый вариант позволяет приписывать полные разноязычные эквивалентные термины к одному и тому же понятию. Привязка всех полных эквивалентных терминов на разных языках к одному и тому же понятию осуществляется только в том случае, когда все термины на разных языках имеют общую иерархию (это необходимо в классификаторах, а также
возможно в других тезаурусах, где иерархии терминов на разных языках совпадают). В противном случае необходимо привязывать термины к разным понятиям и ставить между понятиями отношение полной эквивалентности.
Классы модели
ThesaurusConcept. Понятие (дескриптор, preferred term) . Этот класс имеет следующие атрибуты:
- code. Уникальный идентификатор, или код рубрики классификатора. Необязательный атрибут. Этот атрибут присутствует только тогда, когда он имеет смысловую нагрузку в тезаурусе, и не заменяет внутренний системный или технический ID записи в базе данных.
- isTop. Признак используется для того, чтобы определить, является ли данное понятие самым верхним в иерархии.
- name. Термин, обозначающий данное понятие. Значение этого атрибута является экземпляром класса Name.
- 1оТЬезаип. Связывается с тезаурусом.
- broader. Связь с более широким (более общим) понятием. Значение этой связи является экземпляром класса ThesaurusConcept. Эта связь имеет два подвида:
hierbroader. Для установления иерархических связей между понятиями. Связи hierbroader и hiernarrower используются для организации понятий в обычную древовидную иерархию (остовное дерево).
dagbroader. Для тех случаев, когда одно понятие имеет более одного непосредственного предка. Только один предок связывается с данным понятием через hierbroader. Остальные связываются через dagbroader.
- narrower. Связь с более узким понятием. Значение этой связи является экземпляром класса ThesaurusConcept. Эта связь имеет два подвида, обратных соответствующим подвидам связи broader:
hiernarrower. dagnarrower.
- relation. Связь с ассоциативным понятием. Значение этой связи является экземпляром класса Thesaurusconcept. (inverseRel -обратная связь к этой связи)
- synonymUF. Связь с синонимическим термином. Значение этой связи является экземпляром класса ThesaurusTerm (synonymUSE
- обратная связь к этой связи)
- alternativeUF. Значение этой связи является экземпляром класса ThesaurusTerm (обратная связь к alternativeUSE)
- combinationUF. Значение этой связи является экземпляром класса ThesaurusTerm (обратная связь к combinationUSE)
- equivalence. Связь с эквивалентным понятием, у которого есть термины на других языках. Эта связь используется в случае, когда у многоязычного тезауруса на каждом языке есть своя собственная полииерархия терминов. Значение этого атрибута является экземпляром класса ThesaurusConcept (inverseEquivalence - обратная связь к этой связи). Вид эквивалентности указывается в комментарии (Полная эквивалентность, Неполная эквивалентность (значения терминов не совпадают, но пересекаются), Частичная эквивалентность (значение одного термина шире, чем значение другого)).
equivalenceOneToMany. Эта связь используется для установления отношения один ко многим. Значение этого атрибута является экземпляром класса ThesaurusConcept (inverseEquiOneToMany - обратная связь к этой связи)
ThesaurusTerm. Понятие соответствует аскриптору (поп preferred term). Этот класс имеет следующие атрибуты:
- code. Уникальный идентификатор, или код рубрики классификатора. Необязательный атрибут. Этот атрибут присутствует только тогда, когда он имеет смысловую нагрузку в тезаурусе и не заменяет внутренний системный или технический ID записи в базе данных.
- name. Термин, который обозначает данное понятие. Значение этого атрибута является экземпляром класса Name.
- synonymUSE. Обратная связь к synonymUF. Значение этой связи является экземпляром класса Thesaurusconcept.
alternativeUSE. Связь с альтернативным понятием (дескриптором). Значение этой связи является экземпляром класса Thesaurusconcept.
combinationUSE. Связь с комбинационным понятием (дескриптором). Значение этой связи является экземпляром класса Thesaurusconcept. Name. Термин. Имеет следующие атрибуты:
- full. Написание (наименование) термина на данном языке.
- Plural. Комментарий к этому термину на данном языке.
- Lang. Язык термина.
ConceptsRelations. Реализует отношение (связь) между объектами ThesaurusConcept, снабженное комментарием.
- desRelation. Комментарий к отношению. Значение этого атрибута является экземпляром класса Comment.
- subject. Субъект связи (ThesaurusConcept).
- object. Объект связи (ThesaurusConcept).
TermsRelations. Реализует отношение (связь) между ThesaurusConcept и ThesaurusTerm, снабженное комментарием.
- desRelation. Комментарий к отношению. Значение этого атрибута является экземпляром класса Comment.
- subject. Субъект связи (ThesaurusConcept).
- objectTerm. Объект связи (ThesaurusTerm).
Comment. Комментарий к отношению.
- commentString. Значение комментария на данном языке.
- InverseCommnetString. Комментарий к обратной связи на данном языке.
- Lang. Язык комментария.
Ряд тезаурусов, например, математический классификатор MSC, имеют отношения между понятиями, которые нельзя отнести строго к какому-либо из определенных в стандарте типов, либо такое отношение требует уточнения. Как правило, таких отношений в тезаурусе очень мало, а потому нецелесообразно для них выделять отдельные типы отношений. Средством описания таких отношений может стать приписывание такого отношения к одному из базовых существующих типов с добавлением к нему комментария, характеризующего его особенности. В данной модели.тезауруса любое отношение между двумя понятиями (дескрипторами), или между понятием и термином (аскриптором) может быть снабжено комментарием на любом языке.
Такой подход позволит также минимизировать неминуемое дальнейшее расширение и детализацию наборов связей между терминами или понятиями, которая сейчас наблюдается в различных моделях и национальных стандартах (например, ANSI, ГОСТ), поскольку как альтернативу детализации можно использовать комментарии к связям специального вида.
isirSynoi ; isinAlter : istr:Comi
isirToThesauri isir: Broader
(hierBroader.dagBToader) isir:Narrower
(hicrNarrowcr,dagNanowcr)
isir:Eouiva1ence istr:Invfcr$eEquivalence isir:Equi?alenccOncToMany isirlnverseEquiOneToMany
Рис 1. Граф RDF схема - наглядно показаны классы и отношения между ними
9 ©kernel:DependentObject Ç (с) kernel:Structure 9 ©isir:National ©¡sir:Comment ©isir:Name 9 ©kernel:ObjectWithld 9 © ¡sir:ConceptsRelations © isir:DDCConceptsRel © isir:MSCConceptsRel © isir:ThesConceptsRel 9 ©isir:TermsRelatians ©isir:DDCTermsRel ©¡sir:MSCTermsRel © isir:ThesTermsRel 9 ©kernel:ObjecWVithURI 9 ©isir:TermM
9 ©¡sir:ThesaurusConcept ©IsirDDC ©isir:MSC (c)isir:ThesConceots 9 © isir:Thesaurusïerm © isir:DDCTerms © [sirMSCTerms © isir:ThesTerms
Рис 2: Классы модели в системе Protégé OntoViz plugïn
В третьей главе описывается реализация тезаурусов в портале ИСИР, осуществленная в соответствии с вышеописанной схемой, а так же предъявляемые к ней требования и возможные пути их решения. В частности, рассматриваются и анализируются разные варианты визуализации расположения термина в полииерархии тезауруса.
Реализация позволяет через Web-интерфейсы просматривать, создавать, редактировать, загружать, выгружать тезаурусы и их понятия, искать понятия по значениям их
атрибутов. Можно осуществлять навигацию в пространстве тезаурусов по связям, просматривая сведения о них, загружая их содержание.
Кроме того, реализация позволяет осуществлять сопоставление рубрик разных тезаурусов (классификаторов), описывающих одну и ту же предметную область. Такое сопоставление полезно, например, для осуществления автоматической классификации ресурсов.
В данной реализации существует 2 способа функционирования тезауруса:
1) Тезаурус встроен в информационную систему и является ее неотъемлемой частью.
2) Тезаурус является хранимым ресурсом информационной системы.
Во втором варианте для просмотра и редактирования всех таких тезаурусов, а также его использования для классификации и индексации других ресурсов используются единые интерфейсы (например, предлагаемые в данной реализации). Тезаурусы могут динамически в процессе работы системы добавляться и удаляться из нее. В этом варианте все эти тезаурусы отображаются в хранилище через одни общие базовые JavaBean классы. То есть, если хранилище является реляционной СУБД, то все понятия этих тезаурусов содержатся в одной таблице. Использование этого варианта имеет как отрицательные, так и положительные аспекты. Один из отрицательных аспектов - это достаточно большой объем информации хранятся в одной таблице (все понятия всех тезаурусов, или все связи всех тезаурусов). Положительными аспектами использования этого варианта являются:
а) Поскольку все эти тезаурусы используют одни общие JavaBean классы, то для добавления новых тезаурусов разработчики не должны создавать никаких новых JavaBean классов.
Ь) Вторым положительным аспектом является следствие первого аспекта. То есть не надо добавить новые таблицы и новое отображение JavaBean объектов в хранилище. Из указанного отрицательного аспекта следует использовать этот вариант для таких тезаурусов, в которых имеется небольшое количество понятий.
В первом варианте хранение тезауруса в базе данных системы осуществляется так же как и во втором случае. Однако для конкретного встроенного тезауруса могут быть созданы отдельные Java-классы - наследники классов, описанных в разделе «классы модели». Это позволит при разработке информационной системы для разных встроенных тезаурусов использовать при необходимости разные интерфейсы, например, упрощенные для простых иерархических рубрикаторов.
Реализовано средство для построения поискового запроса. То есть пользователь, осуществляя навигацию по связям тезауруса, может выбрать рубрики классификатора (понятия тезауруса) для построения запросов.
Реализовано средство просмотра на основе тезауруса. Когда пользователь выбирает тезаурус, с помощью которого он намерен представлять и просматривать документы, понятия тезауруса показываются в виде иерархии (или полииерархии). По мере того, как пользователь перемещается по иерархии (или полииерархии), он видит ссылки на документы, соответствующие выбранному понятию в данном тезаурусе, которые он затем может выбрать для более тщательного изучения. В четвертой главе описана текущая реализация системы ВМОиП, использующая, в частности, описанную выше реализацию тезаурусов. Система параметризуется описанием объектной схемы данных конкретной предметной области и легко адаптируется к её изменениям. Для описания схемы системы используется iRDFS, являющийся расширением RDFS -W3C стандарта для описания схем Интернет ресурсов. Система позволяет через Web-интерфейс создавать новые ресурсы,
редактировать их свойства, искать ресурсы по значениям их атрибутов. Можно осуществлять навигацию в пространстве ресурсов, просматривая сведения о них, а также выгружать, загружать данные в систему из открытых форматов. Система реализована на платформе Java, использует RDBMS MS SQL Server и Tomcat Web-сервер.
Система поддерживает следующие ресурсы: организация, подразделение, персона, публикация и тезаурусы. Система является многоязычной, на данный момент поддерживает три языка (русский, английский и вьетнамский) как для интерфейсов так и для хранимых ресурсов.
В заключении приводятся основные результаты работы, а также указывается, в чем заключается их новизна. Основные результаты кратко перечислены ниже.
1. Проведенный анализ разных подходов показал, что они имеют некоторые частные недостатки и не обладают высокой степенью универсальности.
2. С учетом проведенного анализа и на основе некоторых стандартов [ISO, ANSI, ГОСТ] была создана общая универсальная схема для представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса (в том числе и многоязычного).
3. На основе предложенной схемы реализована система администрирования тезаурусов на этой схеме, пользовательские web-интерфейсы для просмотра и навигации, а также для редактирования, загрузки и выгрузки тезаурусов. В системе реализовано два способа работы с тезаурусом: Тезаурус встроен в информационную систему и Тезаурус является хранимым ресурсом информационной системы. Реализация позволяет также осуществлять сопоставление рубрик разных классификаторов, описывающих одну и ту же предметную область. Такое сопоставление полезно, например, для осуществления автоматической классификации ресурсов.
4. С использованием вышеописанной реализации тезаурусов и технологий ИСИР Портал реализована интегрированная информационная система ВМОиП, позволяющая объединить информационные ресурсы ВМОиП в единое информационное пространство. Тезаурусы в этой системе используются для классификации ресурсов, для построения запросов и расширения запросов.
Список публикаций по теме диссертации
1. Подход к реализации сложных систем классификации в информационных системах. Реализация подхода на примере классификатора УДК. Нгуен Мань Хунг. Аджиев А.С ВЦ РАН, Доклады VI научного симпозиума, Вьетнамская научно-техническая ассоциация в РФ, с. 310-316, Москва 2002.
2. Подходы к описанию и использованию тезаурусов в информационных системах. Нгуен Мань Хунг, Аджиев Алим Сапарович. Труды 5ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2003, с. 191-200, Санк-Пертербург, Россия, 2003.
3. Тезаурусы в информационных системах. Аджиев Алим Сапарович, Нгуен Мань Хунг, Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ- РАН, Москва 2004 (принята к печати).
4. Реализация тезаурусов в Информационной Системе Интегрированных Ресурсов (ИСИР). Нгуен Мань Хунг, Программирование, № 4 (принята к печати), Москва 2004.
5. Описание и использование тезаурусов в информационных системах, подходы и реализация. Нгуен Мань Хунг, Аджиев Алим Сапарович. Электронные библиотеки, 2004, Том 7, Выпуск 1.
http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004
Нгуен Мань Хунг
Разработка модели и реализация тезаурусов в интегрированной системе информационных ресурсов
Подписано в печать 04.03.2004
Формат бумаги 60x84 1/16 Уч.-изд.л. 1,24. Усл.-печ.л. 1,5 Тираж 100 экз. Заказ 4. Бесплатно
Отпечатано на ротапринтах в Вычислительном центре им. А. А. Дородницына РАН 119991, Москва, ул. Вавилова, 40
»- 4533
Оглавление автор диссертации — кандидата физико-математических наук Нгуен Мань Хунг
1. Обзор.
1.1. Тезаурусы в описании информации.
1.2. Стандарты представления тезауруса.
1.2.1. Стандарт ISO 2788-1986 и Стандарт ISO 5964-1985.
1.2.2. Стандарт ANSI/NISO Z39.19-1993.
1.2.3. Стандарт ГОСТ 7.25-2001 и Стандарт ГОСТ 7.24-90.
1.3. Некоторые приложения тезаурусов в информационных системах.
1.3.1. RCO Thésaurus Search - библиотека работы с поисковым тезаурусом [5].
1.3.2. Расширение запросов с помощью тезауруса [6].
1.3.3. Некоторые приложения на основе Общественно-политического тезауруса [7].
1.4. Подходы к описаниям тезауруса.
1.4.1. Модель тезауруса на XML Schéma.
1.4.2. Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER.
1.4.3. Схема данных тезауруса ILRT (Institute for Learning and Research Technology) [11].
1.4.4. Модель тезауруса DRC (Dynamics Research Corporation^ 12].
2. Модель тезауруса.
2.1. Особенности применения тезаурусов в информационных системах
2.2. Требования к реализации тезауруса в информационной системе.
2.3. Платформа реализации тезауруса, требования Semantic Web.
2.4. Resource Description Framework (RDF) и RDF Schéma как основной формат метаданных в Semantic Web.
2.5. RDF схема тезауруса.
3. Реализация тезауруса в ИСИР РАН.
3.1. Требования к интерфейсам работы с тезаурусом:.
3.2. Модель вариантов использования.
3.3. Диаграмма перемещения по страницам системы.
3.4. Общая схема работы системы.
3.5. Импорт, Экспорта данных тезаурусов.
3.6. Описание схемы данных подсистемы — реализация тезаурусов.
3.7. Краткое описание пользовательских интерфейсов.
4. Интегрированная система информационных ресурсов Министерства Образования и Подготовки (ВМОиП).
4.1. Описание системы ВМОиП.
4.2. Требования к системе ВМОиП.
4.3. Схема данных системы ВМОиП.
4.4. Реализация интегрированной системы информационных ресурсов ВМОиП с использованием технологий ИСИР.
5. Выводы.
Постановка задачи
В настоящее время глобальная сеть Internet является важнейшим 9 источником информации для всех областей знаний, однако поиск информации при помощи Internet зачастую оказывается малоэффективным. Это происходит потому, что изначально World Wide Web (Web) технологии исключительно ориентировались на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-pecypcoB. Благодаря принципам, легшим в основу Web, он развивается высокими темпами,' развивается как экстенсивно, так и интенсивно. Информация, находящаяся в Web слабо упорядочена, постоянно изменяется, причем как сама информация, так и ее положение. Использование всего богатства имеющихся источников информации в информационных системах сопряжено с проблемами эффективного обнаружения требуемой информации. Имеющиеся системы не позволяют осуществить эффективный поиск требуемой информации.
Это связано и с возрастанием объема информации, и со способами выбора того, что следует индексировать, как обеспечить равноправное индексирование всего пространства информации, с проблемами определения, • в контексте каких поисковых запросов следует выдавать ту или иную информацию. Имеется много всевозможных способов поиска информации, ее извлечения и доставки, тем не менее, отыскать нужную информацию в информационных системах и Интернет становится все труднее и труднее.
Для решения этих проблем необходимо создавать и использовать всевозможные средства, классифицирующие, индексирующие информацию, облегчающие поиск необходимых ресурсов, делающие поиск значительно более управляемым, предметным и содержательным. В настоящее время следующие направления исследования очень актуальны:
-Применение тезаурусов в информационных системах для классификации, индексирования, поиска информационных ресурсов, аннотирования текстов, и пр.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Нгуен Мань Хунг
Из вышесказанного следует, что значительный интерес представляет разработка и реализация информационной системы, реализация которой предусматривает: » -Использование метаданных для описания ресурсов.
-Использование тезаурусов для классификации, индексирования ресурсов, а также для их эффективного поиска.
-Применение открытых стандартов взаимодействия систем, поиска, обмена и представления данных.
Целью диссертационной работы является исследование подходов к применению тезаурусов в информационных системах (ИС). Эта цель достигается посредством решения следующих задач:
1) Изучение структуры тезауруса и основных стандартов его описания и представления (ISO, ГОСТ, ANSI).
2) Разработка общей универсальной схемы представления тезаурусов в информационно-поисковых системах, позволяющей осуществлять эффективное использование тезауруса при поиске, классификации и навигации в пространстве ресурсов информационной системы.
3) Реализовать прикладную логику и пользовательские интерфейсы работы с тезаурусами для информационного портала ИСИР на основе универсальной схемы представления тезаурусов.
4) Реализация портала - Интегрированная Система Информационных Ресурсов Вьетнамского Министерства Образования и Подготовки (ВМОиП) с использованием технологий ИСИР портала. Система должна строиться на основе объектной схемы данных, отображаемой в конкретные базы данных разных типов. Такой подход позволяет легко расширять систему и интегрировать свои данные с данными других систем. Система должна представлять разные права доступа к ресурсам для разных пользователей. Система должна поддерживать много языков (как для интерфейсов и так для хранимых ресурсов), предоставлять удобные интерфейсы для поиска, просмотра, редактирования, пакетной выгрузки и загрузки ресурсов.
Краткое содержание работы
Работа состоит из четырех глав. Первая глава содержит обзор некоторых стандартов для представления тезаурусов, возможных применений тезаурусов в ИС и различных подходов к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов. Вторая глава посвящена описанию общей универсальной схемы представления тезаурусов. На основе анализа, проведенного в первой главе, создана схема, пригодная для представления любого тезауруса (в том числе и многоязычного). В третьей главе описывается реализация тезаурусов в информационном портале ИСИР, осуществленная в соответствии с вышеописанной схемой. Реализация позволяет через Web-интерфейсы просматривать, создавать, редактировать, загружать, выгружать тезаурусы и I» их понятия, искать понятия по значениям их атрибутов. Можно осуществлять навигацию в пространстве тезаурусов по связям, просматривая сведения о них, загружая их содержание. В четвертой главе описана реализация системы
ВМОиП, использующая, в частности, описанную выше реализацию тезаурусов. Система позволяет через Web-интерфейс создавать новые ресурсы, редактировать их свойства, искать ресурсы по значениям их атрибутов. Можно осуществлять навигацию в пространстве ресурсов, просматривая сведения о них, а также выгружать, загружать данные в систему из открытых форматов. Тезаурусы в системе ВМОиП используются для классификации ресурсов, для построения запросов и расширения запросов. Система реализована на платформе Java, использует RDBMS MS SQL Server и Tomcat Web-сервер.
1. Обзор
Заключение диссертация на тему "Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов"
Основные результаты, полученные в диссертационной работе, состоят в следующем:
1 .Проведенный анализ разных подходов [8, 9, 11, 12] показал, что они имеют некоторые частные недостатки и не обладают высокой степенью универсальности.
2.С учетом проведенного анализа и на основе некоторых стандартов [ISO, ANSI, ГОСТ] была создана общая универсальная схема для представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса (в том числе и многоязычного).
3.На основе предложенной схемы реализована система администрирования тезаурусов, пользовательские web-интерфейсы для просмотра и навигации, а также для редактирования, загрузки и выгрузки тезаурусов. В системе реализовано два способа работы с тезаурусом: Тезаурус встроен в информационную систему и Тезаурус является хранимым ресурсом информационной системы. Реализация позволяет также осуществлять сопоставление рубрик разных классификаторов, описывающих одну и ту же предметную область. Такое сопоставление полезно, например, для осуществления автоматической классификации ресурсов.
4.С использованием вышеописанной реализации тезаурусов и технологий ИСИР Портал реализована интегрированная информационная система ВМОиП, позволяющая объединить информационные ресурсы ВМОиП в единое информационное пространство. Тезаурусы в этой системе используются для классификации ресурсов, для построения запросов и расширения запросов.
Степень новизны результатов состоит в том, что на основе анализа разных подходов к представлению тезаурусов, предложена общая универсальная схема представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса. Предложены и реализованы механизмы работы с тезаурусами в информационных системах.
Предложенная общая универсальная схема и ее реализация позволяют существенно увеличить производительность труда при создании и поддержке цифровых библиотек и Web-приложений. Результаты диссертации могут быть использованы при разработке и реализации цифровых библиотек и Web-приложений.
По теме диссертации опубликовано 4 печатные работы, а также одна публикация в электронном издании.
Библиография Нгуен Мань Хунг, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. ГОСТ 7.25-2001 Тезаурус информационно-поисковый одноязычный, ИГТК Издательство стандартов 2001.
2. ГОСТ 7.24-90 Тезаурус информационно-поисковый многоязычный, Москва 1990
3. IS02788 Guidelines for establishment and development of monolingual thesauri, 2 nd ed., Geneva: ISO 1986.
4. IS05964 -Guidelines for establishment and development of multilingual thesauri, 1 st ed., Geneva: ISO 1985.
5. RCO Технологии анализа и поиска тестовой информации http://www.rco.ru: http://www.rco.ru/product.asp7ob по=245
6. Построения запросов к машине поиска Internet с помощью тезауруса.http://rcdl2001 .krc.karelia.ru:8001 /papers/papers/braslavsky/Braslavsky pap er.rtf;http://rcdl2001 .krc.karelia.ru/papers/papers/braslavskv/Braslavsky paper.rtf
7. Университетская информационная система (УИС) РОССИЯ http://www.cir.ru/docs/ips/techno/index.htm
8. Тезаурус для расширения запросов к машинам поиска Интернета: Структура и Функции.http://www.dialog-21.ru/Archive/2003/Braslavskii.pdf
9. LIMBER (Language Independent Metadata Browsing of European Resources) project: http://www.limber.rl.ac.uk/
10. A Thesaurus Interchange Format in RDF http://www.limber.rl.ac.uk/External/SW conf thes paper.htm
11. RDF Thesaurus Specification httn:/Avww.iIrt.bris.ac.uk/discovery/2001/01/rdf-thes/
12. Hall, M. (2001) CALL Thesaurus Ontology in DAML. http://orlando.drc.com/daml/ontology/Thesaurus/CALL/
13. Mathematical Subject Classification (MSC) http ://w ww. ams .org/m se
14. Physics and Astronomy Classification Scheme (PACS) http://www.aip.org/pacs/
15. Dewey Decimal Classification (DDC) http://www.oclc.org/dewey/
16. Thesaurii, Techquila http://www.techquila.com/tmsinia3.html
17. Steve Pepper, The TAO of Topic Maps http://www.ontopia.net/topicmaps/materials/tao.html
18. XML Schema http://www.w3.org/XML/Schema
19. RDF Vocabulary Description Language 1.0: RDF Schema http://www.w3 .org/TR/rdf-schema/
20. DARPA Agent Markup Language (DAML)http://www.daml.org/
21. DAML+OIL (March 2001) Reference Description. http://www.daml.org/2001/03/daml+oil-index.html
22. Semantic Web Activity. http://www.w3 .org/2001 /sw
23. Resource Description Framework (RDF) Model and Syntax, W3C Recommendation, 22 February 1999. http://www.w3.org/TR/1999/REC-rdf-svntax-19990222
24. W3C RDF Core WG Internal Working Draft. http://www.w3.org/2001/sw/RDFCore/ntriples
25. Dublin Core Activity. http://dublincore.org
26. Ontology Inference Layer. http ://www. ontokno wl ed ge. com/o i 1
27. OWL Web Ontology Language 1.0 Reference. W3C Working Draft. http://www.w3 .org/TR/owl-ref/
28. Tim Berners-Lee. What the Semantic Web can represent., 1998 http://www.w3.org/DesignIssues/RDFnot.html
29. Подходы к описанию и использованию тезаурусов в информационных системах. Нгуен Мань Хунг, Аджиев Алимf. Сапарович Труды 5ой Всероссийской научной конференции
30. Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL2003, Санк-Пертербург, Россия, 2003.
31. Тезаурусы в информационных системах. Аджиев Алим Сапарович, Нгуен Мань Хунг, Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004 (принята к печати).
32. Реализация тезаурусов в Информационной Системе Интегрированных Ресурсов (ИСИР). Нгуен Мань Хунг, Программирования, № 4 (принята к печати), Москва 2004.
33. Formbuilder средство автоматизации Web-редактирования ресурсов. Нестеренко А.К., Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004.
34. XML-публикация в ИСИР. Бездушный А.А., Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004.
35. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. Программирование V 26, N4, 2000, рр. 177-185.
36. Object Database Management Group. http://www.odmg.org
37. XSL Transformations (XSLT). W3C Recommendation. http://www.w3.org/TR/xslt
38. Каталог ресурсов «Кирилл и Мефодий» http://search.km.ru/url/index.asp
39. Информационная система ИСИР http://uis.isir.ras.ru
40. Thesaurus Format: Nusearch Standard Specification http://www.excavio.com/pdf/wp nusearch thesaurus spec.pdf
-
Похожие работы
- Метод и технологии семантической обработки информации для государственного и муниципального управления
- Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных
- Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей
- ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ БИБЛИОТЕК АПК: МЕТОДИКА ФОРМИРОВАНИЯ И ПУТИ СОВЕРШЕНСТВОВАНИЯ
- Модели и методы интеграции структурированных текстовых описаний на основе онтологий
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность