Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков

Князева, Анна Анатольевна

Информационные системы и процессы, правовые аспекты информатики

автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков

кандидата технических наук: Князева, Анна Анатольевна
город: Новосибирск
год: 2013
специальность ВАК РФ: 05.25.05

Автореферат по документальной информации на тему «Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков»

Автореферат диссертации по теме "Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков"

На правах рукописи

Князева Анна Анатольевна

АВТОМАТИЧЕСКОЕ СВЯЗЫВАНИЕ ЗАПИСЕЙ БИБЛИОГРАФИЧЕСКИХ БАЗ ДАННЫХ НА ОСНОВЕ УНИФИЦИРОВАННЫХ ПОИСКОВЫХ ПРИЗНАКОВ

05.25.05 - «информационные системы и процессы»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 б сен гт

Новосибирск - 2013

005533582

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте вычислительных технологий Сибирского отделения Российской академии наук, г. Новосибирск

Научный руководитель член-корреспондент РАН,

доктор физико-математических наук Федотов Анатолий Михайлович

Официальные оппоненты Барахнин Владимир Борисович,

доктор технических наук, доцент старший научный сотрудник ИВТ СО РАН

Защита состоится "23" октября 2013 г. в 17.00 на заседании диссертационного совета ДМ 003.046.01 в Федеральном государственном бюджетном учреждении науки Институте вычислительных технологий Сибирского отделения Российской академии наук по адресу: 630090 Новосибирск, пр. Академика Лаврентьева, 6.

С диссертацией можно ознакомиться в Специализированном читальном зале библиотеки ИВТ СО РАН.

Автореферат разослан "19" сентября 2013 г.

Ученый секретарь диссертационного совета

кандидат физ.-мат. наук, доцент Лебедев A.C.

Калёнов Николай Евгеньевич, доктор технических наук, директор БЕН РАН

Ведущая организация Государственная публичная научно-

техническая библиотека Сибирского отделения Российской академии наук (ГПНТБ СО РАН)

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Авторитетный контроль электронного каталога является важной задачей в работе современных библиотечно-информационных систем. Использование авторитетных/нормативных документов1 позволяет существенно упростить работу каталогизаторов и улучшить качество информационного поиска. Суть задачи авторитетного контроля заключается в том, чтобы идентифицировать объект реального мира путем установления связи между авторитетным и библиографическим документами. При этом первый документ однозначно указывает именно на этот объект (персону, организацию и т.д.), а во втором присутствует его упоминание. В настоящий момент установление таких связей производится вручную. Как следствие, при объединении ресурсов нескольких библиотек в условиях отсутствия общего набора авторитетных документов возникают задачи выявления дубликатов документов и восстановления утерянных или отсутствующих связей между авторитетными и библиографическими документами. Решению этих задач в автоматическом режиме (без участия человека) и посвящена данная работа.

За рубежом задача выявления и слияния нескольких авторитетных документов для одного автора решается в рамках проекта VIAF2 Международной федерации библиотечных ассоциаций и учреждений (ИФЛА). Целью проекта является обеспечение возможности автоматического сопоставления и связывания авторитетных записей из различных национальных источников. Подход, применяемый в проекте VIAF, основан на экспертной оценке значимости признаков, участвующих в сопоставлении. На практике такая возможность не всегда доступна, поскольку зачастую невозможно выработать экспертные веса значимости признаков.

Задача автоматического связывания библиографических и авторитетных документов не решена на данный момент. Очевидно, что задача автоматического авторитетного контроля по своей сути близка к задаче связывания документов (record linkage), которой посвящено множество работ. Актуальность данной проблематики подчеркивается в обзорах авто-

1 Далее в рамках данной работы используется термин авторитетный документ

2The Virtual International Authority File (англ.) - Виртуальный авторитетный файл

ров William Е. Winkler, Mikhail Y. Bilenko, Jeremy A. Hylton, Mauricio A. Hernández и Salvatore J. Stolfo, Peter Christen и Tim Churches, Pawel Jurczyk и др. В литературе выделяется несколько задач, относящихся к связыванию документов: 1) нормализация - подготовка данных к процедуре связывания, их очистка и приведение к заданному виду; 2) составление пар документов, которые необходимо исследовать на соответствие (позволяет сократить объем работы по сравнению и временные затраты на нее); 3) сравнение отдельных полей в паре документов; 4) принятие решения о соответствии документов. Последние две задачи не являются тождественными. Дело в том, что соответствие на уровне документов не означает обязательного совпадения всех значений на уровне полей и наоборот. Причинами расхождений могут быть ошибки, неполнота данных, различные формы записи и т.д.

Существуют различные системы связывания документов, такие как MARLIN3, TAILOR4, Febrl5 и др. Данные системы нацелены на работу по связыванию адресов, информации о пациентах или библиографических ссылок одной строкой. Применить данные системы к решению поставленной задачи не представляется возможным, потому что при общей схожести принципов задачи связывания документов и автоматического авторитетного контроля существует и некоторая специфика, обусловленная самими данными. Так, библиографические документы, как правило, представлены в форматах семейства MARC6, которые распространены только в библиотечном сообществе. С одной стороны, это снимает необходимость решения такой непростой задачи как автоматическая разметка в процессе связывания и упрощает решение задачи нормализации документов. С другой стороны, это требует более сложных правил на этапе сравнения отдельных полей, поскольку одна и та же информация в таких форматах может быть записана различными способами, в зависимости от традиций каталогизирования, принятых в конкретной библиотеке. Кроме того, автоматический авторитетный контроль должен учитывать возможность наличия пропус-

3Multiply Adaptive Record Linkage with INduction (англ.)

4Record Linkage Toolbox (TAILOR) (англ.)

5Freely Extensible Biomedical Record Linkage (англ.)

6Machine-Readable Cataloging (англ.)

ков в данных и использовать косвенную информацию в процессе установления связи. Такое требование появилось благодаря тому, что нередки ситуации, когда информация об авторе в библиографическом документе ограничивается фамилией и инициалами. Также, в отличие от большинства систем связывания документов, автоматический авторитетный контроль должен проводиться в условиях взаимозависимости признаков. Так, например, профессия и место работы автора, как правило, связаны между собой. Применение принципов связывания документов к области библиографических баз данных в МАЯС-форматах требует учета их специфики.

Цель диссертационной работы. Разработать технологию автоматического авторитетного контроля, позволяющую устанавливать связи между структурированными документами в распределенных библиографических информационных системах, относящимися к одному объекту реального мира.

Задачи. Реализация данной цели предполагает решение следующих

задач:

1. Сформулировать и проанализировать основные требования к процедуре связывания, исходя из особенностей библиографических данных;

2. Разработать модель идентификации объектов реального мира, упоминаемых в структурированных документах;

3. Разработать технологию связывания в условиях взаимозависимости признаков и неполноты данных, позволяющую учитывать косвенную информацию, содержащуюся в уже установленных связях на примере идентификации персон;

4. Сформулировать рекомендации по наполнению библиографических баз данных для повышения качества связывания.

На защиту выносятся:

- Математическая модель идентификации объектов реального мира, упоминаемых в структурированных документах, позволяющая использовать информацию об уже установленных связях в массиве данных;

- Технология автоматического авторитетного контроля, построенная на основе модели идентификации, позволяющая связывать библиографические документы в условиях неполноты данных и использующая косвенную информацию для связываний;

- Ранжированный набор сравнительных признаков и весовые коэф-фиценты, полученные на основе реальных данных с помощью программного комплекса «ААК-персоны».

Научная новизна. На основе общих принципов связывания документов впервые сформулированы требования к системе автоматического авторитетного контроля, позволяющей делать заключение о соответствии библиографических и авторитетных документов без участия эксперта. Предложена модель идентификации объектов в структурированных документах в условиях неполноты данных и взаимозависимости признаков. Данная модель предусматривает возможность использования информации об уже установленных связях. Реализован алгоритм обучения системы на основе набора пар документов с отметками о принадлежности к одному из двух классов: соответствующих или несоответствующих документов. Предложена технология принятия решения о соответствии документов в форматах семейства МАЯС, а также процедура отбора наиболее значимых признаков.

Методы исследований. В работе применялись методы классификации, непараметрической описательной статистики, нечеткого сопоставления строк и принципы связывания документов.

Практическая значимость. Результаты диссертационной работы могут использоваться для решения задач автоматического связывания структурированных документов. В частности, предлагаемая технология позволяет организовать ААК библиографических данных с учетом особенностей конкретной базы и информации об уже установленных связях. В работе представлены рекомендации по наполнению библиографических баз данных, позволяющие повысить качество связывания документов. Предлагаемый подход является достаточно общим и может быть перенесен на задачу выявления нечетких дубликатов среди структурированных документов произвольной природы,

Представление работы. По теме диссертации были сделаны сообщения и доклады на научно-практических конференциях: 01С11 (Российская конференция с международным участием «Распределенные информационные и вычислительные ресурсы», г. Новосибирск, 2010, 2012 гг.), Современные проблемы математики, информатики и биоинформатики (Международная конференция «Современные проблемы математики, информатики и биоинформатики», посвященная 100-летию со дня рождения члена-корреспондента АН СССР Алексея Андреевича Ляпунова, г. Новосибирск, 2011), "КСБЬ" (Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», г. Переславль-Залесский, 2012), "МТБ" (Всероссийская конференция молодых ученых «Материаловедение, технологии и экология в третьем тысячелетии», г.Томск, 2012). Работа выполнялась при финансовой поддержке Министерства образования и науки Российской Федерации (грант №07.514.11.41307).

Личный вклад автора. Работы по теме диссертации выполнены в Томском филиале Института вычислительных технологий (ИВТ) СО РАН автором совместно с ведущим инженером Института сильноточной электроники (ИСЭ) СО РАН Колобовым О.С.

Все результаты, включенные в диссертацию, получены автором лично или в неделимом соавторстве. Автором были предложены модель и технология ААК, а также проведена статистическая обработка массивов данных, полученных в ходе эксперимента, проведенного совместно с Колобовым О.С.

Публикации. По теме диссертации опубликовано 13 печатных работ (объемом 9,4/8,7 печатных листов), в том числе 3 статьи [1-3] в изданиях, рекомендованных ВАК для представления результатов кандидатских диссертаций (в скобках в числителе указан общий объем публикаций, в знаменателе - объем, принадлежащий лично автору). Основные результа-

7Разработка принципов и программных средств виртуальной интеграции распределённых источников данных на основе международных стандартов для создания масштабных информационных инфраструктур (шифр «2012-1.4-07-514-0022-004»).

ты диссертации содержатся в работах [2,3,9-13] список которых приведен в конце автореферата.

Структура и объем диссертации. Диссертация состоит из введения, 3-х глав, заключения и 6-ти приложений. Объем диссертации составляет 119 страниц, включая основное содержание, список литературы и приложения. Список литературы содержит 91 наименование.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы автоматизации авторитетного контроля, который кратко именуется ААК, в распределенных библиографических базах данных. Обозначены основные проблемы, возникающие в процессе связывания документов. Формулируются цель и задачи работы. Сформулированы требования к системе ААК: возможность выявления значимых признаков и присвоение им соответствующих весов без привлечения экспертов; учет косвенной информации об авторе в процессе сопоставления документов и возможность работы с неполными данными.

В первой главе анализируются подходы и технологии применяемые для постановки задачи связывания документов в различных областях. Рассмотрены возможные варианты решения типичных задач, возникающих в процессе связывания документов: нормализации, составления пар, сравнения на уровне полей и вынесения решения о соответствии документов друг другу.

В работе приводится анализ существующих систем с точки зрения следующих критериев: 1) отсутствие предположений о функции распределения признаков; 2) отказ от эмпирических правил для принятия решения о соответствии документов; 3) отсутствие требования независимости сравнительных признаков; 4) связывание документов разного типа; 5) работа с документами в форматах семейства MARC; 6) возможность работы с неполными данными; 7) учет информации об уже установленных связях в массиве данных. Как показал проведенный анализ, в данный момент не существует системы, которая отвечала бы всем приведенным требованиям.

В заключении к первой главе приводится вывод о необходимости разработки модели идентификации объектов, технологии автоматического

авторитетного контроля, учитывающих особенности предметной области и удовлетворяющей перечисленным выше критериям.

Во второй главе предлагается модель идентификации объектов, упоминаемых в структурированных документах различных типов. Автоматический авторитетный контроль электронного каталога является частным случаем применения данной модели и полностью подчиняется описанной ниже концепции.

Пусть даны две коллекции документов АиВ. Пусть а(а) - документ из коллекции А, описывающий некоторый объект а; /3(6) - документ из коллекции В, описывающий объект 6.

Множество пар документов, описывающих один и тот же объект реального мира будем обозначать как М:

М = (а{а),р(Ъ))\ а = Ъ; а(а) € А; р{Ь) € В. (1)

Дополнение множества М, которое будем обозначать как С/, представляет пары документов, описывающие различные объекты:

и = (а(а), 0(Ь)); а ф 6; а(а) е А; /3(6) £ В. (2)

Присвоим К признаков каждому из документов. Вектор 7 содержит закодированную оценку согласованности по каждому признаку. Таким образом, 7 можно представить как точку в пространстве признаков размерности К, то есть 7 = (Хх,..., Хк)т. Для решения задачи идентификации необходимо построить решающую функцию

{"¡"Ж"- (3)

[ 0, (а(а),Р(Ь)) € и, служащую оценкой истинного статуса соответствия объектов

з{а,Ъ)= ' (4)

на основе имеющегося набора прецедентов. Так называемые прецеденты -это пары (а(а), /3(6)) с известным статусом б'(а, 6), из которых составляется

обучающая выборка. Представим обучающую выборку как два непересекающихся множества точек в пространстве признаков. Первое множество объединяет те пары документов, которые описывают один объект:

Тм = {7[а(а),/3(Ь)]|(а(а),/?(Ь)) е М}, (5)

второе множество включает пары, описывающие различные объекты:

Ти = {7[а(а),ДЬ)]|<а(а),/?(Ь)) € Щ. (6)

Тогда задача отнесения новой пары документов к одному из классов М и и может быть сведена к задаче классификации на основе вычисления некоторого расстояния до множеств Гм и Ги. Выбор расстояния обусловлен требованиями к решению задачи. В рамках данной работы в качестве расстояния предлагается использовать расстояние Махаланобиса, которое учитывает возможность взаимозависимости признаков и инвариантно к масштабу. Квадрат расстояния Махалонобиса до центроида класса М рассчитывается согласно следующей формуле:

£»г^2(7,ММ) = (7-ММ)^-1(7-ММ)Т, (7)

где 7 - вектор значений признаков; /Iм - центроид класса М;

\У~1 - матрица, обратная внутригрупповой матрице ковариации.

В качестве центроида выступает вектор арифметических средних признаков, компоненты которого вычисляются по формуле:

(8)

к=1

где цУ1 - г-я компонента вектора /¿м,

- значение г-й компоненты вектора 7;с б Гм, к = 1, пм. Расстояние до центроида класса С/ рассчитывается аналогично. В качестве критерия для построения решающей функции можно предложить минимизацию числа ошибок классификации пар из тестовой выборки

пип ^1{ОЫНа),т\)^в(а,Ь)}, - (9)

г=1

где I - индикаторная функция, 7¿ - вектор значений признаков для г-й пары документов из тестовой выборки, г = 1, N.

В качестве применения предложенной модели была рассмотрена задача идентификации персон, упоминаемых в электронном каталоге библиотеки или автоматического авторитетного контроля. В качестве коллекции В выступает база библиографических документов, содержащая описания публикаций, а в качестве коллекции А - база авторитетных документов имен авторов.

В такой постановке задачи существуют некоторые особенности. В документах коллекции В может упоминаться сразу несколько персон в случае если они являются соавторами публикации, тогда как каждый документ из коллекции А посвящен описанию одной персоны. Таким образом, к описанной выше задаче добавляется такое ограничение: для V объекта а 3 не более 1 документа а(а), а (а) е А и может существовать несколько документов ,в(а), Р(а) £ В. Таким образом, для идентификации персоны а, упоминаемой в документе /3(о) необходимо и достаточно связать этот документ с одним и только одним документом а(а). Документ а(а) будем называть авторитетным или нормативным, поскольку он однозначно указывает на объект.

Для того, чтобы реализовать описанную модель в виде алгоритма идентификации персон на этапе загрузки документа /3 в базу данных В, можно разделить процесс идентификации объектов на этапы, за каждый из которых будет отвечать соответствующий функциональных блок:

1. Подготовка данных;

2. Составление пар;

3. Сравнение отдельных полей в парах документов;

4. Решающая функция.

Кроме данных четырех этапов, непосредственно участвующих в процедуре связывания, необходимо наличие еще двух: настройка системы и проверка

качества связывания. Эти два этапа включаются в работу периодически при расширении базы данных. Принцип работы у них общий: для документа, относительно которого уже известно правильное решение (с каким из авторитетных документов он должен быть связан) проводится процедура идентификации и в первом случае уточняются параметры системы, а во втором оценивается, насколько успешно система справилась с задачей. Функциональная схема процесса идентификации персон приведена на рисунке 1.

Сравнение отдельных полей в парах документов 1

Решающая функция

Настройка системы

Г Решение

Проверка

у— качества

связывания

Рис. 1: Функциональная схема процесса идентификации Документ /3, загружаемый в базу данных в процессе авторитетного контроля может находиться в одном из четырех возможных состояний. Переходы между этими состояниями отображены на рисунке 2.

Описание возможных состояний документа ¡3 приводится ниже:

- Документ в том виде, в котором он поступает на вход процедуры, отметка о связи отсутствует - /З'0';

- Документ прошел предварительную подготовку и корректировку отдельных полей -

сравнение с кандидатам

Рис. 2: Состояния документа ß

- Документ находится на дополнительном рассмотреннии, поскольку для него было подобрано более одного подходящего документа а -

- Документ содержит явное указание на соответствующий документ а

- ßW.

Предложенная модель идентификации объектов не зависит от природы документов и требует от них только одного - наличия структуры. Выявление нечетких дубликатов является частным случаем рассматриваемой задачи, поэтому описываемый подход может быть перенесен и на нее. Технология автоматического авторитетного контроля, описанная во второй главе, разработана исходя из предложенной модели.

В третьей главе рассматриваются программные средства, позволяющие выполнить исследование проблемы автоматического авторитетного контроля имен авторов. В частности, рассматривается программный комплекс «ААК-персоны», предназначенный для связывания библиографических записей в формате RUSMARC с авторитетными записями в формате RUSMARC/Authorities. Описана архитектура программного комплекса и основные этапы его работы.

Программные средства, входящие в состав комплекса: 1) базы библиографических данных, доступные по протоколу Z39.508, 2) консольный клиент аак для обращения к базам и вычисления значений сравнительных признаков, 3) модуль статистического анализа stat.

8The ANSI/NISO Z39.50 Protocol: Information Retrieval in the Information Infrastructure

Рис. 3: Информационная модель комплекса «ААК-персоны»

В работе используются базы данных в формате RUSMARC, доступные через Z39.50 интерфейс и поддерживающие стандартный набор атрибутов.

Консольный клиент аак является центральный модулем комплекса, построенным на основе XML-ориентированных технологий (XSLT9, XPath10) и способный обращаться к базам библиографических данных по протоколу Z39.50.

Модуль статистического анализа stat представляет собой набор программ, предназначенных для выполнения в среде статистических вычислений R11, который позволяет решать следующие задачи: 1) принятие решения о соответствии двух документов на основе набора значений признаков, вычисленных с помощью модуля аак, 2) обучение - то есть вычисление параметров решающей функции на основе набора значений, вычисляемых для обучающей выборки и 3) тестирование качества связывания.

Приводится описание экспериментального исследования, целью которого была проверка работоспособности предложенной технологии для конкретных данных. Было проведено три эксперимента. Результаты каждого эксперимента оценивались с двух точек зрения: охват библиографических документов и количество ошибок связывания. Под охватом пони-

9 extensible Stylesheet Language Transformations (англ.)

10XML Path Language (англ.)

"Free software environment for statistical computing and graphics (англ.), http://www.r-project.org/

мается процент библиографических документов в базе данных, соответствующих требованиям полноты, т.е. содержащих достаточное количество информации для связывания. В качестве ошибок связывания рассматривались неверное отрицание связи (ошибка I рода) и неверно установленная связь (ошибка II рода).

При проведении первого эксперимента использовался минимальный набор признаков. Такой набор использует только сам авторитетный документ а, без подключения информации из связанных с ним документов. В результате эксперимента охват библиографических документов составил всего 21% от всех имеющихся в базе документов, ошибки I и II рода составили 0,1% и 0,51% соответственно.

Во втором эксперименте использовался стандартный набор. Этот набор был расширен за счет привлечения информации о соавторах и предметных рубриках, содержащейся не в самом авторитетном документе, а в библиографических документах, связанных с ним. Такое расширение позволило существенно увеличить охват базы данных до 77%. При этом возросло количество ошибок I и II рода (1,06% и 0,76% соответственно) за счет использования менее полных документов.

Третий эксперимент, в котором использовался расширенный набор признаков, ставился с целью улучшить качество при оценке признаков соответствия из минимального набора. Для этого были добавлены признаки, в которых информация из минимального набора была заново оценена на основе библиографических документов, связанных с авторитетным. Поскольку при этом количество задействованных в процессе сопоставления полей не изменилось, процент охвата остался равным 77%. Что касается качества связывания, то оно улучшилось благодаря учету возможных вариаций в значениях полей библиографических документов по сравнению с соответствующими значениями в самом авторитетном документе. Процент ошибок I рода составил 0,68%, II рода - 0,46%. Таким образом третий эксперимент показал более хорошие результаты, чем второй эксперимент, при том же охвате базы данных.

Относительно низкий процент ошибок при проведении экспериментов во многом обусловлен хорошим качеством документов из тестовой вы-

борки. В нее включались документы /3, в которых присутствовало указание на соответствующие документы а. Однако на практике такие документы, как правило, содержат значительно больше информации об авторах, чем документы без указаний на авторитетные документы.

Для оценки качества идентификации менее полных документов было проведено искусственное «ухудшение» качества данных путем стирания информации, содержащейся в минимальном наборе признаков. Таким образом, идентификация проводилась лишь на основе данных о соавторах и предметных рубриках. Количество ошибок I и II рода в этом случае составило 13,63% и 3,29% соответственно для стандартного набора признаков, 20,02% и 1,69% - для расширенного. Следует отметить, что процент установления неверных связей между документами (ошибка II рода) по-преждему достаточно низок, увеличивается лишь количество упущенных связей между документами. Итак, в самой «худшей» ситуации, когда система располагает минимальной информацией об авторе, процент ошибок идентификации составит приблизительно 17%.

В заключении к третьей главе приводятся выводы, основанные на результатах проведенных экспериментов. Основной вывод заключается в возможности использования предложенной технологии к решению поставленной задачи. При этом особое внимание следует обращать на то, какая информация лежит в основе сопоставления и насколько часто она в действительности присутствует в библиографических документах.

В заключении сформулированы основные результаты исследований по теме диссертации.

Приложение А Содержит примеры документов, задействованных в работе.

Приложение Б Содержит паспорта используемых баз данных.

Приложение В Содержит входные требования к библиографическим записям в формате RUSMARC и авторитетным записям в формате RUSMARC/Authorities, которые выступают в роли рекомендаций по созданию новых авторитетных и библиографических документов.

Приложение Г Содержит листинг консольного клиента аак и модуля статистического анализа stat.

Приложение Д Содержит ранжированные наборы признаков, использованные при проведении экспериментов.

Приложение Е Содержит оценки матриц Ц^-1, полученные при проведении экспериментов.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

В диссертационной работе выполнен анализ перспективных подходов и технологий, применяемых для идентификации объектов реального мира в структурированных документах. Поставлена задача автоматизации процесса авторитетного контроля, сформулированы основные требования, которые необходимо учитывать при ее решении. Предложена математическая модель идентификации объектов, основанная на методе машинного обучения, и базирующаяся на ней технология идентификации персон, выступающих в роли авторов публикаций и упоминаемых в библиографических документах. Предложено программное обеспечение, позволяющее оценить качество идентификации для конкретных коллекций библиографических и авторитетных документов, а также обучить систему автоматического авторитетного контроля на основе этих баз данных.

В процессе разработки технологии автоматического авторитетного контроля были определены входные требования к библиографическим и авторитетным документам, которые можно рассматривать как рекомендации по наполнению библиографических и авторитетных баз данных с целью повышения качества идентификации авторов.

Основные научные выводы и практические результаты:

1. Предложена математическая модель идентификации объектов реального мира, упоминаемых в структурированных документах, позволяющая использовать информацию об уже установленных связях в массиве данных;

2. Разработана технология автоматического авторитетного контроля, построенная на основе модели идентификации, позволяющая связывать библиографические документы в условиях неполноты данных и использующая косвенную информацию для связывания;

3. Разработан программный комплекс «ААК-персоны» и проведен ряд экспериментов по тестированию качества его работы;

4. В результате применения технологии к реальной коллекции документов получены ранжированные списки сравнительных признаков и матрицы весовых коэффиценты, позволяющие идентифицировать авторов публикаций.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в изданиях, рекомендованных ВАК

1. Князева А. А. Ранжированный поиск в библиографических базах данных / А. А.Князева [и др.] // Вестн. НГУ. Сер. : Информ. технологии. - 2009. - Т. 7, вып. 4. - С. 81-96.

2. Федотов А. М. Проблемы авторитетного контроля для распределенных электронных библиотек и библиографических баз / А. М. Федотов, О. Л. Жижимов, А. А. Князева [и др.] // Вестн. НГУ. Сер. : Информ. технологии. - 2011. - Т. 9, вып. 1. - С. 89-101.

3. Князева А. А. Принципы идентификации объектов в структурированных документах / А. А.Князева // Вестн. НГУ. Сер. : Информ. технологии. - 2013. -Т. 11, вып. 1. - С. 58-67.

Труды конференций

4. Князева А. А. О статистических оценках по данным с пропусками // Инноватика-2005 : сб. материалов I Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых. - Томск : Изд-во ТГУ, 2005. - С. 45-47.

5. Князева А. А. О статистических оценках по данным с пропусками // Наука. Технологии. Инновации : материалы Всерос. науч. конф. молодых ученых : в 7 ч,- Новосибирск : Изд-во НГТУ, 2006. - Ч. 1. - С. 30-31.

6. Князева А. А. Оценивание долей по данным с пропусками // Актуальные проблемы управления и экономики России на современном этапе : материалы науч.-практ. конф. МФУ 2005-2006 гг. - Томск : Изд-во НТЛ, 2007. - Ч. 1. -С. 275-276.

7. Князева А. А. Проверка гипотез однородности на основе данных с пропусками // III Всерос. науч.-практ. конф. "Инноватика-2007". - Томск : Изд-во ТГУ, 2007.-е. 141-143.

8. Князева А. А. Об оценке вероятности пересечения событий по данным с пропусками // Научное творчество молодежи : Материалы XIII Всерос. науч.-практ. конф. - Томск : Изд-во ТГУ, 2009. - Ч. 1. - С. 44-46.

9. Князева А. А. Автоматический авторитетный контроль для распределенных библиографических баз данных [Электронный ресурс] / А. А. Князева, И. Ю. Турчановский, О. С. Колобов // XIII Рос. конф. с участием иностр. учен. «Распределенные информационные и вычислительные ресурсы» (DICR'2010), Новосибирск, 30 нояб.-4 дек. 2010 г. : материалы конф. - Новосибирск : ИВТ СО РАН, 1996-2013. - URL: http://conf.nsc.ru/dicr2010/ru/reportview/29244, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

10. Князева A.A. Восстановление связей между библиографическими записями [Электронный ресурс] / А. А. Князева, О. С. Колобов // Междунар. конф. «Современные проблемы математики, информатики и биоинформатики», посвящ. 100-летию со дня рождения чл.-кор. АН СССР А. А. Ляпунова, Новосибирск, 11-14 окт. 2011 г. : материалы конф. - Новосибирск : ИВТ СО РАН, 1996— 2013. - URL: http://conf.nsc.ru/Lyap-100/reportview/74497, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

11. Князева А. А. Автоматическое связывание документов / А. А. Князева, И. Ю. Турчановский, О. С. Колобов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL'2012) : тр. XIV Всерос. науч. конф., Переславль-Залесский, 15-18 окт. 2012 г. - Переславль-Залесский : Изд-во «Университет города Переславля», 2012. - С. 360-369.

12. Князева А. А. Автоматическое связывание структурированных документов [Электронный ресурс] / А. А. Князева, И. Ю. Турчановский, О. С. Колобов // Материаловедение, технологии и экология в 3-м тысячелетии : сб. докл. V Всерос. конф. молод, учен. / Ин-т оптики атмосферы СО РАН. - Электрон, текст, дан. - Томск : ИОА СО РАН, 2012. - [С. 9-12]. - 1 электрон, опт. диск (CD-ROM). - №гос. регистрации 0321300235.

13. Князева А. А. Наличие информации для связывания на примере базы данных «MedArt» [Электронный ресурс] / А. А. Князева, О. С. Колобов, И. Ю. Турчановский // XIV Рос. конф. с междунар. участием «Распределенные информационные и вычислительные ресурсы» (DICR-2012), Новосибирск, 26-30 нояб. 2012 г. : материалы конф. - Новосибирск ИВТ СО РАН, 1996-2013. -URL: http://conf.nsc.ru/dicr2012/ru/reportview/139662, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

Печ. л. 1. Тираж 100 экз. Заказ № 78.

Тираж отпечатан в типографии ИОА СО РАН. 634055, г. Томск, пл. Академика Зуева, 1. Тел. 49-10-93.

Похожие работы

Документальная информация
05.25.00