автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка моделей и средств обеспечения документального поиска в распределенных гетерогенных информационных ресурсах
Автореферат диссертации по теме "Исследование и разработка моделей и средств обеспечения документального поиска в распределенных гетерогенных информационных ресурсах"
На правах рукописи
г/! ■ __________
ОКРОПИШИН АНТОН ЕВГЕНЬЕВИЧ
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И СРЕДСТВ ОБЕСПЕЧЕНИЯ ДОКУМЕНТАЛЬНОГО ПОИСКА В РАСПРЕДЕЛЕННЫХ ГЕТЕРОГЕННЫХ ИНФОРМАЦИОННЫХ
РЕСУРСАХ
05 Л3.01 - «Системный анализ, управление и обработка информации (в информационных системах)»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
5 ДЕК 2013
005542881
Москва-2013
005542881
Работа выполнена в «Национальном исследовательском ядерном университете «МИФИ»
Научный руководитель: доктор технических наук, профессор
Максимов Николай Вениаминович
Официальные оппоненты: доктор физико-математических наук,
профессор, зав. кафедрой Автоматизированных систем управления НИТУ "МИСиС"
Кривоножко Владимир Егорович
кандидат технических наук, доцент, заместитель генерального директора по информационной политике ЗАО «Региональный Сетевой Информационный Центр»
Храмцов Павел Брониславович
Ведущая организация: Институт проблем информатики Рос-
сийской академии наук
Защита состоится «25» декабря 2013 г. в 15 часов 00 минут на заседании диссертационного совета Д 212.130.03 при Национальном исследовательском ядерном университете «МИФИ», расположенном по адресу: 115409, г. Москва, Каширское шоссе, 31. С диссертацией можно ознакомиться в библиотеке НИЯУ МИФИ Автореферат разослан «2$>> ноября 2013г.
Отзывы и замечания по автореферату в двух экземплярах, заверенные печатью, просьба высылать по вышеуказанному адресу на имя учёного секретаря диссертационного совета.
Ученый секретарь диссертационного совета, доктор аЖ^^^Щ. Леонова Н.М. технических наук, доцент
Общая характеристика работы
Актуальность исследования. Неотъемлемым атрибутом современного общества в последние десятилетия стало непрерывное увеличение объемов информации, представленной на электронных носителях и организованной в виде множества разнообразных распределенных документальных ресурсов. Становится очевидным, что развитие средств поиска информации не может компенсировать возрастающую как количественно, так и качественно сложность ее обработки. При этом, несмотря на создание все более совершенных систем управления информационными ресурсами (ИР) в рамках отдельно взятых электронных библиотек (ЭБ), на уровне информационного пространства в целом остается не решенной одна из основных задач любой информационной системы - предоставление пользователю нужной ему информации в удобной и доступной для него форме, обеспечивающей максимальное соответствие его личным потребностям, в том числе по требованиям к полноте и точности поиска.
Поэтому организация современных специализированных средств доступа к опубликованным отечественным и зарубежным результатам научной деятельности, исследований и экспериментов является залогом высоких темпов развития науки и техники. Актуальность этого отражена и указами президента РФ, предписывающими, в частности, создание единой базы данных о научно-исследовательских и опытно-конструкторских работах1'2.
Целью диссертационной работы является разработка моделей и средств унифицированного доступа к гетерогенным распределенным информационным ресурсам, обеспечивающим оптимизацию процесса поискового взаимодействия пользователя с ресурсами с учетом особенностей задач информационного обеспечения научных исследований.
Основными задачами являются: • исследование процессов поискового взаимодействия в среде распределенных гетерогенных информационных ресурсов;
1 Поручение Президента Российской Федерации от 4 января 2010 г. № Пр-22
2 Поручение Президента Российской Федерации от 1 августа 2008 г. № Пр-1572
• разработка моделей информационной совместимости ресурсов;
• разработка объектной модели информационного ресурса для задач распределенного документального поиска;
• разработка механизма обеспечения интероперабельности ИР, использующего унифицированные описания ресурсов, включающего трансляцию поискового запроса с языка поисковых запросов (ЯПЗ) исходного ресурса на язык целевого ресурса и сопоставление схем данных взаимодействующих ресурсов;
• проектирование и разработка средств унифицированного доступа к распределенным гетерогенным информационным ресурсам, включая формирование прототипа репозитория описаний ИР.
Объектом исследования являются распределенные гетерогенные информационные ресурсы, доступные для поискового взаимодействия по сети, такие как документальные базы данных, электронные библиотеки, каталоги издательств, поисковые машины, а также характеристики этих ресурсов с точки зрения организации автоматизированного доступа к ним.
Предметом исследования являются:
• совокупность способов взаимодействия с информационными ресурсами;
• механизмы установления соответствий между элементами данных при работе с РТР.
Экспериментальной базой являются промышленные информационные ресурсы, а также полученные автором результаты экспериментальных исследований поисковых процессов в среде гетерогенных ИР, проводимых в рамках НИР3'4 и ОКР5, а также лабора-
3 Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» в Центре информационных технологий и систем по проекту «Создание информационно-аналитической системы регистрации, учёта, обработки и хранения отчётных документов по НИОКР, выполняемым ФГУП и ОАО, с целью проведения мониторинга состояния и основных тенденций и направлений развития научных исследований и разработок, выполняемых компаниями государственного сектора, в том числе направленных на реализацию приоритетных направлений развития науки, технологий и техники в Российской Федерации, а также критических технологий Российской Федерации»
торных практикумов и учебно-исследовательских работ студентов в НИЯУ МИФИ и РГГУ.
Методы исследования. Основные результаты работы получены с использованием методов теории множеств, теории вероятностей, математической статистики и системного анализа.
Научная новизна результатов работы.
• модель метаинформационной совместимости, позволяющая ввести расстояние на основе меры различия между любой парой схем данных, отражающее точность отображения схем данных при переходе от одного ресурса к другому;
• модель лингвистической совместимости, позволяющая ввести расстояние для пар языков поисковых запросов (ЯПЗ) на основе меры их различия, отражающее потерю смысла поискового запроса при переходе к иному синтаксису и структуре данных;
• модель лексической совместимости, дающая вероятностную оценку близости ресурсов по используемой лексике, отражающую зависимость результатов поиска от попарного пересечения словарей ресурсов.
Практическая значимость результатов работы:
• модель метаинформационной совместимости позволяет рассчитать близость между схемами данных взаимодействующих ресурсов, обеспечивая оценку целесообразности использования ассоциированного ресурса и, тем самым, позволяя снизить избыточность выдачи;
• модель лингвистической совместимости позволяет количественно оценить адекватность преобразования поискового запроса, выполняемого в соответствии с синтаксисом и набором метаданных целевого ИР, что обеспечивает возможность взаимного ранжирования поисковых результатов, получаемых из нескольких ИР;
4 РФФИ, грант 11-09-13128 офи-м-2011-РЖД. «Моделирование и разработка распределенных гетерогенных информационных ресурсов онлайн-информирования пассажиров»
5 Опытно-конструкторская работа по теме: «Создание единой государственной информационной системы мониторинга процессов аттестации научных и научно-педагогических кадров высшей квалификации» для разработки подсистемы «Шлюз с ЕФБД НИОКР» (мероприятие 5.1 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»)
• модель лексической совместимости ресурсов дает вероятностную оценку лексической близости ИР, которая при переадресации запроса используется для обоснования выбора ресурса;
• объектная модель информационного ресурса, обеспечивающая построение унифицированного объектно-ориентрованного описания ресурса, используемого для ранжирования потенциально полезных ресурсов и преобразования запросов в соответствии с требованиями целевого ИР;
• совокупность программных инструментов позволяет обеспечить пользователей средствами поддержки управления поиском в ИР, обеспечивая возможность обращения к внешним ресурсам не только с использованием запросов на ЕЯ, но и запросов, содержащих булевы и контекстные операторы ЯПЗ, что в значительной степени повышает точность выдачи и, в отдельных случаях, например для Ыегпе1>поисковых машин, на 2-3 порядка снижает количество документов в выдаче.
На защиту выносятся:
• модель метаинформационной совместимости ресурсов и мера, позволяющая определить совместимость схем данных для пар ресурсов;
• модель лингвистической совместимости ресурсов и мера, позволяющая определить совместимость ИПЯ различных ИР;
• модель лексической совместимости ресурсов и мера, отражающая близость лексики ИР, обусловленной тематикой;
• объектная модель, алгоритм и объектно-ориентированное описание ресурса, обеспечивающие управление процессом переадресации поисковых запросов с учетом различий в схемах данных, а также в формах и синтаксисе ЯПЗ.
Достоверность полученных результатов и адекватность моделей подтверждаются корректностью математического аппарата, а именно элементов теории множеств, теории вероятностей и системного анализа, использованных в диссертационной работе; а также сопоставлением с экспериментальными данными, полученными путем компьютерного моделирования и путем внедрения в составе конкретных информационных систем.
Апробация работы. Основные результаты работы докладывались и обсуждались на конференциях:
1. Научная сессия МИФИ-2009. XIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
2. 7-я Курчатовская молодёжная научная школа 2009;
3. Международная научно-практическая конференция 2009 «Математика, информатика, естествознание в экономике и в обществе»;
4. XIX международная конференция-выставка «Информационные технологии в образовании» 2009;
5. Научная сессия НИЯУ МИФИ-2010. XIV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
6. IX Международная научно-практическая конференция-выставка «Единая образовательная информационная среда: направления и перспективы развития электронного и дистанционного обучения 2010»;
7. XX международная конференция-выставка «Информационные технологии в образовании» 2010;
8. Научная сессия НИЯУ МИФИ-2011. XV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании»;
9. Научная сессия НИЯУ МИФИ-2012;
10. «Технические и программные средства систем управления, контроля и измерения» (УКИ'12): Конференция с международным участием, 2012;
11. Научная сессия НИЯУ МИФИ-2013.
Реализация результатов работы:
• модель информационной совместимости разнородных информационных ресурсов, в частности модель лексической совместимости, а также объектная модель ресурса использованы в Федеральном государственном автономном научном учреждении «Центр информационных технологий и систем органов исполнительной власти» (ФГАНУ ЦИТиС) в рамках опытно-конструкторской работы по теме: «Создание единой государственной информационной системы мониторинга процессов аттестации научных и научно-педагогических кадров высшей квалификации» для разработки подсистемы «Шлюз с ЕФБД НИОКР» (мероприятие 5.1 ФЦП «Иссле-
дования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»);
• модель лингвистической совместимости, объектная модель ресурса и объектно-ориентированное описание ИР использованы в Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Национальный исследовательский ядерный университет «МИФИ» в рамках проекта автоматизации Центра информационно-библиотечного обеспечения учебно-научной деятельности;
• модели лингвистической и метаинформационной совместимости информационных ресурсов, объектная модель и объектно-ориентированное описание ресурсов, а также программно-информационные средства поддержки поиска в распределенных гетерогенных информационных ресурсах использованы в ИНИОН РАН в составе информационного портала для организации поиска в локальных реферативных БД с возможностью трансляции и передачи запроса в ассоциированные внешние ИР.
Публикации. По теме диссертации опубликовано 16 статей, а также получено два свидетельства о государственной регистрации программ для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (85 наименований), а также приложений (содержит 148 страниц текста, 39 рисунков, 11 таблиц).
Содержание работы
Во введении обосновывается актуальность проведения исследования, а также сформулированы цели и задачи работы.
В первой главе приводится краткое изложение проблемы информационного поиска в среде распределенных гетерогенных документальных ресурсов, сводящейся к необходимости подбора адекватных ресурсов по тематическому и видовому признаку, обеспечению доступа к гетерогенным ресурсам за счет унификации представления данных. Выделяются следующие свойства, определяющие эффективность взаимодействия с ресурсами:
• особенности прикладного поискового интерфейса и языка поисковых запросов;
• способы представления документов и используемые группы метаданных;
• тематические и видовые спектры ресурса;
• характер лексики, используемой в документах ресурса;
• сетевые протоколы и программы-клиенты, используемые для взаимодействия с ресурсом.
Проблема поддержки распределенного поиска имеет давнюю историю. Существующие решения классифицируются по признаку взаиморасположения индексируемых данных, поисковых механизмов и способа взаимодействия унифицированного ресурса с первоисточниками следующим образом: ресурсы, агрегирующие данные, имеющие собственный поисковый механизм (их формирование и наполнение административно и технически ограничено), ресурсы-каталоги, взаимодействующие с первоисточниками и возвращающие ссылки на результаты поиска (наиболее широко распространены, но не обеспечивают достаточного для рассматриваемой области качества поискового взаимодействия) и унифицированные поисковые оболочки с возможностью объединения и ранжирования результатов (в чистом виде в настоящее время фактически не функционируют). Таким образом, необходима разработка комплексного решения на основании системного подхода, учитывающего определенные выше свойства ресурсов, и обеспечивающего, с одной стороны, возможность динамического ассоциирования любых технически доступных ресурсов, а с другой, адекватное для рассматриваемой области качество поиска в них. Проведенный анализ публикаций и проектов показал отсутствие готовых комплексных решений, что обусловлено в первую очередь значительно более сложными, нежели в других областях, схемами элементов данных ресурсов научной информации, и более высокими требованиями к полноте и точности поиска.
Основной объект, участвующий в поисковом взаимодей-
который задается множеством хранимых знаний К, характеризующихся формой представления, и множеством средств манипулирования знаниями Ь, обеспечивающих доступ к ресурсу. Множе-
ствии, принадлежит классу «информационный ресурс» Я
ство взаимодействующих ресурсов / = |/у Е /|, где / - класс «поисковое взаимодействие ИР», определяется как:
(О
^{^Д^хД, (2)
Здесь каждый ресурс ^, . £ Я ввиду симметричности
взаимодействия может выступать и как источник, и как потребитель
информации в процессе их взаимодействия .
Исходя из уровневой схемы сетевого взаимодействия, совместимость ресурсов будем рассматривать в следующих аспектах:
• техническая совместимость — по способам реализации функций обращения к ресурсу;
• информационная совместимость, которая подразделяется на:
о лингвистическую совместимость - по языковым средствам работы с информацией, хранящейся в ресурсе;
о метаинформационную совместимость - по интерфейсам доступа на уровне элементов данных (точек входа);
о лексическую - по близости используемой в документах лексики, определяемой тематикой ресурса. Для сравнительной оценки информационного содержания ресурсов рассмотрим характеристики: спектра видов документов
Т. = | и тематического спектра Н1 = {^у} Для '-го ресурса; где Ху - характеризует вероятность нахождения документов у'-го вида в составе ресурса, Ку - характеризует вероятность нахождения документову'-ой тематической рубрики в составе ресурса.
Для спецификации спектра видов документов 7] вводится
показатель СС1 , отражающий наличие тех или иных видов документов, и характеристика равномерности Д№.
а? =
Ж)2-*
-е[ОД]
л/7-1
(3)
Ху £ {0Д| - дискретная величина, отражающая факт
встречаемости документов у'-го вида в /-м ресурсе, ? - мощность множества всех рассматриваемых видов документов. Вырожденный случай, соответствующий единственному виду документов (7 = 1), не отвечает практике и поэтому исключается из рассмотрения.
Г г--\
А" =
:[0,1]
(4)
ресурсе как
л:
[0;1] - вероятность нахождения документов у'-го вида в /-м ресурсе.
Определим интегральную характеристику полноты представления и равномерности видового распределения документов в = (< + #-)
2
Аналогично, для спектра тем /-го ресурса
Л.
2
В работе проведен эксперимент, в рамках которого группой экспертов осуществлялся информационный поиск в восьми ИР по некоторому набору тем с учетом видов документов. Полученные в результате эксперимента значения интегральных характеристик
О < л;" <0,54 И 0,33 <А"< 0,95 подтвердили, что ни один
ресурс не обладает исчерпывающей полнотой ни по видам, ни по темам документов. Для обеспечения унифицированного доступа к разнородным ресурсам научной информации за счет их объедине-
ния в рамках единой поисковой среды в работе сформулирована следующая совокупность задач:
• построение описания ИР на основании объектной модели информационного ресурса, учитывающей специфические характеристики ресурса, отвечающие за взаимодействие с ним;
• создание механизма трансляции исходного поискового запроса, записанного в синтаксисе — множество синтаксисов ЯПЗ), к синтаксису Щ € I? ЯГО целевого ИР, на основе модели лингвистической совместимости ресурсов. Т.е. необходимо построить отображения fT исходного ЯПЗ в целевой:
fT:I?v+I?,I$=fT(lfy,
• определение в рамках модели метаинформационной совместимости функции, позволяющей определить степень соответствия элементов данных, относящихся к двум классам;
• определение в рамках модели лексической совместимости степени близости пар ресурсов по лексике.
Во второй главе рассматриваются вопросы метаинформационной совместимости ресурсов. Результаты эксперимента по использованию при поиске основных элементов данных, принадлежащих набору Dublin Core (DC) показали, что две трети ресурсов допускают использование при поиске менее половины от всех элементов набора, два элемента из десяти не используются ни в одном из рассмотренных ресурсов, при этом динамика прироста совокупного словаря элементов данных показала сравнительно быстрое его наполнение.
При решении задачи метаинформационной совместимости ресурсов выделяются две стратегии формирования глобальной схемы данных (схемы-медиатора), обеспечивающей установление соответствий элементов данных из разных схем. Стратегия Global-As-View (GAV) предполагает формирование глобальной схемы на основании схем локальных источников, а стратегия Local-as-View (LAV) - введение глобальной схемы независимо от локальных. Последний подход допускает работу в условиях, когда заранее не известен набор PIP.
В работе используется комбинированная стратегия. Для построения схемы-медиатора используется стратегия GAV. Затем на
основе принятого в библиографической науке принципа разделения документа (и, соответственно, метаданных его описывающих) на ряд областей6 строится классификация с нечетким определением и неоднозначным основанием деления (что объясняется различиями в существующих стандартах), представляемая древовидной структурой, содержащей элементы метаданных. Использование такой классификации далее происходит в соответствии со стратегией LAV, т.е. опираясь на свойства полученной классификации и принципы ее построения, по мере необходимости, осуществляется ее развитие и уточнение.
Очевидно, что каждый элемент в разных ИР может встречаться неоднократно в пределах всего дерева и именоваться по-разному. Для формализации и определения меры введем понятие класса 0А элементов данных, как абстрактного элемента, не относящегося к какой-либо конкретной схеме. Тогда в соответствии с полученной структурой, абстрактные элементы, детализирующие данный, будем называть нижестоящими классами, для которых он будет вышестоящим классом. В качестве оценки метаинформаци-онной эквивалентности (с точки зрения замены одних элементов данных другими) введем понятие расстояния р как меры различия
между классами элементов данных 0А и 0В, которое может быть определено по их координатам в структуре, т.е.:
30:6А = ©(^ ,a2,...,ak,0,.:,0) = G(A),k = 0^j (5)
Для расстояния между двумя соседними в иерархии классами будем иметь:
Р(А>в)~фг (б)
Функция расстояния между классами с координатами А = (а1,...,ак,0,...,0) и В = (bl,...,b,,0,...,0) можно определить следующим образом:
6 Способы такого разделения определяются в различных стандартах (например, ГОСТ 7.1-2003, МЕКОФ, ИЗМАЛС, и т.д.), но не всегда совпадают.
Р(А,В) =
О ,если А = В*(И|)
,если А* =В (?)
2
+ ,иначе
Здесь — количество нижестоящих классов для .
Практическое обеспечение метаинформационной совместимости реализуется основанной на этой модели глобальной таблицей классов элементов данных (ТКЭД). На основе установленных соответствий между унифицированными элементами из таблицы и реальными элементами данных, принадлежащими конкретным ресурсам, можно производить замены имен элементов данных при трансляции запроса. Исходя из обобщенной модели машинного поиска, элементарный запрос представляется как:
ч = {чр,чс,чт] <8>
г с „т
где д - область поиска, д - критерии сравнения, д -
термин запроса (простой или составной) и его маркеры (кавычки и т.п.), и квалификаторы. Тогда язык запросов I? = в це-
лом описывается следующими атрибутами: О - множество допустимых операторов-связок, д - множество элементарных запросов, г - правила совместного использования терминов и операторов в запросе (синтаксис ЯПЗ).
Определение расстояния между парами ЯПЗ и сводится к определению расстояний между их соответствующими компонентами.
Расстояние между двумя классами =В(с",С1 и
Р2 = , С2 ■> С2 ) определим следующим образом:
П(рм=Е[0Д]
Где:
с" - признак оператора-связки булевого типа; С - признак оператора указания расстояния; С5 - признак оператора учета порядка следования.
Ч-(сГ >с.) = {0-—(10)
[1,иначе
, , , Го .если с? < с? ,
г1*(с?,с*2) = \ 1 ,0 < р <1 (11)
1 — р , иначе
0, если с 1 <с2 ^2)
1/
гиначе
„ ¿о и о ,,
1 де С , С и С - весовые коэффициенты расстоянии
между отдельными признаками, ра — вероятность сохранения
смысла запроса при переходе к оператору, не учитывающему расстояние между терминами.
Определим функцию расстояния для двух множеств доступных операторов критериев:
= (13)
где д( = {д^ } - множество всех доступных операторов критерия дч.
Функцию расстояния для двух множеств доступных квали-фикаторов и маркеров определим, как:
= е[0,1], (14)
Р1иа>2
(15)
где СТ. = {сг } - множество всех доступных квалификато-
ров и маркеров термина.
Расстояние как меру различия для пар языков, имеющих
синтаксисы 1^ и , определим следующим образом:
= + м'РМЛ) +
+цсес (д,, д2) + /ит£т (а,, ст2)
Е Й (^(АрАУ))
= |д|- (16)
X шп (р,(Л,Л;))
рМЛ)^ 2' 2|4|—- (17)
Где /Л° , ^ , /ЛС, [ЛТ - весовые коэффициенты (константы), определяющие влияние расстояния между теми или иными компонентами языков на расстояние между и в целом;
+// + мс + мт =1;
р1 - нормированная функция расстояния между двумя
классами элементов данных.
Для оценки лексической совместимости (как одной из сторон информационной), характеризующей близость по содержанию, тематике и, следовательно, используемой лексике, при переходе от одного ресурса к другому в процессе распределенного поиска предложено использовать меру 1Х, определяемую на основе вероятности Р((2,Ь). Где - вероятность того, что документ D, формально релевантный произвольно заданному запросу Q по полю А ресурса , будет релевантен запросу по полю В ресурса ■
Используя теоретико-множественную модель, было получено, что зависимость искомой оценки 1Х от длины запроса и количества терминов в нем из словаря В имеет следующий вид:
(18)
A min(/,D) min(g,£>) min(g,6,g)
LESS
р(П хЛ _ D=h g=h a—h_x=h_nm
1 / A mm(f,D)mm(Q,D)mm(a¿,g)
EV1 V"* fixfia-x s~iQ-a-b+x
Zj Z-i Zj ^g^D-g^f-g^A-D-f+g
D=h ^=0 a=h x=0
где b — количество терминов в запросе, принадлежащих словарям полей А и В ; Q - количество терминов в запросе.
а
- коэффициент, учитывающий нерав-
номерность распределения частот терминов в базе ресурса. График зависимости Р((),Ь) в координатах Р<2 (значение вероятности
Р и длина запроса ) приведен на рисунке 1.
Ь-20 Ь=26
Ь=20 Ь"15
Рис. 1
Для рассмотренных в рамках данного эксперимента ИР методом аппроксимации значений отношений теоретических и экспе-
ь,
риментальных значении вероятности для различных
'б
(рисунок
2) получены следующие значения для констант: С = 1,82 и
у = 0,67.
Рис. 2
Данная оценка (18) позволяет судить о лексической близости (в смысле индексирования) двух различных ресурсов и, следовательно, обеспечивает инструмент для ранжирования ИР.
В третьей главе рассматривается объектная модель ресурса, отражающая поисковое взаимодействие в рамках сетевой эталонной модели взаимодействия открытых систем (081). Показывается возможность отображения объявленных параметров ресурса на параметры протоколов трех верхних уровней 081.
Сеансовый уровень обеспечивает функции идентификации ресурса и включает описание характеристик поисковой сессии, унификация формы и состава которых позволит обеспечить техническую совместимость ресурсов при поиске.
На представительском уровне задаются и используются характеристики, описывающие содержание ресурса, его форму и представление (основывающиеся на модели данных ресурса).
На прикладном уровне механизмы взаимодействия с ресурсом представляются объектами «запрос» (различающиеся по формам и типам) и «ответ», где, исходя из практики АИПС, можно выделить три возможные формы: документальная выдача, справочные и аналитические данные и файлы.
Такое представление ресурса может применяться к различным типам ИР вне зависимости от их внутренней структуры и организации хранящихся данных.
Формализуя свойства путем описания отдельных типов запросов, их синтаксиса и используемых переменных, а также описывая схемы данных на уровне отдельных элементов и, соотнося их с классами элементов данных, можно обеспечить формирование описания ресурса достаточного для задач обеспечения автоматизированного поискового взаимодействия в среде распределенных гетерогенных ресурсов.
Для обеспечения интероперабельности в соответствии с объектной моделью ресурса предложено объектно-ориентированное описание, средствами которого представляются такими свойствами ресурса, как: имя ресурса, параметры протокола взаимодействия, включая адрес поискового интерфейса, характеристики базы ресурса, включая используемые схемы данных и элементы данных в рамках них, синтаксис используемых запросов, включая виды поисковых запросов (описания которых составляются с использованием шаблонов регулярных выражений), а также параметры ответов, получаемых от ресурса, включая описание областей возвращаемых документов и переменных. В структуру описания также заложены параметры, отвечающие за особенности передачи запроса, выявленные в ходе проведенного анализа поисковых интерфейсов различных ИР.
В четвертой главе рассматривается технология проведения информационного поиска в распределенных гетерогенных информационных ресурсах. Проводится ее поэтапный анализ и выделяются основные аспекты, касающиеся вопросов автоматизации процесса поиска в нескольких ресурсах, такие как формулирование запроса, выбор подходящего ресурса для поиска, преобразование запроса с учетом установленных соответствий элементов данных, а также отправка запроса ассоциированному ресурсу и обработка ответа от него.
Приводится описание разработанных программных средств, обеспечивающих автоматизированный распределенный поиск в гетерогенных ИР, реализующих как техническую (средствами программных клиентов для отдельных протоколов), так и информационную совместимость (на основе моделей метаинформационной, лингвистической и лексической совместимости) ассоциированных ресурсов, свойства которых специфицированы в соответствии со структурной моделью ресурса и хранятся в разработанном репози-тории ресурсов.
Описываются результаты экспериментального поиска, проведенного по множеству распределенных ресурсов, включающего электронные библиотеки, ресурсы университетов, издательств, а также поисковые машины, в рамках которого для обращения к ассоциированным ресурсам использовались разработанные программные средства. Результаты показали повышение качества документальной выдачи более чем в два раза.
В заключении приведены основные результаты исследования:
1. Проведен анализ публикаций и проектов по проблемам поддержки пользователя при работе в среде гетерогенных информационных ресурсов, показавший отсутствие готовых комплексных решений.
2. Выведены основные характеристики поискового взаимодействия в среде гетерогенных распределенных ИР и определены интегральные характеристики для оценки информационного содержания ресурса.
3. Проведены экспериментальные исследования, позволившие оценить использование элементов данных при поиске в различных ИР.
4. Построена модель метаинформационной совместимости, в рамках которой определена функция расстояния как мера различия для классов элементов данных.
5. Построена модель лингвистической совместимости, в рамках которой определена функция расстояния как мера различия для пар ЯПЗ, используемая в процедурах преобразования запроса из синтаксиса одного ЯПЗ в синтаксис другого.
6. Построена модель лексической совместимости ресурсов и получена оценка этой совместимости, характеризующая близость лексики ИР, обусловленной тематикой.
7. Разработана объектная модель ресурса, учитывающая основные характеристики ресурса в задачах обеспечения распределенного поиска. На ее основе разработано объектно-ориентированное представление ИР, обеспечивающие их интеропе-рабельности.
8. Разработана унифицированная поисковая оболочка, основанная на предложенных моделях и реализующая технологию распределенного поиска, более двух лет функционирующая в составе АИПС х1ЯВ18 в режиме промышленной эксплуатации. Разработан инструмент, обеспечивающий взаимное отображение схем элементов данных для различных ресурсов. С использованием разработанных программных средств проведена серия экспериментальных поисков в ассоциированных информационных ресурсах, результаты которых показали повышение качества документальной выдачи за счет обеспечения адекватного требованиям целевого ресурса преобразования поискового запроса, что подтверждает эффективность разработанных методов и средств.
В приложениях представлены следующие дополнительные материалы.
В приложении 1 приводятся экспериментальные данные, использованные для оценки рассеяния документов по ресурсам.
В приложении 2 приводятся экспериментальные данные, характеризующие возможность использования элементов данных при поиске в различных ИР.
В приложении 3 приведены данные, использованные для экспериментального расчета меры различия для двух ЯПЗ.
В приложении 4 приводятся преобразования, проведенные в рамках вывода функции меры лексической совместимости.
В приложении 5 приводится вывод функции зависимости для верхней оценки вероятности в рамках модели лексической совместимости.
В приложении 6 приводится диаграмма классов объектной модели ресурса.
В приложении 7 приведена структура разработанного объ-ектно-ориентрованного описания в нотации ХМЬ-схем.
В приложении 8 приведены акты о внедрении полученных автором результатов.
Публикации:
1. Максимов Н.В., Голицына О.Л., Васина E.H., Резниченко П.И. Окропишин А.Е. Документальная информационно-аналитическая система xIRBIS 4.0 // Свидетельство о государственной регистрации программы для ЭВМ №2008611511 от 25.03.2008
Г. ;
2. Максимов Н.В., Васина E.H., Голицына O.JI. Окропишин А.Е. Документальная информационно-аналитическая система // Научная сессия МИФИ-2009. XIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании». Сборник научных трудов. М.: МИФИ, 2009. - С.140-141
3. Максимов Н.В., Васина E.H., Голицына О.Л., Резниченко П.И., Окропишина О.В., Окропишин А.Е. Интегральная информационная система поддержки научных исследований и процессов управления научными кадрами // Научная сессия МИФИ-2009. XIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании». Сборник научных трудов. М.: МИФИ, 2009. - С.25-26
4. Максимов Н.В., Окропишина О.В., Окропишин А.Е. Дескриптивное представление предметных областей научных исследований // Инновационные технологии когнитивного управления в экономике, менеджменте и образовании. Межвузовский сборник научных трудов. -М.: «РЭА», 2009. -Вып. 2. с. 190-197.
5. Максимов Н.В., Бебчук М.Б. Окропишин А.Е. Об одном подходе к обеспечению совместимости ИПЯ в задачах документального поиска в распределенных гетерогенных информационных ресурсах // Инновационные технологии когнитивного управления в экономике, менеджменте и образовании. Межвузовский сборник научных трудов. -М.: «РЭА», 2009. -Вып. 2. с.21-27.
6. Максимов Н.В., Окропишина О.В., Окропишин А.Е. Об одном подходе к созданию информационной среды, обеспечивающей возможность формирования и управления индивидуальной образовательной траекторией // Математика, информатика, естествознание в экономике и в обществе / Труды международной научно-практической конференции. Том 1- М.: МФЮА, 2009. - С. 55-58, ISBN 978-5-94811-139-1
7. Окропишина О.В. Окропишин А.Е. Дескриптивное представление знаний // Информационные технологии в образовании.
XIX международная конференция-выставка: Сборник трудов. Ч. II.
- М.:МИФИ, 2009. - С. 25-28.
8. Окропишин А.Е. Методы и средства организации документального поиска в распределенных гетерогенных информационных ресурсах // Научная сессия МИФИ-2010. Сборник научных трудов.
XIV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании». М.: НИЯУ МИФИ, 2010. -С.156-157
9. Максимов Н.В., Голицына О.Л., Амосов П.А., Окропишина О.В. Окропишин А.Е. О введении и использовании информационно-лингвистических средств в единой образовательной среде научно-исследовательского университета // Единая образовательная информационная среда: направления и перспективы развития электронного и дистанционного обучения : материалы IX Международной научно-практической конференции-выставки (Новосибирск, 2224 сентября 2010 г). - Новосибирск : Изд-во НГТУ, 2010. - С.95-97.
10. Окропишин А.Е. Средства и технологии документального поиска в образовании и научных исследованиях // Информационные технологии в образовании. XX Международная конференция-выставка: Сборник трудов. Ч. VI. - М.: МИФИ, 2010. - С.34-36.
11. Степанова Е.Б., Окропишина О.В., Окропишин А.Е. Болотин Е.И., Амосов П.А. Разработка стандартизованных модулей учебно-методических комплексов по дисциплинам // Научная сессия НИЯУ МИФИ-2011. Сборник научных трудов. XV выставка-конференция «Телекоммуникации и новые информационные технологии в обра-зовании».М.: НИЯУ МИФИ, 2011. - Т. 1 - С. 131-132
12. Окропишин А.Е. Средства и технологии распределенного документального поиска в информационно-образовательных средах // Научная сессия НИЯУ МИФИ-2011. Сборник научных трудов.
XV выставка-конференция «Телекоммуникации и новые информационные технологии в образовании». М.: НИЯУ МИФИ, 2011. - Т.1
- С.148-149
13. Окропишин А.Е. Применение модели вариативности индексирования для задач документального поиска в распределенных гетерогенных информационных ресурсах // Научная сессия НИЯУ МИФИ-2011. Сборник научных трудов, Т.З. - М.: МИФИ, 2011. -с.138-139.
14. Максимов Н.В., Голицына О.Л., Окропишина О.В. Окропишин А.Е. Подсистема аналитической обработки документальной
информации // Свидетельство о государственной регистрации программы для ЭВМ №2011611694 от 22.02.2011 г.
15. Максимов Н.В., Окропишина О.В., Передеряев И.И. Окропишин А.Е. Использование технологии автоматизированного формирования понятийной структуры нредметной области научного исследования в задачах управления научными кадрами // Вестник РГГУ. Научный журнал. Серия «Управление» - М.: «Российский государственный гуманитарный университет», 2011. -№. 4. - С.175-185.
16. Строгонов В.И., Максимов Н.В., Голицына O.JL, Болотин Е.И., Окропишин А.Е. Модели и эффективность распределенного поиска в документальных информационных ресурсах // Системы управления и информационные технологии, №1(47), 2012. - С. 78-83.
17. Строгонов В.И., Максимов Н.В., Голицына O.JL, Окропишин А.Е. Интегральный подход к формированию и использованию распределенных гетерогенных информационных ресурсов для он-лайн-информирования пассажиров // «Технические и программные средства систем управления, контроля и измерения» (УКИ'12): Конференция с международным участием (16-19 апреля 2012 г., Москва, Россия). - Москва: Изд-во ИЛУ РАН, 2012. - С.77.
18. Строгонов В.И., Максимов Н.В., Окропишин А.Е. Модель информационного ресурса как объекта поискового взаимодействия // Системы управления и информационные технологии, 2012. 1(50)С. 183-186.
Подписано в печать 22.11.2013. Объем 1,5 п.л. Тираж 100 экз. Заказ № 209.
Типография НИЯУ МИФИ. Каширское шоссе, 31.
Текст работы Окропишин, Антон Евгеньевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
Национальный исследовательский ядерный университет «МИФИ»
На правах рукописи
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И СРЕДСТВ ОБЕСПЕЧЕНИЯ ДОКУМЕНТАЛЬНОГО ПОИСКА В РАСПРЕДЕЛЕННЫХ ГЕТЕРОГЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ
05.13.01 - «Системный анализ, управление и обработка информации (в информационных системах)»
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель профессор, д.т.н. Максимов Н.В.
Москва-2013
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ...................................................................................................................................5
Глава 1. ИССЛЕДОВАНИЕ И МОДЕЛИРОВАНИЕ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ЗАДАЧАХ ДОКУМЕНТАЛЬНОГО ПОИСКА......................................................................16
1.1 Обзор решений, обеспечивающих информационный поиск в распределенных ИР...............................................................................................................................16
1.2 Поисковые взаимодействия в системах информационного обмена..................20
1.3 Исследование зависимости информационной совместимости от фактора рассеяния...................................................................................................................23
1.4 Экспериментальная оценка интегральных характеристик полноты ресурса и рассеяния по видам документов...............................................................................28
1.5 Общая постановка задачи распределенного поиска в гетерогенных
информационных ресурсах.......................................................................................34
Выводы к главе 1.......................................................................................................39
Глава 2. ИНФОРМАЦИОННАЯ СОВМЕСТИМОСТЬ РЕСУРСОВ........................................41
2.1 Экспериментальный анализ используемости метаданных в поисковых интерфейсах распределенных ИР.............................................................................41
2.2 Модель метаинформационной совместимости..................................................44
2.3 Модель лингвистической совместимости ресурсов...........................................54
2.4 Модель лексической совместимости документальных ресурсов......................64
Выводы к главе 2.......................................................................................................68
Глава 3. ОБЪЕКТНАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО РЕСУРСА...................................70
3.1 Формализованное описание информационного ресурса...................................70
3.2 Компоненты объектной модели информационного ресурса.............................72
3.3 Исследование средств, обеспечивающих внешние взаимодействия ресурса...74
3.4 Реализация объектной модели для задачи автоматизированного использования описания ресурса.......................................................................................................78
3.5 Состав и структура описания информационного ресурса.................................83
Выводы к главе 3.......................................................................................................87
Глава 4. РАЗРАБОТКА СРЕДСТВ ОБЕСПЕЧЕНИЯ ПОИСКА В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ.........................................................................................88
4.1 Технология распределенного поиска в гетерогенных информационных ресурсах.....................................................................................................................88
4.2 Функции и структура унифицированной поисковой среды..............................94
4.3 Репозиторий описаний информационных ресурсов..........................................97
4.4 Алгоритм функционирования программного комплекса................................100
4.5 Экспериментальная оценка эффективности механизма обеспечения
интероперабельности ИР........................................................................................103
Выводы к главе 4.....................................................................................................106
ЗАКЛЮЧЕНИЕ.........................................................................................................................107
СПИСОК ЛИТЕРАТУРЫ.........................................................................................................109
ПРИЛОЖЕНИЯ........................................................................................................................116
Приложение 1..........................................................................................................116
Приложение 2..........................................................................................................119
Приложение 3..........................................................................................................120
Приложение 4..........................................................................................................122
Приложение 5..........................................................................................................135
Приложение 6..........................................................................................................136
Приложение 7..........................................................................................................137
Приложение 8..........................................................................................................144
СПИСОК СОКРАЩЕНИЙ
АИС - автоматизированная информационная система
АИТТС - автоматизированная информационно-поисковая система
АРМ - автоматизированное рабочее место
ЕФБД НИОКР - Единая федеральная база данных НИОКР
ИГТП - информационная потребность пользователя
ИПС - информационно-поисковая система
ИР - информационный ресурс
ИС - информационная система
НТИ - научно-техническая информация
НИР - научно-исследовательская работа
ОКР - опытно-конструкторская работа
ПрО - предметная область
ТКЭД - таблица классов элементов данных
ЭБ - электронная библиотека
ЯПЗ - язык поисковых запросов
081 - модель взаимодействия открытых систем
ВВЕДЕНИЕ
Неотъемлемым атрибутом современного общества в последние десятилетия стало непрерывное увеличение объемов информации, представленной на электронных носителях и организованной в виде множества разнообразных распределенных документальных ресурсов. Этому, в частности, способствует быстрая информатизация обществ развивающихся стран [70].
При этом становится очевидным, что развитие средств работы с порождаемой обществом информацией не может компенсировать возрастающую как количественно, так и качественно сложность ее обработки [5, 14, 16]. Так как процессы познания, представляющие основу для развития современного общества, неизбежно связаны с взаимодействием, одной из форм которого является использование знаний, представленных в информационных ресурсах (ИР), то для дальнейшего стабильного поддержания этого развития основной проблемой становится необходимость обеспечения доступа к накопленным в информационных ресурсах знаниям для ученых и специалистов.
Эти ресурсы1, в свою очередь, представлены широким спектром форм, начиная от отдельных статей (файлов) в общем доступе на Шегпе^сайтах и заканчивая структурированными базами данных электронных библиотек (ЭБ). Подобная разнородность, тем не менее, закономерна и объясняется особенностями происхождения, а также, во многом, использования хранящейся в ресурсах информации. Для доступа к такого рода информации используют: поисковые машины с их инструментарием, направленным на слабоструктурированную, в силу специфики своего происхождения, предметную область (ПрО); индивидуальные поисковые средства каждого из ресурсов, настроенные на особенности и структуру конкретных баз данных.
Важным фактором, определяющим развитие поисковых средств, является требование к оперативности, полноте и достоверности научной и научно-технической информации. От того, насколько полно ученые и специалисты всех отраслей обеспечены новейшей актуальной информацией, зависит уровень развития науки и страны в целом [41]. Поэтому одним из основных направлений информатизации общества стало повсеместное распространение электронных библиотек [6], призванных хранить разнородную электронную информацию и предоставлять пользователям удаленный доступ. И по мере создания новых электронных библиотек и онлайновых каталогов сформировался целый ряд требова-
1 Здесь и далее по тексту понятие «ресурс» для краткости будет заменять понятие «информационный ресурс».
ний к такого рода информационным ресурсам и способам их организации. К ним можно отнести [12]:
• развитие новых походов к каталогизации информационных ресурсов и ЭБ;
• разработка техники индексирования, методов поиска и обнаружения релевантных ресурсов, а также принципов и средств их анализа;
• интеграция разнородных коллекций ИР на логическом и семантическом уровне;
• разработка подходов к интеграции данных и методов их реализации;
• создание функционально развитых пользовательских интерфейсов.
И все же, несмотря на решение многих технических проблем, связанных со скоростью и удобством доступа к информации в рамках отдельных ресурсов, ситуация с возможностью ее агрегации и унификации форм ее представления заметно не меняется. А широкое внедрение информационных систем (ИС) и баз данных в сочетании с сетевыми решениями, тем не менее, остается пока лишь очередным этапом в попытках человека справиться с проблемами получения и переработки информации [24].
Сложившаяся ситуация имеет как технические (о которых будет упомянуто позже), так и социально-экономические предпосылки, во многом обусловленные происхождением тех или иных информационных ресурсов и ЭБ. Среди этих предпосылок можно выделить в первую очередь языковую принадлежность документов содержащихся в ресурсе. Так как наиболее крупные ресурсы всегда основываются на базе уже существующего предприятия или библиотеки и пополняются за счет постепенной оцифровки ранее созданного контента, то и характер их наполнения непосредственно связан с языковой принадлежностью базовой организации. В связи с этим потенциальный потребитель сталкивается с необходимостью самостоятельно проводить сравнение и отбор документов по разноязычным источникам. Помимо этого фактора принципиальную роль играет и другой - тематическая и отраслевая принадлежность ресурса, напрямую определяющая содержащиеся в нем документы, и как следствие, их структуру.
Все это свидетельствуют о том, что, несмотря на создание все более совершенных систем управления ИР в рамках отдельно взятых ЭБ, на уровне выше отдельной ЭБ -уровне информационного пространства в целом, остается не решенной одна из основных задач любой ИС - предоставление пользователю нужной ему информации в удобной и доступной для него форме, обеспечивающей максимальное соответствие его личным потребностям и выбираемой из всех доступных на данный момент по данной теме источников. Здесь пользователь сталкивается со многими из тех проблем, которые можно считать решенными в рамках отдельно взятой ЭБ. Стоит отметить, что для полноценного обеспе-
чения учебной и научной деятельности он все же будет вынужден подняться на этот уровень, выйдя за рамки привычного набора информационных ресурсов. [40]
Для разрешения сложившейся ситуации мировое сообщество предпринимает ряд действий, направленных на интеграцию информационных потоков, порожденных различными источниками. Согласно [68], выделяются три подхода:
1. Основанная на каталогизации агрегация данных, произведенных сторонними ИР в пределах некоторого ресурса, имеющего собственную структуру данных и собственные поисковые механизмы. В этом случае конечный пользователь в поисковой выдаче получает список ссылок на исходные ресурсы и на основании собственных прав доступа может к ним обратиться. Среди основных достоинств такого метода можно выделить качество поиска по собственной базе и, как следствие, высокую долю релевантных документов, получаемых пользователем. Тем не менее, задача создания такого каталога в масштабе всего информационного пространства и даже в рамках отдельной тематики, выглядит не выполнимой.
В рамках данного подхода существует метод, при котором агрегируется не только вторичная информация, но и полный текст документов. Этот подход также ограничен правовыми аспектами.
Примером реализации такого подхода можно считать информационную систему доступа к электронным каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса (ИС ЭКБСОН) [35].
2. Создание реестра ресурсов по нескольким тематикам и поддержание возможности работы с их содержанием по основным поисковым протоколам с использованием собственных простейших поисковых возможностей. При этом результат поиска или ссылка не возвращает полного текста статьи пользователю, вместо этого предоставляя доступ к интерфейсу ресурса-первоисточника. Относительная простота реализации такого метода очевидна, однако не менее очевиден и основной недостаток - значительная потеря поисковых возможностей, а, в итоге, необходимость для конечного пользователя взаимодействовать с отдельными ИР.
3. Создание самостоятельной поисковой среды с унифицированным интерфейсом, осуществляющей автоматизированное взаимодействие с ресурсами-первоисточниками информации. Такая среда обслуживает запрос пользователя путем его передачи множеству ИР в подходящей для них форме. Полученные результаты алгоритмами ранжирования формируются в совокупную поисковую выдачу, предоставляемую пользователю в единой форме. Фактически в этом подходе реализуются принципы, использующиеся в обычных ЭБ, с той лишь разницей, что поисковый механизм системы взаимодействует не
со статичными данными, хранящимися в базе ресурса, а с агентами, порождающими такие данные. Преимущество этого подхода состоит в обеспечении максимальной в рассматриваемой ситуации полноты и точности результатов, т.к. полностью используется поисковые возможности исходных ресурсов через доступные интерфейсы. Основная сложность такой реализации состоит в обеспечении автоматизированного взаимодействия среды с ресурсами-агентами и в настоящее время в чистом виде такие системы не функционируют.
К системам подобного класса, представляющим базовые средства поиска, относятся, например: Bibliographix [52] и Reference Manager [74].
Актуальность исследования. Следствием приведенных выше фактов является парадокс, при котором растущее информационное общество порождает с возрастающей скоростью все большие объемы информации, обработать и использовать которые оно не способно. Это вызвано во многом тем, что человек, как система переработки и генерации информации, принципиально не изменился, в отличие от окружающей его информационной действительности. Он, как пользователь электронных библиотек и ресурсов, неизбежно сталкивается с проблемой сравнения и выбора из множества, только уже не документов, а их источников - проблемой, которая в соответствии с идеологией информационных систем должна решаться на стороне ресурса.
Поэтому оказываются нередки случаи, когда группы ученых проводят похожие исследования, не используя результаты трудов своих коллег, что фактически означает потерю, в лучшем случае временную, ранее приобретённых обществом знаний, содержащихся в информационном пространстве, из-за невозможности их идентификации во множестве других знаний.
Организация современных специализированных средств доступа к отечественным и зарубежным результатам научной деятельности, исследований и экспериментов для научных, инженерных, преподавательских и управленческих кадров является залогом высоких темпов развития науки и техники. Этот факт отражен в ряде президентских указов, предписывающих, в частности, создание в Российской Федерации единой базы данных о научно-исследовательских и опытно-конструкторских работах [33, 34].
Целью диссертационной работы является разработка моделей и средств унифицированного доступа к гетерогенным распределенным информационным ресурсам, обеспечивающим оптимизацию процесса поискового взаимодействия пользователя с ресурсами с учетом особенностей задач информационного обеспечения научных исследований.
Основными задачами являются:
• исследование процессов поискового взаимодействия в среде распределенных гетерогенных информационных ресурсов;
• разработка моделей информационной совместимости ресурсов;
• разработка объектной модели информационного ресурса для задач распределенного документального поиска;
• разработка механизма обеспечения интероперабельности ИР, использующего унифицированные описания ресурсов, включающего трансляцию поискового запроса с языка поисковых запросов (ЯПЗ) исходного ресурса на язык целевого ресурса и сопоставление схем данных взаимодействующих ресурсов;
• проектирование и разработка средств унифицированного доступа к распределенным гетерогенным информационным ресурсам, включая формирование прототипа репо-зитория описаний ИР.
Объектом исследования являются распределенные гетерогенные информационные ресурсы, доступные для поискового взаимодействия по сети, такие как документальные базы данных, электронные библиотеки, каталоги издательств, поисковые машины, а также характеристики этих ресурсов с точки зрения организации автоматизированного доступа к ним.
Предметом исследования являются:
• совокупность способов взаимодействия с информационными ресурсами;
• механизмы установления соответствий между элементами данных при работе с ИР.
Экспериментальной базой являются промышленные информационные ресурсы, а
также полученные автором результаты экспериментальных исследований поисковых процессов в среде гетерогенных ИР, проводимых в рамках НИР2'3 и ОКР4, а также лабораторных практикумов и учебно-исследовательских работ студентов в НИЯУ МИФИ и РГГУ.
2 Феде
-
Похожие работы
- Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах
- Моделирование и разработка средств и технологий поиска документальной информации
- Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам
- Исследование и моделирование взаимодействия пользователя с информационной системой в задачах документального поиска
- Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность