автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке

кандидата технических наук
Аюшеева, Наталья Николаевна
город
Улан-Удэ
год
2004
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке»

Автореферат диссертации по теме "Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке"

На правах рукописи

АЮШЕЕВА Наталья Николаевна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И МЕТОДОВ ПОИСКА ИНФОРМАЦИОННЫХ ОБРАЗОВАТЕЛЬНЫХ РЕСУРСОВ В ЭЛЕКТРОННОЙ

БИБЛИОТЕКЕ

Специальность 05.13.11- Математическое и программное

обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва-2004

Работа выполнена в Восточно-Сибирском государственном технологическом университете.

Научный руководитель:

кандидат технических наук, доцент Найханова Л.В.

Официальные оппоненты:

доктор технических наук, профессор Шеремет И.А.

кандидат технических наук, доцент Троицкий И.й.

Ведущая организация:

Государственный научно -исследовательский институт информационных технологий и телекоммуникаций «Информика»

Защита диссертации состоится «20» января 2005 г. в 14.30 часов на заседании диссертационного совета Д 212.141.10 в зале Ученого Совета Московского государственного технического университета им. Н.Э.Баумана по адресу: 105005, г.Москва, ул. 2-ая Бауманская, д.5.

С диссертацией можно ознакомиться в научной библиотеке МГТУ им. Н.Э.Баумана.

Ваши отзывы в 2-х экземплярах и заверенные печатью, просим высылать по указанному адресу.

Автореферат разослан 09.12. 2004 г.

Ученый секретарь диссертационного совета, к.т.н, доцент

Иванов СР.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Исследования в области автоматизации информационного поиска полнотекстовых документов ведутся более тридцати лет. За это время данное направление работ превратилось из узкоспециализированной тематики в одну из ключевых областей информатики. Основоположником теории информационного поиска по праву считается Дж. Солтон. Основные положения этой теории, изложенные им в 70-х гг. XX века, считаются канонами информационного поиска и нашли применение в большинстве существующих поисковых систем.

С появлением и активным использованием глобальной сети Интернет задачи информационного Поиска несколько видоизменились, стало необходимым учитывать природу сети Интернет, которой свойственны огромный объем доступной информации, ее разнородность, высокий процент временной информации, отсутствие контроля за качеством информации. Все это явилось предпосылками того, что процессы перевода традиционных источников информации в форму ресурсов Сети получили новое «звучание» в плане придания им организации учета (хотя бы частичной), близкой по своей сути к традиционному учету в библиотеках.

В настоящее время в Сети существует множество локальных информационных ресурсов и их организация в единое общедоступное информационное пространство, является составной частью формирования цивилизованного информационного общества. Доступность к информационным ресурсам при наличии систем, обеспечивающих полноту и корректность их поиска, может в существенной степени повлиять на интенсивность и качество образования, а также на качество и объемы научных исследований. Отмеченное выше может быть достигнуто за счет решения трех задач: обеспечения возможности удаленного доступа к информационным ресурсам, оптимизации размещения в сети часто используемой информации и глобализации ресурсов. Анализируя данные задачи можно отметить, что первая задача на сегодняшний день практически решена, при решении второй задачи возникает больше организационных вопросов, чем научных. Рассматривая же третью задачу, можно сказать, что для ее решения необходимо наработать механизм, который бы позволил ресурсу, выставленному в любом месте земного шара, автоматически регистрироваться в глобальной системе учета информационных ресурсов и при этом он должен стать доступным для поисковых систем.

Очевидно, что глобальный учет информационных ресурсов должен вестись по областям знаний, а возможно и по отраслевому принципу. В своей работе мы не ставим перед собой нахождение всеобъемлющего решения данной задачи и ограничимся только решением некоторых вопросов, связанных с образовательной деятельностью. Актуальность этой задачи можно обосновать тем, что в настоящее время в области образования наблюдается «всплеск» появления разнообразных информационных образовательных ресурсов на многочисленных сайтах. Этот факт отчасти объясняется функционированием с 2001 года Федеральной Целевой Программы «Развитие единой образовательной информационной среды». При этом доступность к образовательным ресур

существующих поисковых систем. Хорошо известно, что поисковые системы на запрос пользователя выдают очень большой список электронных документов, имеющихся в Сети. Причем в этом списке, как правило, наблюдается огромная избыточность, что, в свою очередь, не позволяет такой поиск охарактеризовать как эффективный.

Следует отметить, что данная работа появилась в результате выполнения темы «Разработка республиканской электронной библиотеки публикаций научных и образовательных учреждений на базе портала Регионального ресурсного центра информатизации образования Республики Бурятия», выполняемой в рамках федеральной целевой программы «Развитие информационных ресурсов и технологий». В данной работе рассматриваются вопросы разработки единого

центр (в дальнейшем депозитарий) предназначен для хранения качественных информационных образовательных ресурсов. Причем в нем организация поиска должна быть иной, чем в обычных поисковых системах. Она должна обеспечивать минимизацию избыточности найденного множества документов и обладать высокой точностью поиска.

Рассматривая далее вопрос по депозитарию можно отметить, что одну часть информационных образовательных ресурсов составляют полнотекстовые документы, являющиеся электронным представлением бумажных изданий, а вторую часть - программные продукты, ресурсы Интернет и т.п. Исходя из этого, можно сделать вывод о том, что депозитарий должен иметь два вида хранилищ: первое - для полнотекстовых документов и второе - для всех остальных видов ресурсов. Тогда метакаталог должен обеспечивать поиск ИОР, не являющихся полнотекстовыми документами, а поисковая система - поиск полнотекстовых документов. Поэтому на основе накопленных теоретических и практических знаний в области информационного поиска для создания единого распределенного центра доступа и хранения информационных ресурсов необходимо разработать модели метакаталога и поисковой системы, которые должны обеспечивать поиск ИОР по метакаталогу депозитария.

Очевидно, что хорошая поисковая система должна находить все нужные документы и ни одного лишнего, т.е. обладать, в первую очередь, хорошими качественными характеристиками. Для сравнения эффективности различных методов информационного поиска обычно используются два параметра: точность (precision) - доля релевантного материала в ответе поисковой системы и полнота (recall) - доля найденных релевантных документов в общем числе релевантных документов коллекции. Их значения должны стремиться к 100%. Однако стопроцентное качество поиска невозможно, поэтому необходимо разработать методы, позволяющие повысить данные характеристики по сравнению с характеристиками существующих поисковых систем.

Основываясь на вышесказанном, можно определить цель работы, которая состоит в исследовании и разработке методов поиска информационных ресурсов, учитывающих их образовательную направленность, а также позволяющих разработать эффективную поисковую систему депозитария.

Для достижения поставтещюй цели исследования проводились по следующим основным 2

1. Выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов.

2. Исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы.

3. Исследование и разработка метода информационного поиска на основе структурно-лингвистического подхода семантического анализа полнотекстового документа.

Методы исследования. В работе использованы методы теории множеств, теории графов, теории искусственных нейронных сетей, искусственного интеллекта.

Научная новизна диссертационной работы заключается в том, что:

1. Разработан метод индексирования полнотекстового документа, основанный на оригинальном способе построения семантической сети, позволяющей учитывать семантику документа при формировании его поискового образа.

2. Разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность множества релевантных документов, образующих отклик на затребываемую в запросе информацию, за счет применения кластеризации этого множества.

3. Получена модель метакаталога, спецификация которого учитывает образовательную направленность информационных ресурсов, также создана модель поисковой системы, позволяющая повысить точность результатов поиска.

Практическая ценность исследования состоит в том, что полученные результаты могут быть применены при разработке двух компонентов депозитария информационных образовательных ресурсов: метакаталога и поисковой системы, удовлетворяющие требованиям, предъявляемым к их разработке, среди которых важнейшим является повышение точности отклика, включающего документы действительно релевантные запросу пользователя.

Внедрение результатов работы. Результаты работы в виде разработанного программного и лингвистического обеспечения используются в Межотраслевом НИИ «Интеграл». Кроме того, результаты исследования вошли в материалы отчетов по госбюджетной научно-исследовательской работы «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем. Этап: Основные аспекты методологии построения интеллектуальных информационно -поисковых систем» (ГР № 01.200.205060; Инв.№ 02.200305099), по проекту «Разработка республиканской электронной библиотеки публикаций научных и образовательных учреждений на базе портала Регионального ресурсного центра информатизации образования Республики Бурятия» (Научная программа «Развитие информационных ресурсов и технологий», подпрограмма «Оптимизация ресурсного обеспечения системы образования. Индустрия образования»), а также по НИР «Исследование и разработка методов и алгоритмов полнотекстового поиска информации в системе образовательных порталов», выполненной в 2002 году по гранту Правительства Республики Бурятия для молодых ученых.

Публикации. Основные результаты диссертационной работы опубликованы в 10 печатных работах общим объемом 5,75 п.л., из которых 1 отчет о НИР, 5 статей, 2 тезиса докладов, 1 учебное пособие и 1 свидетельство об официальной регистрации программы для ЭВМ.

Апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на международной научной конференции «Информация-Коммуникация-Общество» (Санкт-Петербург, 11-12 ноября 2003 г.), международной научной конференции «VI Энгельмейеровские чтения» (Москва, 2003 г.), Всероссийской научно-практической конференции «Российская школа и Интернет» (Санкт-Петербург, 2002 г.), Третьей, Четвертой, Пятой Всероссийских научно-технических конференциях «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002-2004 гг.), Третьей Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: проблемы и пути развития» (Омск, 2004 г.), Всероссийской научно-практической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (Сочи, 2004 г.). Материалы диссертации были использованы при подготовке учебного курса «Основы интернет-технологий» и нашли применение в учебном процессе ВСГТУ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и пяти приложений. Работа содержит 158 страниц машинописного текста, 15 рисунков и 26 таблиц. Список литературы содержит 164 наименования. Объем приложений составляет 57 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении приводится обоснование актуальности темы, формулируются основные задачи исследования, кратко излагается содержание работы и перечисляются основные ее результаты, выносимые на защиту.

В первой главе работы выполнено описание проблемной ситуации, связанной с созданием единого центра хранения и доступа к ИОР (депозитария), приведены анализ существующих систем сетевого поиска, обзор методов индексирования и информационного поиска, рассмотрены подходы к организации метакаталога и определены основные направления исследования диссертационной работы.

В описании проблемной ситуации дается определение депозитария, уточняется его роль в создании общедоступного информационного пространства, описывается его назначение, а также приводятся функциональные и системные требования к разработке таких его компонент, как метакаталог ИОР и поисковая система. На наш взгляд, в рамках решения задачи глобализации информационных ресурсов для сферы образования должна быть разработана распределенная система депозитариев ИОР. Все ресурсы, разрабатываемые на региональном уровне, должны регистрироваться в метакаталоге регионального депозитария и храниться в регионе. При этом должна быть предусмотрена автоматическая регистрация нового ИОР в «едином» метакаталоге федерального депозитария. В свою очередь региональные депозитарии с заданной периодичностью должны обращаться к «единому» метакаталогу и описания новых ИОР копировать в собственный.

В данной работе рассматривается задача создания метакаталога регионального депозитария, модель которого разрабатывается в рамках первого направления исследования. Для этого рассмотрены подходы к организации метакаталога, средства и технологии его создания. Идея метакаталога, как организующего и управляющего звена в информационной системе, легла в основу предложенной

нами интерпретации метакаталога. В работе под метакаталогом понимается каталог метаописаний объектов информационной деятельности. На наш взгляд метаописание должно заполняться при регистрации и помещении ресурса в хранилище. При этом оно должно учитывать требования всех категорий пользователей депозитария, которые различаются по уровням образования и видам профессиональной деятельности, и отражать область знаний, виды учебных занятий и т.п. Поэтому при создании метакаталога информационных ресурсов образовательного характера должны быть учтены многие аспекты публикуемых научных и учебно-методических материалов сферы образования. Кроме того, спецификация метаописания информационных ресурсов должна поддерживать существующие стандарты описание метаданных. К основным требованиям, которые нужно выполнять при разработке модели данных спецификации метаописания, относятся: однозначное определение каждого ИОР; адекватность описываемому ресурсу; возможность осуществления мониторинга использования ИОР; открытость спецификации. Это обусловило применение методологии Information Engineering при разработке модели данных.

Для обеспечения доступа к затребованному ИОР, зарегистрированному в метакаталоге, необходимо разработать систему поиска. В работе в результате анализа состояния современных информационно-поисковых систем выполнена их классификация. При этом рассмотрены поисковые каталоги, поисковые и метапоисковые машины, которые делятся в зависимости от назначения на многоцелевые и специализированные, в зависимости от объекта и цели поиска — на фактографические и документальные, от архитектуры - на системы поиска с централизованной архитектурой и распределенные системы. Аналитический обзор систем поиска показал, что традиционно сетевые поисковые системы состоят из двух компонент, которые обеспечивают соответственно автономный и распределенный поиск. Предлагаемая организация метакаталога обуславливает наличие только одного компонента в поисковой системе депозитария, который осуществляет автономный поиск. При этом метакаталог, по которому выполняется поиск, является централизованным, хотя по своей архитектуре депозитарий относится к распределенным системам с децентрализованной архитектурой. Создаваемая модель поисковой системы имеет документальный тип и специализированный характер, так как поисковая система осуществляет поиск информационных образовательных ресурсов, имеющих вид полнотекстовых документов.

На основе вышеизложенного поисковая система должна обеспечивать поиск полнотекстовых документов в коллекции метакаталога, их ранжирование по степени релевантности запросу пользователя и выборку документов. При этом система поиска должна осуществлять выборку документов, имеющих наиболее высокую степень релевантности, а мощность множества отобранных документов должна быть минимальной за счет уменьшения числа «шумовых» документов, попадающих в отклик.

В рамках первой главы проведен обзор моделей поиска: булева модель из теоретико-множественных моделей, векторная модель из алгебраических и вероятностная модель. Каждая модель поиска, как правило, состоит из двух частей. Первая часть отвечает за формальное представление документа и запроса в виде их

5

поисковых образов на основе использования методов индексирования. В связи с этим в работе рассмотрены существующие методы индексирования. Наибольшее распространение получили методы, использующие для описания содержания документа ключевые слова, а также статистические и синтаксические закономерности естественно-языковых текстов. В этой группе методов внимание уделено лингвистическим методам, включающим интуитивно-прагматические, синтаксические, семантические методы. Сделан вывод, что наиболее эффективным является применение комбинации статистических методов с другими методами, из которых нами выбран семантический метод, позволяющий отразить в поисковом образе семантику индексируемого документа. Вторая часть модели направлена на поиск релевантных документов, их ранжирование и формирование результата В этой связи рассмотрены методы индексного (двоичного) поиска, статистические методы и методы поиска, основанные на базах знаний, которые соответствуют той или иной модели информационного поиска.

Методы поиска и индексирования документов должны быть согласованы. Для того, чтобы отклик имел хорошие показатели точности и полноты необходимо построить поисковый образ документа, отражающий его содержание. Наиболее адекватно передает смысл документа семантическая сеть. Поэтому для построения формальной модели поиска использована векторная модель, как модель, подходящая для описания графовых структур.

Таким образом, для построения поисковой системы необходимо сформировать поисковый образ документа А и поисковый образ запроса Д А1 играет роль прообраза А. Необходимо найти такой способ интерпретации А1 на А1, который позволяет найти наименьшее покрытие множества включающее в себя документы й,, обладающие наилучшими характеристиками степени релевантности оР. При этом областью поиска является метакаталог депозитария ИОР, в котором хранится множество А}. Для представления поискового образа использована модель представления знаний в виде семантической сети, которая позволяет достаточно точно отобразить смысловое содержание полнотекстового документа на основе выделения термов текста и анализа отношений между ними.

В соответствии с вышеизложенным, второе направление исследований в работе связано с разработкой метода построения поискового образа документа, а третье - с формированием отклика, включающего минимальное количество «шумовых» документов.

Во второй главе рассмотрены вопросы разработки модели метакаталога информационных образовательных ресурсов. Для решения этих вопросов предложена спецификация метаописания информационных образовательных ресурсов, описана классификация ИОР, разработана модель данных спецификации. Описываются основные функции метакаталога ИОР, в том числе традиционные методы поиска по нему: атрибутный, контекстный и их комбинация.

Спецификация метаданных представляет собой набор элементов метаданных, содержащих описание электронных ресурсов, которое может распознать и проинтерпретировать вычислительная система. Значимость метаданных обуславливается рядом задач, решаемых ими для широкого использования информационных ресурсов в различных видах деятельности: нахождение нужной информации; предоставление информации пользователю в удобной для него форме; 6

обеспечение прав собственности создателям информационных ресурсов; возможность сопровождения электронной информации.

Для решения каждой из указанных вопросов необходимы разные множества метаданных, которые могут образовывать как непустые, так и пустые пересечения. В целом, различают два множества метаданных, которые сформированы в зависимости от уровня детализации описываемого объекта:

1) метаданные описания контента, которые охватывают описание всех аспектов данного информационного объекта, как отдельной сущности. Иногда их дополнительно подразделяют на структурные и описательные;

2) административные метаданные, объединяющие различные группы метаданных, и отличающиеся между собой целью, которая достигается с их помощью. Например, некоторая группа метаданных позволяет владельцу ресурса проводить четкую и гибкую политику в отношении информационного объекта, включая авторизацию, аутентификацию, управление авторскими правами, доступом, другая группа служит для идентификации и категоризации объектов в рамках специальной коллекции или организации. Существует группа административных метаданных, которая может использоваться для позиционирования данного информационного ресурса в контексте множества подобных документов, информационно-поисковой системы, предметной области и т.д.

В рамках данной работы интерес представляют метаданные, предназначенные для описания информационных объектов, интегрируемых в образовательный процесс.

В последние годы было разработано множество разнообразных спецификаций метаданных, которые позволяют различным организациям и группам пользователей использовать метаданные для решения специфических задач. В работе рассмотрены следующие стандарты на спецификации метаданных:

- международная модель Дублинское ядро (Dublin Core, DC), которая является попыткой определить основной набор элементов описания информационных ресурсов;

- концептуальная схема Learning Object Metadata (LOM), разработанная Комитетом по стандартизации образовательных технологий Института инженеров по электротехнике и электронике (ШЕЕ);

- модель The Gateway to Educational Materials (GEM), разработанная Министерством образования США, Национальной библиотекой образования и группой исследователей Сиракузского университета;

Для российского сегмента системы образования учеными Российского государственного университета инноваций и технологий предпринимательства А.И. Башмаковым и В.А. Старых предложено расширение схемы LOM с целью адаптации данного стандарта к особенностям российской системы образования. Данное расширение является полным, содержательным метаописанием информационных образовательных ресурсов. Вместе с тем, существующая избыточность и наличие параметров, оценка которых субъективна, не позволяют широко использовать данную схему для практической реализации.

На основе существующих решений по созданию спецификаций описания информационных ресурсов и классификации информационных образовательных ресурсов, в работе предложена спецификация метаданных. В спецификации

используются следующие типы данных, совместимые с типами данных, определенными в расширении схемы LOM:

- контейнер; составной элемент, включающий подчиненные элементы; допустима вложенная структура контейнера; предназначен для группировки других элементов;

- строка; представляет собой последовательность символов;

- значение из словаря; служит для задания значений, выбираемых из словарей; образуется двумя данными типа строка, в первом из них содержится идентификатор словаря, а во втором указывается значение из этого словаря.

Предлагаемая спецификация метаданных об ИОР содержит все элементы ме\\данных набора Dublin Core. Соответствие элементов, которое доказывает семантическую интероперабельность предлагаемой схемы, показано в таблице 1.

Таблица 1

Соответствие элементов предложенной схемы набору элементов метаданных

Dublin Core (DC)

Элемент БС Элемент спецификации метаданных

Идентификатор 1.2 Уникальное обозначение ИОР

Название 1.1 Заглавие (наименование) ИОР

Язык 1.3 Язык представления

Описание 1.4 Аннотация ИОР

Предмет 1.5 Ключевые слова или 2.4 Дисциплина

Зона действия 4.4 Охватываемый объем

Тип ресурса 3.6 Тип ИОР

Дата 1.12 Дата

Создатель 1.6 Автор ИОР

Издатель 1.11 Каталогизатор

Формат 4.5 Представление ИОР

Правовые аспекты 1.10 Права доступа к ИОР

Отношение 1.13 Связанный ИОР

Источник 1.7 Поставщик

В предложенной схеме метаданных большинство элементов имеют соответствующие элементы в расширении схемы LOM. Однако строгого согласования данных схем не наблюдается, поскольку в предлагаемую схему метаданных введены новые элементы, не имеющие аналогов ни в расширении схемы LOM, ни в других схемах, предназначенных для описания информационных ресурсов образовательного характера.

В состав нововведенных элементов входят следующие элементы:

- Категория ИОР (2.1);

- Учебное назначение ИОР (2.2);

- Вид обучения по ИОР (2.5);

- Способ программной реализации (3.2);

- Структурно - логическое построение ИОР (4).

Введение этих элементов позволяет максимально учесть образовательную направленность ИОР при решении всех задач, возложенных на метаданные. Кроме того, в данной схеме более четко определяется тип ИОР путем указания класса, 8

подкласса и вида ИОР.

По элементам, входящим в состав контейнеров «Общие сведения об ИОР» и «Назначение ИОР», можно находить различные ИОР без акцентирования на технические, технологические и структурно-логические аспекты построения ИОР. Это позволяет выделить множество атрибутов ИОР, по которым целесообразно осуществлять поиск.

Таким образом, приведенное описание (представление) ИОР для сферы образования обладает спецификой, которое обеспечит возможность отражения:

- логической и физической структур ИОР;

- информации для взаимодействия ИОР с системой управления учебным процессом, в рамках которого выполняются настройка ИОР ня текущие условия применения и конкретного обучаемого, а также фиксация хода и результатов его работы;

- правил, определяющих методику работы с ИОР (порядок навигации по его компонентам, оценивание действий обучаемого);

' - педагогических характеристик (уровень образования, целевая аудитория, сложность, контактное время и т.д.), необходимых для принятия решения о включении ИОР в состав контента, покрывающего учебный план или программу;

- информации для пополнения регионального депозитария информационных образовательных ресурсов.

По предложенной спецификации метаописания ИОР разработана по методологии Information Engeniring (стандарт IDEF1X) модель данных, которая позволяет однозначно идентифицировать ИОР и учитывать требования различных категорий пользователей депозитария.

Третья глава диссертации посвящена вопросам разработки методов индексирования и поиска полнотекстовых документов.

При решении этих вопросов считаются заданными множество документов D, лингвистическое обеспечение S и запрос Q. Необходимо построить поисковые образы запроса Р и документов Р и на основе их сопоставления сформировать отклик D на запрос Q, характеризующийся показателем точности поискар > 0,75.

Для решения этой задачи построена формальная модель информационного поиска, описываемая тройкой:

М1Р = <Р,Р,Ч>>,

где Р - тип представления документов, Р - тип представления поисковых запросов, модель интерпретации запроса Р на документ Р.

Поисковый образ документа (ИОР) Р - двухкомпонентная модель:

Р = <М, G>,

где М - метаописание документа; G - семантическая сеть документа.

Поисковый образ запроса Р, или семантическая сеть Ср запроса Q, определяется парой:

P-(P = <lP, Vе>,

где ifi - множество вершин (Р, которые содержат термы запроса Р;

Vе - матрица смежности, задающая дуги между вершинами.

Модель интерпретации запроса Р на документ 1°:

v=< Ypod, Vos>,

где Фроо - компонент построения поискового образа документа в части формирования его семантической сети, а - компонент построения отклика на запрос пользователя.

Построение поискового образа документа. При решении данной задачи исходными данными считаются:

1) множество документов И = {с/,| 1=1..п, п - количество документов};

2) лингвистическое обеспечение В = < >. В 5 включены словари готовых (неизменяемых) словоформ, основ частей речи, окончаний частей речи, флективных классов, морфологической информации и схемы субстантивных именных словосочетаний русского языка.

Необходимо:

1) выделить в документе множество Т? термов и определить для V г, е Т® частоту /] его встречаемости в тексте документа 4 (¡=1.. | ТР |);

2) построить взвешенную семантическую сеть £7= (11, V, Ж), где [/-множество вершин сети, V - множество дуг сети, Ж={ | И'® - вес дуги, отражающий семантическую близость вершин к* и и,,};

3) найти множество Т/ термов // документа ф таких, что они являются ключевыми словами, характеризующими данный документ.

Ограничения:

1) множество 7|'сг Т? и /у е 7}' при игде /г - пороговое значение весов термов /,;

2) /,' > 1 для V е Г/, где /,' - частота встречаемости терма г,-.

В работе понятие семантической близости двух вершин сети определяется на основе структурной близости в тексте документа термов, принадлежащих этим вершинам, при этом атомарным элементом структуры текста считается одно

предложение ееЕ„ где - текст документа Вес дуги, или сила связи, ^ определяется на основе частоты совместной встречаемости термов вершины их и термов вершины иу в структурных элементах текста Е,.

Формирование множества лексем Ь. Для этого применяется лексический и морфологический анализы документа сI с применением словарей & При реализации морфологического анализа использован декларативный подход, предложенный Белоноговым Г.Г. В результате выполнения вышеназванных анализов формируются поток лексем Ь = {/, \т=\..к, к - общее количество лексем в потоке}, множество к'— количество разновидностей лексем в потоке, к' < к} векторов лексем, вектор р[* описывает статические характеристики лексемы /¡, и множество Ьу={р^\1=\..к) векторов, представляющих динамические характеристики лексемы зависящие от контекста.

Формирование множества Т° термов документа й. На данной фазе из потока лексем Ь с их характеристиками Ь3 и V формируется множество Согласно Белоногову Г.Г. и Беловольской Л.А. термами полнотекстового документа

являются именные субстантивные словосочетания, поэтому решение основывается на поиске таких словосочетаний. В общем случае именные словосочетания включают в свой состав следующие классы слов: существительные, прилагательные, предлоги и сочинительные союзы. Количество слов в именных словосочетаниях колеблется от двух до пятнадцати. В работе используются 18 шаблонов словосочетаний. Все словосочетания выделяются посредством

регулярных выражений. В результате формируется множество термов |

7=7..//, - количество всех выделенных в документе термов}. Каждый терм описывается вектором =< п'р а, >, где п'] - уникальный номер вектора терма; г, -терм-словосочетание; а} - адрес терма в тексте Е. Множество векторов % образует характеристики термов ,

Построение взвешенной семантической сети О документа 1. Подход построения семантической сети О заключается в следующем. При изучении текстов научного, учебного или учебно-методического характера можно заметить, что, как правило, некоторый затрагиваемый в тексте предмет (явление, свойство и т.п.) рассматривается с различных сторон, что выражается его описанием различными именными субстантивными словосочетаниями. Например, если описывается сетевое сообщество, то оно может составлять следующие словосочетания: сетевое образовательное сообщество, образовательное сообщество, сетевое научно-образовательное сообщество и т.д. В этих словосочетаниях общим словом (в дальнейшем будем называть его «несущим») является слово «сообщество». На наш взгляд, все они образуют некоторую окрестность в области семантики документа. Таким образом, если сформировать по каждой окрестности фрагмент (подграф) О графа семантической сети О, то семантическая сеть документа О может быть построена как объединение фрагментов О'.

Данный подход реализуется следующим образом. Несущее слово У словосочетания ? определяется как слово, выраженное именем существительным, частота встречаемости которого будет наибольшей среди существительных

рассматриваемого словосочетания. Тогда на множестве Т° зададим отношение Я - {(/, _ /,) | и имеют одно несущее слово}, которое позволяет получить

множество классов эквивалентности [Т°. Обозначим Т*- к-ый класс эквивалентности. Для Т* формируется вектор в,к'.

в1к =<Ъ\ 11к, /!,р\>,

где — /-тый терм-словосочетание ¿-того класса эквивалентности; //- частота встречаемости ^ в документе; р\ - значимость ¡¡ь которая рассчитывается по формуле:

Физический смысл класса эквивалентности Т^ заключается в том, что он описывает к-ую окрестность в области семантики документа, т.е. является основой формирования фрагмента С/ = (11/, V/, ж/), где {// - множество вершин фрагмента к, которыми являются термы-словосочетания, V/ - множество дуг

И

— р р

фрагмента, 1¥к =( Щ/ } | Щ/ - вес дуги, который отражает силу связи между и /у и

р

интерпретируется как семантическая близость термов}. Вес дуги и^1 рассчитывается по формуле:

т=I

где Л,ут - коэффициент вида связи т между г, и ?у(А,ут=1, если и /у встречаются в одной главе; Д,у,„=2, если ?, и /у встречаются в одном разделе; Л,у„=3, если и у встречаются в одном параграфе; Лут=4, если г, и встречаются в одном предложении); /_Ьо(Иут - частота совместной встречаемости термов-словосочетаний // и £ в связи - основание логарифма, равное максимуму подлогарифмической функции: <рк = 10■

Для каждого фрагмента формируется характеризующий его вектор:

6=< fi.ft.pl >, где ^1,/к - вес и частота встречаемости несущего слова Ь фрагмента,-

частота встречаемости фрагмента, - значимость фрагмента в документе. Таким образом, семантическая сеть состоит из фрагментов б/ и описывается

матрицей смежности Ж, которая содержит веса дуг между х-ым и _у-ым

фрагментами, вычисляющиеся аналогично расчету весов ^ дуг фрагментов.

Выделение множества ключевых документов Т'. Выделение списка ключевых слов документа Т' из множества Г осуществляется следующим образом.

1. В каждом фрагменте выбирается терм ¡¡к такой, что его вес м>,- = тах(и'(.), € [0; 1] и рассчитывается по формуле:

щ = Л,

где сумма А— частота встречаемости терма

2. Для уменьшения мощности множества Т' определяется пороговое значение ¡х. где Ы- мощность множества Т.

Формула (3) получена на основе экспериментальных данных. При проведении экспериментов в качестве порога были взяты среднее значение весов и<л его удвоенное произведение и корень. Анализ отклонений доли выделенных ключевых слов от их средних значений при разных ц показал, что доля выделенных ключевых слов в потоке словоформ в документах разного объема при использовании формулы (3) достаточно постоянна, и среднее значение отклонений в этом случае является наименьшим.

Таким образом, структура модуля построения поискового образа документа имеет два блока: первый блок осуществляет препроцессорную обработку индексируемого документа, второй - построение его семантической сети й.

Построение отклика на запрос пользователя. При решении данной задачи исходными данными являются:

1) множество поисковых образов 1° документов, включающие семантические сети (?;

2) запрос (Э, заданный одним из следующих способов:

— простое предложение е на естественном (русском) языке;

- множество - {Р\ ¡в - терм запроса 0;

3) лингвистическое обеспечение 5= < •У/./Уг,

Необходимо:

1) построить поисковый образ ^запроса

2) кайтк такое множество = а^ - степень релевантности

документа 4 запросу Q, рассчитанная по семантической сети б,};

3) сформировать отклик б из множества £>*, такой что р > 0,75, где р -показатель точности отклика.

Построение поискового образа Р осуществляется аналогично построению поискового образа 1° и описывается множеством 1р={^\ ё=1..т, т - количество термов в запросе (?}.

Поиск множества релевантных запросу Q документов. В множество релевантных документов Ок={с1?} включаются <1,я, имеющие а">0 или а°>0, где а" и - показатели степени релевантности документа поисковому запросу, которые рассчитываются по каждому документу Первый показатель рассчитывается на основе анализа метаописания информационного образовательного ресурса, а второй - интегральный показатель степени релевантности, основанный на вычислении смысловой близости документа с?, и запроса по семантической сети б, и рассчитывается по формуле (4):

а _ С, _С __(4)

к

где у?!- вес терма вес терма I/, и/- вес дуги (сила связи) между

фрагментами С/ и Сгу ; - вес дуги (сила связи) между термами-

словосочетаниями и и которые принадлежат одному и тому же фрагменту , при этом а и Ь — их порядковые номера во фрагменте; К - количество фрагментов семантической сети, в которых встретились термины поискового запроса {г2}.

Веса уч\ термов поискового запроса вычисляются по правилам:

1) если терм Ре является ключевым словом документа, т.е. а еТ', то его вес м>[ в документе 4 принимается равным весу м>у ключевого слова (,;

2) если терм Ре Vе не является ключевым словом документа, т.е. Р г Т\ то вес терма Р, найденного в некотором фрагменте С* , рассчитывается по формуле (5):

(5)

где р1~ значимость фрагмента сети, которому принадлежит терм Р\/ -

частота встречаемости терма; fk - частота встречаемости фрагмента G[.

Таким образом, будут рассчитаны степени соответствия поисковому запросу множества релевантных документов.

Ранжирование документов на основе кластерного анализа и формирование отклика D. Для этого используется подход, предложенный в работе Некрестьянова И. и Пантелеевой Н., основанный на кластеризации коллекции документов для повышения качества поиска. В данной работе мы выполняем кластеризацию множества релевантных документов if, которая разбивает его на группы близкородственных документов (кластеры) на основе вычисления степени соответствия между подвергающимися кластеризации объектами посредством метода К-средних. В качестве меры расстояния между двумя документами используется Евклидово расстояние:

z(d„dj) = -<)>+(«?-а,0)2

где d, и dj -документы коллекции, а", а°- показатели степени релевантности документа d„ а", af - показатели степени релевантности документа dy

Очевидно, что кластер, имеющий наибольшие значения интегральных показателей ос",а°, содержит наиболее релевантные запросу документы, кластера

образуют отклик документов D.

Четвертая глава диссертации посвящена описанию программного обеспечения, необходимого для апробации разработанных методов и которое состоит из трех программ. Эти программы позволяют осуществить экспериментальную проверку решения трех поставленных в работе задач. При этом приняты следующие ограничения:

1) на поиск:

- поиск ИОР, представленных полнотекстовыми документами, с помощью поисковой системы:

- поиск других видов ИОР посредством атрибутного и/или контекстного поиска, поддерживаемых метакаталогом ИОР;

2) на представление документов:

- индексируемый документ представляется только своей текстовой составляющей в формате txt;

- язык представления документов - русский;

- вид документов (ИОР) - монография, учебно-методическое пособие, отчет о НИР, диссертация и т.п.

Программа Metacatalog позволяет создавать метаописания различных информационных образовательных ресурсов. Реализованная схема метаописания включает основные элементы предложенной в работе схемы метаданных. Апробированы все основные функции метакаталога, к которым относятся: обновление метаописания и поиск ресурсов по метаданным. Для выполнения вычислительных экспериментов разработано программное обеспечение (прототип) метакаталога информационных образовательных ресурсов с использованием технологии XML, при этом реализованы основные функции по работе с метакаталогом и традиционные методы поиска по метакаталогу ИОР: атрибутный,

контекстный, атрибутно-контекстный. Описание программного обеспечения приведено в четвертой главе данной работы.

Программа IndexingPro позволяет сформировать второй компонент поискового образа полнотекстового документа. Результаты экспериментальной проверки работы программы показывают, что семантические сети документов, построенные в результате работы программы, адекватно отражают содержание документа.

Программа KoxonenNet осуществляет поиск документов в коллекции документов метакаталога, вычисляет степени релевантности документов информации, затребованной в запросе, выполняет их кластеризацию, и позволяет выбрать кластер, содержащий документы с высшей степенью релевантности.

Анализ результатов работы программ IndexingPro и KoxonenNet выполнен на основе метода экспертной оценки, который показал, что сформированные поисковые образы отражают семантику документа на 70%, средние показатели точности и полноты отклика равны 0,86 и 0,76 соответственно.

Таким образом, предложенные в работе методы индексирования, поиска и ранжирования являются жизнеспособными, полученные результаты адекватно отражают семантику индексируемых документов, что доказывается проведенными экспериментами.

В приложениях приведены проанализированные спецификации метаданных, лингвистическое обеспечение морфологического анализа, основные результаты экспериментальной проверки разработанных методов.

ЗАКЛЮЧЕНИЕ

В работе получены следующие научные и практические результаты:

1. Предложена спецификация метаописания информационных образовательных ресурсов, базирующаяся на международном стандарте Learning Object Metadata и на выполненной в работе классификации информационных образовательных ресурсов. Элементы данной спецификации достаточно полно отражают образовательный характер описываемого ресурса.

2. Предложена двухкомпонентная структура поискового образа документа, основу которого составляет взвешенная семантическая сеть полнотекстового документа, адекватно отражающая семантику этого документа.

3. Разработана двухкомпонентная модель поиска. Первый компонент осуществляет построение семантической сети документа, второй - построение отклика на запрос пользователя. Это позволяет отделить поиск полнотекстовых документов от поиска других видов ИОР.

4. Разработан подход к индексированию документа, основанный на оригинальном способе формирования семантической сети документа.

5. Предложены методы построения и ранжирования отклика поисковой системы на запрос пользователя, которые основаны на анализе семантических сетей запроса и документов коллекции депозитария. Применение кластеризации релевантных документов позволяет получить семантически близкие документы в одном кластере. Содержимое кластера с наибольшим средним значением интегрального показателя степени релевантности образует отклик поисковой системы, обладающий высоким показателем точности.

6. Проведена экспериментальная проверка разработанных моделей и методов, результаты которой подтверждают основные положения работы.

7. Полученные результаты могут быть применены при разработке поисковой системы регионального депозитария информационных образовательных ресурсов.

Результаты диссертации отражены в следующих работах:

1. Найханова Л.В., Аюшеева Н.Н., Евдокимова И.С. Концепция построения поисковой системы информационно-образовательных ресурсов // Теоретические и прикладные вопросы современных информационных технологий: Материалы третьей всероссийской научно-технической конференции. — Улан-Удэ, 2002. — С. 170-173.

2. Основы интернет-технологий: Учебное пособие / Аюшеева Н.Н., Бильгаева Н.Ц., Найханов В.В. и др. - Улан-Удэ: Изд-во ВСГТУ, 2002 г. - 106 с.

3. Найханова Л.В., Аюшеева Н.Н., Евдокимова И.С. Методологические основы отраслевой поисковой системы // Сборник трудов Второй Всероссийской научно-практической конференции «Российская школа и Интернет». — СПб, 2002. - С.23.

4. Аюшеева Н.Н. Метод индексирования полнотекстовых документов

// Теоретические и прикладные вопросы современных информационных технологий: Материалы Четвертой Всероссийской научно-технической конференции. - Улан-Удэ, 2003. - С.174-176.

5. Аюшеева Н.Н. О результатах исследования методов индексирования

// Информация - Коммуникация - Общество (ИКО-2003): Тезисы докладов и выступлений Международной научной конференции. - СПб., 2003. - С.34-36.

6. Найханова Л.В., Аюшеева Н.Н., Шаманаев А.В. Исследование методов определения пороговой частоты // Теоретические и прикладные вопросы современных информационных технологий: Материалы Пятой Всероссийской научно-технической конференции. - Улан-Удэ, 2004. - С.36-39.

7. Аюшеева Н.Н. Схема метаданных метакаталога информационных образовательных ресурсов // Проблемы качества, безопасности и диагностики в условиях информационного общества: Тезисы докладов Всероссийской научно-технической конференции. - Сочи, 2004. - С. 187.

8. Аюшеева Н.Н. Выделение словосочетаний для индексирования полнотекстовых документов // Единая образовательная информационная среда: проблемы и пути развития: Материалы третьей Всероссийской научно-практической конференции. - Омск, 2004, - С. 283-285.

9. Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем. Этап: Основные аспекты методологии построения интеллектуальных информационно-поисковых систем: Отчет о НИР (промежуточный) / ВСГТУ; Рук. Бильтриков В.Н. - ГР № 01.200.205060; Инв.№ 02.200305099. - Улан-Удэ, 2002. - 40 с. - Отв. исп. Аюшеева Н.Н.

10. Свидетельство об официальной регистрации программы для ЭВМ № 2004612385. Комплекс программ «Индексирование полнотекстовых документов и кластеризация релевантных поисковому запросу документов» / Найханова Л.В., Аюшеева Н.Н., Шаманаев А.В. - М.: Всероссийское агентство по патентам и товарным знакам, 2004.

Подписано в печать 06.12.04. Формат бумаги 60x84 1/16 Усл. печ. л. 1. Уч.- изд. л. 0,8. Тираж 100 экз. Заказ 279

Издательство МГТУ им. Н.Э,Баумана 105005, г. Москва, ул. 2-ая Бауманская, д.5

»2 58 2 1

Оглавление автор диссертации — кандидата технических наук Аюшеева, Наталья Николаевна

Введение.

1. Введение в проблему и анализ моделей поисковых систем.

1.1. Описание проблемной ситуации.

1.2. Обзор информационно-поисковых систем.

1.3. Обзор методов индексирования.

1.4. Обзор методов поиска и ранжирования документов.

1.5. Обзор методов и средств создания метакаталогов.

1.5.1. Обзор методов создания метакаталогов.

1.5.2. Краткий обзор средств.

1.5.3. Средства и технологии хранения.

1.6. Выводы по главе и содержательная постановка задачи.

2. Модель метакаталога информационных образовательных ресурсов

2.1. Схема спецификаций метаданных.

2.1.1. Классификация ИОР.

2.1.2. Обзор существующих спецификаций метаданных.

2.1.3. Метаданные ИОР.

2.2. Логическая модель данных.

2.2.1. Именование объектов логической модели.

2.2.2. Сущности.

2.2.3. Атрибуты.

2.2.4. Связи (отношения).

2.2.5. Нормализация.

2.2.6. Методы обеспечения целостности данных.

2.3. Традиционные методы поиска.

2.3.1. Атрибутный поиск.

2.3.2. Контекстный поиск по ключевым словам.

2.3.3. Атрибутно-контекстный поиск.

2.6. Выводы по главе.

3. Модель поиска.

3.1. Структурная схема модели поиска.

3.2. Построение поискового образа документа.

3.2.1. Препроцессорная обработка полнотекстового документа

3.2.2. Индексирование полнотекстового документа.

3.3. Определение релевантности и ранжирование коллекции документов.

3.3.1. Распознавание запроса и построение поискового образа запроса.

3.3.2. Формирование множества релевантных документов.

3.4.3. Кластеризация множества релевантных документов.

3.4. Выводы по главе.

4. Описание программного обеспечения.

4.1. Программа Metacatalog по работе с метакаталогом. 4.2. Программа IndexingPro.

4.2.1. Краткое описание алгоритма.

4.2.2. Экспериментальная проверка метода построения поискового образа документа в виде его семантической сети.

4.3. Программа KohonenNet.

4.4. Выводы по главе.:.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Аюшеева, Наталья Николаевна

Актуальность темы диссертационного исследования. Исследования в области информационного поиска ведутся уже более тридцати лет. За это время из узкоспециализированной тематики он превратился в одну из ключевых областей информатики. Основоположником теории информационного поиска по праву считается Дж. Солтон [80, 151, 152, 153]. Основные концепции этой теории, изложенные им в 70-х гг. XX века, считаются канонами информационного поиска и нашли применение в большинстве существующих поисковых систем.

При накопленных теоретических знаниях и практическом опыте необходимость исследований в области информационного поиска постоянно сохраняется вследствие происходящих изменений в экономической и социальной жизни страны. В настоящий момент система образования переживает процесс модернизации, который частично осуществляется посредством исполнения утвержденных Федеральных Целевых Программ (ФЦП). Одной из таких программ, связанной с внедрением информационных и телекоммуникационных технологий в образовательную деятельность, является ФЦП «Развитие единой образовательной информационной среды (на 2001-2005гг.)». В рамках данной ФЦП выделены следующие основные направления информатизации образования: электронные образовательные ресурсы, подготовка кадров для информационного общества, компьютеризация и коммуникационное обеспечение образования, поддержка региональных программ информатизации, развитие информационных систем управления образованием. Для реализации мероприятий программы созданы и создаются федеральные и региональные ресурсные центры. По направлению информатизации «Электронные образовательные ресурсы» региональными ресурсными центрами выполняются работы по разработке информационных образовательных ресурсов (ИОР), системы образовательных порталов, электронных библиотек (депозитариев) и т.п.

Необходимость разработки электронных библиотек обуславливается тем, что с появлением и активным использованием глобальной сети Интернет задачи информационного поиска несколько видоизменились: стало необходимым учитывать природу сети Интернет, которой свойственны огромный объем доступной информации, её разнородность, высокий процент временной информации, отсутствие контроля за качеством информации. Все это явилось предпосылками того, что процессы перевода традиционных источников информации в форму ресурсов Сети получили новое «звучание» в плане организации учета (хотя бы частичной), которая присуща традиционным библиотекам.

Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет мощность множества документов, составляющих отклик на запрос, как правило, получается очень большой за счет огромного числа «шумовых» документов, попавших в отклик. Это обуславливает необходимость повышения качества методов информационного поиска. Для сравнения эффективности различных методов необходимо определить, какие критерии будут использованы для оценки эффективности. Конечно, вычислительная производительность метода является одним из критериев оценки эффективности, но гораздо более важными показателями обычно являются критерии, характеризующие качество результатов поиска. К таким показателям зачастую относят два параметра:

1) точность (precision) - доля релевантного материала в ответе поисковой системы;

2) полнота (recall) - доля найденных релевантных документов в общем числе релевантных документов коллекции.

Очевидно, что хорошая поисковая система должна иметь как можно большие полноту и точность, желательно - 100%, т.е. находить все нужные документы и ни одного лишнего. Однако стопроцентное качество поиска невозможно, поэтому необходимо разработать методы, позволяющие повысить данные характеристики. Повышение качества поиска напрямую зависит от полноты элементов спецификации метаописания информационных образовательных ресурсов и степени интеллектуализации методов поиска.

Вышеизложенное позволяет сделать заключение о необходимости проведения исследований по вопросам повышения качества информационного поиска, которые важны для создания метакаталога и поисковой системы депозитария информационных образовательных ресурсов.

Целью исследования является исследование и разработка методов поиска информационных ресурсов, учитывающих их образовательную направленность, а также позволяющих разработать эффективную поисковую систему депозитария.

Для достижения поставленной цели исследования проводились по следующим основным направлениям:

- выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов;

- исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы;

- исследование и разработка метода информационного поиска на основе семантического анализа полнотекстового документа.

Объектом исследования является информационный образовательный ресурс в виде полнотекстового документа.

Предмет исследования составляют методы и алгоритмы информационного поиска.

Методологической и теоретической основой исследования послужили математический аппарат теории множеств, теории графов, теории искусственных нейронных сетей, искусственного интеллекта. Достоверность научных выводов и практических рекомендаций основывается на р теоретических и методологических положениях, сформулированных в исследованиях российских и зарубежных ученых, таких как Д.Г.Лахути,

И.И.Попов, В.Н.Решетников, А.И.Черный, Э.Э.Гасанов, Ю.А.Шрейдер, И.С. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, A.B. Сокирко, G. Saltón, К. Sparck-Jones, S.E. Robertson, G.K.Zipf, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg и др.

Наиболее существенные результаты и научная новизна диссертационной работы состоят в следующих результатах, содержащих, по мнению автора, элементы научной новизны:

1. Разработан метод индексирования полнотекстового документа, основанный на оригинальном способе построения семантической сети, позволяющей учитывать семантику документа при формировании его поискового образа.

2. Разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность множества релевантных документов, образующих отклик на затребываемую в запросе информацию, за счет применения кластеризации этого множества.

3. Получена модель метакаталога, спецификация которого учитывает образовательную направленность информационных ресурсов, также создана модель поисковой системы, позволяющая повысить точность результатов поиска.

Практическая значимость исследования состоит в том, что полученные результаты могут быть применены при разработке двух компонентов регионального депозитария информационных образовательных ресурсов: метакаталога и поисковой системы, удовлетворяющие требованиям, предъявляемым к их разработке, среди которых важнейшим является получение отклика, включающего документы действительно релевантные запросу пользователя.

Апробация результатов исследования. Результаты исследования выносились на обсуждение международной научной конференции

Информация-Коммуникация-Общество» (Санкт-Петербург, 11-12 ноября

2003 г.), международной научной конференции «VI Энгельмейеровские чтения» (Москва, 2003 г.), Всероссийской научно-практической конференции «Российская школа и Интернет» (Санкт-Петербург, 2002 г.), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002-2004 гг.), Третьей Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: проблемы и пути развития» (Омск,

2004 г.), Всероссийской научно-практической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (Сочи, 2004 г.). Материалы диссертации были использованы при подготовке учебного курса «Основы интернет-технологий» и нашли применение в учебном процессе ВСГТУ.

Результаты работы в виде разработанного программного и лингвистического обеспечения используются в Межотраслевом НИИ «Интеграл». Некоторые результаты исследования были использованы при выполнении госбюджетной НИР «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем. Этап: Основные аспекты методологии построения интеллектуальных информационно-поисковых систем» (ГР№ 01.200.205060; Инв.№ 02.200305099) [69], проекта «Разработка республиканской электронной библиотеки публикаций научных и образовательных учреждений на базе портала Регионального ресурсного центра информатизации образования Республики Бурятия» (ФЦП «Развитие информационных ресурсов и технологий», подпрограмма «Оптимизация ресурсного обеспечения системы образования. Индустрия образования»), а также в рамках НИР «Исследование и разработка методов и алгоритмов полнотекстового поиска информации в системе образовательных порталов», выполненной в 2002 году по гранту Правительства Республики Бурятия для молодых ученых.

Публикации. По теме диссертации опубликовано 10 печатных работ, объемом 5,75 п.л.

Структура и объем диссертации. Работа состоит из введения, четырех

Заключение диссертация на тему "Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке"

5. Выводы по работе

Для достижения цели диссертационной работы были проведены исследования по трем основным направлениям:

- выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов;

- исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы;

- исследование и разработка метода информационного поиска на основе семантического анализа полнотекстового документа.

В рамках первого направления на основе международных стандартов по спецификациям метаописания информационных ресурсов и предложенной классификации информационных образовательных ресурсов разработана схема метаданных, которая легла в основу модели данных метакаталога ИОР. Данная модель построена по методологии Information Engineering (IE), учитывает образовательную направленность информационных ресурсов, обладает свойством целостности и позволяет однозначно определять ИОР.

По направлению «Исследование и разработка метода индексирования полнотекстового документа» на основе результатов анализа существующих методов индексирования определена структура поискового образа документа и разработан оригинальный способ построения семантической сети, позволяющий учитывать семантику документа при формировании его поискового образа.

По третьему направлению на основе результатов анализа существующих методов и моделей поиска разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность отклика на запрос за счет максимального уменьшения числа «шумовых» документов .

Заключение

В диссертационной работе предложены модели метакаталога и поисковой системы, в процессе создания которых достигнута цель исследования и получены следующие результаты:

1. Предложена спецификация метаописания информационных образовательных ресурсов, базирующаяся на международном стандарте Learning Object Metadata и на выполненной в работе классификации информационных образовательных ресурсов. Элементы данной спецификации достаточно полно отражают образовательный характер описываемого ресурса.

2. Предложена двухкомпонентная структура поискового образа документа, основу которого составляет взвешенная семантическая сеть полнотекстового документа, адекватно отражающая семантику этого документа.

3. Разработана двухкомпонентная модель поиска. Первый компонент осуществляет построение семантической сети документа, второй — построение отклика на запрос пользователя. Это позволяет отделить поиск полнотекстовых документов от поиска других видов ИОР.

4. Разработан подход к индексированию документа, основанный на оригинальном способе формирования семантической сети документа.

5. Предложены методы построения и ранжирования отклика поисковой системы на запрос пользователя, которые основаны на анализе семантических сетей запроса и документов коллекции депозитария. Применение кластеризации релевантных документов позволяет получить семантически близкие документы в одном кластере. Содержимое кластера с наибольшим средним значением интегрального показателя степени релевантности образует отклик поисковой системы, обладающий высоким показателем точности.

6. Проведена экспериментальная проверка разработанных моделей и методов, результаты которой подтверждают основные положения работы.

7. Полученные результаты могут быть применены при разработке поисковой системы регионального депозитария информационных образовательных ресурсов.

Библиография Аюшеева, Наталья Николаевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Автоматизация индексирования и реферирования документов // Итоги науки и техники. ВИНИТИ. Сер. Информатика. 1983. - Т. 7. - 246 с.

2. Аграновский A.B., Арутюнян P.A., Хади P.A. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации. 2003. — №3. - С. 25-30.

3. Амамра Рушди Ахмад. Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет: Дис. . канд. техн. наук. — СПб., 2002. 209 с.

4. Инфосфера: информационные структуры, системы и процессы в науке и обществе / Арский Ю.М., Гиляревский P.C., Туров И.С., Черный А.И. -М.: ВИНИТИ, 1996. 489 с.

5. Аюшеева H.H. Схема метаданных метакаталога информационных образовательных ресурсов // Проблемы качества, безопасности и диагностики в условиях информационного общества: Тез. Всерос. науч.-практ. конф. Сочи, 2004. - С. 187.

6. Аюшеева H.H. Метод индексирования полнотекстовых документов

7. Теоретические и прикладные вопросы современных информационных технологий: Матер, четвертой Всерос. науч.-технич. конф. Улан-Удэ, 2003. - С.174-176.

8. Аюшеева H.H. О результатах исследования методов индексирования

9. Информация — Коммуникация Общество (ИКО-2003): Тез. докл. и выступл. Междунар. науч. конфер. - СПб., 2003. - С. 34.

10. Аюшеева H.H. Поиск информации в Internet // Основы интернет-технологий: Учеб. пособ. / H.H. Аюшеева, Н.Ц. Бильгаева, В.В. Найханов и др. Улан-Удэ: Изд-во ВСГТУ, 2002. - С. 26-63.

11. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. М.: Мир, 2003.212 с.

12. Беловольская JI.A. Синтаксис словосочетания и простого предложения. -<http://www.philologv.ru/linguistics2/belovolskaya-01 .htm>

13. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1953. - 288 с.

14. Белоногов Г. Г., Кузнецов Б. А., Новоселов А. П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты

15. Итоги науки и техники. ВИНИТИ. Сер. Информатика. 1984. - Т.8. -316с.

16. Большой энциклопедический словарь. Языкознание / Гл. ред. В. Н. Ярцева / 2-е изд. М.: БРЭ, 1998. - 618 с.

17. Бондарев Л.К. Система поиска данных в MetaChem Data System // Научно-техническая информация. Сер.2. Информационные процессы и системы. -2003.-№5.-С. 22-28.

18. Борисов С.Ю. Преобразование электронных документов на основе языка XML // Известия вузов. Приборостроение 2003. — Т.46. - №2. - С. 48-50.

19. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале Internet): Дис. . канд. техн. наук. -Екатеринбург, 2000. 159 с.

20. Брик A.B. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: Автореф. дис. . канд. техн. наук. — М., 2002. 16 с.

21. Волков С. С. Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы: Дис. . канд. техн. наук. Краснодар, 2002. - 180 с.

22. Гасанов Э.Э. Оптимальное решение базовых задач хранения и поиска в информационно-графовой модели данных: Дис. . д-ра физ.-матем. наук. -М., 1999.-368 с.

23. Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. -М.: Физматлит, 2002. 288 с.

24. Гацко А.Ю. Динамическое группирование результатов поиска информации в документных архивах // Известия вузов. Приборостроение.- 2003. Т.46. - №2. - С. 42-45.

25. Гацко А.Ю. Концепция индексирования по ключевым словам. -<http://www.bookcase.ru/pl6/1609.html>

26. Издания. Основные виды. Термины и определения: ГОСТ 7.60-2003. М.: Изд-во стандартов, 2003. - 42 с. (Система стандартов по информ., библ. и изд. делу)

27. Электронные издания. Основные виды и выходные сведения: ГОСТ 7.832001. М.: Изд-во стандартов, 2002. - 16 с. (Система стандартов по информ., библ. и изд. делу)

28. Дмитриев А.К. Построение информационно-поисковых систем по критерию максимума полезности получаемой информации // Авиакосмическое приборостроение. 2003. - №6. - С. 46-51.

29. Добрынин В.Ю. Методические указания к курсу «Теория информационно-логических систем. Информационный поиск».- <http://ir.apmath.spbu.ru>. 43 с.

30. Добрынин В.Ю. Новые тенденции в информационном поиске.- <http://ir.apmath.spbu.ru>

31. Добрынин В.Ю., Некрестьянов И.С. Задача выбора тематических коллекций, релевантных запросу // Интернет и современное сообщество: Тр. Всерос. науч.-метод. конф. СПб, 1998. - С. 45-52.

32. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. -№4. - С. 77-83.

33. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

34. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. сем. М., 2002. - Т.2. - С. 180-185.

35. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000.-N5.-С. 23-28.

36. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.35