автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах

кандидата технических наук
Кустов, Денис Викторович
город
Красноярск
год
2006
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах»

Автореферат диссертации по теме "Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах"

На правах рукописи

МОДЕЛЬНО-АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АДАПТИВНОГО ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

05.13.01 - Системный анализ, управление и обработка информации

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2006

Работа выполнена в Сибирском государственном аэрокосмическом университете имени академика М.Ф. Решетнева

Научный руководитель: доктор технических наук,

профессор Ковалев Игорь Владимирович

Официальные оппоненты: доктор технических наук,

профессор Терсков Виталий Анатольевич

кандидат технических наук,

доцент Усачев Александр Владимирович

Ведущая организация: Государственный научно-исследовательский институт информационных технологий и телекоммуникаций «Информика» (г. Москва).

Защита состоится « 18 » мая 2006 года в 13 часов на заседании диссертационного Совета Д 212.249.02 при Сибирском государственном аэрокосмическом университете им. академика М.Ф. Решетнева по адресу: г. Красноярск, пр. им. газ. «Красноярский рабочий», 31.

С диссертацией можно ознакомиться в библиотеке Сибирского государственного аэрокосмического университета.

Автореферат разослан « 17 » апреля 2006 года.

Ученый секретарь диссертационного совета д.т.н., профессор / И.В. Ковалев

ЯРО 6 А 3^2-

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Бурное развитое Интерент-технологий в последнее десятилетие привело к тому, что в настоящее время любой человек, имеющий доступ к сети, может получить доступ к неограниченным информационным ресурсам.

Однако, при работе с любым поисковым сервисом, мы имеем дело с черным ящиком. Мы можем лишь послать в него некий входной сигнал в виде поисковой строки и получить отклик, ответ на запрос, в виде набора ссылок на соответствующие нашему запросу (релевантные) ресурсы сети. Причем данное соответствие каждым поисковым сервисом трактуется по-разному, в соответствии с алгоритмами, заложенными в данный поисковый сервис его разработчиками.

Проблема заключается в том, что любой поисковый сервис -универсален, рассчитан на работу со всеми пользователями, без учета их индивидуальных потребностей. Это оправдано, поскольку каждый поисковый сервис имеет миллионы пользователей и учет индивидуальных особенностей каждого не оправдан, если вообще возможен.

Решение проблемы может быть осуществлено путем разработки модельно-алгоритмического и программного обеспечения для пользователя. Такое программное обеспечение работает локально на компьютере пользователя, либо устанавливается на специальном удаленном сервере. Данная программная система базируется на индивидуальных особенностях конкретного пользователя, моделируя его с точки зрения информационных интересов, на основании данных о его запросах к поисковым сервисам Интернет. В ходе работы пользователя происходит непрерывная корректировка модели на основании данных о новых и информации о предыдущих запросах к поисковым сервисам. Таким образом, модель всегда отражает актуальные информационные интересы пользователя. Модель пользователя может использоваться для добавления к новому запросу данных, содержащихся в модели, для изначального сужения области поиска. Кроме того, модель позволяет осуществить фильтрацию ответов поискового сервиса.

В настоящее время Интерент-технологии также используются при создании локальных информационных систем (ЛИС). В данном случае слово 'локальная' - условно и означает, что такая система не является глобальной, такой как Интернет в целом, в смысле физического разнесения информационных ресурсов. ЛИС - это информационная система, создаваемая для хранения информации по совершенно определенной предметной области.

Физически локальные информационные системы могут размещаться в удаленных хранилищах или на разных серверах. Аналогом таких систем можно считать корпоративные информацион онные

учебники, создаваемые преподавателями в рамках своего учебного курса. Принципиальное отличие таких систем от поисковых систем, описанных выше, заключается в следующем. Поисковые системы представляются для нас черным ящиком, т.е. мы не можем знать, какая информация в них представлена, каким образом организовано ее хранение, каким образом организованы ссылки между различными блоками информации. В случае ЛИС, мы выступаем разработчиками такой системы. Разработчику, как правило, известно, на какой круг пользователей ориентирована система. Также разработчик создает информационное наполнение такой системы (так называемый контент), выбирает, в каком виде и как будет храниться информация, каким образом будут организованы переходы между информационными блоками.

При этом основная задача - выбрать правильный способ организации информационного наполнения, способ хранения, способ взаимосвязи блоков информации, способ представления в каждый момент только необходимой пользователю информации. Обеспечивая тем самым удобство работы с системой для ее пользователей. Это достигается использованием модели пользователя и предметной области, а также алгоритмом динамического изменения контента в зависимости от состояния системы (как совокупности состояний модели пользователя и модели предметной области).

Целью настоящей работы является совершенствование процессов взаимодействия пользователя с распределенными информационными системами путем разработки модельно-алгоритмического обеспечения адаптивного поиска информации.

Поставленная цель достигается путем решения следующих задач:

- выявить специфику формирования и функционирования поисковых систем, проанализировать существующие подходы к организации модели пользователя;

- разработать модель пользователя поисковой системы с учетом его информационных интересов;

- разработать алгоритм непрерывной корректировки модели пользователя для адаптивного поиска информации с учетом новых информационных запросов пользователя;

- сформировать модель данных для описания предметной области для организации адаптивной среды локальной информационной системы;

- реализовать процедуру формирования модели пользователя адаптивной среды в локальных информационных системах и алгоритм ее актуализации;

- разработать системную архитектуру для реализации предложенной модели пользователя и процедур описания предметной области адаптивной среды в ЛИС;

- реализовать разработанные модели и алгоритмы в реальных проектах.

Методы исследования. При выполнении работы использовались методы системного анализа, оптимизации, методологии структурного анализа и проектирования сложных систем, статистические методы обработай данных, аппарат теории графов, теории вероятностей.

Научная повизна результатов диссертационной работы:

1. Предложен новый метод формирования модели пользователя, обеспечивающий адаптивный поиск информации, при взаимодействии с распределенными информационными системами.

2. Разработан новый алгоритм непрерывной корректировки параметров модели пользователя на основе методологии вероятностного латентно-семантического анализа, позволяющий учесть семантическую близость терминологического состава последовательных запросов.

3. Для формирования адаптивной информационной среды предложена многослойная модель данных логической структуры локальной информационной системы,

4. Разработан новый алгоритм актуализации модели пользователя адаптивной среды локальной информационной системы, позволяющий учитывать неявные интересы пользователя и использовать эту информацию для организации данных.

5. Предложена трехслойная модульная масштабируемая системная архитектура адаптивной среды ЛИС.

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных программно-информационных сред взаимодействия с распределенными информационными системами.

Практическая значимость. Разработанная в диссертации активная модель пользователя совместно с алгоритмом непрерывной корректировки может служить основой при формировании адаптивных сред взаимодействия пользователя с распределенными информационными системами. Предложенная системная архитектура позволяет автоматизировав процесс проектирования указанных выше систем. Предлагаемая архитектура учигывает внутренние характеристики и организацию элек фонных информационных ресурсов, поэтому

реализуемые на ее основе системы могут использоваться разработчиками в существующих программных средах без нарушения их целостности. Разработанная в диссертации архитектура применена при разработке адаптивной метапоисковой системы Интернет.

Реализация результатов работы. В ходе работы над диссертацией реализованы три программные разработки, зарегистрированные в Отраслевом фонде алгоритмов и программ (ОФАП):

1. Кустов Д.В. «Модуль реализации активной модели пользователя». Инвентарный номер ФАЛ: 5544. Код программы по ЕСПД: .03524577.01269-01

2. Кустов Д.В. «Программная структура корпоративной системы с элементами адаптации». Инвентарный номер ФАЛ: 5545. Код программы по ЕСПД: .03524577.01272-01.

3. Кустов Д.В., Слободин М.Ю., Огнерубов С.С. «Адаптивная метапоисковая система». Инвентарный номер ФАП: 5955. Код программы по ЕСПД: .03524577.01366-01.

Кроме того, в качестве практической реализации методов формирования активной среды ЛИС, разработана и успешно внедрена корпоративная информационная система для группы компаний «Алгоритм».

Основные тезисы, выносимые на защиту:

1. Предложенная частотная терминологическая модель пользователя, основанная на представлении интересов пользователя в виде набора троек вида: (категория интересов, текущий вес категории, уровень изменчивости), с разбиением на краткосрочные и долгосрочные интересы, позволяет учитывать неявные интересы пользователя поисковой системы и решать задачу представления пользователю релевантной информации.

2. Разработанный алгоритм непрерывной подстройки модели на основе новых данных текущего запроса с использованием методологии вероятностного латешно-семантического анализа (РЬЯЛ) позволяет корректировать параметры модели на основе семантической близости терминов новою запроса и текущего терминологического базиса при каждом сеансе работы пользователя с системой.

3. Разработанная многослойная модель данных для описания предметной области и адаптивная модель пользователя локальной информационной системы позволяют учитывать интересы пользователя, обеспечивая персонализацию интерфейса и повышение эффективности работы пользователя с такой системой.

4. На основе структурирования и логической организации локальной информационной системы с использованием структурного подхода UML (Unified Modeling Language) реализована модульная масштабируемая структура локальной информационной сис1емы, что позволяет обеспечить автоматизацию интерактивных процедур анализа и формирования структур таких систем, и разрешает динамическое добавление элементов функциональности без изменений в структуре и сохранении работоспособности системы.

Апробация работы. Основные положения и результаты работы прошли апробацию на всероссийских и международных конференциях, научных семинарах и научно-практических конференциях. В том числе,

- на всероссийской научной конференции студентов, аспирантов и молодых ученых "Наука. Технологии. Инновации", Новосибирск;

- на всероссийских научно-практических конференциях "Решетневские чтения", Красноярск;

на всероссийской научно-практической конференции "Молодежь и современные информационные технологии", Томск.

Диссертационная работа в целом обсуждалась на научных семинарах кафедры системного анализа и исследований операций Сибирского государственною аэрокосмического университета (2004-2006 гт.), на семинарах НИИ СУВПТ (2005-2006 гг.), семинарах Сибирского государственного технологического университета (2006г.).

Публикации. Основные результаты диссертационной работы опубликованы в 13 работах автора (общим объемом 4,6 авторского листа), список которых помещен в конце автореферата.

Структура и объем работы. Диссертационная работа состоит из i введения, трех глав, заключения, списка литературы из 108 наименований,

25 рисунков и 11 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика проблемы, обоснована актуальность темы диссертационной работы, сформулированы цель и решаемые задачи, выдвигаются основные защищаемые положения, определена научная новизна результатов и их практическое значение.

В первой главе вводятся основные понятия и терминология, используемые для описания организации работы распределенных информационных систем, рассматриваются способы построения, классификации таких систем. Указывается на два взаимосвязанных, но в то

же время, отличных друг от подхода к интеллектуализации процесса работы с распределенными информационными системами.

Первый исходит из существующего положения вещей, связанного с организацией поиска информации. Основывается на использовании работы существующих поисковых сервисов. При этом создается специальная надстройка на стороне клиента (т.е. браузера пользователя). Данная надстройка включает модель пользователя, и алгоритм непрерывной корректировки модели, она использует для работы ресурсы терминала пользователя.

Основным инструментом поиска информации для пользователя в настоящее время являются поисковые сервисы (ПС). Обычная схема работы пользователя при этом показана на рисунке 1а. Пользователь отправляет запрос (в виде поисковой строки) к ПС, ПС, обрабатывает данный запрос и выдает множество ссылок на релевантные документы. При этом релевантность оценивается только на основании самого запроса.

Очевидные недостатки данного подхода:

— Не учитываются индивидуальные особенности пользователя, соответственно невозможно явно оценить релевантность большинства документов запросу данного конкретного пользователя.

- Любой поисковый сервис имеет ограничения на ту область Интернет, информация о которой содержится в его базе (так называемом индексе). Соответственно, работая только с одним ПС, пользователь сознательно 01раничивает для себя возможность получить достаточно полную информацию по интересующему вопросу.

Подход, предлагаемый в данной работе, преодолевает указанные недостатки, формируя 1ак называемую активную среду взаимодействия пользователя с информационными системами. На рисунке 16 показана организация поисковой среды с введением только модели пользователя. При этом работа строится на использовании одного выбранного ПС. На рисунке 1в показана метапоисковая система с использованием модели пользователя. При такой организации активной поисковой среды, нивелируются указанные ранее недостатки современных поисковых сервисов.

ПС

(а) отсутствие модели пользователя

НС

Нигера«

хз

т:

пп

ь

! хз

1

Щ1

/вч ыеталоисковая система с использованием ■ ' модели пользователя

Щ1. :

(б) использование модели пользователя

Примечание ПС поисковый сервис, МП модель пользователя. ХЗ - хранилище запросов, ПП -профиль пользователя, МПС - метапоисковая система, МПОЗ - модуль предварительной обработки запросов

Рисунок 1. Подходы к организации поисковых систем

Второй из предлагаемых подходов используется для проектирования активной среды локальных информационных систем.

В данном случае возможно изначальное проектирование той информационной среды, с которой в дальнейшем будут работать пользователи. Основную роль при таком подходе играют три элемента и способ их взаимодействия: модели предметной области и пользователя, алгоритмические и технические приемы взаимодействия.

Для создания активной информационной среды (АИС), предложен модульный и масштабируемый подход. Использование такого подхода требует проработки, в частности следующих вопросов:

• Модель предметной области и схема адаптации должны описывать АИС таким образом, чтобы все переменные системы, изменяющиеся во времени (т.е. настраиваемые в процессе работы), были очевидны.

• Модель пользователя должна отражать не только явные характеристики пользователя (например, данные, время работы пользователя с системой), но и аспекты, относящиеся к его прохраммному характеристикам терминала.

• Архитектура системы должна быть легко масштабируемой, т.е. разрешать добавление элементов функциональности без серьезных изменений в структуре и сохранении работоспособности системы.

Представленная в работе новая схема организации АИС позволяет в частности формировать:

• Логическую структуру и содержимое АИС, с выделением различных изменяемых в процессе работы элементов (уровней детализации).

собираемые во другие неявные окружению и

• Логику процесса адаптации, разделяя адаптацию на уровне технических ограничений и адаптацию на уровне пользователя.

Во второй главе рассматриваются существующие подходы к организации адаптивного поиска в среде распределенных информационных источников, описываются основные способы построения и работы поисковых сервисов (индексация, языковые возможности, средства метапоиска). Вводится понятие модели пользователя, показаны существующие подходы к формированию модели. Дается описание предлагаемого в диссертации подхода к моделированию пользователя: поскольку основной задачей пользователя является поиск необходимой информации, моделирование пользователя строится на основе его информационных потребностей (интересов). Представлено описание применяемой технологии при моделировании информационных интересов пользователя. Рассмотрена методология латентно-семантического анализа, преимущества ее применения при поиске информации. Показан переход к вероятностному ЛСА, применение для моделирования пользователя и формирования алгоритма непрерывной корректировки параметров модели при работе пользователя с системой.

В информационном поиске любой документ представляется как вектор частот появления определенных терминов в нем. В л ом подходе отношения между документами и терминами представляются в виде матрицы смежности А, элементом которой является частота появления

термина

в документе d,. Обозначим через т количество

проиндексированных терминов в коллекции документов <1, а через п -количество самих документов. В общем случае элементом матрицы А является некоторый вес, поставленный в соответствие паре документ-термин (й?„ Г,). После того, как все веса заданы, матрица А, становится отображением коллекции документов в векторном пространстве. Таким образом, каждый документ можно представить, как вектор весов терминов:

А =

О-

Подход LSA (Latent Semantic Analysis Латентный Семантический Анализ), предложенный в 1990, заключается в отображении документа в латентное семантическое пространство. Основная цель - отразить скрытую (латентную) связь между терминами и документами. Это достигается использованием сингулярного разложения (SVD-разложение) матрицы А. Предполагается, что такое пространство несет в себе основную смысловую нагружу. Оценка схожести документов формируется по близости расположения точек латентного семантического пространства.

В основе методологии РЦЗА лежит идея, предложенная в ЬБА и описанная выше. При этом используются понятия латентного класса г -{21, . . , 2к}, множества документов (1еО ~ (с1,, ... , с!к} и терминов и>еИ/

... , И'к}.

Установлено, что распределение слов, принадлежащих данному классу, не зависит от документа и пары наблюдений документ-термин - независимы.

Распределение терминов в документе Р(ы\с1) определяется следующим соотношением:

Совместная вероятность появления документа и термина определяется следующим соотношением:

Величины Р(\»\г) и Р(г\ф оцениваются с использованием алгоритма максимизации математического ожидания, который состоит из двух этапов (Е и М), максимизируя логарифмическую функцию правдоподобия:

1 = X где

п(йуе) частота появлений термина м> в документе с1.

Вероятность того, что появление термина и> в документе /Л объясняется принадлежностью их к классу г оценивается следующим образом на шаге

г«

На этапе Мпроисходит переоценка вероятностей:

P(w\z)- ^ пп/ tj ,ч> P(d\z) =

weW

ЛД 1ге1Г

Хофман предложил обобщенную модель для оценивания условной вероятности, которую он назвал ослабленной процедурой максимизации матожидания. При этом на этапе Е в оценку условной вероятности вносится регуляризационный параметр [3:

Геометрическая интерпретация весовых коэффициентов Р(г\ ¿) -координаты документа в подпространстве, определяемом как вероятностное латентное семантическое пространство.

Предлагается новый подход к моделированию интересов пользователя, основанный на инициализации начального профиля и его последовательной корректировке в процессе работы.

Документы могут быть представлены как векторы латентного семантического пространства. Для того чтобы отслеживать и непрерывно анализировать возможные изменения интересов пользователя, предлагается ввести понятие временного измерения в латентном семантическом пространстве, тем самым, рассматривая уже не само латентное семантическое пространство, а его модификацию - временное латентное семантическое пространство. Каждое измерение (за исключением временного) такого векторного пространства представляет собой условные вероятности при заданном классе Р(лм\г), Р(с1'г). Документы представляют собой векторы с весовыми коэффициентами (координатами) Р(г\ ф, временное измерение полагаем равным нулю.

Запросы, равно как и сами документы, могут быть представлены в виде векторов во временном латентном семантическом пространстве. Кроме весов Р(г^) у них есть дополнительное (временное) измерение (текущий вес), первоначально равный некоторой положительной величине, уменьшающейся с течением времени, исходя из предположения о падении интереса пользователя к определенной тематике при отсутствии ее фигурирования в запросах продолжительное время. Если пользователь инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен.

Алгоритм адаптивной коррекции профиля пользователя основан на неявной обратной связи с пользователем, которая реализуется на основе истории его запросов. На вход алгоритма поступает запрос пользователя, на выходе - одна или более троек (триплетов) вида (С„ а,), где С, категория интересов, Ж, - текущий вес, а, - уровень изменчивости (смысл данной величины состоит в том, чтобы отразить насколько изменяются интересы пользователя в рамках текущего запроса по отношению к прошлым запросам).

Итак, профиль пользователя представляет собой набор троек. При этом он организован таким образом, что интересы пользователя разделены на два типа: краткосрочные (краткосрочный профиль) и долгосрочные (долгосрочный профиль). Как правило, емкость долгосрочного профиля больше емкости краткосрочного. Структуру профиля можно представить таблицей, так как это показано на рисунке 2. При этом считается, что тройки, в которых величина текущего веса положительная, относятся к краткосрочному профилю, если вес отрицательный - то к долгосрочному

профилю. При этом для троек, находящихся в краткосрочном профиле, текущий вес уменьшается линейно, тогда как для троек, находящихся в долгосрочном профиле снижение весов-экспоненциально.

категория

текущий вес уровень изменчивости Рисунок 2. Краткосрочный профиль пользователя

Формально профиль в текущий момент / описывается следующим образом

/>г, = {(С„ Щ, а,),, у=1, к }

При этом

Рг, = РгЯ, и РгЬ,, где РгК, = {(!С'„ «,), | V 0, у=1, к}- краткосрочный профиль, РгЬ1 = {(С,, с0,IV Щ<0, у'=1, к} - долгосрочный профиль.

Уровень изменчивости (а,) рассчитывается как близость двух последовательных запросов Q¡ и представленных в пространстве частот их терминов:

V V' л

где п^„м>) ~ взвешенные частоты терминов.

Предложен следующий алгоритм непрерывной корректировки модели пользователя. При использовании данного алгоритма предполагается, что существует некоторое хранилище предыдущих запросов пользователя. В текущий момент времени / пользователь вводит новый запрос, который после соответствующей обработки помещается в хранилище запросов. Обновленное (или дополненное) в момент времени г 1екущим запросом хранилище запросов будем обозначать (),.

Перед тем, как передать запрос для работы алгоритму производится его обработка на предмет выделения ключевых терминов.

Далее производится пересчет взвешенных частот терминов в хранилище запросов Q¡ с учетом нового запроса. Когда пользователь вводит очередной запрос, ключевым словам (терминам) данного запроса назначаются наибольшие веса. При поступлении запроса в хранилище запросов происходит проверка на наличие в хранилище терминов, присущих текущему запросу. Если термин встречается впервые, то при его занесении в хранилище вес остается без изменений, если же такой термин уже существует в хранилище (это означает, что пользователь уже когда-то использовал запрос, включающий данный термин), то производится

кино музыка квантовая физика спорт

95 85 35 70

0.60 0.45 0.20 0.15

пересчет весового коэффициента данного термина. В конечном счете происходит нормирование весовых коэффициентов.

Категории интересов С, для включения в текущий профиль извлекаются из хранилища посредством использования методологии РЬБА, описанной выше.

Далее представлен пошаговый алгоритм непрерывной корректировки профиля пользователя.

1. Инициализировать хранилище запросов = {ч/и, ы2„ ... , }, где \*>к, - термины хранилища запросов, к= 1 ... М.

2. Выделить набор ключевых терминов текущего запроса.

3. Скорректировать весовые коэффициенты терминов и произвести их нормировку с учетом нового запроса.

4. Рассчитать уровень изменчивости а,.

5. Рассчитать условные вероятности классов, используя процедуру ТЕМ следующим образом

^ ме, I ^ I ¿'я

7'ег

6. Рассчитать вероятность категории С, для заданного класса латентного семантического пространства,

Е"(в„С„)Р,(г1в„С,) Р(С Ы = _

7. Рассчитать вероятность включения категории С, для текущего состояния хранилища запросов (),,

8. Занести категорию в профиль пользователя. Для этого включить соответствующую тройку (С„ (V,, а,) в профиль, согласно схеме представленной на рисунке 2.

9. Если уровень изменчивости а, > ас (где ао заданная величина), то увеличить текущий вес категории С, на величину ЛШ,: = + АУУ,

10.Отсортировать последовательность троек (С„ а,) в профиле по порядку убывания веса Щ .

11.Сохранить получившийся профиль.

Эффективность методов информационного поиска оценивается на тестовых наборах данных. В течение последнего десятка лет был создан ряд стандартных тестовых наборов данных, которые в настоящее время

повсеместно используются для проведения экспериментов в области информационного поиска.

Дня исследования описанного алгоритма использовалось 4 набора документов:

• MED - 1033 документа из Национальной медицинской библиотеки;

• CRAN -1400 документов по авиационной тематике;

• САСМ - 3204 статьи из журналов САСМ (Communications of the Association for Computing Machinery - Средства Связи Ассоциации Компьютерной Технологии);

• CISI -1460 из научной библиотеки.

В качестве критериев качества подходов к решению задач информационного поиска используются точность (Precision) и полнота {Recall) ответа. Обозначим через С - коллекцию документов, в которой осуществляется поиск, А - множество документов-ответов на запрос, R -множество истинно релевантных документов. Тогда обозначенные выше критерии могут быть записаны следующим образом:

Precision » - , ' Recall = ' ,_, '

Mi , |Я|

Результаты экспериментальных исследований представлены на рисунке 3.

1<Ю •

во

2 69

40г

26

МЕО|

.... «иг — ш

-риа

.VI

.....аш

---1Л1

ИЛА

¡ю

Ю •

п

ее

50 *>

30 » •

10 о

сят

■ аш

- 1Л1

- Рид

50 госай[%[

1

100

«а,

.....*ш

— ья

-РЫА

100

та*»!»*;

Рисунок 3 Результаты сравнения подходов

Проведенные экспериментальные исследование показали, что разработанный подход дает увеличение качества поиска на всех

МЕО сюш САСМ СК1

РЬвЛ ув ЙЧсК 10% 6% 8% 3%

РЬБА уя 1.81 5% 2% 6% 3%

В третьей главе описаны вопросы проектирования активной среды локальной информационной системы. Показан способ формирования модели предметной области и организации модели пользователя таких систем. На основе предлагаемых подходов, представлена системная архитектура ЛИС.

В данной работе предлагается новая концепция описания адаптации АИС. Состояния системы могут быть представлены в виде точки трехмерного пространства, измерениями которого выступают: поведение пользователя (предпочтения и навигация), технология (организация сети и

пользовательский терминал), внешнее окружение (время, местоположение, язык и т.п.). Представление предметной области соответствует каждой возможной позиции пользователя в "пространстве изменчивости". После обобщения всевозможных различных требований пользователя к ЛИС, предлагается ввести и в дальнейшем учитывать три ортогональных "измерения изменчивости" (рисунок 4):

• Переменные пользователя (они касаются навигации пользователя, предпочтений пользователя и т.п.). На рисунке 4 обозначены В.

• Переменные внешнего окружения (время доступа, язык, статус доступа и др.). На рисунке 4 обозначены Е.

• Технические переменные (тип сети, характеристики терминала и др.). На рисунке 4 обозначены Т.

Позиция пользователя в пространстве изменчивости характеризуется точкой в трехмерном пространстве с координатами (В, Е, 7). Значения переменных изменяются в пределах конечного алфавита символов. Например, В может принимать значения из множества {новичок, эксперт}, Е - из множества {утро, полдень, вечер, полночь} и Т - из множества {HTML-низкого уровня, HTML-высокою уровня, XML}. Тогда любая точка данного пространства адаптации, например (эксперт, вечер, HTML-высокого уровня), будет соответствовать персонализированному

Рисунок 4 Пространство адаптации АИС АИС отслеживает возможные источники, которые могут повлиять на позицию пользователя в пространстве адаптации, т.е. возможные значения неременных В, Е, Т. Решение о том, какие характеристики учитывать, принимает разработчик с учетом предметной области. Текущая позиция пользователя (В, Е, Т) достигается посредством отображения. Например, пусть есть п технических переменных, каждая из которых может принимать значения из конечного множества К, (г = 1, ..., и). Тогда можно записать отображение

/: VixV2x...xVa-> T, где Г может принимать |Fj|*|K2|*...*|F„! значений, которое будет давать позицию пользователя по оси Т. Функции отображения для технической переменной и переменной внешнего окружения строятся аналогично, в то время как отображение переменной пользователя в профиль пользователя выполняется согласно алгоритму, в котором учитывается вероятностная интерпретация структуры АИС.

Для описания логической структуры АИС в предлагаемой модели предметной области используется многослойная модель данных. Представленная многослойная модель данных АИС содержит следующие абстрактные уровни детализации или слои (рисунок 5):

0. Информационные фрагменты (ИФ) или атомарные понятия/концепты, такие как фрагменты текста, изображения, аудио-фрагменты и т.д. Информационные фрагменты хранятся в базах данных и/или в виде отдельных файлов локально или на удаленных серверах.

Описания представлений (ОП), реализуемые посредством XML документов, хранящихся в XML-репозитарии. 011 описывают информационные фрагменты,

включаемые в так называемую

единицу представления, и способы „ „

_ Рисунок 5 Многослойная

отбора и извлечения данных в модель данных

зависимости от значения некоторых

параметров (профиль пользователя, технические характеристики, внешние переменные).

2. Элементарные абстрактные понятия/концепты (ЭАК) описывают более крупные единицы информации. Каждый элементарный абстрактный концепт представляет собой один или более 011, организованных в виде взвешенного орграфа. Дуги представляют отношения между элементарными понятиями или требования к навигации (т.е. последовательность элементарных понятий необходимых для изучения), в то время как веса отражают их релевантность по отношению друг к другу.

3. Предметная область (ПО). В конечном счете, предметная область образована множеством элементарных абстрактных концептов, организованных в виде орграфа. Дуги представляют отношения между ЭАК; они могут изменяться в зависимости от значений переменной пользователя в пространстве адаптации. Нулевой вес может быть назначен дуге, если она служит только для описания

отношений между ЭАК и не используется пользователем в качестве элемента навигации.

Моделирование АИС осуществляется посредством представления ее в виде направленного мультиграфа ЭАК. В свою очередь каждый ЭАК представляется взвешенным орграфом ОП, т.е. XML документов.

Разработчику необходимо определить М стереотипных профилей пользователя, определяющих определенный вид ИС. Каждый ЭАК может быть сформирован и представлен с точки зрения М профилей пользователя (в частности один ЭАК может быть релевантен только одному профилю).

Каждый ЭАК с М профилями представляет собой множество из N документов XML. При этом документ ieN для каждого профиля к = 1, . ,.,Мсодержит множество исходящих ссылок (/, /, к), где j - это конечный узел. Такая структура может быть задана мультиграфом G, в котором каждый узел соответствует XML документу, а каждая дуга - исходящей ссылке:

G = (N,E), Е= U La

isN к=1, М

Для простоты мультиграф G можно представлять как множество взвешенных орграфов Gk, к = 1, ...,М, получаемых извлечением из G узлов и вершин соответствующих каждому профилю. Каждый такой граф Gk будем называть последовательным навигационным графом.

Gk=(Nk,Ek), Nk = {i\(i,j,k)zEv(j,i,k)eE}, Ek = i(i,jj(i,j,k)eE}

Описываемый вероятностный подход предполагает, что вес W^i, j) дуги (/, у) - это условная вероятность P(j\ к, г), то есть вероятность того, что пользователь, принадлежащий профилю к, находясь на узле г, выберет ссылку на узел j:

W£i,j): Ек-+ [0,1]; Wk{i,j) = Щ к, 0, (¡,/)е Ек,к=\,...,М-

P(J\ к, г) = 0, Vz, поскольку ссылка не может указывать сама на себя. Кроме того, для каждого узла i сумма весов исходящих дуг для каждого профиля всегда равна единице:

Путь S в Gk определяется упорядоченное множество узлов:

5"={50, (äj, VI) = ...,1-1}.

Здесь мы не используем традиционное определение пути в орграфе, поскольку релаксирующее условие sJ+i) е Ек позволяет рассматривать путь, включающий в себя различные последовательные навигационные графы. Это может произойти в том случае, если пользователь с профилем к, находясь на узле sp выбирает ссылку на узел sJ+i и вместе с этим

переходит в новый профиль к. В этом случае мы рассматриваем граф С, принимая во внимание условие (я,, е Ек.

Вероятность того, что пользователь с профилем к, пройдет по пути 5 определяется выражением

./-0 I

п*

таким образом, -<5 - это произведение весов дуг пути 51.

л*

Наикратчайшим путем между двумя узлами i и у для заданного профиля А: является путь с максимальной совместной вероятностью:

С*

1де 1->ц путь между узлами /' и] для заданного профиля к. Таким образом можеч быть вычислен наикратчайший путь для каждою профиля. При неизменных весах дуг в рамках одной сессии работы системы, например, такое вычисление может быть проведено единожды в начале сессии.

Поведение пользователя характеризуется множеством переменных пользователя. Основными из них являются:

• Текущий профиль, кс.

• Текущая дискретная плотность вероятности А(к), к = 1 ..М, оценивающая вероятность принадлежности пользователя каждому профилю.

• Последние посещенные пользователем узлы Я - {/?ь ..., /?,_ь /?,.}, где - текущий узел, Я, - следующий узел. Последняя ссылка, выбранная пользователем для перехода к узлу Я,, ассоциирована с исходящей дугой (Яг ,, Я,, кс).

• Время, проведенное пользователем в последних узлах 1(Я:), ..., (Яг-г).

На основании этих данных система дчя каждого профиля к рассчитывает следующие значения:

• , вероятность следования по пути Я для дуг, принадлежащих профилю к.

л*

• Ря,К, , достижимость узла Я,, из узла К, при условии, используются дуги, принадлежащие профилю к.

• ТУ[к], распределение посещенных узлов взвешенное по времени, проведенном пользователем на них с учетом принадлежности этих узлов определенным профилям. Эта величина показывает как время, проведенное на каждом из узлов, распределяется с

учетом профилей пользователя и, очевидно, показывает насколько данный узел интересен пользователю с данным профилем. Естественно, что для реализации данного подхода необходимо точно измерять время, проводимое пользователем на каждом узле, и сохранять эти данные в течение всего сеанса работы системы.

пА

Большие значения величины Рц означают, что узлы пути Я являются

л*

релевантными для профиля к. Достижимость РяА следующего узла из начального узла пути Я учитывает способ достижения пользователем этого узла. Фактически, высокая достижимость Яп для профиля к означает, что пользователь достигнет следующего узла наиболее "естественным" путем, следуя ссылкам, соответствующим профилю к.

Временные отклонения от интересов пользователя могут быть учтены

- т>к

попеременным или совместным использованием влияния значении г,, и

Л*

Рьк на величину А(к). Первое учитывает фактический путь и стремится к достижению профиля, соответствующего последних предпочтений пользователя; в то время как последнее стремится нивелировать влияние последних (локальных) выборов пользователя, поскольку кратчайший путь не обязательно содержит посещенные узлы {Яь ..., Яг-Ь Л,}.

Для избежания эффекта "бесконечной памяти", принимаются во внимание только г последних узлов. Например, пусть Я - последний путь

из пройденных пользователем, вероятность Рц проследовать путем Я при активном профиле к будет равна нулю, если пользователь посетил хотя бы один узел, не принадлежащий профилю к. Т.е. считается, что у) = О, если (г,у) г Ек, к = 1, .. .,М

Для расчета описанных выше значений конструируются дискретные плотности вероятности:

м г т 1 м г 1

I - о] X р™ 5(к - о £ - о]

--<к)=

А т=

_ /=1

ЦК Х/Чл Е^ст

(-1 1=1

В конечном счете, рассчитывается взвешенное среднее этих значений, выражающее динамическую релевантность профиля:

¿(к) = +аЛк)+аАк)

а0+а1+а2

где «ь, аъ а2 - некоторые положительные (о:, > 0) константы, которые определяются для каждой гипермедиа-системы индивидуально.

Основным отличием предлагаемого подхода при расчете вероятности принадлежности пользователя определенному профилю является использование данных о его динамической активности (величина с1(к)) и структурных свойств схемы гипермедиа, главным образом зависящих от ее топологии х(к). Алгоритм расчета новой дискретной плотности вероятности, таким образом, имеет следующую структуру: Входные значения:

• Дискретные плотности распределения А(к), А0(к) и ¡(к).

• Последние посещенные пользователем узлы Я = {Яь ..., /?, ь Яг}, где Яг Л - текущий узел, Кг - следующий узел.

• Время, проведенное пользователем в последних узлах ...,

Выходные значения:

Новая дискретная плотность распределения А'(к). Основные шаги алгоритма:

1. Рассчитать новую дискретную плотность распределения с1(к).

2. Рассчитать новую дискретную плотность распределения А'(к) согласно формуле:

Новое значение А'(к) рассчитывается как взвешенное среднее четырех значений. В частности, первое учитывает первоначальный выбор пользователя; второе - исюрию взаимодействия пользователя с системой; третье учитывает индивидуальные особенности пользователя и последнее учитывает структурные свойства гипермедиа. Новый профиль может быть выбран случайным образом согласно распределению, задаваемому А'(к), или соответственно наибольшему значению А'(к).

Разработанной модельно-алгоритмическое обеспечение может быть реализовано в рамках трехслойной архитек!уры АИС. 0?га преде I авлена на рисунке 6 и включает следующие слои: слой представления, слой приложения, слой данных.

'(А-1).

Слой дачных Слой приложения Слои представления

~ программное обеспечение

Рисунок 6. Архитектура АИС

На слой представления поступают окончательно сформированные страницы, которые затем будут представлены для просмотра пользователю. Также совместно со страницами на слой представления могут посылаться исполняемые скрипты и апплеты, которые выполняют различные служебные команды, например настройка локального времени, подсчет количества времени, проведенного на узлах, настройка параметров терминала пользователя и т.п.

Слой приложения содержит два основных модуля: сервер адаптивной 1ипермедиа-системы и компонент моделирования пользователя, которые работают в совокупности с веб-сервером. Компонент моделирования пользователя отслеживает действия пользователя и выполняет алгоритм расчета и настройки профиля пользователя.

Сервер АГС для своей работы использует технологию XSP. Фактически из компонентов XML описаний представления формируются XSP страницы, которые далее хранятся в XML репозитарии. Прежде чем конечная страница в формате XSP будет представлена для просмотра пользователю, она проходит своего рода преобразование, чтобы соответствовать настройкам программного обеспечения терминала пользователя.

Слой данных состой! из уровня источников данных, уровня репозитариев и модуля доступа к данным. Уровень источников данных объединяет источники данных различного типа, которые используются при построении конечных гипермедиа-страниц. Каждый из источников

данных S, соответствующим образом описан посредством метаданных языка XML.

Уровень репозитариев служит для сохранения данных, предоставляемых уровнем источников данных или самим разработчиком системы. Обычно он включает:

• XML документы в XML репозитарии; эти документы могут предс1авлять собой XML описания представлений, сгенерированные и готовые к отправке пользователю XSP описания представлений, шаблоны страниц в формате XSL и XML метаданные.

• Подготовленные объекты в репозитарии объектов. Они представляют собой объекты, описывающие последовательные графы навит ации и данные о зарегистрированных пользователях.

• DTD (Document Type Definition), используемые для валидации XML документов.

И, наконец, в модуль доступа к данным реализует эффективные процедуры доступа и обработки данных уровня репозитариев и уровня источников данных.

В заключении диссертации приведены основные результаты, полученные в ходе выполнения работы, и сформулированы выводы.

Основные результаты и выводы

Достижение поставленной цели и решение задач базируется на следующих основных результатах:

- проведен анализ существующих подходов к организации поисковых систем и принципов построения персонализированных интерфейсов с использованием модели пользователя;

- впервые предложен способ организации адаптивной поисковой системы с использованием модели пользователя и алгоритм непрерывной корректировки модели с учетом новых запросов на основании методологии вероятностного латентно-семантического анализа;

- впервые предложена многослойная логическая структура для описания адаптивной среды локальной информационной системы, предложен способ формирования модели пользователя ЛИС и алгоритм корректировки параметров модели (актуализация модели);

- на основе предложенного способа описания предметной области и способа формирования модели пользователя разработана

модульная масштабируемая системная архитектура активной среды ЛИС;

- выполнена и успешно апробирована на практике программная реализация разработанных алгоритмов.

Публикации по теме диссертации:

1. Кустов, Д.В. Интеллектуальные агенты и базы данных / Д.В. Кустов // Решетневские чтения: материалы VII Всероссийской науч. конф. Красноярск: СибГАУ. - 2003,- С. 230-231.

2. Кустов, Д.В. Агентные технологии для поиска и сбора информации / Д.В. Кустов // Материалы докладов Всероссийской научной конференции молодых ученых. «Наука. Технологии. Инновации». Ч. 1.- Новосибирск: НГТУ. - 2003. - С. 187-189.

3. Кустов, Д.В. Мультиагентные технологии поиска информации в распределенных источниках / Д.В. Кустов // Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общ. ред. проф. Н.В.Василенко; Красноярск: НИИ СУВП'Г. - 2003. - Вып. 14. - С. 22-30.

4. Кустов, Д.В. Об одном подходе к формированию мулыиаг ентной системы поиска информации в распределенных источниках/ Д.В. Кустов// Материалы докладов II Всероссийской научно-практической конференции "Молодежь и современные информационные технологии". - Томск. 2004. С. 34-36.

5. Кустов, Д.В. Адаптивная корректировка модели пользователя на основе методологии РЬвА / Д.В. Кустов // Вестник университетского комплекса: Сб. научн. трудов / Под общ. ред. проф. Н.В.Василенко; Красноярск: ВСФ РГУИТП, НИИ СУВПТ. - 2004. - Вып. 1(15). - С. 45-54.

6. Кустов, Д.В. РЬБА-адаптация модели пользователя в открытой информационно-образовательной среде / И.В. Ковалев, Д.В. Кустов // Телекоммуникации и информатизация образования. - 2004 - № 6(25).-С. 41-51.

7. Кустов, Д.В. ХМЬ-ориентированная модель гипермедиа / Д.В. Кустов // Вестник университетского комплекса: Сб. научн. трудов/ Под общ. ред. проф. Н.В. Василенко; Красноярск: ВСФ РГУИТП, НИИ СУВПТ,-2005.-Вып. 3 (17).-С. 16-36.

8. Кустов, Д.В. Активная модель пользователя в среде распределенных информационных ресурсов / Д.В. Кустов // Решетневские чтения: материалы IX Междунар. науч. конф., посвящ. 45-летию Сиб. гос. аэрокосмич. ун-та.- Красноярск: СибГАУ. - 2005 - С. 217-218.

9. Кустов, Д.В. Мультилингвистический информационно-терминологический базис открытой среды информационно-образовательного взаимодействия / И.В. Ковалев, Д.В. Кустов, С С. Огнерубов // Актуальные проблемы экономики, права и информационных технологий Сборник научных статей. Красноярск: Красноярский филиал МЭСИ.- 2005, Часть 1- С. 107-1] 4.

10. Кустов, Д.В. О новом подходе к формированию структуры корпоративных информационных систем / Д.В. Кустов // Сборник ОМП1У.- Омск: ОМГПУ,- 2006,- С. 135-151.

11. Кустов Д.В. Модуль реализации активной модели пользователя. -М.: ВНТИЦ, 2006. - № 50200600031, Per. номер ОФАП 5544.

12. Кустов Д.В. Программная структура корпоративной системы с элементами адаптации. М.: ВНТИЦ, 2006. - № 50200600032, Per. номер ОФАП 5545.

13. Кустов Д.В., Слободин М.Ю., Огнерубов С.С. Адаптивная метапоисковая система. - М.: ВНТИЦ, 2006. - № 50200600072, Per. номер ОФАП 5955.

660014, i Красноярск, пр. им. газ. «Красноярский рабочий», 31

Кустов Денис Викторович

Модельно-ал! оритмическое обеспечение адаптивного поиска информации в распределенных информационных системах

Автореферат

Подписано к печати 11.04.2006 Уч. изд. л. 1.0 Тираж 100 экз.

Формат 60x84/16 Заказ № ///

Отпечатано в СибГАУ

¿OOC А

9162

Оглавление автор диссертации — кандидата технических наук Кустов, Денис Викторович

Введение.

Глава 1. Распределенные информационные системы. Информационный поиск.

1.1. Поиск в Интернет.

1.2 Поисковые системы.

1.2.1 Индексы поисковых систем.

1.2.2 Распределенные поисковые системы.

1.2.3 Модели информационного поиска.

1.2.4 Критерии оценки эффективности.

1.3 Особенности разработки локальных информационных систем.

1.3.1 Внутреннее представление.

1.4 Выводы.

Глава 2. Адаптивный поиск в среде распределенных информационных источников. Частотная терминологическая модель пользователя.

2.1 Характеристики пользователя ПС.

2.1.1 Цели.

2.1.2 Знания.

2.1.3 Предпочтения.

2.1.4 Уровень подготовки и имеющийся опыт.

2.2 Частотная терминологическая модель пользователя.

2.2.1 Методология PLSA в области извлечения информации.

2.2.2 Динамический профиль пользователя.

2.2.3 Алгоритм непрерывной корректировки профиля пользователя.

2.3 Экспериментальные исследования.

2.4 Выводы.

Глава 3 Активная среда локальной информационной системы.

3.1 Моделирование адаптивной среды локальной информационной системы.

3.1.1 Пространство адаптации.

3.1.2 Многослойная логическая структура ЛИС.

3.1.3 Вероятностная схема ЛИС.

3.2 Модель пользователя.

3.2.1 Алгоритм расчета вероятности принадлежности.

3.3 Архитектура системы ЛИС.

3.3.1 Метаданные XML и описания представления.

3.3.2 Архитектура системы.

3.3.3 Модуль разработчика системы.

3.3.4 Тестирование АИС.

3.4 Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Кустов, Денис Викторович

Актуальность работы. Бурное развитие Интерент-технологий в последнее десятилетие привело к тому, что в настоящее время любой человек, имеющий доступ к сети, может получить доступ к неограниченным информационным ресурсам.

Однако, при работе с любым поисковым сервисом, мы имеем дело с черным ящиком. Мы можем лишь послать в него некий входной сигнал в виде поисковой строки и получить отклик, ответ на запрос, в виде набора ссылок на соответствующие нашему запросу (релевантные) ресурсы сети. Причем данное соответствие каждым поисковым сервисом трактуется по-разному, в соответствии с алгоритмами, заложенными в данный поисковый сервис его разработчиками.

Проблема заключается в том, что любой поисковый сервис - универсален, рассчитан на работу со всеми пользователями, без учета их индивидуальных потребностей. Это оправдано, поскольку каждый поисковый сервис имеет миллионы пользователей и учет индивидуальных особенностей каждого - не оправдан, если вообще возможен.

Решение проблемы может быть осуществлено путем разработки мо-дельно-алгоритмического и программного обеспечения для пользователя. Такое программное обеспечение работает локально на компьютере пользователя, либо устанавливается на специальном удаленном сервере. Данная программная система базируется на индивидуальных особенностях конкретного пользователя, моделируя его с точки зрения информационных интересов, на основании данных о его запросах к поисковым сервисам Интернет В ходе работы пользователя происходит непрерывная корректировка модели на основании данных о новых и информации о предыдущих запросах к поисковым сервисам. Таким образом, модель всегда отражает актуальные информационные интересы пользователя. Модель пользователя может использоваться для добавления к новому запросу данных, содержащихся в модели, для изначального сужения области поиска. Кроме того, модель позволяет осуществить фильтрацию ответов поискового сервиса.

В настоящее время Интерент-технологии также используются при создании локальных информационных систем (ЛИС). В данном случае слово 'локальная' - условно и означает, что такая система не является глобальной, такой как Интернет в целом, в смысле физического разнесения информационных ресурсов. ЛИС - это информационная система, создаваемая для хранения информации по совершенно определенной предметной области.

Физически локальные информационные системы могут размещаться в удаленных хранилищах или на разных серверах. Аналогом таких систем можно считать корпоративные информационные системы или электронные учебники, создаваемые преподавателями в рамках своего учебного курса. Принципиальное отличие таких систем от поисковых систем, описанных выше, заключается в следующем. Поисковые системы представляются для нас черным ящиком, т.е. мы не можем знать, какая информация в них представлена, каким образом организовано ее хранение, каким образом опганизо-ваны ссылки между различными блоками информации. В случае ЛИС, мы выступаем разработчиками такой системы. Разработчику, как правило, известно, на какой круг пользователей ориентирована система. Также разработчик создает информационное наполнение такой системы (так называемый контент), выбирает, в каком виде и как будет храниться информация, каким образом будут организованы переходы между информационными блоками.

При этом основная задача - выбрать правильный способ организации информационного наполнения, способ хранения, способ взаимосвязи блоков информации, способ представления в каждый момент только необходимой пользователю информации. Обеспечивая тем самым удобство работы с системой для ее пользователей. Это достигается использованием модели пользователя и предметной области, а также алгоритмом динамического изменения контента в зависимости от состояния системы (как совокупности состояний модели пользователя и модели предметной области).

Целью настоящей работы является совершенствование процессов взаимодействия пользователя с распределенными информационными системами путем разработки модельно-алгоритмического обеспечения адаптивного поиска информации.

Поставленная цель достигается путем решения следующих задач:

- выявить специфику формирования и функционирования поисковых систем, проанализировать существующие подходы к организации модели пользователя;

- разработать модель пользователя поисковой системы с учетом его информационных интересов;

- разработать алгоритм непрерывной корректировки модели пользователя для адаптивного поиска информации с учетом новых информационных запросов пользователя;

- сформировать модель данных для описания предметной области для организации адаптивной среды локальной информационной системы;

- реализовать процедуру формирования модели пользователя адаптивной среды в локальных информационных системах и агпоритм ее актуализации;

- разработать системную архитектуру для реализации предложенной модели пользователя и процедур описания предметной области адаптивной среды в ЛИС;

- реализовать разработанные модели и алгоритмы в реальных проектах.

Методы исследования. При выполнении работы использовались методы системного анализа, оптимизации, методологии структурного анализа и проектирования сложных систем, статистические методы обработки данных, аппарат теории графов, теории вероятностей.

Научная новизна результатов диссертационной работы:

1. Предложен новый метод формирования модели пользователя, обеспечивающий адаптивный поиск информации, при взаимодействии с распределенными информационными системами.

2. Разработан новый алгоритм непрерывной корректировки параметров модели пользователя на основе методологии вероятностного латентно-семантического анализа, позволяющий учесть семантическую близость терминологического состава последовательных запросов.

3. Для формирования адаптивной информационной среды предложена многослойная модель данных логической структуры локальной информационной системы.

4. Разработан новый алгоритм актуализации модели пользователя адаптивной среды локальной информационной системы, позволяющий учитывать неявные интересы пользователя и использовать эту информацию для организации данных.

5. Предложена трехслойная модульная масштабируемая системная архитектура активной среды ЛИС.

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных программно-информационных сред взаимодействия с распределенными информационными системами.

Практическая значимость. Разработанная в диссертации активная модель пользователя совместно с алгоритмом непрерывной корректировки может служить основой при формировании активных сред взаимодействия пользователя с распределенными информационными системами. Предложенная системная архитектура позволяет автоматизировать процесс проектирования указанных выше систем. Предлагаемая архитектура учитывает внутренние характеристики и организацию электронных информационных ресурсов, поэтому реализуемые на ее основе системы могут использоваться разработчиками в существующих программных средах без нарушения их целостности. Разработанная в диссертации архитектура применена при разработке надстройки к обозревателю Интернет.

Реализация результатов работы. В ходе работы над диссертацией реализованы две программные разработки, зарегистрированные в Отраслевом фонде алгоритмов и программ (ОФАП):

1. Кустов Д.В. «Модуль реализации активной модели пользователя». Инвентарный номер ФАП: 5544. Код программы по ЕСПД: .03524577.01269-01

2. Кустов Д.В. «Программная структура корпоративной системы с элементами адаптации». Инвентарный номер ФАП: 5545. Код программы по ЕСПД: .03524577.01272-01.

3. Кустов Д.В., Слободин М.Ю., Огнерубов С.С. «Адаптивная метапо-исковая система». Инвентарный номер ФАП: 5637. Код программы по ЕСПД: .03524577.01366-01.

Кроме того, в качестве практической реализации методов формирования активной среды ЛИС, разработана и успешно внедрена корпоративная информационная система для группы компаний «Алгоритм».

Основные тезисы, выносимые на защиту:

1. Предложенная частотная терминологическая модель пользователя, основанная на представлении интересов пользователя в виде набора троек вида: (категория интересов, текущий вес категории, уровень изменчивости), с разбиением на краткосрочные и долгосрочные интересы, позволяет учитывать неявные интересы пользователя поисковой системы и решать задачу представления пользователю релевантной информации.

2. Разработанный алгоритм непрерывной подстройки модели на основе новых данных текущего запроса с использованием методологии вероятностного латентно-семантического анализа (PLSA) позволяет корректировать параметры модели на основе семантической близости терминов нового запроса и текущего терминологического базиса при каждом сеансе работы пользователя с системой.

3. Разработанная многослойная модель данных для описания предметной области и адаптивная модель пользователя локальной информационной системы позволяют учитывать интересы пользователя, обеспечивая персонализацию интерфейса и повышение эффективности работы пользователя с такой системой.

4. На основе структурирования и логической организации локальной информационной системы с использованием структурного подхода UML (Unified Modeling Language) реализована модульная масштабируемая структура локальной информационной системы, что позволяет обеспечить автоматизацию интерактивных процедур анализа и формирования структур таких систем, и разрешает динамическое добавление элементов функциональности без изменений в структуре и сохранении работоспособности системы.

Апробация работы. Основные положения и результаты работы прошли всестороннюю апробацию на всероссийских и международных конференциях, научных семинарах и научно-практических конференциях. В том числе,

- на всероссийской научной конференции студентов, аспирантов и молодых ученых "Наука. Технологии. Инновации", Новосибирск;

- на всероссийских научно-практических конференциях "Решетнев-ские чтения", Красноярск;

- на всероссийской научно-практической конференции "Молодежь и современные информационные технологии";

Диссертационная работа в целом обсуждалась на научных семинарах кафедры системного анализа и исследований операций Сибирского государственного аэрокосмического университета (2004-2006 гг.), на селшнарах НИИ СУВПТ (2005-2006 гг.), семинарах Сибирского государственного технологического университета (2006г.).

Публикации. Основные результаты диссертационной работы опубликованы в 13 работах автора (общим объемом 4,6 авторского листа), список которых помещен в конце диссертации.

Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы из 102 наименований, 25 рисунков и 11 таблиц.

Заключение диссертация на тему "Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах"

3.4 Выводы

В предыдущей главе рассмотрены вопросы моделирования пользователя при поиске информации в среде распределенных информационных систем. В совокупности такие системы могут быть представлены в виде достаточно большого хранилища информации по различным областям и всевозможным аспектам деятельности человека. Элементом же такой среды является специализированный ресурс, посвященный совершенно определенной области знаний. Примером может служить корпоративный сайт в Интеренет или электронное учебное пособие в рамках реализации систем открытого или дистанционного образования.

Таким образом, на основании работы пользователя с поисковым сервисом мы можем выявить круг интересующих его вопросов. После чего направить его к специализированным информационным ресурсам (так называемая локальная информационная система - ЛИС). Если речь идет об организации процесса обучения с использованием электронных обучающих пособий, то пользователем является обучающийся по специальности человек, который будет направлен к электронному пособию (совокупности пособий) по интересовавшей его тематике.

При этом возникает проблема другого плана, которая уже не связана с полнотой охвата и оценкой релевантности. Проблема организации такого специализированного информационным ресурса с целью его максимально эффективного использования пользователем. Если мы говорим об обучающемся и электронных учебных пособиях, то необходимо таким образом построить данное пособие, чтобы оно максимально соответствовало уровню подготовленности пользователя и обеспечивало наиболее эффективный способ представления информации.

При этом важен не только правильный выбор представляемой информации, но также способ представления этой информации и организация способов и порядка переходов между узлами информационной системы.

В данной главе описаны вопросы проектирования активной среды локальной информационной системы или активной информационной среды (АИС). Показан способ формирования модели предметной области, алгоритма корректировки модели на основании данных о работе пользователя с системой, и организации модели пользователя таких систем. На основе предлагаемых подходов, представлена системная архитектура ЛИС.

Для описания логической структуры АИС в предлагаемой модели предметной области используется многослойная модель данных, которая содержит несколько абстрактных уровней детализации или слоев. Разработанное модельно-алгоритмическое обеспечение АИС реализуется в рамках трехслойной архитектуры, впервые предложенной в данной работе.

Таким образом, с использованием разработанного модельно-алгоритмического обеспечения АИС решается проблема организации и представления пользователю необходимой информации при работе со специализированными информационными ресурсами.

Заключение

В диссертационной работе рассмотрены характерные черты поисковых систем (глава 1), а также подробно охарактеризованы прикладные области такого рода систем. Одной из важнейших составляющих адаптивной ПС является модель пользователя. Проведенный анализ соответствующей литературы, а также конкретных реализаций ПС, привел к выводу, что в настоящее время отсутствуют эффективные способы описания пользователя ПС, во многом это касается неоднозначности в определении важности характеристик пользователя, которые должны быть отражены в модели.

Поскольку по своей сути поисковые сервисы направлены на поиск и предоставление информации пользователю по определенной предметной области, было предложено отражать именно "информационные" интересы в модели пользователя (глава 2). Схема организации профиля пользователя, представляется множеством троек вида: (Категория интересов, Текущий вес категории, Уровень изменчивости). При этом профиль делится на две группы (два подпрофиля): краткосрочный и долгосрочный для учета краткосрочных и долгосрочных интересов пользователя. Представление модели пользователя в таком виде позволило применить для оценки релевантности документов хорошо зарекомендовавшую себя в информационном поиске методологию вероятностного латентно-семантического анализа (PLSA).

Предложенный способ организации модели пользователя позволил разработать алгоритм непрерывной корректировки данной модели с учетом новой информации, получаемой при взаимодействии пользователя с системой (глава 2). Разработанный алгоритм адаптивной подстройки модели на основе новых данных текущего запроса с использованием методологии вероятностного латентного семантического анализа (PLSA) позволяет корректировать параметры модели на основе семантической близости терминов нового запроса и текущего терминологического базиса.

Проведенные эксперименты показали, что использование предлагаемого подхода позволяет повысить качество поиска.

После выявления круга интересующих пользователя вопросов на основании его работы с поисковым сервисом, осуществляется последующий переходе к работе со специализированными информационными ресурсами. Аналогом таких систем можно считать специализированные Интернет-сайты, корпоративные информационные системы или электронные учебники, создаваемые преподавателями в рамках своего учебного курса в системах открытого образования. При создании таких электронных пособий используются принципы и технологии Интернет: разделение информации на блоки и связывание блоков посредством механизма ссылок. В работе представлена новая модель для описания активной среды локальной информационной системы (глава 3).

Организация АИС описывается посредством разных логических уровней, нескольких уровней детализации; верхний (абстрактный) слой описывается посредством взвешенного орграфа выделенных понятий (концептов), нижний (физический) слой составлен из XML документов, образующих конечные страницы гипермедиа. Страница (или мультимедиа-страница) - это своего рода контейнер, содержащий базовые мультимедиа фрагменты, извлеченные из различных источников и описанные на уровне метаданных языка XML.

В работе предлагается новая концепция описания АИС. Состояния системы могут быть представлены в виде точки трехмерного пространства, измерениями которого выступают: поведение пользователя (предпочтения и навигация), технология (организация сети и пользовательский терминал), внешнее окружение (время, местоположение, язык и т.п.). Представление предметной области соответствует каждой возможной позиции пользователя в "пространстве адаптации".

Представленные в работе способы описания модели пользователя, а также логической структуры предметной области, реализуются посредством предложенной трехслойной модульной масштабируемой системной архитектуры АИС.

Таким образом, поставленная в диссертационной работе цель достигнута и задачи решены. Основные результаты работы заключаются в следующем:

- проведен анализ существующих подходов к организации поисковых систем и принципов построения персонализированных интерфейсов с использованием модели пользователя;

- впервые предложен способ организации адаптивной поисковой системы с использованием модели пользователя и алгоритм непрерывной корректировки модели с учетом новых запросов на основании методологии вероятностного латентно-семантического анализа;

- впервые предложена многослойная логическая структура для описания адаптивной среды локальной информационной системы, предложен способ формирования модели пользователя ЛИС и алгоритм корректировки параметров модели (актуализация модели);

- на основе предложенного способа описания предметной области и способа формирования модели пользователя разработана модульная масштабируемая системная архитектура активной среды ЛИС;

- выполнена и успешно апробирована на практике программная реализация разработанных алгоритмов.

Библиография Кустов, Денис Викторович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Агеев В.Н. Электронные учебники и автоматизированные об> чающие системы. М.: 2001. - 79 с.

2. Александров Г.Н. Программированное обучение и новые информацион-ныетехнологии обучения. // Информатика и образование, 1993, №5. с. 719.

3. Аттель У. Обучающая вычислительная машина: моделирование в истинном масштабе времени обучающего диалога / В сб. "Кибернетика и проблемы обучения" / Ред. и предисл. А.И. Берга. М.: Прогресс, 1970. - с. 206-228.

4. Ахо А., Хопкрофт Дж., Ульман Дж. Структура данных и алгоритмы. М.: Вильяме, 2000.

5. Брюхов Д.О., В.И. Задорожный, JI.A. Калиниченко, М.Ю. Курошев, С.С. Шумилов. Интероперабельные информационные системы: архитектуры и технологии. Системы управления базами данных, 4,1995.

6. Булгаков М.В., Якивчук Е.Е. Инструментальные системы для разработки обучающих программ / В кн. "Компьютерные технологии в высшем образовании"./ Ред. кол.: А.Н. Тихонов, В.А. Садовничий и др. М.: Изд-во Моск. ун-та., 1994.-е. 153-162.

7. Вопросы создания автоматизированных обучающих систем на базе ЭВМ. -М., 1976.

8. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384с.

9. Гиркин И.В. Новые подходы к организации учебного процесса с использованием современных компьютерных технологий // Информационные технологии, 1998, № 6. с. 44-47.

10. Ю.Даконта М, Саганич A. XML и Java 2. СПб.: Питер, 2001. - 384с.

11. И.Даниэла Флореску, Алон Леви, Альберто Мендельсон. Технологии баз данных для World-Wide Web: обзор. Системы управления базами данных, 4,1998.

12. Дж. Голуб, Ч. Ван Лоун. Матричные вычисления. Издательство "'Мир", Москва, 1999.

13. Джалалуддин А.К. Применение компьютеров для целей непрерывного образования // Перспективы, 1991, № 2. с. 72-89.

14. Джалиашвили З.О., Николаев Д.Г. Сетевые технологии как эффективное средство поддержки дистанционном обучения // Материалы конференции "Информационные технологии в образовании", 2001 http://www.bitpro.ru/

15. Домрачев В.Г., Ретинская И.В. О классификации образовательных информационных технологий // Информационные технологии, 1996, № 2.-С. 1013.

16. Елена Карташева. Интеллектуальные поисковые системы Excalibur. Сети, 6,1997.

17. Илан Гринберг, Ли Гарбер. Разработка новых технологий информационного поиска. Открытые Системы, 10,1999.

18. Камер Дуглас Э. Компьютерные сети и Internet. Разработка приложений для Internet: Пер. с англ. М.: Изд. дом "Вильяме", 2002. - 640 с.

19. Карлащук В.И. Обучающие программы. М.: "СОЛОН-Р", 2001. 528 с.

20. Кибернетика и проблемы обучения: Сборник переводов / Ред. и предисл. А.И. Берга. М.: Прогресс, 1970. - 389 с.

21. Колесников А.О. Реализация авторской системы в сетевой среде // http://www.ulstu.ru/conf/NMK99/2-14.htm

22. Компьютерные технологии в высшем образовании. / Ред. кол.: А.Н. Тихонов, В.А. Садовничий и др.- М.: Изд-во Моск. ун-та., 1994. 272 с.

23. Кривошеев А.О., Голомидов Г.С., Таран А.Н. Перспективные Internet-технологии информационного обеспечения образовательных услуг //Российский НИИ информационных систем, 2000.

24. Лекции по теории графов / Емеличев В.А., Мельников О.И. Сарванов В.И., Тышкевич Р.И. М.: Наука, Гл. ред. физ.-мат. лит., 1990. - 384 с.

25. Логический подход к искусственному интеллекту: от классической логики к логическому программированию/Пер. с франц. М.: Мир, 1990. - 432с.

26. Лорьер Ж.-Л. Системы искусственного интеллекта. / Пер. с франц. М.: Мир, 1991.-568с.

27. Мазурина С.М. Разработка моделей представления и обработки знаний в продукционных экспертно-обучающих системах. М.: МГИЭМ. 1995. -164с.

28. Малышев Ю.А., Нежурина М.И., Шатровский В.А. Технологии представления учебных курсов для дистанционной формы обучения в среде WWW. // Информационные технологии, 1997, № 6. с. 39-42.

29. Мамиконов А.Г. Принятие решений и информация. М.: Наука, 1983. -184 с.

30. Морозевич А.И., Комличенко В.Н., Гедранович В.В. Стратегия автоматизации управления познавательной деятельностью на основе информационной модели образовательного процесса//Информационные технологии. 2000. № 5. с. 47-52.

31. Нетушил А.В., Никитин А.В. О методе синтеза учебных программ// Проблемы нейрокибернетики. Ростов-на-Дону: Из-во Ростов, ун-та, 1969. -с. 236-243.

32. ЗЗ.Норенков Ю.И. Исследование и разработка принципов построения адаптивных обучающих систем. / Автореферат. М.: 1993. 20 с.

33. Пасхин Е.Н., Митин А.И. Автоматизированная система обучения ЭКСТЕРН. М.: Изд-во Моск. ун-та, 1985. - 144 с.

34. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа- Томск: Изд-во НЛТ, 1997.-396 с.

35. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. -360 с.

36. Поспелов Д.А. Семиотические модели в управлении./В кн. "Кибернетика. Дела практические". М.: Наука, 1984. - с. 70-87.

37. Представление и использование знаний: Пер. с япон./Под ред. X. Уэно, М. Исидзука. М.: Мир, 1989. - 220 с.

38. Применение ЭВМ в учебном процессе/Сборник докладов научно-технич. семинара под ред. А.И. Берга. М.: Сов. радио, 1969. - 248 с.

39. Приобретение знаний: Пер. с япон./Под ред. С. Осуги, Ю. Саэки. М.: Мир, 1990.-304 с.

40. Растригин Л.А. Вычислительные машины, системы, сети. М.: Наука. Гл. ред. физ.-мат. лит., 1982. -224 с.

41. Растригин Л.А., Эренштейн М.Х. Адаптивное обучение с моделью обучаемого. Рига: Зинатне, 1988. - 160 с.

42. Ростунов Т.И. Сущность программированного метода обучения. / В сб.: Программированное обучение и кибернетические обучающие машины. / Под ред. Шестакова А.И. М.: Сов. радио, 1963. - с. 10-23.

43. Рубин Ю.Б., Самойлов В.А., Шевченко К.К. Технологические системы в открытом образовании // Материалы конференции "Информационные технологии в образовании", 2001. http://www.bitpro.ru/

44. Савельев АЛ. Автоматизированные обучающие системы на базе ЭВМ / вып.1./ М.: Знание, 1977. 36 с.

45. Соловов А.В. Проектирование компьютерных систем учебного назначения: Учебное пособие. Самара: СГАУ, 1995. - 137 с.

46. Соломатин Н.М., Сонин А.И., Соколов Н.К. Серебрякова И.Л., Семенов Д.В. Особенности дистанционного обучения в системе высшего образования // Вестник МГТУ им. Баумана, сер. Приборостроение, 1998, № 2. с. 101-108.

47. Стенли Р. Перечислительная комбинаторика: Пер. с англ. М.:Мир, 1990. -440 с.

48. Степанов В. К. Русскоязычные поисковые механизмы в Интернет. ComputerWorld Россия, 11,1997.

49. Стоуне Е. Стратегия и тактика программированного обучения. / В сб. "Кибернетика и проблемы обучения" / Редакция и предисловие А.И. Берга. М.: Прогресс, 1970. - с. 255-265.

50. Терещенко Л.Я., Панов В.П., Майоркин С.Г. Управление обучением с помощью ЭВМ. Л.: Изд-во ЛГУ, 1981. - 143 с.

51. Тим Брэй, Джин Паоли, С.М. Сперберг-Макквин, Ив Мэйлер. Расширяемый язык разметки (XML) 1.0 (вторая редакция). Перевод Радика Ус-манова.// http://www.citforum.ru/internet/xmlspec/index.shtml.

52. Трапезников С.Н. УРОК универсальный редактор обучающих курсов / В кн. "Компьютерные технологии в высшем образовании" / Ред. кол.: А.Н. Тихонов, В.А. Садовничий и др. - М.: Изд-во Моск. ун-та., 1994. - с. 2332.

53. Уотермен Д. Руководство по экспертным системам: Пер. с англ. М.: Мир, 1989.-388 с.

54. Хартли Д. К вопросу об оценке обучающих программ. / В сб. "Кибернетика и проблемы обучения" / Редакция и предисловие А.И. Берга. М.: Прогресс, 1970.-с. 350-387.

55. Чиликин М.Г. Основные задачи программированного обучения. / В сб.: Программированное обучение и кибернетические обучающие машины. / Под ред. Шестакова А.И. М.: Сов. радио, 1963. - с. 5-9.

56. Шампанер Г., Шайдук А. Обучающие компьютерные системы // Высшее образование в России, 1998, № 3. с. 97-99.

57. Шемакин Ю.И. Начала компьютерной лингвистики: Учеб. пособие М.: Изд-во МГОУ, А/О "Росвузнаука", 1992. - 115 с.

58. Шмелев А.Г., Бельцер А.И., Ларионов А.Г., Серебряков А.Г. Адаптивное тестирование знаний в системе "ТЕЛЕТЕСТИНГ" // IX конференция-выставка "Информационные технологии в образовании", 1999. -http://ito.bitpro.ru/

59. Aalbersberg I.J. Incremental relevance feedback. In Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 11-22, 1992.

60. Albrecht F., Koch N., Tiller T. SmexWeb: An Adaptive Web-based Hypermedia Teaching System.// Journal of Interactive Learning Research, Special Issue on Intelligent Systems/Tools in Training and Lifelong Learning. 2000. P. 367388.

61. Andre, E. and T. Rist. Towards a New Generation of Hypermedia Systems: Extending Automated Presentation Design for Hypermedia.// Report. DFKI GmbH. Saarbrucken. 1996.

62. Anna Le Calve and Jacques Savoy. Database merging strategy based on logistic regression. Information Processing and Management, 36(3):341-359, May 2000.

63. Ardo A. and S. Lundberg. A regional distributed WWW search and indexing service -- the DESIRE way. Computer Networks and ISDN Systems, 30:173183, 1998.

64. Baeza-Yates R. and Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press, 1999.

65. Brusilovsky. P. Methods and techniques of adaptive hypermedia.// User Modeling and User Adapted Interaction. 1996. Vol. 6. P. 87-129.

66. Callan J. Document filtering with inference networks. In Proceedings of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 262-269, 1996.

67. Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224231, Melbourne, Australia, 1998.

68. Cannataro M., Cuzzocrea A., Pugliese A. A probabilistic approach to model adaptive hypermedia systems. Proceedings of the International Workshop on Web Dynamics. 2001.

69. Cannataro M., Carelli G., Pugliese A., Sacca, D. Semantic lossy compression of XML data. Workshop on Knowledge Representation meets Databases (KRDB-2001) in conjunction with VLDB 2001.

70. С. M. Bowman, Peter B. Danzig, Darren R. Hardy, Udi Manber, and Michael F. Schwartz. The harvest information discovery and access system. Computer Networks and ISDN Systems, pages 119-125, December 1996.

71. Daphen К. and Sahami Mehran. Hierarchically classifying documents using very few words. In Proc. of the ICML'97, pages 170-178,1997.

72. De Bra P., Aerts A., Houben G.J., Wu H. Making General-Purpose Adaptive Hypermedia Work. Proceedings of the WebNet Conference. 2000. P. 117-123.

73. Deerwester S., Dumasis S., Furnas G., Landauer Т., Harshman R. Indexing by Latent Semantic Analysis.// Journal of the American Society for Information Science. Vol. 41.1990. P. 391-407.

74. Douglas L. Baker and Andrew Kachites McCallum. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103, 1998.

75. Gilbert, J. E. and Han C. Y. Arthur: Adapting Instruction to Accommodate Learning Style.// Proceedings ofWebNet'99 World Conference of the WWW and Internet Honolulu: HI. 1999. P. 433-438.

76. Halasz F., Schwartz M. The Dexter Hypertext Reference Model.// Communications of the ACM 37(2). 1994. P. 30-39.

77. Hardman L., Bulterman C., van Rossum G. The Amsterdam Hypermedia Model.// Communications of the ACM 37(2). 1994. P. 50-62.

78. Hoffman T. Unsupervised Learning by Probabilistic Latent Semantic Analysis.// Machine Learning. 2001. Vol. 42. P. 177-196.

79. Hoffman T. Probabilistic Latent Semantic Indexing.// Proc. Of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1999. P. 50-57.

80. Hohl, H., H.-D. Bocker, and R. Gunzenhauser. Hypadapter: An adaptive hypertext-system for exploratory learning and programming.// User Models and User Adapted Interaction.: 1996. Vol. 6.

81. Katsumoto M., M. Fukuda, Y. Shibata. The Kansei Link Method for Multime-diaDatabase.// 10th International Conference on Information Networking (ICOIN-IO). 1996. P. 382- 389.

82. Mukherjea, S., J. D. Foley, and S. Hudson. Visualizing complex hypermedia networks-through multiple hierarchical views.// СНГ95-Denver. 1995. P. 331337.

83. Murtagh F., Tao F. Towards knowledge discovery from WWW log data. Proceedings of the International Conference on Information Technology: Coding and Computing. 2000.

84. Raymie Stata, Krishna Bharat, and Farzin Maghoul. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.

85. Salton G., McGrill M.J. Introduction to Modern Information Retrieval.// McGraw-Hill. New York. 1993.

86. Smith M., Welty C., McGuinness D. OWL Web Ontology Language Guide// http://www.w3.org/TR/owl-guide/.

87. Vassileva. J. A task-centered approach for user modeling in a hypermedia office documentation system.// User Models and User Adapted Interaction. 1996. Vol. 6.

88. World Wide Web Consortium, http://www.w3.org.

89. Wieringa R., Dubois E., Huyts S. Integrating Semi-formal and Formal Requirements.// Proceedings of Conference on Advanced Information Systems Engineering. 1997. P. 19-32.

90. Wu H, Houben G.-J., De Bra P. (1998). AHAM: A Reference Model to Support Adaptive Hypermedia Authoring.// Proceedings of InfWet 98. 1998.

91. Zahn C.T. Graph-theoretical methods for detecting describing gestalt clusters.// IEEE Trans, on Computers. 1971. C-20(l). P. 68-86.

92. Кустов Д.В. Интеллектуальные агенты и базы данных/ Д.В. Кустов// Сборник материалов VII Всероссийской научной конференции "Решетневские чтения". Красноярск. 2003. - С. 230-231.

93. Кустов Д.В. Агентные технологии для поиска и сбора информации/ Д.В. Кустов// Материалы докладов всероссийской научной конференции молодых ученых. «Наука. Технологии. Инновации». Ч.1.- Новосибирск. 2003. -С. 187-189.

94. Кустов Д.В. Мультиагентные технологии поиска информации в распределенных источниках/ Д.В. Кустов// Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общей ред. профессора Н.В.Василенко Красноярск НИИ СУВПТ. 2003. - Вып. 14. - С. 22-30.

95. Кустов Д.В. PLSA-адаптация модели пользователя в открытой информационно-образовательной среде/ И.В. Ковалев, Д.В. Кустов// Журнал «Телекоммуникации и информатизация образования»-2004 № 6(25)-Москва. СГУ.-С. 41-51.

96. Кустов Д.В. XML-ориентированная модель гипермедиа/ Д.В. Кустов// Вестник университетского комплекса: Сб. научн. Трудов/ Под общей ред. профессора Н.В. Василенко; Красноярск: ВСФ РГУИТП, НИИ СУВПТ.-2005-Вып. 3(17).-С. 16-36.

97. Кустов Д.В. Активная модель пользователя в среде распределенных информационных ресурсов/ Д.В. Кустов// Решетневские чтения: материалы IX Междунар.науч.конф., посвящ.45-летию Сиб.гос.аэрокосмич.ун-т,-Красноярск, 2005.-С. 217-218.

98. Кустов Д.В. О новом подходе к формированию структуры корпоративных информационных систем/ Д.В. Кустов// Сборник ОМГПУ- Омск-2006.-С. 135-151.

99. Кустов Д.В. Модуль реализации активной модели пользователя. М.: ВНИТЦ, 2006. -№ 50200600031, Per. номер ОФАП 5544.

100. Кустов Д.В. Программная структура корпоративной системы с элементами адаптации. М.: ВНИТЦ, 2006. - № 50200600032, Per. номер ОФАП 5545.

101. Кустов Д.В., Слободин М.Ю., Огнерубов С.С. «Адаптивная метапоисковая система». Инвентарный номер ФАП: 5955. Код программы по ЕСПД: .03524577.01366-01.