автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Многоагентная система для поиска и обработки тематико-ориентированной информации

кандидата технических наук
Карцан, Игорь Николаевич
город
Красноярск
год
2007
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Многоагентная система для поиска и обработки тематико-ориентированной информации»

Автореферат диссертации по теме "Многоагентная система для поиска и обработки тематико-ориентированной информации"

На правах рукописи

¡1 /А^

¥

КАРЦАН Игорь Николаевич

МНОГОАГЕНТНАЯ СИСТЕМА ДЛЯ ПОИСКА И ОБРАБОТКИ ТЕМАТИКО-ОРИЕНТИРОВАННОЙ ИНФОРМАЦИИ

05 13.01 - Системный анализ, управление и обработка информации

Автореферат

диссертации на соискание ученой степени кандидата технических наук

ооз

Красноярск - 2007

003159849

Работа выполнена в Сибирском государственном аэрокосмическом университете имени академика М Ф Решетнева

Научный руководитель кандидат технических наук, доцент

Тяпкин Валерий Николаевич

Официальные оппоненты доктор технических наук, профессор

Терсков Виталий Анатольевич, Сибирский юридический институт МВД России

кандидат технических наук, доцент

Царев Роман Юрьевич,

ФГОУ ВПО «Сибирский федеральный

университет»

Ведущая организация Сибирский государственный технологический университет (г Красноярск)

Защита состоится « 25 » октября 2007 года в 13. часов на заседании диссертационного совета Д 212 249 02 при Сибирском государственном аэрокосмическом университете им акад. М.Ф. Решетнева по адресу г Красноярск, пр им. газ «Красноярский рабочий», 31

С диссертацией можно ознакомиться в библиотеке Сибирского государственного аэрокосмического университета

Автореферат разослан « 24 » сентября 2007 года.

Ученый секретарь диссертационного совета

И В. Ковалев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Информационные технологии и компьютерные информационно-поисковые системы занимают все более существенное место в науке и образовании Растает потребность в оперативном доступе к научно-образовательным материалам, использование которых способствует улучшению и ускорению процесса обучения. Все больше внимания уделяется Internet, как обширному справочному инструменту Причем развитие Internet-технологий не стоит на месте ежедневно увеличивается количество информационных ресурсов, предоставленных для открытого доступа, расширяется не только сфера развлечений и бизнеса, но и сфера науки и техники, в рамках которой растет объем тематико-ориентированной информации по всевозможным предметным областям. Так же развитие глобальной сети и широкие возможности подключения к ней обусловили существенное увеличение числа пользователей Internet

Однако, несмотря на популярность и динамичный рост глобальной сети, до сих пор при поиске информации перед пользователем возникает множество проблем. На текущий момент времени существует три подхода к организации поисковых машин в сети поисковые сервисы, каталоги и относительно новый подход, основанный на метапоисковых технологиях В рамках этих подходов принципы обработки и управления информацией существенно отличаются друг от друга Предпринимаются попытки по комбинированию существующих алгоритмов и методов Однако большинство выполняемых исследований, как правило, останавливаются, например, на этапе совмещения информационных баз, а не на выработке принципиально новых поисковых агентов или их комбинаций. А ведь именно комбинированные сервисы направлены на решение одной из важных проблем, связанной с информационной избыточностью сети Internet Реализация поисковых систем на базе агентного принципа позволяет производить модификацию отдельных агентов, не оказывая существенного влияния на работоспособность системы в целом.

Таким образом, диссертационное исследование направлено на решение представленной научной проблемы, включающей следующие аспекты

• поиск тематико-ориентированной информации для формирования и актуализации тематико-ориентированных коллекций (сервисов);

• компьютерный анализ тематико-ориентированной информации с целью определения принадлежности ее к предметной области, для отнесения документов к рубрикам тематической коллекции (сервиса);

• использование частотных характеристик терминов для определения коэффициента ранжирования информации в рамках тематической коллекции (сервиса),

• организация отклика системы для конечного пользователя тематико-ориентированной коллекции (сервиса)

Данные аспекты охватывают весь процесс работы тематико-ориентированного информационного сервиса, а решение поставленной проблемы требует разработки и реализации новых систем поиска и анализа сетевой информации на основе компьютерных методов обработки информации, что и обуславливает актуальность диссертационной работы

Объектом диссертационного исследования являются поисковые сервисы и тематико-ориентированные коллекции сети Internet.

Предмет исследований - модели и алгоритмы многоагентной сетевой поисковой технологии на основе компьютерных методов обработки информации

Цель диссертационной работы: повышение эффективности многоагентных систем для поиска, анализа и компьютерной обработки тематико-ориентированной информации за счет реализации новых поисковых технологий, основанных на специализированных тематических коллекциях

Поставленная цель достигается путем решения следующих задач

• анализ компьютерных систем поиска и метапоиска информации в глобальной сети Internet,

• анализ алгоритмов работы многоагентных систем поиска и обработки информации в сети Internet,

• анализ существующих подходов к мониторингу различных аспектов работы пользователей с информационными системами и используемых в них алгоритмов и методов моделирования объектов предметной области,

• модификация и разработка новых алгоритмов поиска и управления информацией в тематико-ориентированных коллекциях, обеспечивающих высокий уровнь релевантности поисковых процедур,

• разработка алгоритма определения уровня релевантности Internet-отклика запросу, удовлетворяющему предметной области и тематике запроса в рамках многоязычной предметной области, с использованием мультилингвистических частотных словарей,

• разработка алгоритма тематико-ориентированного мониторинга предпочтений пользователя информационной системы и метода определения тематических предпочтений пользователя,

• разработка независимой структуры многоагентной системы с возможностью применения предлагаемых агентов в любых системах поиска и обработки информации в сети Internet.

Методы исследования. При выполнении работы использовались методы системного анализа, методы поиска и управления информацией, методологии структурного анализа и проектирования сложных систем, статистические методы обработки данных, аппарат теории графов

Научной новизной обладают следующие результаты работы:

• алгоритм анализа отклика системы на пользовательский запрос при многоагентном поиске и обработке информации;

• алгоритмы ранжирования и определения релевантности узкоспециализированной информации для тематико-ориентированных коллекций;

• алгоритмическое обеспечение и архитектура подсистемы тематико-ориентированного мониторинга пользователей узкоспециализированной информационной коллекции,

• многоагентная система на базе метапоисковой технологии, обеспечивающая эффективное формирование и актуализацию тематико-ориентированных коллекций,

• структура и программная реализация многоагентной системы персонифицированного поиска и обработки тематико-ориентированной информации

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных компьютерных систем поиска и обработки тематико-ориентированной информации. Обоснована возможность применения частотных мультилингвистических тематических словарей для формирования и управления тематико-ориентированными коллекциями (сервисами)

Практическая значимость. Разработанное в диссертации модельно-алгоритмическое обеспечение позволяет повысить эффективность функционирования адаптивных многоагентных систем поиска информации и улучшить качество компьютерной обработки информации при анализе релевантности электронных документов Это возможно в рамках нового направления в поисковой технологии анализа и управления информацией в Internet, основанного на многоязычных тематико-ориентированных частотных словарях Разработанная в диссертации программная система обеспечивает автоматизированный поиск и формирование информационно-терминологического базиса

мультилингвистической адаптивно-обучающей технологии.

Реализация результатов работы. Диссертационная работа выполнялась в рамках проектов РНП 2 2 2.3 9676 «Модельно-алгоритмическое обеспечение мультилингвистической технологии интерактивного формирования многоязычных информационных ресурсов» и РНП 2 2 2.3 10144 «Программно-информационная технология интерактивного формирования многоязычных частотных словарей терминологической лексики» аналитической ведомственной целевой

программы "Развитие научного потенциала высшей школы (2006-2008 и 2007-2008 годы)"

В ходе работы над диссертацией реализованы три программные разработки, зарегистрированные в Отраслевом фонде алгоритмов и программ (ОФАП).

Разработанная автором диссертации многоагентная компьютерная система поиска и обработки тематико-ориентированной информации принята в опытную эксплуатацию на кафедрах Информатики, Информационных технологий и Юнеско НТиМ ФГОУ ВПО «Сибирский федеральный университет»

Апробация работы. Основные положения и результаты работы прошли апробацию на Х-й Всероссийской научной конференции с международным участием «Решетневские чтения» (Красноярск, 2006), на 47-49 научно-технической конференции преподавателей, аспирантов и студентов Красноярского государственного технического университета (2005-2007), на IX-й международной открытой научной конференции «Современные проблемы информатизации в технике и технологиях» (Воронеж, 2004), на научной конференции КРО НС «Интеграция» «Молодежь и наука - третье тысячелетие» (Красноярск, 2003) Докладывались на научно-технических семинарах Сибирского государственного аэрокосмического университета (2003-2007 гг.)

Публикации. Основные результаты диссертационной работы опубликованы в 15 работах автора (общим объемом 4,6 авторского листа), 5 работ опубликованы без соавторов Список работ помещен в конце автореферата

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения и списка литературы из 108 наименований

СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика проблемы, обоснована актуальность темы диссертационной работы, сформулированы цель и решаемые задачи, выдвигаются основные защищаемые положения, определена научная новизна результатов и их практическое значение

В первом разделе вводятся основные понятия и терминология, используемые для описания организации работы распределенных информационно-поисковых систем Рассматривается архитектура метапоисковой системы, которая предоставляет единый доступ к нескольким поисковым системам, т е обслуживает запросы пользователей за счет опроса других поисковых систем, которые полностью независимы и не предоставляют никакой специальной информации о содержимом своих индексов или используемых методов поиска Это приводит к тому, что при построении метапоисковых систем приходится решать ряд новых проблем Так, например, языки запросов, используемые в разных поисковых системах, зачастую сильно отличаются, и поэтому необходим

либо упрощенный язык поиска для метапоисковой системы, либо переформулировка запросов для каждой конкретной поисковой системы Другой проблема — слияние ответов от различных поисковых систем

Рассматривается базовая архитектура мультиагентной системы. Из результатов анализа, представленных в текущем разделе, следует, что поисковые мультиагентные системы являются некоторой разновидностью метапоисковых систем Если показать упрощенную типовую мультиагентную систему то в ней можно выделить четыре типа агентов интерфейсный агент, поисковый агент, агент проверки существования страниц, агент ранжирования страниц Структура подобной системы отражена на рис 1

Поисковая система 1

Поисковый 4 агеггг 1

н

Проверка существования

Пользователь

Интерфейсный агент

Поисковая система 2

А т

Поисковый агент 2

Проверка сущест-

Агент ранжирования страниц

1 Поисковая

\ система N

\ А *

Поисковый

агент N

Проверка сущест-

I

Рис 1 Структурная схема мультиагентаой поисковой системы

Интерфейсные агенты выполняют все операции по взаимодействию с пользователем, получают от него запрос на поиск, передают запрос поисковым агентам, осуществляют вывод результатов поиска пользователю, выполняют адаптацию поискового процесса к используемым поисковым системам Каждый поисковый агент взаимодействует с конкретной поисковой системой, передает ей запросы пользователя и возвращает результаты ее работы агенту проверки существования страниц Этот агент, в свою очередь, отсеяв несуществующие страницы, передает результат агенту ранжирования страниц Агент ранжирования страниц строит совокупный рейтинг всех найденных существующих страниц, упорядочивая страницы в соответствии с номером их следования у поисковых агентов, отбрасывая дублирующиеся ссылки, при этом, если страница и ее дубликат были возвращены различными поисковыми агентами, ее порядковый номер уменьшается Далее порядок следования страниц корректируется внутренним анализатором релевантности страниц запросу, и вносятся

поправки, вытекающие из пользовательских предпочтений. За счёт пользовательских предпочтений осуществляется адаптация поискового процесса к поисковым системам.

При реализации мультиагентноЙ поисковой системы используется гибридная архитектура. Все агенты, кроме поискового действуют по модели «стимул-реакция», а поисковые агенты имеют базу данных.

Во втором разделе анализируется проблема поиска информации в сети Интернет, включая задачи персонификации запросов пользователя, так как, по результатам совсрсменных исследований, большой процент пользователей Интернет не удовлетворены качеством поисковых сервисов.

Для сети Интернет представлена следующая классификация поисковых систем:

1. по принципу организации поисковой услуги:

• поисковые системы;

• каталоги;

• метапоисковые машины.

2. по принципу обрабатываемой информации:

• многоцелевые системы;

• специализированные системы.

Рис. 2 Организация поисковых систем Internet.

Необходимо отметить, что многоцелевые системы сопоставимы с поисковыми системами; специализированные системы сопоставимы с каталогами. Метапоисковые системы могут быть применимы как к многоцелевым, так и к специализированным системам, однако по характеру использования они все чаще склоняются к специализированным системам. Поэтому н рамках данной работы основное внимание уделено принципам организации поисковой услуги. Принципы организации поисковых систем Internet представлены на рис. 2. Однако, кроме

принципов организации поисковых систем, существенное значение на их работу оказывают следующие характеристики, привенденные ниже

• Релевантность При поиске в Internet важны: полнота охвата (ничего не потеряно из имеющейся информации) и точность (не найдено лишней), т е., релевантность есть степень отношения ответа запросу Каждая поисковая машина имеет свой алгоритм сортировки результатов поиска Чем ближе к началу списка стоит нужный вам документ, тем выше релевантность Проверить ее можно только экспериментально Для сравнения рекомендуется делать запросы различной длины

• Охват и глубина поиска Под этим понимается объем базы поисковой машины, который измеряется общим объемом проиндексированной информации, числом уникальных серверов и количеством документов, а под глубиной - наличие ограничения на количество страниц или глубину вложенности каталогов на одном сервере

• Скорость обхода и актуальность ссылок Скорость обхода сети показывает, насколько быстро происходит индексация последнего добавленного ресурса и обновляется информация в базе данных Важным показателем качества поисковой машины (ее работы) является не только индексация новых документов, но и отслеживание состояния уже проиндексированных, так как серверы исчезают и появляются, а и их страницы обновляются Ссылки, которые выдает поисковая машина в списке ответа, должны существовать, а их содержание — соответствовать запросу

• Скорость поиска Если поисковая машина отвечает медленно, то работать с ней неэффективно Стоит иметь в виду, что воспринимаемая пользователем скорость зависит не только от характеристик поисковой машины, но и от каналов связи

• Поисковые возможности (работа с языками документов и запросов) Важно, что именно и как поисковые машины вносят в индекс Полнотекстовая поисковая машина индексирует все слова текста, видимого пользователю Учет морфологии в языке запросов позволяет находить искомые слова во всех склонениях или спряжениях Кроме того, например, в языке HTML существуют теги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т п)

• Дополнительные возможности К ним относят, например, специализированные страницы, поиск похожих документов, ограничение области поиска, наличие списка найденных серверов, поиск по датам и серверам, удобный интерфейс машины и возможность его персонализации

Очевидно, что метапоисковые системы начинают приобретать все больший успех у пользователей за счет того, что они охватывают больший сегмент Internet, чем традиционные поисковые системы При этом метапоисковая система может быть реализована как в самой Сети, например, на Telnet- или Web-доступном узле, так и в виде локальной

клиентской программы (www listsoft ги, раздел «Программы-Поиск»). Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на поисковые системы и возвращает результаты поиска. Каждая метапоисковая система использует базы данных традиционных поисковиков при осуществлении поиска Опрашиваемые ресурсы представлены в работе

Повысить качество предоставления информационно-поисковых услуг пользователям сети можно благодаря использованию персонификации, то есть предоставления информационного наполнения и услуг индивидуальным пользователям в соответствии с их требованиями и с учетом данных об их предпочтениях и поведении. С этой целью в работе предлагается организовать тематико-ориентированный мониторинг пользователей узкоспециализированной информационной коллекции

Тематики можно представить в виде вектора Т из элементов, в котором каждый элемент представляет собой некоторую тематику Т = {tb , tj Во многих случаях документ может быть отнесен сразу к нескольким тематикам Все документы можно представить в виде вектора Р из г элементов, каждый из которых представляет документ Р = {pj, , Рг}

Связи документов с тематиками можно представить в виде матрицы Z, размером г на s элементов Элемент матрицы z4 характеризует степень принадлежности z-го документа к j-й тематике В общем случае элемент zv может принимать значение от 0 до 1

Для представления пользователей тематической коллекции должен автоматически создаваться профиль пользователя при первом посещении коллекции и сохраняться в течение продолжительного времени Всех пользователей можно представить в виде вектора их профилей U из m элементов U = {и¡, , ит}

Каждый элемент u„i = 1 т можно представить в виде следующего множества

и, = {Ри1, Q, Т, V}

Элемент Ри' описывает историю запросов документов коллекции пользователем Элемент Ри — это вектор, элементы которого описывают тематики запрошенных z-м пользователем документов Элементами вектора Ри' являются двойки вида Ри] = {р, d}, где р — индекс запрошенного пользователем документа в векторе Р, a d — дата запроса этого документа Элементы вектора Ри' упорядочены по возрастанию времени d То есть последний запрошенный документ будет последним элементом вектора Количество элементов вектора Ри' ограничено Элементы, с момента d которых прошло больше определенного времени, удаляются из вектора Ри' Новые элементы добавляются в вектор Pi/ при запросе документов коллекции Тематические предпочтения г-го пользователя определяются по этому вектору.

Элементы вектора Q' представлют персонифицированную очередь элементов коллекции для показа z'-му пользователю Элемент Т представляет тематические предпочтения z-го пользователя, используемые системой в текущий момент. Элемент Т — это вектор из s элементов

Каждый из элементов вектора Т описывает долю одной из тематик в тематических предпочтениях пользователя Элемент вектора Т может принимать значения от 0 до 1, сумма значений элементов вектора Т равна единице Вектор Т также можно рассматривать как координаты точки, представляющей тематические предпочтения пользователя в 5-мерном пространстве тематик D

Элемент L' представляет персонифицированное меню ссылок на документы коллекции, тематики которых близки к тематическим предпочтениям г-го пользователя. Элемент L' является вектором, каждый элемент которого представляет собой индекс документа в векторе Р

В третьем разделе представлены усовершенствованные алгоритмы поиска и обработки мультилингвистической информации, реализованные в составе многоагентной системы. Используются информационно-поисковые модели алгебраического типа Известно, что они являются наименее ресурсоемкими и, как правило, алгебраические модели выступают в качестве базиса для создания гибридных подходов

В работе предлагается новый алгоритм ранжирования с использованием весов сайта, позволяющий упорядочить полученные ссылки с множества сайтов Internet как внутри одного языкового множества, так и для многомерного языкового множества (мультилингвистическая реализация алгоритма)

Рассмотрим поиск информации сразу по нескольким языкам Данная процедура применима при опросе сети Internet в разных языковых сегментах одновременно В результате получается множество ссылок на разноязычные документы djr Проводится отсев дублирующихся ссылок и вычисляется вес ссылки на документ Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора

dy=(RangDoc,y,RangDoc2y, ,RangDoc(1)

Л

RangDoc (RangSite ,y * RangSiteDo c,y ) * Docly ^ (2)

i=/

где i - номер опрашиваемого сайта (z = 1, ,ri), n - количество опрашиваемых сайтов, j - номер ссылки из множества ссылок, выданных всеми опрошенными поисковыми сайтами, без дублей (/ = 1, ,r), г -количество ссылок без повторений, у - номер языкового множества (у = 1, ,m), m - количество опрашиваемых языковых множеств, RangDoc№ -получаемый ранг j-оя страницы j-ro языкового множества, RangSite,у -ранг г-го сайта в текущей предметной области >>-го языкового множества на данный момент времени, RangSiteDoc,y - ранг ссылки на страницу внутри г'-го поискового сайта у-го языкового множества Если в результате

отклика с 1-го поискового сайта у-то языкового множества нет ссылки на рассматриваемую ссылку, то Рмп^йеОос^ =0 Е)осу - признак включения документа в результирующую выборку Если документ включен то 1)осд =1, в противном случае - О

В работе предложен алгоритм определения ранга сайта по каждой предметной области Как данный алгоритм, так и рассмотренная процедура отлично работают на этапе формирования и пополнения тематических коллекций, однако при работе с запросами пользователей более целесообразно использовать процедуру ранжирования пользовательского запроса, последовательность операций которой

Рис 3 Алгоритм ранжирования

Отметим основные моменты, связанные с модификацией предыдущей версии алгоритма В первую очередь, это касается расчета ранга сайта. Авторский подход исключает ситуацию, когда характеристика ранга сайта принимала отрицательное значение и это опражалось на расчете ранга документов Принцип расчета ранга документа в поисковом сайте также претерпел изменения. Если в предыдущем случае этот ранг мог принимать значение 0 для последней ссылки и все значения полученных рангов были на единицу ниже, чем в поисковых сайтах, то теперь данная проблема решена. В результате этого исключено несоответствие расчетных значений и значений, полученных из поисковых сайтов.

Алгоритм определения релевантности узкоспециализированной информации для тематико-ориентированных коллекций является двухэтапным и работает как на этапе формирования, так и на этапе актуализации тематической коллекции (см. рис.4).

>

По термов и документе

<ч>

Расчет веса тери в хкжумвнгс

(»тЗос у)

С

1 <

Псшучнкнв вваа терма на словаря

1>

А

ТоиучеШ!

Приведа*»»

■»тЗос у и ^сЬс 1

к одной размерности *

рологмтюст« терке (Я.1 ц)

а.

(' Ок»в шрлкыианых ллкунегмпд

критериям

1

Рис. 4 Алгоритм определения реле и а! гги ости документа,

При этом на каждом этапе предусмотрен режим использования мультилингвистического частотного словаря То есть при актуализации, например, в качестве весовых коэффициентов термов более целесообразно использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом веса термов из словаря Шаги работы предлагаемого алгоритма представлены на рис 4

В рамках алгоритма тематико-ориентированного мониторинга предпочтений пользователя заносится информация о тематиках запрошенного документа коллекции в профиль пользователя и определяются его тематические предпочтения Алгоритм должен запускаться при запросе каждого документа Шаги алгоритма показана на рисунке 5

ГОпределить тематики запрошенногоЛ I пользователем документа )

_%_

/Занести тематики запрошенного документа^ I в историю запросов пользователя )

Г Корректировать веса тематик^ \в предпочтениях пользователя)

Рис 5 Алгоритм тематико-ориентированного мониторинга предпочтений пользователя

На начальном этапе определяются тематики запрошенного документа =^.1>г.г> > 2• = > Регистрируется запрос документа в истории запросов в профиле пользователя, то есть в вектор Ри' профиля пользователя добавляется новый элемент Ри) = {р, <!}, где р — индекс страницы в векторе Р,а<1 — дата запроса страницы Затем определяются тематические предпочтения пользователя Из элементов, содержащихся в векторе Ри профиля пользователя и представляющих собой двойки вида Ри) = {р, с1}, извлекаются элементы р, содержащие индексы элементов вектора Р, соответствующих запрошенным пользователем документам Из матрицы 2, характеризующей связи документов с тематиками, извлекаются строки, описывающие связи запрошенных пользователем документов с тематиками, и заносятся в матрицу Н Число строк в матрице Н равно количеству элементов вектора Ри\ то есть числу посещенных пользователем документов, информация о посещении которых была занесена в его историю посещений Обозначим это число как к Матрица Я

описывает связи посещенных пользователем документов с тематиками Из матрицы Я формируется вектор Т, характеризующий тематические предпочтения пользователя, у-й элемент вектора Т характеризует степень заинтересованности пользователя в ;-й тематике Элементы вектора Т вычисляются по формуле

к к к ХАп ХЛ,2 ИКз

Т = Г '=0 1'0 1=0 ^

Таюш образом, вектор тематических предпочтений /-го пользователя Т в его профиле является результатом работы алгоритма Следует отметить, что предложенный алгоритм обработки запроса документа может быть использован при проведении мониторинга тематических предпочтений пользователей в любых информационных системах

В разделе представлен алгоритм формирования персонифицированного навигационног меню ссылок на документы коллекций Этапы данного процесса показаны на рис 6

навигационного меню

Условия для формирования нового персонифицированного навигационного меню, то есть запуска данного алгоритма, следующие

- пользователь запросил первую страницу на сайте за текущий день или вторую (третью, пятую ) по счету страницу веб-сайта,

- тематические предпочтения пользователя значительно изменились,

- в коллекцию было добавлено более пяти (двух, десяти ) новых документов с момента последнего формирования персонифицированного меню для пользователя

В четвертом разделе представлена разработка многоагентной системы для поиска и обработки тематико-ориентированной информации, структурная схема которой представлена на рис 7

Как видно из структуры предлагаемой системы, принимая во внимание цели данной диссертационной работы, реализованы три логически связанные программные подсистемы Первая из них отвечает за поиск информации в Internet (формирование мультилингвистической тематической коллекции) и определение релевантности документов из тематических каталогов

Вторая подсистема отвечает за управление тематической коллекцией с точки зрения пользователя данной системы Основные проблемы, с которыми сталкивается пользователь - это обработка информации из смежных предметных областей тематических коллекций, а так же хранение и обработка многоязычной информации в рамках тематико-ориентированных коллекций Решение задачи ранжирования отклика системы на запрос пользователя является наиболее актуальным при реализации данной подсистемы

Третья подсистема отвечает за тематико-ориентированный мониторинг предпочтений пользователя узкоспециализированной коллекции и предоставление ему персонифицированной поддержки навигации

В рамках данного раздела предлагается алгоритм и архитектура подсистемы темагико-ориентированного мониторинга пользователей узкоспециализированной информационной коллекции

Интерфейсный агент

Пользователь

Тематико-ориентированный мониторинг Агент управления персофиникацией

Обработка информации^---'" ) Агент сопоставления документа 5 предметной области

Информационно -управляющий агент / \\ * \\

А N1

Агент определения ( релевантности

-1 'Л

Агент обработки отображением информации \\ Агент ранжирования информации

Поиск информации

Поисково-управляющий агент

Агенты поиска информации /

Агент поиска информации в 1 поисковом сервисе

1 языкового —-^множества

Агент поиска информации в 1 поисковом сервисе ] языкового множества

Л

эи сков ом сервисе п языкового множества

а:

Рис 7 Обобщенная схема многоагентой системы

На рис 8 и 9 представлены рабочие окна системы, характеризующие этапы работ, связанные с проведением ранжирования и определения релевантности документов тематической коллекции

г нат<ыои иокунсмюп шосноис мул ын/1И и генетического чосющою с;юп<1рн |[Т< ]

ТГ^ЛМ^ТН ЛП П(5п,

Язык 1'У11К1» (Поисковые с*?

Строке поиске: ¡системный вт»влиЛлтр;Ьятр;о6ра6огкв ИпфоривиИпвытр^влтр.;»»

И>кемить преднетную область..

сры: тоткк, Н<Н1|Ысг. Ьииц1и)

]_£тр»

1 ГИКК* и»

АНВЛИ»НрОв*Ть СЛСЛУНШН копич*сг»0 ДОКуЯ*«ТС*

' 30

донумг-итш

Русский а^ч-лийскм* Коиоцкий 1№. ЬИр

ьирг/Л

Ь«р

Ц^ггм.

7/мр|>.

в.,

и. .1 м»>л,'

vlsu.nl/lnde

Документ Объем

.. Паспорта спецнапыю. < • И *

■. 'МискйШКн^Ги уАарс'.ГПэ 1Й

|Сист»НЧМЙ __ _|зтгз

ТОННЫЙ

Э.01 СИСТГ " 63=1

lu.ru,..'------

а

ЫДр;//!*»■

Ь," "" • •

ги/,

ПС

,. Првгра»^и курса: г С... !ОЕ / М*яд)тп*|)Ш111г..

.. омдйар^- Метод дна

.£ГУИР , Институт Лигтянич

Рис. 8 Результат проведения ранжирования.

¥ Сое юило кно но юлою иоиумеию« ноосномс мулк(м/1нн1ансткчотого частотного слопаря

Тр*Ди*Т«ло» обплгт*. Гиг гмчньь М<кЛй|

Я|ЫК Русским (Поисковые ссЮвРОы; Н«П>Ы*Г. Гк>оок)

I ^

~трока поиске: ,смстемав»ат;а;Ьлтс-|;конпь*гтврн«я упр*олвммяв«*гг4з;в«л | строка гюнека словаря...

Анализировать следующее количество документов ' 10

НАИДРННЫГ дпиунгиты

Русский АнггийсггиЛ ИвпйЦКиЛ Ши. Документ

.....кий

КС гиГ Ьг^р /. гг4гго*Ы ЫЬр^Г/^ЛЛ.ейГгЭГиШ. ..

: //■даил. mOb.ru/> КЙО: //илч^,-течп, р-г!^ |

!//имнк.сат^Лв... |К.оргчлрат

.¡Пресс рст.

| Очжделить рвПММГИ)

| Гпхржм^тк. ■ квталог

Рис. 9 - Результаты определения релевантное™.

Необходимо отметить, что на всем протяжении работы с документами их можно просматривать. Пользователь системы может не только прочитать содержимое документа, но и увидеть статистику термов в документах. Так же можно посмотреть информацию о релевантности данного документа предметной области.

В заключении диссертации приведены основные результаты, полученные в ходе выполнения работы, и сформулированы выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведен анализ многоагентных систем поиска и метапоиска информации в глобальной сети Интернет. Показано, что использование

мультилингвистических частотных узкоспециализированных словарей для поисковых технологий в сети Internet повышает эффективность сетевых поисковых сервисов как при определении уровня релевантности, так и при ранжировании информации

2 В результате выполненного анализа существующих подходов к мониторингу различных аспектов работы пользователей тематических коллекций предложен и реализован алгоритм обработки запроса пользователя тематической коллекции с учетом его требований и информации об истории документов, хранимых в системе, что позволяет автоматизировать анализ результатов отклика системы

3 Впервые предложены и реализованы алгоритмы поиска, ранжирования и определения релевантности исходной информации с использованием мультилингвистических тематических словарей для формирования мультилингвистических тематико-ориентированных информационных коллекций

4 Реализованы и апробированы процедуры применения мультилингвистических частотных словарей для поиска узкоспециализированной информации в Internet, позволяющие производить персонифицированный поиск при максимальном охвате заданного сегмента сети Internet

5 Разработан и реализован алгоритм обработки информации для определения уровня релевантности документов в отклике системы, что позволяет производить отсев нерелевантных документов в автоматизированном режиме За счет этого время на обработку отклика снижается на 90% по сравнению с ручным режимом обработки информации

6 Разработано алгоритмическое обеспечение и архитектура системы тематико-ориентированного мониторинга пользователей сети Internet и ее программная реализация в виде модельного прототипа, включающее алгоритмы тематико-ориентированного мониторинга предпочтений пользователя системы и формирования персонифицированного навигационного меню пользователя

7 Предложена и реализована принципиально новая структура многоагентной системы поиска и обработки информации, которая включает следующие блоки интерфейсный агент, блок поиска информации с использованием тематико-ориентированных частотных многоязычных словарей, блок обработки информации, который так же использует тематико-ориентированные частотные многоязычные словари, блок тематико-ориентированного мониторинга (на основе профиля пользователя)

Таким образом, предложенная и реализованная в данной диссертационной работе система, позволяет эффективно решать задачи формирования и управления тематическими коллекциями узкоспециализированной информации с использованием частотных мультилингвистических словарей в сети Internet, что имеет существенное

значение для теории и практики решения задач анализа и обработки мультилингвистической информации

Перспективным направлением является дальнейшее развитие предлагаемых алгоритмов и методик определения релевантности и ранжирования информации в поисковых сервисах сети Internet

Публикации по теме диссертации:

1 Карцан, ИН Метапоисковая мультилингвистическая система [Текст] / М В Карасева, И Н Карцан, П В Зеленков // Вестник СибГАУ Сб научн трудов/ Под общ ред проф Г П Белякова, Красноярск СибГАУ -2007-Вып 3(16) - С 130-131

2 Карцан, И Н Активная модель мультиязычных запросов пользователя в информационно-управляющих системах [Текст] / ИН Карцан, Д В Кустов, С А Яркова // Вестник СибГАУ Сб научн трудов/ Под общ ред проф Г П Белякова, Красноярск СибГАУ - 2007 - Вып 3(16) -С 131-135

3 Карцан, И Н Современные поисковые системы в сети Интернет анализ принципов работы и классификация [Текст] / ИН Карцан, В В Кожевников, П В Зеленков // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ - 2006 -Вып 23 -С 221-227

4 Карцан, И Н Интеллектуализация поиска информации в корпоративных системах [Текст] / И Н Карцан, П М Лохмаков, Ю Д Цветков // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ -2006 - Вып 23 -С 141-156

5 Карцан, ИН Инструментарий поисковых систем сети Интернет [Текст] / ПВ Зеленков, ИН Карцан, ПМ Лохмаков // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ -2006 -Вып 23 -С 103-118

6 Карцан, ИН Многоагентная система компьютерной обработки узкоспециализированной информации [Текст] / ИН Карцан // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ -2006 -Вып 24 - С 3-9

7 Карцан, И Н Алгоритмическое обеспечение тематико-ориенгированного мониторинга и персонификации информационных ресурсов [Текст] / И Н Карцан // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ - 2006 -Вып 24 - С 10-15

8 Карцан, ИН Способ формирования сигнала для передачи по современным каналам связи [Текст] / И Н Карцан, В Н Тяпкин // Решетневские чтения материалы X Междунар науч конф , посвящ 82-летию со дня рождения генерального конструктора ракетно-космических систем академика М Ф Решетнева - Красноярск СибГАУ - 2006 - С 322324

9 Кардан, И Н Применение вейвлетов при компьютерном анализе специальных функций и сигналов в сети [Текст] / ИН Карцан // Информационные технологии моделирования и управления Международный сборник научных трудов Выпуск 12 / Под ред проф О Я Кравца - Воронеж Издательство «Научная книга», 2004 - С 74-78

10 Карцан, ИН Анализ вариантов развития информационных технологий в корпоративных структурах [Текст] / ИН Карцан // Современные проблемы информатизации в технике и технологиях Сб трудов Вып 9 / Под ред проф О Я Кравца- Воронеж Издательство «Научная книга», 2004 - С 229-231

11 Карцан, ИН Анализ синусоидального сигнала с разрывами [Текст] / И Н Карцан // Сб материалов научной конференции студентов, аспирантов и молодых ученых «Молодежь и наука - третье тысячелетие»/ Сост Сувейзда В В , КРО НС «Интеграция» Красноярск, 2003 - С 304305

12 Карцан, И Н Мультиагентные технологии поиска информации в распределенных источниках [Текст] / И Н Карцан, Д В Кустов // Вестник НИИ СУВПТ Сб научн трудов/ Под общ ред проф Н В Василенко, Красноярск НИИ СУВПТ -2003 -Вып 14 -С 22-30

Разработки, прошедшие регистрацию в Отраслевом фонде алгоритмов и программ:

13 Карцан ИН, Карасева MB, Зеленков ПВ, Рагзин ДА, Брезицкая В В Метапоисковая мультилингвистическая система поиска узкоспециализированной информации - М ВНТИЦ, 2007 - № 50200701673, Per номер ОФАП 8891

14 Карцан И Н, Карасева М В , Зеленков П В , Усачев А В , Энгель Е А Сетевая мультилингвистическая система адаптивного обучения - М ВНТИЦ, 2007 - № 50200701505, Per номер ОФАП 8738

15 Карцан И Н, Карасева М В, Огнерубов С С , Усачев А В , Энгель Е А Нейросетевая мультилингвистическая система адаптивного обучения Neuro-Teacher ver 10 - М ВНТИЦ, 2006 - № 50200601715, Per номер ОФАП 8703

Карцан Игорь Николаевич

Многоагентная система для поиска и обработки тематико-ориентированной информации

Автореферат

Подписано к печати 21 09 2007 Уч изд л 1 0 Тираж 100 экз

Формат 60x84/16

Заказ

Отпечатано в СибГАУ 660014, г Красноярск, пр им газ «Красноярский рабочий», 31

Оглавление автор диссертации — кандидата технических наук Карцан, Игорь Николаевич

Введение.

1 Мультиагентпые системы.

1.1 Основные понятия.

1.2 Архитектуры мультиагентпых систем.

1.3 Проектирование мультиагентных систем.

1.4 Агеитные системы и поиск информации.

1.5 Типовая структура и алгоритмы поисковой мультиагентной системы.

Выводы по разделу 1.

2 Принципы организации поисковых систем сети Internet.

2.1 Проблемы поиска в Интернете.

2.2 Виды и принципы работы поисковых систем.

2.3 Особенности поисковых систем и каталогов.

2.4 Принципы организации поисковых систем.

2.5 Метапоисковые системы.

2.6 Персонифицированная поддержка навигации в сети Internet.

2.7 Этапы процесса персонификации.

2.8 Системы создания информационных ресурсов и информационные ресурсы с поддержкой персонификации.

2.9 Перспективы применения персонификации в информационных системах.

Выводы по разделу 2.

3 Модели и алгоритмы многоагентных систем поиска и обработки мультилиигвистической информации.

3.1 Обобщенный алгоритм работы поисковых систем.

3.2 Модели информационного поиска.

3.3 Алгоритмическое обеспечение тематико-ориентированного мониторинга и персонификации.

3.4 Оценка качества поисковых алгоритмов.

Выводы по разделу 3.

4 Система формирования и управления тематическими коллекциями узкоспециализированной информации.

4.1 Функциональная структура системы.

4.2 Алгоритм работы подсистемы формирования тематико-ориентированных коллекций.

4.3 Алгоритм работы подсистемы обработки пользовательского запроса.

4.5 Реализация алгоритмов системы поиска информации.

4.6 Реализация алгоритмов системы обработки пользовательского запроса.

4.7 Архитектура подсистемы тематико-ориентированного мониторинга.

4.8 Проведение эксперимента.

Выводы по разделу 4.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Карцан, Игорь Николаевич

Информационные технологии и компьютерные информационно-поисковые системы занимают все более существенное место в науке и образовании. И, естественно, возрастает потребность в оперативно доступных научно-образовательных материалах, позволяющих одновременно улучшить и ускорить как процесс обучения, так и научно-технический прогресс. Кроме того, в последние годы отмечается рост количества иностранной литературы, необходимой студентам, специалистам и инженерам, а также научным сотрудникам, что обуславливает потребность в иностранной научно-технической и познавательной информации. Поэтому неудивительно, что все больше внимания уделяется Internet, как обширному справочному инструменту. Это не случайно, тенденция развития Internet-технологий не стоит на месте. Ежедневно увеличивается количество информационных ресурсов, предоставленных для открытого доступа, увеличивается сфера развлечений и бизнеса. Все это позволяет сделать вывод о том, что увеличивается объем те-матико-ориентированной информации по всевозможным предметным областям. Так же развитие глобальной сети и широкие возможности подключения к ней обусловили увеличение числа пользователей Internet.

Однако, несмотря на популярность и динамический рост глобальной сети, Internet до сих пор при поиске информации возникает множество вопросов. На текущий момент времени можно выделить три типа поисковых машин в сети: поисковые сервисы, каталоги и относительно новый вид - ме-тапоисковые технологии. Самое интересное в их работе состоит то, что их принципы обработки и управления информации существенно отличаются друг от друга. На текущий момент времени производятся попытки по комбинированию данных алгоритмов и методов. Однако большинство данных исследований останавливаются только на этапе совмещения информационных баз, а не на выработке принципиально новых комбинированных поисковых агентов. А ведь комбинированные сервисы позволят решить проблему информационной избыточности сети Internet. Также большинство крупных поисковых систем строится на агентном принципе, что позволяет производить модификацию отдельных агентов не зависимо от работоспособности системы в целом.

Диссертационное исследование направлено на решение следующей научной проблемы, включающей: поиск тематико-ориентированной информации для формирования и актуализации тематико-ориентированных коллекций (сервисов); компьютерный анализ тематико-ориентированной информации с целью определения принадлежности ее к предметной области, для отнесения документов к рубрикам тематической коллекции (сервиса); использование частотных характеристик терминов для определения коэффициента ранжирования информации в рамках тематической коллекции (сервиса); организация отклика системы для конечного пользователя тематико-ориентированной коллекции (сервиса).

Наличие данных проблем, которые охватывают весь процесс работы тематико-ориентированного информационного сервиса, и обуславливает актуальность работы.

Объектом диссертационного исследования являются поисковые сервисы и тематико-ориентированные коллекции сети Internet.

Предмет исследований - модели и алгоритмы многоагентной сетевой поисковой технологии на основе компьютерных методов обработки информации.

Цель диссертационной работы: повышение эффективности много-агентных систем для поиска, анализа и компьютерной обработки тематико-ориентированной информации за счет реализации новых поисковых технологий, основанных на специализированных тематических коллекциях.

Поставленная цель достигается путем решения следующих задач:

• анализ компьютерных систем поиска и метапоиска информации в глобальной сети Internet;

• анализ алгоритмов работы многоагентных систем поиска и обработки информации в сети Internet;

• анализ существующих подходов к мониторингу различных аспектов работы пользователей с информационными системами и используемых в них алгоритмов и методов моделирования объектов предметной области;

• модификация и разработка новых алгоритмов поиска и управления информацией в тематико-ориентированных коллекциях, обеспечивающих высокий уровнь релевантности поисковых процедур;

• разработка алгоритма определения уровня релевантности Internet-отклика запросу, удовлетворяющему предметной области и тематике запроса в рамках многоязычной предметной области, с использованием мультилингвистических частотных словарей;

• разработка алгоритма тематико-ориентированного мониторинга предпочтений пользователя информационной системы и метода определения тематических предпочтений пользователя;

• разработка независимой структуры многоагентной системы с возможностью применения предлагаемых агентов в любых системах поиска и обработки информации в сети Internet.

Методы исследования

При выполнении работы использовались методы системного анализа, методы поиска и управления информацией, методологии структурного анализа и проектирования сложных систем, статистические методы обработки данных, аппарат теории графов.

Научной новизной обладают следующие результаты работы:

- алгоритм анализа отклика системы на пользовательский запрос при многоагентном поиске и обработке информации;

- алгоритмы ранжирования и определения релевантности узкоспециализированной информации для тематико-ориентированных коллекций;

- алгоритмическое обеспечение и архитектура подсистемы тематико-ориентированного мониторинга пользователей узкоспециализированной информационной коллекции;

- многоагентная система на базе метапоисковой технологии, обеспечивающая эффективное формирование и актуализацию тематико-ориентированных коллекций;

- структура и программная реализация многоагентной системы персонифицированного поиска и обработки тематико-ориентированной информации.

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных компьютерных систем поиска и обработки тематико-ориентированной информации. Обоснована возможность применения частотных мультилингвистических тематических словарей для формирования и управления тематико-ориентированными коллекциями (сервисами).

Практическая ценность

Разработанное в диссертации модельно-алгоритмическое обеспечение позволяет повысить эффективность функционирования адаптивных много-агентных систем поиска информации и улучшить качество компьютерной обработки информации при анализе релевантности электронных документов. Это возможно в рамках нового направления в поисковой технологии анализа и управления информацией в Internet, основанного на многоязычных тематико-ориентированных частотных словарях. Разработанная в диссертации программная система обеспечивает автоматизированный поиск и формирование информационно-терминологического базиса мультилингвистической адаптивно-обучающей технологии.

Использование системы позволяет:

• эффективно формировать и управлять тематико-ориентированными коллекции узкоспециализированных источников информации (журнальные статьи, книги, монографии, диссертации и т.п. по заданным предметным областям);

• производить автоматизированный анализ тематических коллекций на качество представленной в них информации с точки зрения принадлежности к предметной области.

Реализация результатов работы

Разработанная автором диссертации компьютерная система поиска и обработки информации принята в опытную эксплуатацию на кафедрах Информатики, Информационных технологий и Юнеско Сибирского федерального университета.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения и списка использованной литературы из 108 наименований.

Заключение диссертация на тему "Многоагентная система для поиска и обработки тематико-ориентированной информации"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведен анализ многоагентных систем поиска и метапоиска информации в глобальной сети Интернет. Показано, что использование мультилингвистических частотных узкоспециализированных словарей для поисковых технологий в сети Internet повышает эффективность сетевых поисковых сервисов как при определении уровня релевантности, так и при ранжировании информации.

2. В результате выполненного анализа существующих подходов к мониторингу различных аспектов работы пользователей тематических коллекций предложен и реализован алгоритм обработки запроса пользователя тематической коллекции с учетом его требований и информации об истории документов, хранимых в системе, что позволяет автоматизировать анализ результатов отклика системы.

3. Впервые предложены и реализованы алгоритмы поиска, ранжирования и определения релевантности исходной информации с использованием мультилингвистических тематических словарей для формирования мультилингвистических тематико-ориентированных информационных коллекций.

4. Реализованы и апробированы процедуры применения мультилингвистических частотных словарей для поиска узкоспециализированной информации в Internet, позволяющие производить персонифицированный поиск при максимальном охвате заданного сегмента сети Internet.

5. Разработан и реализован алгоритм обработки информации для определения уровня релевантности документов в отклике системы, что позволяет производить отсев нерелевантных документов в автоматизированном режиме. За счет этого время на обработку отклика снижается на 90% по сравнению с ручным режимом обработки информации.

6. Разработано алгоритмическое обеспечение и архитектура системы тематико-ориентированного мониторинга пользователей сети Internet и ее программная реализация в виде модельного прототипа, включающее алгоритмы тематико-ориентированного мониторинга предпочтений пользователя системы и формирования персонифицированного навигационного меню пользователя.

7. Предложена и реализована принципиально новая структура мно-гоагентной системы поиска и обработки информации, которая включает следующие блоки: интерфейсный агент; блок поиска информации с использованием тематико-ориентированных частотных многоязычных словарей; блок обработки информации, который так же использует тематико-ориентированные частотные многоязычные словари; блок тематико-ориентированного мониторинга (на основе профиля пользователя).

Таким образом, предложенная и реализованная в данной диссертационной работе система, позволяет эффективно решать задачи формирования и управления тематическими коллекциями узкоспециализированной информации с использованием частотных мультилингвистических словарей в сети Internet, что имеет существенное значение для теории и практики решения задач анализа и обработки мультилингвистической информации.

Перспективным направлением является дальнейшее развитие предлагаемых алгоритмов и методик определения релевантности и ранжирования информации в поисковых сервисах сети Internet.

ЗАКЛЮЧЕНИЕ

Библиография Карцан, Игорь Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Движение, А.Н. Гарантоспособные вычисления: от идей до реализации в проектах / А.Н. Движение, Ж.-К. Лапри // ТИИЭР № 5, 1986. с. 8-21.

2. Адомавичус, Г. Использование методов добычи данных для создания профилей потребителей / Г. Адомавичус, А. Тужилин //Открытые системы №05-06/2001

3. Атанов, Г.А. Структурирование понятий предметной области с помощью методов представления знаний/ Г.А. Атанов, И.Н. Пустынникова //Искусственный интеллект, №2, 1997. с.29-40.

4. Башмаков, А.И. Технология и инструментальные средства проектирования тренажерно-обучающих комплексов для профессиональной подготовки и повышения квалификации. Часть 1. /А.И. Башмаков, И.А. Башмаков //Информационные технологии. №6, 1999. - с.40-45.

5. Башмаков, А.И. Технология и инструментальные средства проектирования тренажерно-обучающих комплексов для профессиональной подготовки и повышения квалификации. Часть 2. /А.И. Башмаков, И.А. Башмаков //Информационные технологии. №7, 1999. - с.39-45.

6. Бовтенко, М.А. Компьютерная лингводидактика: Учеб. пособие. Новосибирск: Изд-во НГТУ, 2000.

7. Бунин О. Персонификация сайтов Internet / О. Бунин, А. Зыков // Computerworld // №15-16/2001.

8. Буч Г, Язык UML. Руководство пользователя / Грейди Буч, Джеймс Рам-бо, Айвар Джекобсон: Пер. с англ. Слинкин А. А. — 2-е изд., стер — М.: ДМК Пресс; СПб.: Питер, 2004. — 432 е.: ил.

9. Ван Лоун, Ч. Матричные вычисления. Издательство "Мир", Москва, 1999.

10. Вендров, А.М. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.

11. Вендров, A.M. Один их подходов к выбору средств проектирования баз данных и приложений //Системы управления базами данных. №3, 1995. - с.75-86.

12. Вторая ежегодной конференции «Поисковая оптимизация и продвижение сайтов». 2002 http://www.wmate.ru.konf.htm.

13. Гаврилова, Т.А. Адаптивный диалог и модель пользователя / Т.А. Гаври-лова, Е.В. Зудилова//Диалог-95: материалы международного семинара по компьютерной лингвистике и ее приложениям. Казань, 1995. - с.88-97.

14. Гаврилова, Т.А. Базы знаний интеллектуальных систем. / Т.А. Гаврилова, В.Ф. Хорошевский // СПб.: Питер, 2001. 384с.

15. Гмурман, В.Е. Теория вероятностей и математическая статистика. — Учеб. пособие. М.: Высш. шк., 2000, — 479 с.

16. Даконта, М. XML и Java 2. / М. Даконта, А. Саганич // СПб.: Питер, 2001. -384с.

17. Джексон, Г. Проектирование реляционных баз данных для использования с микро-ЭВМ. М.:Мир, 1991.

18. Зеленков, П.В. Автоматизация формирования информационно-терминологического базиса мультилингвистических обучающих техноло-гий/И.В. Ковалев, П.В. Зеленков//Телекоммуникации и информатизация образования. №3 (28), 2005. - С. 68-82.

19. Зеленков, П.В. Автоматизация формирования мультилингвистического информационного базиса систем адаптивного обучения терминологической лексике текст. дис. канд. тех. наук: 05.13.01 /Ковалев И.В. Красноярск, 2003 - 136 с. - библиогр. 126-136 с.

20. Зеленков, П.В. Проблема развития метапоисковых технологий/ П.В. Зеленков, Т.А. Ковалева// Вестник НИИ СУВПТ № 14: Сб. науных трудов /Под общей ред. профессора Н.В. Василенко. Красноярск: НИИ СУВПТ. - 2004. - Вып. 14. - С. 95-103.

21. Зеленков, П.В. Программная система «Multi-BasisOptimization у1.0»/Ковалев И.В., Зеленков П.В., Огнерубов С.С., Ежеманская С.Н.// Компьютерные учебные программы и инновации. №7, 2005. - С. 20-21.

22. Калянов, Г.Н. CASE структурный и системный анализ. Автоматизация и применение. М.: Изд-во «ЛОРИ», 1996.

23. Калянов, Г.Н. Консалтинг при автоматизации предприятий. Подходы, методы, средства. -М.: СИНТЕГ, 1997.

24. Калянов, Г.Н. Сравнение и проблема выбора методов структурного системного анализа / Г.Н. Калянов, A.B. Козлинский, В.Н. Лебедев //PC WEEK/RE. №34, 1996.

25. Калянов, Г.Н. Сравнительный анализ структурных методологий / Г.Н. Калянов, A.B. Козлинский, В.Н. Лебедев //Системы управления базами данных. №5, 1997. - с.75-78.

26. Карберри, С. Модели пользователя: проблема неадекватности //Новое в зарубежной лингвистике. Вып. 24. - М., 1989. - с.259-291.

27. Карцан, H.H. Метапоисковая мультилингвистическая система Текст. / М.В. Карасева, И.Н. Карцан, П.В. Зеленков // Вестник СибГАУ: Сб. на-учн. трудов/ Под общ. ред. проф. Г.П.Белякова; Красноярск: СибГАУ. -2007.-Вып. 3(16).-С. 130-131.

28. Карцан, И.Н. Инструментарий поисковых систем сети Интернет Текст. / П.В. Зеленков, И.Н. Карцан, П.М. Лохмаков // Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общ. ред. проф. Н.В.Василенко; Красноярск: НИИ СУВПТ. 2006. - Вып. 23. - С. 103-118.

29. Карцан, И.Н. Многоагентная система компьютерной обработки узкоспециализированной информации Текст. / И.Н. Карцан // Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общ. ред. проф. Н.В.Василенко; Красноярск: НИИ СУВПТ. 2006. - Вып. 24. - С. 3-9.

30. Карцан, И.Н. Алгоритмическое обеспечение тематико-ориентированного мониторинга и персонификации информационных ресурсов Текст. / И.Н.

31. Карцан // Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общ. ред. проф. Н.В.Василенко; Красноярск: НИИ СУВПТ. 2006. - Вып. 24. - С. 10-15.

32. Карцан, И.Н. Мультиагентные технологии поиска информации в распределенных источниках Текст. / И.Н. Карцан, Д.В. Кустов // Вестник НИИ СУВПТ: Сб. научн. трудов/ Под общ. ред. проф. Н.В.Василенко; Красноярск: НИИ СУВПТ. 2003. - Вып. 14. - С. 22-30.

33. Кириллов, В.П. ББАЭМ передовая технология разработки автоматизированных систем //Компьютеры + программы. - №2, 1994. - с. 8-17.

34. Когаловский М.Р. Перспективные технологии информационных систем. —М.: ДМК-Пресс. 2003. — 288с.

35. Кривошеев, А.О. Перспективные internet-технологии информационного обеспечения образовательных услуг Часть 1. / А.О. Кривошеев, Г.С. Го-ломидов, А.Н. Таран //Информационные технологии. №7, 1998. - с.38-44.

36. Макфредрис, П. Создание Web-страниц. М.: Астрель, 2004. - 230 с.

37. Манако, В. Коллекции интерактивных словарей для непрерывного обучения индивидуала. / В. Манако, А. Манако, К. Синица //Educational Technology & Society, 2001 № 4(1), http://ifets.ieee.Org/russian/depository/v4il/html/2.html

38. Марка, Д.А. Методология структурного системного анализа и проектирования SADT. М.: Метатехнология, 1993.

39. Медведев, А.В. Основы теории обучающихся систем. Учеб. пособие. Красноярск, КПИ, 1982. — 108 с.

40. Некрестьянов, И.С. Тематико-ориентированные методы информационного поиска текст. дис. канд. физ. мат. наук: 05.13.11 /Новиков Б.А. -Санкт-Петербург, 2000 136 с. - библиогр. 126-136 с.

41. Нелюбин, Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991.

42. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа- Томск: Изд-во НЛТ, 1997.-396 с.

43. Позин, Б.А. Современные средства программной инженерии для создания открытых прикладных информационных систем //Системы управления базами данных. -№1, 1995. с. 139-144.

44. Поисковый сайт Апорт. www.aport.ru

45. Поисковый сайт Рамблер. www.rambler.ru

46. Поисковый сайт Яндекс. www.yandex.ru.

47. Проект SESP (Search Engine Standards Project). Стандарты работы поисковых служб. http://www.searchenginewatch.com/standards/990204.html. -1999.

48. Результат исследования поведения более 20 млн. пользователей сети. -www.searchenginewatch.com/reports/netratings.html 1999.

49. Рубан А.И. Методы анализа данных. Учеб. пособие: В 2 ч. Ч. 1; КГТУ. Красноярск, 1994, —220 с.

50. Русский морфологический анализ. http://company.yandex.ru/articles/article 1 .html.

51. Русскин, В.М. Информационная методология SSADM: методика моделирования информационных потоков при разработке автоматизированных систем / В.М. Русскин, В.П. Кириллов //Компьютеры + программы. №3, 1995. - с.15-23.

52. Сайт толкового словаря. www.glossary.ru.

53. Серия опросов посвященных Internet активности. -http.V/www.yandex.ru.polling/index.html

54. Слынько Ю., Арсеньев С., Универсальная платформа интеллектуального бизнеса / Слынько Ю., Арсеньев С., // Открытые системы. — № 10/2001.

55. Стюарт Р., Норвиг П. Искусственный интеллект: современный подход, 2-е изд.: пер. с англ. — М.: Издательский дом «Вильяме», 2006. — 1408 с.

56. Талантов, М. Поиск в Интернете: подводные камни. // КомпьютерПресс №9, 1999.-е. 46-52.

57. Усачев, A.B. Мнемотехника мультилингвистического подхода. Труды XL Международной научной студенческой конференции "Студент и научно-технический прогресс": Информационные технологии. Новосибирск, НГУ, 2002г. С. 97-103.

58. Усачев, A.B. Нейросетевая кластеризация множественных значений терминологии с учетом лингвистической избыточности. Вестник НИИ

59. СУВПТ, сборник научных трудов, Красноярск, 2003г. С. 140-150.

60. Штрик, A. CASE: автоматизированное проектирование программного обеспечения //Монитор. №4,1992. - с.4-6.

61. Albrecht F., Koch N., Tiller T. SmexWeb: An Adaptive Web-based Hypermedia Teaching System.// Journal of Interactive Learning Research, Special Issue on Intelligent Systems/Tools in Training and Lifelong Learning. 2000. P. 367-388.

62. Andre E., Rist Т.: Towards a New Generation of Hypermedia Systems: Extending Automated Presentation Design for Hypermedia.// Report. DFKI GmbH. Saarbrucken. 1996.

63. Brusilovsky P. Methods and techniques of adaptive hypermedia.// User Modeling and User Adapted Interaction. 1996. Vol. 6. P. 87-129.

64. Cohn, D. Learning to probabilistically identify authoritative documents. In Proc. 17th International Conf. on Machine Learning, pages 167-174,2000.

65. Cutler M., Sterne J.: «E-Metrics» NetGenesis Corp., 2000

66. Danny Sullivan. Invisible Web Gets Deeper. 2000. http://www.searchenginewatch.com/sereport/00/08-deepweb.html

67. Dumais, S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text REtrieval Conference, 1995.

68. Fink J., Kobsa A. A Review and Analysis of Commercial User Modeling Servers for Personalization on the WWW.// User Modeling and User-Adapted Interaction. 2000. P. 209-249

69. Foltz, P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47, 1998.

70. Gay, G. Collaborative Design in a Networked Multimedia Environment: Emerging Communication Patterns //Journal of Research on Computing in Education. Vol.26, Iss.3. - Spring, 1994. - Pp.418-432.

71. Goodfellow, R. CALL Programs for Vocabulary Instruction //Computer Assisted Language Learning Journal. Vol.8. - №2, 1995. - Pp.205-226.

72. Greg R. Notess. Search Engines Statistics. 2002. http://www.searchengineshowdown.com/stats/overlap.shtml

73. Internet Exceeds 2 Billion Pages. «Cyveillance», 2000. http://www.cyveillance.com/web/newsroom/releases/2000/2000-07-10.htm

74. Hopfield, J.J. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. 79,1982. p. 2554-2558.

75. Kleinberg, Jon M. Authoritative sources in a hyperlinked environment // Journal of the ACM, 46(5): 604-632, 1999.

76. Koch, T. The building and maintenance of robot based internet search services: A review of current indexing and data collection methods. Technical report, Lund University Library, Sweden, 1996.

77. Lawrence, S. Searching the World Wide Web. Science, 280(5360): 98-100, 1998.

78. Maganti, A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000, 2000.

79. Moran, S. The stochastic approach for link-structure analysis (salsa) and the tkc effect. In Proc. WWW9, 2000.

80. Mueller, Ch. Initiation a la statistique linguistique. Paris, 1978.

81. Nielsen J. Making Web Advertisements Work http://www.useit.com/alertbox/20030505.html.

82. Nielsen J. Intranet Portals: A Tool Metaphor for Corporate Information http://www.useit.com/alertbox/20030331 .html.

83. Nielsen J. Intranet Portals Get * Streamlined http://www.useit.com/alertbox/portals.html.

84. Nielsen J. Personalization is Over-Rated http://www.useit.com/alertbox/981004.html.

85. Obraczka, K. Distributed indexing of autonomous Internet services. Computing Systems, 5(4):433-459,1992.

86. Page, L. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford Digital Libraries, 1998.

87. PageRing b Google http://digits.ru/articles/promotion/pagerank.html.

88. Powell, A. Evaluating database selection techniques: A testbed and experiment. In Proc. of the SIGIR'98, Melbourne, Australia, August 1998.

89. Rauch Henzinger, M. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. Research and Development in Information Retrieval, pages 104-111,1998.

90. Ravi Kumar, S. Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins, David Gibson, and Jon Kleinberg. Mining the Web's link structure. Computer, 32(8):60-67,1999.

91. Ribeiro-Neto, B. Modern Information Retrieval. ACM Press, 1999.

92. Salton, G. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

93. Schafer J.B., Konstan J.A., Riedl J., "E-Commerce Recommendation Applications", J. Data Mining and Knowledge Discovery, Jan. 2001

94. Soumen, Chakrabarti. Integrating the document object model with hyperlinks for enhanced topic distillation and information extraction. In Proc. WWW10, 2001.

95. Strachan, L., Anderson, J., Sneesby, M., Evans M.: Minimalist User Modelling in a Complex Commercial Software System. / User Modeling and User-Adapted Interaction 10. P. 109-146, 2000.

96. Weiss, R. HyPursuit: A hierarchical network search engine that exploits content-link hypertext clustering. In Proc. of Seventh ACM Conference on Hypertext, March 1996.

97. Zelenkov, P. Multilingual Adaptive Method of Learning Foreign Languages /Р. Zelenkov, E.Kofman// труды международной конференции « 14th IST Mobile & Wireless Communications Summit». Дрезден Германия: Technische Universität Dresden, 2005г. - C.228-233.