автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Теоретическое обоснование и разработка распределенной гипертекстовой информационной системы
Автореферат диссертации по теме "Теоретическое обоснование и разработка распределенной гипертекстовой информационной системы"
РГ6 од
на правах рукотси
ХРАМЦОВ Павел Брониславович
ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ И РАЗРАБОТКА РАСПРЕДЕЛЕННОЙ ГИПЕРТЕКСТОВОЙ ИНФОРМАЦИОННОЙ
СИСТЕМЫ (на примере системы по последствиям Чернобыльской аварии)
Специальность: 05.25.05 - Информационные системы и процессы
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва 1997
Работа выполнена в Российском Университете
Научный руководитель -
Официальные оппоненты -
Государственном Гуманитарном
доктор технических наук, профессор Попов И.И. доктор технических наук, доцент Кузнецов С.Д.; кандидат технических наук, доцент Румянцев В.П.
Ведущая организация - Всероссийский Институт
Межотраслевой Информации Зашита состоится 199<Р года
в I Ь часов яа заседании диссертационного совета Д 064.49.03 в Российском Государственном Гуманитарном Университете по адресу 125267, г. Москва, Миусская пл. 6. С диссертацией можно ознакомиться в библиотехе РГГУ. Автореферат разослан * " сЛМ&^Л 199 $ года
Ученый секретарь диссертационного совета
к.т.н., доцент Меркулов В.Н.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
В последние 5 лет самым большим и наиболее интенсивно используемым информационным ресурсом в мире стала глобальная информационная сеть Internet. Информационное обеспечение научной деятельности все больше опирается на информационные ресурсы этой сети. Кроме этого технологии Internet становятся основой построения информационных систем научных и других организаций (Intranet-системы).
Типовыми решениями в системах Internet/Intranets являются гипертекстовые системы, основанные иа технологии World Wide Web и информационно-поисковые системы, которые позволяют каходшгь ссылки на информационные источники, используя традиционный поиск по ключевым словам. Любая стратегия поиска в сети строится как совокупность поиска по ключевым словам и навигационного поиска в гипертекстовой сети.
Актуальность темы. Разработка и эксплуатация информационной системы Internet/Intranets организации связана с двумя основными проблемами, которые определены смешанным характером поисковых стратегий в такого рода системах: применение традиционных алгоритмов поиска и применение навигационных алгоритмов поиска
При разработке информационно-поисковой системы следует учитывать динамичный, характер Internet. Число документов, которые составляют предмет поиска, быстро изменяется, так же быстро может изменяться а состав словаря, термины га которого используются при индексировании документов.
В этих условиях следует быть уверенным в применимости моделей, которые использованы для построения информационно-поисковой системы, В подавляющем большинстве случаев индексирование и поиск информации в системах IntemeWntranets опирается на линейную модель индексирования и поиска. Такта« образом получение условий применимости данной модели является важной и актуальной задачей.
Многие информационные системы Internet/Intranets среди прочих стратегий поиска применяют стратегии коррекции запросов по релевантности. Результаты применения таких стратегий позволяют говорить об их эффективности, однако условия применения стратегий коррекции запросов по релевантности для линейной модели индексирования и поиска до сих пор не были определены. В ряде случаев коррекция запросов не приводит к ожидаемым результатам.
В условиях применения смешанных стратегий поиска информации актуальна задача разработки единой модели поиска информация как в навигационных системах, так и в информационно-поисковых. При этом желательно воспользоваться всеми теми результатами, которые были уже получены в рамках линейных моделей.
Модель навигационной системы должна решать вопросы связанные с сокращением числа гипертекстовых переходов от узла входа в систсму(домашняя страница) до ума, который пользователь определяет как релевантный. При этом модель должна учитывать различные типы навигации в гипертекстовом графе, жизненный цикл документов(страниц) гипертекстовой базы AaKKbix(Websitc), а также динамику посещений документов пользователями.
Цель работы. Таким образом, целью данной работы является разработка комплексной модели информационной системы Internet/Intranets ç с возможностью поиска информации как по ключевым словам, так и путем навигация в гипертекстовом графе системы.
В рамках данной цели определены следующие задачи:
- Обоснование применимости линейной модели индексирования и поиска для информационных систем Internet/Intranets;
- Обоснование, применимости процедур коррекции запросов по релевантности в информационных системах, Intcmet/lntranels;
п Разработка модели навигации в гипертекстовом графе информационной системы Internet/Intranets;
- Разработка методики оценки, периодов жизненного цикла документов информационной системы Internet/Intranets;
- Разработка методики структурного анализа гипертекстового графа системы на основе статистики посещений информационных узлов
- Разработка гипертекстовой информационной системы Internet/Intranets для апробации моделей.
Научна» новизна работы состоит в разработке математического аппарата и методик анализа функционирования гипертекстовых информационных систем в глобальных информационных сетях.
В данной работе впервые определены границы применимости линейных моделей индексирования и поиска, аналитически обосновано применение процедур коррекции запросов по релевантности в рамках линейной модели индексирования и поиска, разработана линейная модель навигационного поиска и на ее основе предложены методики анализа и настройки гипертекстового графа информационной системы Internet/Intranets.
Апробация работы. Результаты диссертации были доложены и обсуждались на:
- 4-ой ежегодной научно-технической конференции Ядерного Общества, Нижний Новгород, 28 июня -2 июля 1993 года.
- First International Conference of the European Commission, Belorus, Russian Federation and Ukraine on the radiological consequences of the Chernobyl Accident, Vol. 1, 1996.
- II Европейском Восточно-Западном Симпозиуме по материалам и процессам, МАТТХ-91, 26-30 мая 1991г., сб. докл.
- Международном Коллоквиуме "Новые информационные технологии", г.Москва, 8-10 октября 1991г., М., МЦНТИ, 1991.
- конференции НТИ'96, ВИНИТИ, М., 1996.
3 сета Internet с ■ 1994 года установлен и находится в эксплуатации Website "Полынь"
Публикации. По результатам работы опубликовано 14 статей.
Структура работы. Диссертация состоит из - введения, четырех глав с выводами, заключения и списка использованной литературы, изложенных на 162 страницах с рисунками, а также приложений.
СОДЕРЖАНИЕ РАБОТЫ
Введение посвящено обоснованию актуальности темы диссертации, анализу работ по теме диссертации, новизны полученных результатов и их практической ценности и эффективности.
ГЛАВА 1. Развитие линейной модели индексирования и поиска документов.
Эта глава посвящена обоснованию применения линейной модели индексирования и поиска для информационных систем Internet/Intranets и формальному описанию процедуры коррекции запросов по релевантности для этой модели.
Для получения первого результата необходимо было получить аналитический вид плотности частоты распределения терминов для данной модели, т.к. во всех алгоритмах индексирования и поиска используется частота встречаемости терминов.
Закон распределения частоты встречаемости терминов в массиве документов известен в двух формах{32-35]:
рангового распределения частоты;
спектрового распределения частоты.
В ранговом распределен™ все термины упорядочиваются по частоте появления в массиве. В спектровой форме мы имеем дело с плотностью распределения частоты встречаемости терминов в тексте.
' Как правило, для аналитического выражения этого закона используются различные модификации гиперболического распределения.
В настоящей работе получена плотность распределения частоты встречаемости терминов для векторной модели информационного потока. Данная модель хорошо описывает такие информационные потоки, в которых документы состоят из списка терминов, а любой термин не может входить в документ более одного раза. Таким информационным потоком является, например, множество списков дескрипторов, которые используются в автоматизированных информационных системах в качестве поисковых образов документов. Системы автоматического индексирования, использующиеся в Internet также прекрасно подходят для описания векторной моделью.
Для того, чтобы получить плотность воспользуемся двумя известными из литературы по теории вероятности фактами:
производящая функция распределения случайной величины однозначно определяет функцию плотности распределения;
производящая функция моментов однозначно определяет производящую функцию распределения.
Второе утверждение верно, если распределение сосредоточено на конечном интервале. В нашем случае оно выполняется (частота может варьироваться в интервале [0,NJ).
Под производящей функцией моментов понимают следующее выражение (1.1):
где E[hr] - математическое ожидание случайной величины h в степени г.
Под производящей функцией плотности распределения целочисленной случайной величины h понимают (1.2):
/1 = 0
где Р^ - вероятность значения Ь.
Перейдем непосредственно к определению параметров функции распределения частоты встречаемости терминов.
(1.1)
(1.2)
Очевидно, что для словаря мощностью О вероятность частоты можно записать как:
= 0.3)
где % * число терминов в потоке, встретившихся Ь раз.
Математическое ожидание значения частоты Ь в степени г определяется как:
ы
ПЬГ) = £Р„Л* (1.4)
й = 0
Выразим (1.4) через двоичные образы документов:
, о м к
• ^
Из (1.5) следует:
ад
у=1
Перейдем в (1.5) от суммирования по } к суммированию по 1»:
Если разделить левую и правую части на О и умножить ка Ы1, то получим:
Введем понятие ¡-того пересечения документов. При \ равным 1 -это просто средняя длина документов потока Ь, при 1 равном 2 - это среднее попарное пересечение документов потока Ь и т.п.. Именно эта величина определяется как Введем теперь близкое, но отличное от с, понятие ¡-ого пересечения разных документов и обозначим его через а,. Разница между а,- и (Х1 заключается в том, что при расчете первой величины учитываются и пересечения документа с самим собой, а при расчете второй величины пересечения только разных документов.
Выразим щ через а,: Щ - «и
_ _ Л/а, Л/(Л/-1)а2.
/V2
л/'
__ А/а, ЗЛ/(Л/ - 1)а2 Л/(Л/-1)(Л/-2)а3.
(1.9)
«з =
Л/3
+
А/3
+ •
Л/3
Коэффициенты при слагаемых совпадают с коэффициентами для соответствующих моментов при их разложении по производным производящей функции плотности распределения: £[Л] = Р'( 1) ;
£[Ь2] = Р'{1) + Р'(1) ;
£{Л3] = Р"(1) + ЗР'(1) + Р'Ц);
Подставим (1.9) в (1.8), а (1.8). в свою очередь, в (1.10):
(1.10)
Г(з> =
И
(
2
3
щы - 1 )а7 о
э л
3 + — + — +. . .
2 ! 3 !
( 2
\
Ъз 1з
— ч--+-+. . .
2 1 3 ! 4 !
(1.11)
ЩИ - 1) (Я - 2)а3
С
з
4
^ + ^ + 3 ! 4 !
+. .
-1)'
При N —> оо ряды в скобках сходятся к ---. Тогда
производящую функцию моментов можно записать в виде:
N I 5
г =0
Х)г !
(1.12)
где Ац - число размещении из N элементов по г. Меаду производящей функцией моментов и производящей функцией плотности распределения существует соответствие:
F(s)=P(ef), (1.13)
где F(s) - производящая функция моментов, a P(s) - производящая функция плотности распределешш.
Тогда производящая функция плотности распределения частоты встречаемости терминов примет вид:
Р(5) = ¿£Я<£zJL
z- О
Dr !
(1.14)
В результате получаем для плотности частоты встречаемости терминов:
N с ,,л"г k\M h
к-0
KNJ I N.
(1.15)
Получим далее вид плотности распределения через рекурсивную подстановку:
N N fi \<kf i \N-k
r.-ZZtâ
к=0 t=Q
Перепишем в виде:
rt> I
.л/, , N)
N
N-h
N N ff
f=0 krO
NJ
N.
N-k
Ci
N
KNJ
1-
N.
.(1.16)
.(1.17
Заметим, что:
4s Г f t)
1 —
v/V, I NJ
N-h N
(1.18)
Из (1.18) следует, что:
k=О
s N-k
x C,
k_ \N.
1-. N.
. N-h
( * f\N~
t
KN
1 N.
(1.19)
Таким образом (1.19) - это искомое решение. Определим свободный параметр I:
г
ад = ^¡5, = /■=>( = £.
(1.20)_
где / - средняя длина документа в потоке Ь (среднее число терминов в документах Ь).
Окончательный результат можно записать как:
/ т \
в,-ей
VI]
. о)
(1.21)
Выражение (1.21) задает биномиальный закон распределения.
Выражение (1.21) - это спекгровая форма распределения частоты встречаемости терминов в массиве документов, более точно - плотность распределения частоты встречаемости терминов. Исходя из (1.21), можно оценить и ранговый вид распределения частоты встречаемости терминов. Эта функция, мажорирующая ранговое распределение для биномиального закона будет.иметь вид (1.23):
Л На 1
*=0 (я-Л<р) О
Как видно из (1.23), данная функция ведет себя как гипербола по параметру Ь, что не противоречит предположениям и гиперболическом характере этой зависимости. При этом находят объяснение отклонения гиперболы от наблюдаемых значений в областях малых и больших рангов.
Биномиальное распределение отличается от гиперболического тем, что последнее ни при каких условиях не принимает выпуклой формы, в то время, как биномиальное распределение такую форму принимает. Наиболее вероятная частота встречаемости терминов для биномиального распределения заключена в интервале:
(Л^ + 1)1-1</и<(Л/ + 1)1 (1.24)
Это
означает, что если будет больше либо равно 1, то функция плотности биномиального распределения будет иметь максимум отличный от 0 и функция примет выпуклую форму, что не достижимо при гиперболическом законе распределения. Условия, при которых это происходит можно записать как неравенство:
(Л/ + 1)-^>1 (1.25)
Это значит, что для системы 1Ы18, словарь который состоит из 16000 терминов, а средняя длина документов около 10 терминов, эффект проявится только на массиве порядка 160000 документов. Однако, имеется возможность построить эксперимент таким образом, что размер словаря можно сократить, не сокращая существенно длины дескрштгорных списков документов.
При постоянном увеличении числа документов с 700 до 3000, было обнаружено, что начиная с 2300 документов число дескрипторов с частотой 1 , начинает стабильно падать, в то время, как число терминов для частот больше единицы продолжает расти. При этом следует принять во внимание тот факт, что к этому моменту частота 1 уже домгапфовала над частотой 0.
Для исследуемого словаря было установлено, что относительный прирост новых терминов стал замедляться (доля терминов с частотой встречаемости 1 стала уменьшаться), что говорит о насыщении словаря.
Таким образом удалось показать, что в определенных условиях при анализе информационных потоков могут появляться выпуклые распределения частоты встречаемости терминов.
Фактически выражение (1:25) определяет условие применимости линейной модели индексирования и поиска. Модель работает только в том случае, когда размер словаря существешга меньше информационного потока.
Теперь покажем как в рамках линейной модели описывается процедура коррекции запроса по релевантности. Запрос пользователя к системе и ее отклик определены как:
Ь х д0 = г0 (1.26)
При этом операция расширения запроса была определена как:
(1.27)
Однако, это не совсем точно. Обычно пользователь использует свое право отметки релевантных документов, н только их термины используются в расширенном запросе или получают больший вес перед терминами других документов. Поэтому введем еще одну матрицу - Р, которая призвана учесть фактор пользователя:
х Р0 х г0 = д,
(1.28)
. Следуя определению процедуры коррекции запроса по релевантности, получаем: LxQo=rо-
LT xF0xr0 = <7,;
Lxç, =гл\
LT xFxxr% = q2\ (1.29)
Lr x x гк_л = qk\
Lxqk=rk
Как видно из (1.29) матрицы Fk.i составляют систему фильтров пользователя, при помощи которых он корректирует свои запрос. Эти фильтры имеют в реальных системах конкретную интерпретацию. Так в системах WAIS и Altavista пользователь просто помечает релевантные документы. В этом случае фильтры превращаются в диагональные матрицы, у которых на главной диагонали у релевантных документов стоят единицы, а у нерелевантных - нули. Но, в общем случае, на диагонали можно размещать и веса релевантности. Эти фильтры могут быть и недиагональными. В этом случае пользователь будет взвешивать документы не только сами по себе, но а с учетом их связи с другими документами массива, как релевантными, так и нерелевантными, например с учетом его гипертекстовых связей. Но в любом случае совершенно естественно предположить, что система предпочтений пользователя в течении одной сессии работы с системой остается неизменной, иначе пользователь просто не знает чего же он в гамом деле шцет. Тогда все фильтры являются одинаковыми и не изменяются or шага к шагу:
F0 = FlSf2-.-Ffc_1=FÄ=f (1.30)
В конечном случае, если пользователь просто переберет все документы массива, то можно составить диагональную матрицу, например, состоящую из нулей и единиц, если речь идет о моделировании системы WAIS, например.
Из линейной модели индексирования и поиска известно, что первая часть выражения в скобках - это матрица попарного пересечения документов:
A = LxLT (1.31)
Процесс коррекции запроса не бывает бесконечным. Обычно он завершается тем, что либо пользователь утомляется просматривать найденные документы, считая, что нашел то, что искал, либо действительно больше не получаст новых релевантных документов. В принципе, далее при прямом просмотре, второй результат является концом процедуры поиска информации. Это значит, что, начиная с некоторого вектора отклика, этот самый отклик не изменяется:
(Дх F)хгк_л =-rk;=>(Ax F)*r = Аг:гк = . (1.32)
Из (1.32) следует, что процесс коррекции запросов по релевантности должен сходиться к собственному вектору матрицы (AxF). Если при этом пользователь хочет добиться максимального различия документов по степени релевантности, которая фактически определяется значениями компонентой вектора г, то процесс коррекции запроса можно записать в другом ввде:
ГТх(Дх F)xr
max(---) = Л. (1.33)
Г хГ
В этом случае речь идет о собственном векторе при максимальном собственном числе. Назовем этот вектор главным документальным профилем пользователя.
Аналогичный результат можно получить и для набора терминов, которые характеризуют информационную потребность пользователя:
LT х Fx Lxq0 = q^ ;
LT x F x L x q,.i = gt ;
* (1.34)
{LTxFxL)kxq0=qk\
3qk:qk = =>LT xFxLxq- A>q
Поступая аналогично случаю оценки документального профиля пользователя, вектор q при максимальном собственном числе матрицы из выражения (1.34) назовем главным терминологическим профилем пользователя.
Если на некоторый запрос получен отклик, который в свою очередь не приводаг к расширению запроса, а только к его масштабированию, то эту ситуацию можно записать в виде следующие системы матричных уравнений:
f Lxq = Ä -г
" ; (1.35)
iL хг — Хт q
Подставляя одно уравнение в другое, можно легко убедиться, что:
<L* LT)хг = Я/;(LT xL)x q=MT,Ä = ЛдЛг. (1.36)
Направление в котором документы получают максимальную разницу в весах соответствует направлению собственного вектора соответствующей матрицы при максимальном собственном числе этой матрицы.
Назовем собственные вектора из выражения (1.64) профилями информационного массива, а собственный вектор при максимальном собственном чкеле главным профилем информационного потока.
В первой главе были определены границы применимости линейной модели индексирования и поиска, обсуждены применение линейкой модели для информационных систем Internet/Intranets, получена и обонована процедура коррекции запросов по релевантности.
ГЛАВА 2. Моделирование информационных ресурсов Internet с помощью векторной модели информационных потоков.
Данная модель разработана автором и опирается на следующие определения:
Определение 1.
Вектором посещений документа i будем называть двоичный вектор h, у которого единица стоит на месте посещения документа пользователем I.
В технологии World Wide Web посещением называют получение одной страницы информации, поэтому введенное только что определение имеет прямое отношение к моделированию взаимодействия пользователя с Website.
Теперь определим, что такое информационный массив. Определение 2.
Информационным массивом в нашей модели будем называть множество векторов посещений H - множество векторов h.
Теперь определим процедуру взаимодействия пользователя с системой:
Определение 3.
Обращением к системе будем называть выражение вида: где:
(2.1)
Чи ~ запрос, ги - отклик.
Аналогично линейной модели индексирования и поиска можно определить профили массива(потока) и процедуры группирования документов и пользователей по тематикам.
При этом можно выделить три типа посещений: случайные, роботы, профильные. В работе показано, что случайные посещения и посещения роботов не приводят к изменениям структурных профилей определенного таким образом информационного потока, а вот профильные посещения приводят к таким изменениям. В работе определены условия вращения и характер вращения профилей.
Понятие профиля позволяет определить вектора, которые должны изменяться на протяжении жизненного цикла системы и таким образом учесть изменения в предпочтениях пользователей, что в конечном итоге позволяет корректировать навигационный граф системы.
ГЛАВА 3. Информационная система проекта "Полынь".
Полученные выше результаты апробировались на информационной системе проекта "Полынь", посвященной последствиям аварии на Чернобыльской АЭС. Проект "Полынь" представляет из себя много компонентную информационную систему, посвященную вопросам ликвидации последствий ядерных аварий. Центральное место в ней занимают материалы, посвященные аварии на четвертом энергоблоке Чернобыльской Атомной Электростанции. В настоящее время система используется в качестве справочного архива. Современные материалы в систему не вводятся, т.к. являются национальным достоянием Украины. Будучи одпой из первых узко-тематических информационных систем Internet информационная система проекта "Полынь" используется также в качестве полигона для обкатки различных Internet-технологий для распределенных информационных систем поддержки принятая решений.
Информационная система проекта "Полынь" начиналась как система информационного обеспечения работ по ликвидации последствий аварии на Чернобыльской Атомной Электростанции (ЧАЭС). В настоящее время данная система развилась до самостоятельного Web-узла, установленного в сети Internet и эксплуатирующегося круглосуточно.
В процессе разработки отдельных компонентов системы были опробованы различные технологические решения: от локальной базы данных под управлением СУБД Ingres, распределенной базы данных с доступом к отдельным ее компонентам по электронной почте до распределенной гипертекстовой системы, построенной в рамках технологии World Wide Web.
Все изменения в технологии ведения базы данных информационной системы и обеспечения доступа к ее информационным ресурсам производились на действующей системе без ограничения доступа к ее ресурсам со стороны пбетоянных пользователей.
В настоящее время информационные ресурсы системы могут быть разбиты на несколько крупных блоков:
база данных измерений активности образцов объектов окружающей среды в 30-км зоне вокруг ЧАЭС и сопутствующие файлы (система "Проба");
гипертекстовая база данных описания работ по ликвидации последствий аварш! на ЧАЭС("Ро1уп")[15];
гипертекстовая база данных описания 4-ого блока ЧАЭС после aBapmí("Inside"}[43];
реферативная база данных "Вестник научной программы Семипалатинский полигон - Алгай"("АИау")
вспомогательные материалы по доступу к данным информационной системы проекта "Полынь".
При разработке этой системы удалось объединить базу данных под управлением универсальной СУБД, гипертекстовую систему в технологии Wofid Wide Web и информационно-поисковую Систему. При этом при развитии систему учитывался опыт полученный при на предыдущем этапе.
Так при разработке локальной версии гипертекстовой системы был разработан язык манипулирования гипертекстовыми информационными узлами Polyn Script Language. В результате выполненных работ по программированию гипертекстовой сети в локальном варианте был существенно облегчен переход к варианту в World Wide Web, где PSL был заменен на JavaScript
ГЛАВА 4. Анализ статистики обращений к информационной системе проекта "Полынь".
Анализ статистики обращений к информационной системе проекта "Полынь"' показал, что Website имеет как минимум три различных периода жизненного цикла: начальный пиковый и стационарный. Применение статистических тестов показало, что каждый из этих периодов значимо отличается как по суточной частоте посещений, так и по структуре запросов к информационным ресурсам.
В первоначальный период систему посещают случайные пользователи, в пиковый период их число резко возрастает, и только в стационарный период система реально начинает обслуживать профильных пользователей, Только начиная со стационарного периода имеет смысл проводить настройку системы.
Методика оценки периода жизни основана на применении теста Колмогорова Смирнова. Так для "Полынь" были выбраны месячные интервалы. Были сравнены начальный период функционирования сервера и стационарный период функционирования сервера. Проверялась гипотеза равенства распределений. Расчетное значение оказалось равным 0.83, а табличное для уровня значимости 0,05 0.39. Таким образом гипотеза была отвергнута. Для двух месячных периодов стационарного режима были получены следующие результаты: для того же уровня значимости расчетное значение оказалось равным 0.28, что позволило говорить о принадлежности распределений к одной генеральной совокупности.
Для выявления различий в структуре посещений в. разные периоды исследовалась для признака. В качестве такого признака выбиралась доля посещения графических страниц, доля посещения текстовых страниц, доля обращения к скриптам. Было показано, что по этим признакам в стационарный период пользователи разбиваются на групп, у случайных пользователей превалировали картинки, а у профильных обращение к базе данных. При этом доля случайных пользователей в стационарный период резко снизилась.
Кроме того в стационарный период изменились предпочтения и профильных пользователей - значимо возросла для обращений к СУБД, Выявить это удалось вращение профилей, которые на графике "текст-картигаси" отображались аппроксимирующими прямыми.
Таким образом методик! построенная на применении статистических критериев позволила определить изменение структуры пользователей Website и изменение предпочтений пользователей, что в свою очередь позволило откорректировать навигационный граф.
Заключение. В заключении сформулированы основные результаты работы и определены положения вынесенные на защиту.
Список использованном литературы содержит 56 работ
Приложения к диссертация содержат предельные случаи линейных моделей, описания простых структур при навигационном поиске, примеры решений, найденных и внедренных в системе "Полынь", исходные тексты поисковых программ.
ВЫВОДЫ
Кратко сформулированные основные научные результаты диссертации состоят в следующем:
- Разработана и апробирована модель, навигации в гипертекстовом графе. Па ее основе обосновано применение процедур поиска информации с коррекцией запроса по релевантности в гипертекстовых системах.
- На основе модели навигации разработана методика оценки стадий жизненного цикла системы и коррекции навигационного с целью сокращения чндла гипертекстовых переходов.
- Обосновано применение линейной модели индексирования и поиска для информационных систем Internet/Intranets
- Аналитически описана процедура коррекции запросов по релевантности и обосновано се применение в информационных системах Internet/Intranets
- Разработана и установлена в сети информационная система проекта "Полынь" (http://www.polyn.kiae.su; http://paul.polyn.kiae.su/inside; .http://paul.polyn.kiae.su/radleg)
Основные, положения диссертации .„изложены, в следующих
работах:
1.П.Б. Храмцов. Информационные системы Internet. Открытые Системы, N6,1996.
2.П. Б. Храмцов. Информационно-поисковые системы Internet. Открытые Системы, N3,1996, стр.46^9.
3.И.И. Попов, П.Б. Храмцов. Распределение частоты встречаемости терминов для линейной модели информационного потока. НТИ, Сер.2, N2, стр.23-26,1991.
4.В.К. Попов, П.Б. Храмцов. Информационное обеспечение процедур принятия решений в информационной среде "Полынь". Доклад на Международном Коллоквиуме "Новые информационные технологии", г.Москва, 8-10 октября 1991г., М., МЩГГИ, 1991.
5.Л.И. Бессонова, И.И. Попов, П.Б. Храмцов. Анализ информационных потребностей пользователя информационной системы на основе статистики обращений к системе. В тезисах докладов конференции НТИ'96, ВИНИТИ, М., 1996.
6.Добрынин Ю.Л. Драч-Горкунов В.Л., Зимина О.В., Попов В.К., Сергеева Н.М., Храмцов П.Б. Система по информационной поддержке работ по ликвидации последствий аварии на Чернобыльской АЭС в РНЦ "Курчатовский Институт". В сб.: Ядерная энергетика и безопасность человека. Доклады на 4-ой ежегодной научно-технической конференции Ядерного Общества, Нижний Новгород, 28 июня -2 июля 1993 года.
7.С.А. Аншукоа, В.В. Барднн, Ю.Л. Добрынин, А.Н. Долбин, А.П. Руднев, А.Е Фирсов, П.Б. Храмцов. Информационная система для анализа поверхностных радиоактивных загрязнений ПРОБА: принципы организации, методики оценки, комплекс программных средств. Препринт ИАЭ 4025/1., М., 1989.
8.С.А. Аншуков, В.В. Бардин, Ю.Л. Добрынин, А.Н. Долбин, А.П. Руднев, А.Е Фирсов, П.Б. Храмцов. Информационная система для анализа поверхностных радиоактивных загрязнений ПРОБА: принципы организации, методики оценки, комплекс программных средств. В сб."Научные труды ИАЭ 1989", М., 1990
9.С.Т. Беляев, В. Кулаков, Ю.Л. Добрынин, П.Б. Храмцов. Информационно-аналитическая система для радиоэкологического мониторинга территорий после аварии на Чернобыльской АЭС. Доклад на II Европейском Восточно-Западном Симпозиуме по материалам и процессам, МАТТХ-91, 26-30 мая 1991г., сб. докл.
10.Ю.Л. Добрынин, П.Б. Храмцов. Карта "Плутоний-90" и устойчивость корреляционных соотношений по данным АИС "Проба". В сб. "Вопросы атомной науки и техники" сер."Ядерно-физическис исследования (теория и эксперимент) 11(19)1990.
11.Ю.Л. Добрынин, В.В. Кузьмич, П.Б. Храмцов. Пространственно-временной анализ соотношения изотопов цезия по данным АИС "Проба". В сб."Вопросы атомной науки и техники": сер."Ядерно-физические исследования (теория и эксперимент) 11(19)1990.
12.De Cort, Yr. Dobrynin, P. Khramtsov, A. Soliier, B. Wan De Valle. Minutes of the discussion between SCK/CEN Moi., JRC Ispra, KI Moscow. CEC, Documents of RODOS project, RODOS(D)-MN(93)04, 1993.
13.Yu. Dobrynin and P.B.Khramtsov. Data Verification Methodology and New Data for Chernobyl Source Term. Radiation Protection Dosimentiy, Vol. 50, Nos 2-4, pp307-310, 1993. '
14.S. Dovgy, J.Lochard, B.I. Yatsalo, M.Dreicer, I.V.Rolevitch, V.F.Demin, V.A. Kutkov, M.N. Savkin, N.N. Tushin, P.B. Khramtsov, I.A. Likhtarev, L.N. Kovgan, B. Sobolev, S.T. Beliaev. Decision support system for the management of contaminated territories. Proceedings First International Conference of the European Commission, Beloius, Russian Federation and Ukraine on the radiological consequences of the Chernobyl Accident, Vol.1, 1996.
-
Похожие работы
- Гипертекстовое лингвистическое пространство электронной библиотеки
- Гипертекстуализация библиотечно-информационной образовательной среды
- Автоматизация построения гипертекстовых систем на основе текстовой информации тезаурусным методом
- Интеллектуальная информационная поддержка управления деловыми процессами на основе гипертекстовой базы знаний
- Разработка методов и алгоритмов мультиагентного поиска релевантной информации в информационных средах гипертекстовой организации