Адаптивные гипермедиа издания, интегрированные в Интернет

Зайцев, Илья Борисович

Автоматизация и управление технологическими процессами и производствами (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Адаптивные гипермедиа издания, интегрированные в Интернет

кандидата технических наук: Зайцев, Илья Борисович
город: Москва
год: 2005
специальность ВАК РФ: 05.13.06
цена: 450 рублей

Диссертация по информатике, вычислительной технике и управлению на тему «Адаптивные гипермедиа издания, интегрированные в Интернет»

Автореферат диссертации по теме "Адаптивные гипермедиа издания, интегрированные в Интернет"

На правах рукописи

ЗАЙЦЕВ ИЛЬЯ БОРИСОВИЧ

АДАПТИВНЫЕ ГИПЕРМЕДИА ИЗДАНИЯ, ИНТЕГРИРОВАННЫЕ В ИНТЕРНЕТ

Специальность 05.13.06 - Автоматизация и управление технологическими процессами и производствами (полиграфическое производство)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2005

Работа выполнена на кафедре «Информационные технологии» Московского государственного университета печати

Научный руководитель:

доктор технических наук, профессор Гасов Владимир Михайлович

Официальные оппоненты:

доктор технических наук, профессор Майков Константин Анатольевич

кандидат технических наук, доцент Чиннова Ирина Игоревна

Ведущая организация:

Научно-производственное объединение «Издательство «Наука»

Защита диссертации состоится «22 » декабря 2005 г. в час. QJ¿ мин. на заседании диссертационного совета К 212.147.02 в Московском государственном университете печати по адресу: 127550, г.Москва, ул. Прянишникова, 2а.

С диссертапией можно ознакомиться r библиотеке Московского государственного университета печати.

Автореферат разослан « ¡9 » ноября 2005 г.

Ученый секретарь j

диссертационного совета д --- В.Н. Агеев

¿1/$07У

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Среди прочих средств массовой информации (телевидение, радио, печатные издания) Интернет становится равноправным источником, и его роль в современном обществе увеличивается с каждым днем. По оценкам Роспечати интернет-СМИ сегодня выходят на второе место после телевидения, при этом число постоянных пользователей глобальной сети в России в настоящее время превысило 18 млн. человек. Популярность информационных интернет-изданий за последние пягь лет возросла десятикратно, что явилось причиной усиления конкуренции на рынке онлайн-периодики. Все больше традиционных печатных СМИ вынуждены развивать интернет подписку и делать электронные версии собственных печатных изданий; на данный момент раздел российского сегмента «СМИ-Периодика» уже насчитывает более 1700 web-pecypcoB. Прогнозируется, что среди прочих ресурсов именно электронные версии периодических изданий в ближайшее время будут занимать лидирующие позиции по посещаемости.

С каждым днем объем информации, хранящийся на web-серверах, увеличивается, внедряются все новые технологии. Увеличение функциональности гипермедиа систем приводит к усложнению интерфейсов, логической структуры, а также информационной «перегруженности» визуальных макетов. В такой постоянно развивающейся среде как Интернет, конечному пользователю становится все сложнее ориентироваться в гиперпространстве и осуществлять доступ к информационным архивам. В результате возникает чрезвычайно актуальная проблема, связанная с неэффективным использованием web-pecypcoB (увеличение временных затрат на поиск релевантных гипермедиа документов, досрочное прекращение сеанса работы и т.д.). Решение данной проблемы может быть найдено в разработке интеллектуальных механизмов прогнозирования предпочтений конечных

РОС. НАЦИОНАЛ' ' А* БИБЛИОТЕКА ;

3 »а ф mJ Cj

пользователей и представление информации в форме, отвечающей их текущим потребностям.

Использование методов и подходов из различных областей искусственного интеллекта и математической статистики дает возможность построения, так называемых, адаптивных гипермедиа систем, способных динамически изменять свою структуру и формат представляемых данных в ответ на действия пользователя, который взаимодействует с данной системой. Таким образом, наряду с интерактивными и статическими гипермедиа изданиями, которые предоставляют однотипную информацию для всей аудитории, можно говорить о появлении нового класса адаптивных электронных изданий, целью которых является персонализация содержимого (текстовой и мультимедиа информации), навигационной структуры или формата отображаемых данных. Однако следует отметить, что наиболее значимой проблемой, стоящей перед адаптивными изданиями, является оптимизация навигационной структуры гипермедиа страниц, в результате которой добавляются релевантные гиперссылки или исключаются избыточные варианты навигации.

Повышающийся с каждым годом уровень требований к современным гипермедиа изданиям, рост конкуренции на рынке сетевой периодики ставят перед разработчиками ряд задач, связанных с проектированием адаптивных интерфейсов и эффективным прогнозированием предпочтений пользователей. Вместе с тем необходимо учитывать специфику поведения пользователей в ходе взаимодействия с информационными гипермедиа изданиями, в частности, электронными версиями периодических печатных изданий, а именно: отсутствие стимула в предоставлении предпочтений и персональной информации, долгосрочное использование \veb-pecypcoB, преобладание пассивного характера просмотра издания.

Таким образом, наиболее актуальным вопросом является реализация гибких механизмов адаптации, осуществляющие прогнозирование характеристик пользователя без ведения интерактивного диалога с ним.

Цель работы

Разработка методик адаптации навигационной структуры гипермедиа изданий, интегрированных в глобальную сеть Интернет, для обеспечения эффективного поиска, просмотра и доступа к информации конечного пользователя.

Задачи исследования

Для достижения поставленной цели в работе решаются основные задачи:

• Обобщение опыта теоретических и практических разработок в области адаптивных гипермедиа систем.

• Выбор подхода к адаптации, учитывающего специфику класса информационных электронных изданий.

• Разработка методики неявного определения значимости гипермедиа страниц для конечного пользователя.

• Разработка модифицированных алгоритмов адаптации, учитывающих ограничения информационной фильтрации.

• Практическая реализация модуля адаптации с помощью выбранных аппаратных и пр01раммных средств.

• Оценка действенности и практической пригодности предложенных методик на примере интеграции электронной версии печатного издания в адаптивную гипермедиа систему.

Объект исследования

Объектом исследования в данной диссертационной работе выбраны гипермедийные электронные издания, интегрированные в хлобальную сеть Интернет.

Предмет исследования

В качестве предмета исследования выступает процесс адаптации навигационной структуры сетевых электронных изданий для конечного пользователя.

Методы исследования

Для достижения поставленной в работе цели и решения перечисленных задач использованы методы различных областей искусственного интеллекта, математической статистики, а также интеллектуального анализа данных.

Теоретической и методологической основой диссертационной работы послужили работы отечественных и зарубежных специалистов в области совместной фильтрации (Резник Ф., Бриз Д., Сарвар Б., Голдберг Д.), статистической обработки данных (Цукерман И., Берхин П., Левен М., Андерсон К.), теории случайных процессов (Рабинер Л., Чен X.), теории информации (Шанон К.), человеко-компыотерного взаимодействия (Дикарев С.Б., Брусиловский П.Л., Перковиц М.).

Научная новизна

Наиболее существенные научные результаты, полученные в диссертационной работе:

• Построена модель адаптивного гипермедиа издания, отражающая процесс адаптации на уровне навигационной структуры в соответствии с характеристиками конечного пользователя.

• Предложен новый алгоритм совместной фильтрации, основанный на «наивном» Байесовском классификаторе и коэффициенте взаимозависимости пользовательских сеансов, который позволяет повысить точность рекомендации и обеспечить низкую вычислительную сложность.

• Впервые предложена модель расчета индексов предпочтения для гипермедиа страниц на основе скрытых марковских цепей, которая позволяет прогнозировать релевантность документов с учетом особенностей поведения конечных пользователей. Разработан комбинированный индикатор предпочтения, базирующиеся на скрытых марковских моделях и времеппых наблюдениях. Впервые предложена методика нормализации временных индексов

предпочтения на основе коробчатых диаграмм распределения с учетом объема гипермедиа страниц.

• Разработана архитектура адаптивного гипермедиа издания с учетом предложенных методик, обеспечивающая гибкую интеграцию с существующими динамическими гипермедиа системами. Подход к интеграции механизмов персонализации электронных изданий является новым и оригинальным.

Практическая ценность работы

Обоснован выбор программных и аппаратных средств для построения адаптивной архитектуры гипермедиа издания и внедрения результатов исследования; определены требования к данным и обучающим выборкам, используемым в алгоритмах совместной фильтрации.

Разработаны программные модули адаптации, которые реализуют предложенные в рамках диссертационной работы методики и интегрированы в адаптивную гипермедиа систему на примере электронной версии печатного издания.

Сформулированы рекомендации по технической реализации, которые могут быть использованы для проектирования адаптивных гипермедиа изданий, модификации существующих гипермедиа изданий, а также построения смежного класса гипермедиа систем, в частности, адаптивных обучающих систем, интегрированных в Интернет.

Апробация работы

Разработанные методики и алгоритмы адаптации реализованы в виде серверных программных модулей, которые интегрированы в электронное периодическое издание «Мир печати», а также в информационную гипермедиа систему ЗАО «Курортпроект», о чем свидетельствуют соответствующие акты внедрения.

Содержание отдельных разделов диссертации в целом докладывались на заседаниях кафедры «Информационные технологии» и на конференции

«Информационные системы управления учебным процессом в вузе» в Московском государственном университете печати.

Публикации

Основные результаты диссертации отражены в четырех печатных работах, а также тезисах доклада на конференции «Информационные системы управления учебным процессом в вузе» в МГУП.

Структура и объем диссертации

Диссертационная работа состоит из введения, четырех глав, выводов, двух приложений, списка литературы из 92 наименований, содержит 150 страниц машинописного текста, в том числе 6 таблиц и 35 рисунков.

Положения, выносимые на защиту

1. Методика определения релевантности гипермедиа страниц для конечного пользователя на основе скрытых марковских моделей.

2. Модифицированный алгоритм «наивного» Байесовского классификатора в рамках совместной фильтрации.

3. Оценка эффективности адаптивной гипермедиа системы на базе разработанного индикатора предпочтения.

4. Адаптивная архитектура гипермедиа издания, интегрированного в Интернет на примере электронной версии периодического издания «Мир печати».

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, определяется объект и предмет исследования, формулируются цели и задачи исследования, раскрывается научная новизна и практическая ценность работы.

Первая глава посвящена вопросам адаптивного представления информации в гипермедиа системах.

В разделе 1.1 рассматриваются вопросы современного состояния развития рынка сетевых информационных изданий. Анализ текущего состояния

российского сегмента глобальной сети Интернет показывает, чго в настоящее время большинство традиционных гипермедиа изданий, предоставляют статическую информацию и не учитывают предпочтения и характеристики пользователей.

Выделяются наиболее значимые проблемы эффективного взаимодействия пользователя с гипермедиа изданиями, включая 1рушшровку совместной и коррелированной информации. Производится анализ ограничений статического представления информации и архитектуры традиционных интерактивных систем. Показывается, что адаптивная архитектура призвана обеспечить эффективный просмотр, поиск и доступ к гипермедиа документам.

В разделе 1.2 приводится классификация электронных изданий, а также гипермедиа систем, интегрированных в Интернет. Находится пересечение данных классификаций. Наряду с интерактивными и детерминированными электронными изданиями выделяется новый класс адаптивных гипермедиа изданий (АГИ), которые являются частным случаем адаптивных >уеЪ-сайтов.

В разделе 1.3 производится анализ существующих форм и видов адаптации, а также обосновывается выбор подходов и форм адаптации применительно к рассматриваемому классу информационных изданий. Главная проблема, стоящая перед адаптивными изданиями, заключается в изменении навигационной структуры гипермедиа страниц, в результате которой добавляются релевантные гиперссылки или исключаются избыточные варианты навигации.

Дается обзор теоретических и практических разработок в области адаптивных гипермедиа систем (раздел 1.4). Производится анализ существующих подходов к адаптации; подчеркивается вклад отечественных (Брусиловский П.Л, Дикарев С.Б.) и зарубежных (Сарвар Б., Либерман X., Мобашер Б., Резник Ф.) ученых в развитие теории информационной фильтрации и человеко-компьютерного взаимодействия.

Осуществляется попытка анализа стратегий взаимодействия пользователей с гипермедиа изданиями. Для электронных версий печатных

периодических изданий наиболее характерна неориентированная стратегия просмотра, поэтому наиболее целесообразно рассматривать вопросы группировки совместной информации.

В разделе 1.5 осуществляется систематизация характеристик конечного пользователя, необходимых для построения пользовательской модели, а также производится выбор конкретных характеристик для реализации адаптивной гипермедиа системы.

Для реализации конкретных методов адаптации предпочтительным является использование неявных оценок релевантности гипермедиа страниц. Из рассмотренных характеристик пользователя наиболее важными в построении пользовательской модели являются: текущая и агрегатная релевантность, краткосрочные и среднесрочные интересы.

В соответствие со спецификой класса рассматриваемых электронных изданий в качестве основы разрабатываемой адаптивной системы были выбраны методы совместной фильтрации, которые учитывают модель пользователя и принимают во внимание целевые характеристики, а также характеристики состояния. Результат совместной фильтрации представляется в форме рекомендации, которой соответствуют следующие основные виды адаптации на навигационном уровне: добавление дополнительного блока гиперссылок, скрытие гиперссылок, форматирование гиперссылок, создание расширенных гиперссылок.

Вторая глава посвящена разработке модели адаптивного гипермедиа издания и модифицированных алгоритмов современной фильтрации.

В разделах 2.1 и 2.2 рассматриваются особенности систем рекомендаций и этапов совместной фильтрации, выделяется ряд задач и составляется математическая модель разрабатываемой адаптивной системы.

Для решения поставленных задач требуется ввести следующие обозначения:

IV — (Р,Ь,Ми>) - исходная гипермедиа система на конечном вертикальном уровне описания;

Р = {р1,р1,...,рм } - множество конечных гипермедиа страниц;

Ь = {/,, /2,...} - множество гиперссылок, связывающие данные страницы;

/ = (рз,рй,а) - отдельная гиперссылка представляет собой совокупность

исходящей страницы, входящей страницы и якоря, содержащего текстовое описание ссылки;

Мм.' = (В,Т) - макет гипермедиа системы, определяющий визуальную структуру концептуальных блоков;

В = - тип концептуальных блоков: навигационный блок,

информационный блок, колонтитул страницы, дополнительный навигационный блок и т.д.; Т - матрица, определяющая взаимное расположение концептуальных блоков;

Исходная адаптивная гипермедиа система включает в себя М конечных гипермедиа страниц, а также хранит данные о N прошлых сеансов. Обучающая выборка представляет собой матрицу размером ИхМ, в которой каждый элемент г^ является индексом предпочтения 7-ой страницы г'-ым пользователем. Под индексом предпочтения понимается количественное выражение релевантности, которая в свою очередь является характеристикой пользователя и отражает степень его заинтересованности в размещенной на конкретной странице информации. Индексы предпочтений принимают дискретные значения, при этом невостребованные страницы (которые не были просмотрены за текущий сеанс) имеют неопределенное значение, обозначаемое символом ±.

11 = {и1,и2,...,ии} - множество прошлых N пользовательских сеансов взаимодействия с гипермедиа изданием;

[г;. ] - обучающая выборка Я (матрица индексов предпочтений);

[г„] -М-разрядный вектор Яа частичной сессии текущего пользователя; е ¡=1,2,...М ]=1,2,...,М - дискретная шкала оценок

(индексов предпочтения);

р А Ьа с Ь - текущая (активная) страница, на которой сгенерировано некоторое подмножество гиперссылок;

Рг = {рг1, Рг2 РГ1} - множество рекомендуемых страниц, имеющих максимальные индексы предпочтений, которые были прогнозированы для отсутствующих значений вектора Да;

Ьг = {/г],/.2,...}, 1г={ра,рг,а), Ьг а Ь - множество рекомендуемых гиперссылок;

Адаптация заключается в изменении навигационной структуры исходной гипермедиа системы IV путем объединения множеств Ьг и Ьа, то есть Ьг*иЬа,

при этом блок рекомендаций генерирует множество ссылок Ьг: Ъгес Т Ьг.

Цель совместной фильтрации заключается в рекомендации Ь гипермедиа документов с наибольшими значениями прогнозируемых индексов

предпочтений гщ, рассчитанных на основе обучающей выборки Я и М-разрядного вектора Яа:

гщ - /(Я,Яа), V/ : гщ =1 - прогнозирование индексов предпочтения

для каждой невостребованной текущим пользователем страницы.

Среди множества существующих методов совместной фильтрации были выбраны и исследованы методы регрессии, классификации и кластеризации, а также предложены решения, учитывающие ограничения каждого из методов.

В разделе 2.3 описывается методика, основанная на классификаторе «X-ближайших» соседей. Для данной методики был предложен механизм проверки значимости расчетного коэффициента корреляции Пирсона с использованием Г-теста, а также введены дополнительные критерии для формирования множества ближайших пользователей.

В разделе 2.4 описывается вероятностный подход к совместной фильтрации и представляется новый алгоритм «наивного» Байесовского классификатора, позволяющий производить обучение классификатора только

для сяльносвязанных пользовательских сессий по отношению к целевой странице.

Чтобы применить метод Байесовского классификатора для задачи совместной фильтрации, отдельно обучается один классификатор для каждой гипермедиа страницы ру, где у е.\,...,М. В классификации участвуют только

те пользовательские сессии в обучающей выборке, в которых страница ру была востребована:

Входные вектора, которые используются для формирования классификатора, содержат значения индексов предпочтения для всех страниц, кроме самой страницы ру. Страница ру называется целевой, остальные

элементы входного вектора - страницами-атрибутами.

Для повышения точности классификации предложено ограничить множество 11,<у>. Для этого оценивается вес целевой страницы в текущей сессии, то есть агрегатная значимость данной страницы по отношению ко всем другим страницам:

где

KJy = log (nxj /пу)- поправочный коэффициент;

и - число сессий, имеющих совместные просмотры страниц j и у;

т'[ - число востребованных страниц в пользовательской сессии;

MIj у = H(Rj) + H(Ry ) - H(Rj, Ry ) - коэффициент взаимозависимости.

m',-1

MIJ,y = YLP(RJ = °>>Ry =»У■ lQg

а и

P(RJ=w)P(Ry=u)

Коэффициент взаимозависимости, основанный на энтропии, позволяет выявить статистическую зависимость между целевой страницей и каждой страницей-атрибутом. Поправочный коэффициент вводится в выражение с целью уменьшить влияние коэффициента М1ЬУ для тех страниц, которые имеют незначительное перекрытие (количество совместных просмотров).

Таким образом, для обучения классификатора для каждой целевой страницы используется отдельное множество, в которое попадают только те пользовательские сессии, которые содержат сильно связанные страницы по отношению к целевой, а также имеют большее количество просмотров:

\/и'<у>:8. >V

I 1,у у

Модифицированные выражения для расчета начальных и условных вероятностей (во избежание нулевых частот):

Р(Яу=о) =

У + пу

где

1, если = V О, если г1у Фи

Г1, если ги=со 10, если г^ ^ со

Прогнозирование индексов предпочтения для невостребованных текущим пользователем страниц (с учетом отсутствующих страниц-атрибутов):

К =ахётахР(Яу =а>\Яу = о)'-{я\

и )*у ео=1

где

(1, если г, = со л

О, если га/ * со

Далее, в разделе 2.5 рассматриваются приемы стандартной кластеризации многомерных векторов, а также представляется эффективный алгоритм инициализации для метода кластеризации «Я-медиан», который уменьшает влияние результирующих данных от исходного выбора центров кластеров.

Для каждой описанной методики приводится: общее математическое обоснование, функциональные схемы осуществления рекомендации, а также блок-схемы модифицированных алгоритмов.

Третья глава посвящена анализу традиционных индикаторов предпочтения и разработке нового индикатора, основанного на интерфейсных наблюдениях.

В разделе 3.1 дается классификация существующих индикаторов, используемых в современных адаптивных гипермедиа системах, проводится анализ ограничений временных и одиночных интерфейсных индикаторов с использованием коробчатых диаграмм. Из рассмотренных индикаторов предпочтений пользователей наиболее эффективным остается индикатор, основанный на временных наблюдениях. Показано, что выбор подхода к нормализации временных индексов предпочтения играет значительную роль для последующих методов совместной фильтрации. Предложена методика нормализации временных индексов предпочтения на основе коробчатых диаграмм распределения с учетом объема гипермедиа страниц.

Выдвигается предположение о том, что в процессе использования гипермедиа издания пользователь последовательно пребывает в одном из нескольких состояний. Данные состояния являются скрытыми, то есть, их

нельзя распознать и зафиксировать на стороне сервера. Выделено три основных скрытых состояния пользователя: «беглый просмотр», «чтение», «игнорирование». Беглый просмотр характеризуется попыткой пользователя ознакомиться с содержимым страницы, прежде чем он начинает более детальное изучение. В процессе чтения пользователь внимательно просматривает отдельные фрагменты гипермедиа страницы. Игнорирование характеризуется желанием пользователя уйти со страницы или найти альтернативные пути навигации и в конечном счете сводится к возвращению на предыдущую страницу, переходу в другой тематический раздел или окончанию сеанса работы с текущим гипермедиа изданием.

На основе предположения о скрытых состояниях пользователя разработана методика вычисления индексов предпочтения с использованием аппарата скрытых марковских моделей (раздел 3.2). Считается, что генерация состояний пользователя - марковский случайный процесс. Поскольку состояния системы не наблюдаемы, имеет место скрытая марковская цепь. Наблюдаемые символы составляют цепочку внешних интерфейсных наблюдений, которую возможно однозначно распознать и обработать на стороне сервера. Поскольку из любого состояния возможно оказаться в любом другом за один шаг и число наблюдаемых символов конечно, то рассматривается эргодическая дискретная модель.

Ниже приведены составляющие скрытой марковской модели:

S = {5, ,...,5^} - множество N скрытых состояний пользователя:

Si= 's' («scan» - беглый просмотр);

S2= 'г' («read» - чтение);

S3= 'i' («ignore» - игнорирование);

Q = (q^,...,qT) - последовательность скрытых состояний; q, - переменная, отображающая скрытое состояние в момент времени t; Y = {и,,..., им } - множество М наблюдаемых символов (отдельных интерфейсных событий):

Ц =' Г («МошеМоуеЫау» - движение «мьппи» над вспомогательными и навигационными блоками);

и2=' 2' («МоивеМоуеМ» - движение «мьппи» над конечным информационным блоком);

0} ='3' («МошеСИскШ» - нажатие левой кнопки «мьшш» в пределах конечного информационного блока);

и4='4' («ScrollPage» - пролистывание страницы);

05='5' («БсгоИЗйр» - символ окончания пролистывания). Событие наступает только в случае, если предыдущий символ соответствует пролистыванию страницы и в данный момент времени не наблюдается других событий;

Указанные интерфейсные наблюдения снимаются в фиксированные моменты времени (через каждые 0,5 сек). Исключение составляют нажатия клавиш «мьппи», которые соотносятся с ближайшей меткой времени.

А = [а1} ] - квадратная матрица переходов ЛМУ для скрытых состояний;

а, = Рл (<7,+] = sJ\ql = ~ вероятность переходов между скрытыми состояниями в модели X;

В = [bJ (т)] - матрица эмиссии МхИ;

Ь](т) ~ = от | = ) - вероятность эмиссии Ок в состоянии SJ;

0 = (о1,...,оТ) - последовательность Г внешних наблюдений;

01 - переменная, отображающая внешнее наблюдение в момент времени

п ~ [я", ] ~ вектор начальных вероятностей перехода в скрытые состояния;

Л = (А,В, Л") - скрытая марковская модель, которая определяется

параметрами А, В и я.

Скрытые состояния:

• чтение страницы

• беглый просмотр ;

• игнорирование

Обученные С ММ для релевантной и нерелевантной странииы

Вероятность генерации данной последовательности наблюдений конкретной моделью

последовательность скрытых состояний

0 = (о1,о2,...,оТ)

последовательность внешних наблюдений:

• движение «мыши»

• пролистывание страницы

Алгоритм

■ окончание пролистывания прямого хода

Алгоритм Витерби

г e{V ..У }

aj I min maxJ

Рис. 1. Принцип определения релевантности гипермедиа страниц на основе скрытых марковских моделей

Всю процедуру расчета индексов предпочтения можно разбить на три этапа (рис. 1).

1. Выбор оптимальной модели, описывающей заданную цепочку интерфейсных наблюдений. С одной стороны на вход системы поступает последовательность наблюдений О = (o¡,...,oT), с другой - набор обученных СММ для релевантной и нерелевантной страниц - Лк и Л, соответственно. Вероятность генерации текущей последовательности каждой из обученных моделей PÍO | Ля) и Р(0 \ Л/) осуществляется с помощью алгоритма прямого хода путем вычисления GCt(i) - вероятности частичной последовательности наблюдений до момента времени t и пребывании в состоянии s, в момент времени t, если задана модель Л:

Из двух моделей выбирается та, которая имеет большую вероятность генерации заданной последовательности Р(0 \ Я).

2. Декодирование последовательности внешних наблюдений с учетом выбранной модели. Данный этап предполагает нахождение последовательности скрытых состояний пользователя, которая наилучшим образом соответствует последовательности интерфейсных наблюдений. Данная задача решается с помощью алгоритма Витерби, где за критерий оптимальности принимается максимизация вероятности 1 Л).

3. Расчет индексов предпочтения на основе последовательности скрытых состояний. Релевантность конкретной гипермедиа страницы оценивается с точки зрения отношения количества состояний, соответствующих «чтению» информационного блока к числу всех остальных состояний. Релевантность тем выше, чем больше пользователь читал страницу.

В данном разделе также особое внимание уделяется особенностям обучения моделей, а также вопросам инициализации процедуры Баум-Велча. Исходные параметры СММ выбирались исходя из экспертных оценок с последующим анализом согласованности мнений экспертов.

В третьем разделе производится оценка эффективности предложенной методики с использованием непараметрического теста Крускаля-Валлиса, а также выявляются соответствующие ограничения. Суть данного теста заключается в сравнении медиан распределений выборок, соответствующим релевантным и нерелевантным просмотрам, при этом надежность индикатора определяется степенью различия уровня медиан. Экспериментальная оценка эффективности предложенного индикатора показала преимущества по

¡=1 (-1

сравнению с временными и отдельными интерфейсными индикаторами предпочтения (табл. 1).

Таблица 1. Результаты теста Крускаля-Валлиса

Критическое значение р при уровне значимости 0,05

Время пролистывания Время движения «мыши» Число нажатий клавиш «мыши» Время пребывания на странице Индикатор СММ

S Н-: 0,0520 Н-: 0,1731 Н-: 0,2358 Н+: 0,0435 Н+: 0,0033

2S Н+: 0,0373 Н-: 0,1352 Н--0,2151 Н+: 0,0232 Н+. 0,0027

3S Н+: 0,0125 Н-: 0,1222 Н-: 0,1452 Н+: 0,0096 Н+: 0,0048

Преимущества индикатора предпочтений, основанного на скрытых марковских моделях, заключаются в возможности прогнозирования скрытых состояний пользователя, выявлении доли событий, отвечающих за непосредственное чтение страницы, возможности учета квалификации и стиля поведения пользователя. В отличие от временных индикаторов, индексы предпочтения не требуют нормализации, и в меньшей степени зависит от объема гипермедиа страницы. При достаточной интерфейсной активности разработанный индикатор способен также распознавать фрагментальную релевантность. При небольших (Г< 8) последовательностях внешних интерфейсных наблюдений рекомендуется использовать комбинированный индикатор предпочтения, учитывающий временные наблюдения.

Четвертая глава посвящена вопросам практической реализации разработанного адаптивного гипермедиа издания, а также особенностям интеграции его в глобальную сеть Интернет.

В разделах 4.1 и 4.2 производится выбор аппаратных и программных средств для реализации модуля адаптации на примере интеграции электронной версии печатного издания «Мир печати» в адаптивную гипермедиа систему (рис. 2). Рассматривается функциональная модель адаптивного модуля (рис. 3), а также структура модуля сбора интерфейсных наблюдений. Для конечной реализации адаптивной гипермедиа системы рекомендовано использовать web-серверную платформу Apache в связке с интерпретатором серверных сценариев РНР и СУБД MySQL.

В третьем разделе осуществляется сравнение методик совместной фильтрации и оценка эффективности предложенных модифицированных алгоритмов. Производится выбор конкретной методики совместной фильтрации для осуществления рекомендаций с учетом вычислительной сложности и статистических показателей эффективности.

Клиентская часть

\\'еЬ-«броу{ер»

Модуль сбора интерфейсных наблюдений

1. Запрос по протоколу http

Серверная часть ^Л'еЬ-сервер

2. Передача скрытых данных о пользователе

7 Генерация конечных html страниц

5. Результат адаптации

Гипермедиа система: программная часть

«SCRIPT»

3. Обновление П Д 4. Получение данных из базы знаний

Web-cepeep БД V

Модель пользователя

Информационное содержимое

6. Выборка содержимого с учетом результатов адаптации

Рис. 2. Архитектура адаптивного гипермедиа издания Оценка эффективности производится следующим образом. Обучающая выборка разделяется на две части: для проведения эксперимента и для непосредственного обучения системы. Для каждого сеанса и, из экспериментальной выборки «удерживается» первые п просмотров, формируя, таким образом, частичную сессию {Яа}, которая поступает на вход модуля адаптации. Далее, множество {Ьг} рекомендуемых гиперссылок сопоставляется с оставшейся частью пользовательской сессии {Я-Яа} и находится количество совпадений. Эффективность метода совместной фильтрации оценивается посредством статистических показателей: точности, покрытия и меры F^•.

рг{Ь) = — -1-1-Л

N ы ¡{¿г^}!

cov(Z) = — • УJ-i-i-1

N % I^-Äanl

n{L) = 2pr{L)-cow{L) pr(L) + cov(X)

Точность определяет долю востребованных рекомендаций по отношению к общему числу отображаемых рекомендаций. Вместе с тем, покрытие характеризует долю востребованных рекомендаций по отношению к общему числу просмотров в текущей сессии за исключением удержанных п просмотров. Оба показателя являются важными для оценки эффективности, поэтому в экспериментах акцентируется внимание на величине Fl, которая принимает максимальное значение, когда и точность, и покрытие максимизированы. Чтобы определить окончательные значения приведенных показателей находится среднее для всего множества пользовательских сессий в экспериментальной выборке.

Из трех предложенных методик совместной фильтрации наиболее предпочтительным является модифицированный алгоритм «наивного» Байесовского классификатора, поскольку обеспечивает компромисс между вычислительной сложностью и показателями эффективности. В ходе эксперимента для методики «наивного» Байесовского классификатора установлен необходимый и достаточный объем обучающей выборки, выше которого абсолютная ошибка рекомендации не уменьшается. Наименьшую вычислительную сложность обеспечивает методика кластеризации «ÄT-медиан», однако имеет невысокую точность рекомендации.

В заключении представлены основные результаты диссертационной работы.

В приложениях приведены фрагменты программного кода модуля адаптации на языке серверных сценариев PHP, а также результаты итерационной процедуры Баум-Велча для обучения скрытых марковских моделей.

Получение характеристик пользователя

Вычисление индексов

предпочтения для страницы-источника

; Обученные -' скрытые ; марковские модели,..

Обновление серверного журнала

1 г

Совместная фильтрация

Выборка повторных рекомендаций

Параметры модели

Генерация

«всплывающего» (скрытого) окна

Генерация гипермедиа содержимого

Отправка данных пользователю

Рис. 3. Функциональная модель адаптивного модуля гипермедиа издания, интегрированного в Интернет 23

ОСНОВНЫЕ ВЫВОДЫ и РЕЗУЛЬТАТЫ РАБОТЫ

1. В результате анализа существующих видов и подходов к адаптации применительно к электронным версиям периодических изданий выделены формы адаптации, касающиеся рекомендации гипермедиа документов и оптимизации навигационной структуры электронных изданий в реальном времени, которые позволяют обеспечить эффективный доступ к информационным архивам и ориентировать конечных пользователей на долгосрочное использование электронных изданий.

2. Согласно задачам группировки совместной информации, предложены модифицированные алгоритмы регрессии, классификации и кластеризации, учитывающие ограничения методов совместной фильтрации. В частности, для методики «АГ-ближайших соседей» был предложен механизм проверки значимости расчетного коэффициента корреляции Пирсона с использованием Г-теста, что позволило динамически формировать множество К-ближайших пользователей в зависимости от количества совместных просмотров. Для методики «наивного» Байесовского классификатора удалось повысить точность рекомендации путем обучения среди сильносвязанных пользовательских сессий по отношению к целевой странице на основе коэффициента взаимозависимости. Для методики кластеризации «К-медиап» предложен алгоритм инициализации, уменьшающий влияние исходного выбора центров кластеров на результирующие данные.

3. Разработана методика определения релевантности гипермедиа документов, базирующаяся на скрытых марковских моделях (СММ), которая позволяет вычислять неявные индексы предпочтения с учетом особенностей поведения конечных пользователей, в частности, скорости восприятия информации и моментов

бездействия. Результаты эксперимента с использованием непараметрического теста Крускаля-Валлиса подтвердили гипотезу об адекватности предложенной модели.

4. В соответствии с пользовательской моделью произведен сбор и статистическая обработка навигационной информации, формирующей обучающую выборку, что позволило определить требования к входным данным для предложенных алгоритмов совместной фильтрации.

5. Произведен сравнительный анализ предложенных методик совместной фильтрации, на основе статистических показателей эффективности: точности, покрытия рекомендации, а также величины Fl. В результате оценки эффективности для конечной реализации выбран алгоритм «наивного» Байесовского классификатора, обеспечивающий высокую точность рекомендации и компромисс в вычислительной сложности. Выявлен достаточный объем обучающей выборки, при котором достигается минимальная абсолютная ошибка рекомендации.

6. Осуществлена программная реализация предложенных методик на примере интеграции электронной версии периодического печатного издания «Мир печати» в адаптивную гипермедиа систему. Модуль адаптации включает в себя пакет серверных сценариев, написанных на web-ориентированном языке PHP и предназначенных для интеграции с СУБД MySQL. В ходе эксплуатации адаптивного издания зафиксировано увеличение средней длины пользовательских сеансов на 24%, а также увеличение агрегатного индекса предпочтений в среднем на 40%.

Основное содержание работы изложено в следующих публикациях:

1. Зайцев И.Б. Оптимизация передачи гипертекстовых изданий в глобальных сетях // Известия вузов. Проблемы полиграфии и издательского дела. Вып.З. - М.: МГУП, 2003. - С. 82-86. (0,28 п.л.).

2 Зайцев И.Б. Модифицированный алгоритм «К-ближайших соседей» для совмесшой фильтрации в адаптивных гипертекстовых системах // Вестник МГУП. №5. - М.: МГУП, 2005. - С. 105-112. (0,69 п.л.).

3. Зайцев И.Б. Оценка релевантности гипермедиа документов на основе скрытых марковских моделей // Информационные технологии моделирования и управления №5 (23). - Воронеж: Изд-во «Научная книга», 2005.-С. 730-738. (0,55 п.л.).

4. Зайцев И.Б. Методика «наивного» Байесовского классификатора для задачи совместной фильтрации в системах рекомендации // Доклады независимых авторов. Вып.2. Изд-во «DNA», Россия-Израиль, 2005. -С. 20-27.(0,51 п.л.).

Принято к исполнению 18/11/2005 Исполнено 18/11/2005

Заказ № 1320 Тираж: 100 экз.

ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Варшавское ш., 36 (095) 975-78-56 (095) 747-64-70 www.autoreferat.ru

•22442

РНБ Русский фонд

2006-4 22827

Оглавление автор диссертации — кандидата технических наук Зайцев, Илья Борисович

Введение

Глава I. Вопросы адаптивного представления информации в гипермедиа изданиях

1.1 Анализ проблем эффективного доступа к информации в традиционных гипермедиа изданиях

1.2 Выделение класса адаптивных электронных изданий, интегрированных в Интернет

1.3 Обзор современных форм и видов адаптации в гипермедиа системах

1.4 Анализ подходов к адаптации в гипермедиа системах

1.5 Выбор характеристик пользователя для осуществления адаптации 34 Выводы по главе

Глава II. Разработка методик совместной фильтрации в адаптивных гипермедиа изданиях (АГИ)

2.1 Особенности совместной фильтрации и систем рекомендаций

2.2 Постановка задачи

2.3 Разработка модифицированного алгоритма классификатора «К-ближайших соседей»

2.4 Разработка модифицированного алгоритма «наивного» Байесовского классификатора

2.5 Разработка модифицированного алгоритма кластеризации «К-медиан» 66 Выводы по главе

Глава III. Моделирование предпочтений пользователя на основе скрытых марковских цепей

3.1 Обоснование выбора индикаторов предпочтений пользователя

3.1.1 Анализ ограничений временных индикаторов предпочтения

3.1.2 Оценка эффективности индикаторов предпочтения, основанных на взаимодействии пользователя с интерфейсом АГИ

3.1.3 Предположение о скрытых состояниях пользователя

3.2 Оценка релевантности гипермедиа страниц с помощью скрытых марковских моделей (СММ)

3.2.1 Обозначения дискретной СММ

3.2.2 Выбор СММ для описания интерфейсных наблюдений

3.2.3 Декодирование и определение индексов предпочтения 9*

3.2.4 Особенности обучения СММ для гипермедиа страниц по критерию релевантности

3.3 Анализ практической применимости разработанной методики и выявление ограничений 100 Выводы по главе

Глава IV. Реализация адаптивного модуля для осуществления рекомендаций в АГИ

4.1 Особенности интеграции разработанного АГИ в Интернет

4.2 Разработка архитектуры модуля адаптации

4.3 Оценка эффективности предложенных методов совместной фильтрации

Выводы по главе

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Зайцев, Илья Борисович

Среди прочих средств массовой информации (телевидение, радио, печатные издания) Интернет становится равноправным источником, и его роль в современном обществе увеличивается с каждым днем. По оценкам Роспечати интернет-СМИ сегодня выходят на второе место после телевидения, при этом число постоянных пользователей глобальной сети в России в настоящее время превысило 18 млн. человек. Популярность информационных интернет-изданий за- последние пять лет возросла десятикратно, что явилось причиной усиления конкуренции на рынке онлайн-периодики. Все больше традиционных печатных СМИ вынуждены развивать интернет подписку и делать электронные версии собственных печатных изданий; на данный момент раздел российского сегмента «СМИ-Периодика» уже насчитывает более 1700 web-pecypcoB. Прогнозируется, что среди прочих ресурсов именно электронные версии периодических изданий в ближайшее время будут занимать лидирующие позиции по посещаемости.

С каждым днем объем информации, хранящийся на web-cepeepax, увеличивается, внедряются все новые технологии. Увеличение функциональности гипермедиа систем приводит к усложнению интерфейсов, логической структуры, а также информационной «перегруженности» визуальных макетов. В такой постоянно развивающейся среде как Интернет, конечному пользователю становится все сложнее ориентироваться в гиперпространстве и осуществлять доступ к информационным архивам. В результате возникает чрезвычайно актуальная проблема, связанная с неэффективным использованием web-pecypcoB (увеличение временных затрат на поиск релевантных гипермедиа документов, досрочное прекращение сеанса работы и т.д.). Решение данной проблемы может быть найдено в разработке интеллектуальных механизмов прогнозирования предпочтений конечных пользователей и представление информации в форме, отвечающей их текущим потребностям.

Использование методов и подходов из различных областей искусственного интеллекта и математической статистики дает возможность построения, так называемых, адаптивных гипермедиа систем, способных динамически изменять свою структуру и формат представляемых данных в ответ на действия пользователя, который взаимодействует с данной системой. Таким образом, наряду с интерактивными и статическими гипермедиа изданиями, которые предоставляют однотипную информацию для всей аудитории, можно говорить о появлении'нового класса адаптивных электронных изданий, целью которых является персонализация содержимого (текстовой и мультимедиа информации), навигационной структуры или формата отображаемых данных.

Очевидно, что адаптивная гипермедиа система должна обеспечивать идентификацию конечного пользователя и производить адаптацию в соответствии с пользовательской моделью. При этом могут учитываться различные характеристики пользователя: интересы, знания, предпочтения, опыт и т.д. Вместе с тем адаптивная система должна также фиксировать навигационные переходы (пользовательские сессии или сеансы), анализировать гипермедиа содержимое, различные индикаторы предпочтения (интерфейсные, временные наблюдения, пользовательские оценки значимости информационных страниц и т.д.).

Технологии адаптивного представления информации могут применяться как в случае небольших гипертекстовых изданий с фиксированным набором страниц (или обновляемых в определенные промежутки времени), так и в сложных, распределенных системах, хранящих содержимое в реляционных базах данных и генерирующих страницы динамическим образом в режиме реального времени.

По мере развития информационных технологий, гипермедиа издания, интегрированные в Интернет, становятся все более доступными и функциональными. Широкое распространение электронных изданий, а также возрастающие требования современного пользователя в получении актуальной и релевантной информации с минимальными временными затратами, явилось причиной снижения популярности традиционных гипермедиа систем. Чтобы предоставить пользователю максимум возможностей и удобства доступа к информации, при этом оказаться конкурентоспособным на рынке онлайн-периодики, разработчики web-ресурсов вынуждены использовать новые технологии с целью персонализации информации конечному пользователю.

Следует отметить, что в настоящее время российский сегмент адаптивных изданий практически не выражен. Существуют попытки персонализации навигационной структуры, в частности, размещение в макете издания дополнительного навигационного блока, связывающего текущую страницу с другими релевантными документами, то есть, документами, представляющими для конечного пользователя наибольший интерес. Однако подобная рекомендация носит статический характер и не учитывает характеристики конечного пользователя. Подходы к информационной фильтрации для выделения коррелированных гипермедиа страниц нашли применение в системах электронной коммерции и в отношении информационных изданий, в частности, электронных версий периодических изданий практически не рассматривались. По этой причине разработка эффективных методик прогнозирования предпочтений пользователей в рамках информационной фильтрации видится чрезвычайно актуальным вопросом.

Актуальность

Итак, выделим наиболее значимые предпосылки, определяющие актуальность данной тематики исследования:

• Значительный рост популярности информационных интернет-изданий за последние пять лет.

• Рост посетителей сети Интернет и конкуренции на рынке онлайн-периодики.

• Необходимость традиционных печатных СМИ развивать интернет подписку и осуществлять публикацию в глобальных сетях электронных версий изданий. *

• Малая развитость сегмента адаптивных электронных изданий при увеличении функциональности традиционных гипермедиа систем.

• Увеличение объемов доступной информации, неэффективное использование информационных архивов.

• Отсутствие эффективных механизмов прогнозирования предпочтений пользователей, ориентированных на долгосрочное использование электронных изданий.

Пель исследования

Задачи исследования

• Обобщение опыта теоретических и практических разработок в области адаптивных гипермедиа систем.

• Выбор подхода к адаптации, учитывающий специфику класса электронных изданий.

• Разработка модифицированных алгоритмов адаптации в рамках выбранного подхода и пользовательской модели.

• Разработка методики определения релевантности гипермедиа страниц для конечного пользователя.

• Практическая реализация модуля адаптации с помощью выбранных аппаратных и программных средств.

Объект исследования

Объектом исследования в данной диссертационной работе выбраны гипермедийные электронные издания, интегрированные в глобальную сеть Интернет.

Предмет исследования

Структура и объем диссертации

Заключение диссертация на тему "Адаптивные гипермедиа издания, интегрированные в Интернет"

Выводы по главе

1. Для конечной реализации адаптивной гипермедиа системы рекомендовано использовать web-серверную платформу Apache в связке с интерпретатором серверных сценариев РНР и СУБД MySQL.

2. Для сохранения последнего просмотра в пользовательской сессии предложена техническая возможность, основанная на технологии JavaScript.

3. В качестве показателей эффективности методов совместной фильтрации были выбраны статистические меры точности, покрытия и величина F1.

4. Из трех, предложенных методов совместной фильтрации наиболее предпочтительным является модифицированный алгоритм «наивного» Байесовского классификатора, поскольку обеспечивает компромисс между вычислительной сложностью и показателями эффективности.

5* Наименьшую вычислительную ■ сложность обеспечивает методика кластеризации «К-медиан», однако имеет невысокую точность, рекомендации.

6. В ходе эксперимента для методики «наивного» Байесовского классификатора установлен необходимый и достаточный объем обучающей выборки, выше которого абсолютная ошибка рекомендации не уменьшается.

Заключение

В ходе диссертационной работы была разработана и интегрирована в глобальное пространство Интернет адаптивная гипермедиа система, что является важнейшим шагом в развитии электронной версии периодического издания «Мир печати». При этом при переходе с динамической на адаптивную архитектуру сохранилась логическая и информационная целостность издания. ' *

Разработанная адаптивная система доведена до практической реализации в виде программного макета. Благодаря модульному и шаблонному принципу построения возможно подключать новые серверные сценарии, а также легко настраивать существующие без изменения структуры издания. Таким образом, система ориентирована на долгосрочное использование, а с помощью внешних программных модулей в дальнейшем ее возможно модифицировать, расширять и совершенствовать. С экономической точки зрения разработка системы полностью оправдана благодаря использованию доступных технических средств (в частности выбраны программные продукты с открытым исходным кодом и распространяющиеся бесплатно). Вместе с этим разработка проводилась с применением новейших и развивающихся технологий (серверного языка программирования РНР 4 и СУБД Mysql 3.23).

Разработанная система совместима со всеми типами браузеров, межплатформенна и переносима (проектирование велось с учетом возможной интеграции на серверах различной конфигурации). С 1 сентября

2004 г. адаптивная система введена в опытную эксплуатацию, а с 1 сентября

2005 г. она доступна по адресу http://www.mgup.ru/mp.

Изложенные в работе результаты могут быть использованы при совершенствовании и модификации существующих гипермедиа изданий, интернет порталов, а также обучающих электронных изданий.

В заключении перечислим основные выводы и результаты диссертационного исследования:

1. В результате анализа существующих видов и подходов к адаптации применительно к электронным версиям периодических изданий выделены формы адаптации, касающиеся рекомендации гипермедиа документов и оптимизации навигационной структуры электронных изданий в реальном времени, которые позволяют • обеспечить эффективный доступ к информационным архивам и ориентировать конечных пользователей на долгосрочное использование электронных изданий.

2. Согласно задачам группировки совместной информации, предложены модифицированные алгоритмы регрессии, классификации и кластеризации, учитывающие ограничения методов совместной фильтрации. В частности, для методики «X-ближайших соседей» был предложен механизм проверки значимости расчетного коэффициента корреляции Пирсона с использованием Г-теста, что позволило динамически формировать множество К-ближайших пользователей в зависимости от количества совместных просмотров. Для методики «наивного» Байесовского классификатора удалось повысить точность рекомендации путем обучения среди сильно связанных пользовательских сессий по отношению к целевой странице на основе коэффициента взаимозависимости. Для методики кластеризации «К-медиан» предложен алгоритм инициализации, уменьшающий влияние исходного выбора центров кластеров на результирующие данные.

3. Разработана методика определения релевантности гипермедиа документов, базирующаяся на скрытых марковских моделях, которая позволяет вычислять неявные индексы предпочтения с учетом особенностей поведения конечных пользователей, в частности, скорости восприятия информации и моментов бездействия. Результаты эксперимента с использованием непараметрического теста Крускаля-Валлиса подтвердили гипотезу об адекватности предложенной модели.

4. В соответствии с пользовательской моделью произведен сбор и статистическая обработка. навигационной информации, формирующей обучающую выборку, что позволило определить требования к входным данным для предложенных алгоритмов совместной фильтрации.

5. Произведен сравнительный анализ предложенных методик совместной фильтрации, на основе статистических показателей эффективности: точности, покрытия рекомендации,, а также величины F1. В результате оценки эффективности для конечной реализации выбран алгоритм «наивного» Байесовского классификатора, обеспечивающий высокую точность рекомендации и компромисс в вычислительной сложности. Выявлен достаточный объем обучающей выборки, при котором достигается минимальная абсолютная ошибка рекомендации.

6. Осуществлена программная реализация предложенных методик на примере интеграции электронной версии периодического печатного издания «Мир печати» в адаптивную гипермедиа систему. Модуль адаптации включает в себя пакет серверных сценариев, написанных на web-ориентированном языке РНР и предназначенных для интеграции с СУБД MySQL. В ходе эксплуатации адаптивного издания зафиксировано увеличение средней длины пользовательских сеансов на 24%, а также увеличение агрегатного индекса предпочтений в среднем на 40%.

Библиография Зайцев, Илья Борисович, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Аверин Д.В, Опыт классификации электронных изданий // Известия вузов. Проблемы полиграфии и изд. дела. 2ООО . № 1. С. 145-148.

2. Агеев В. Н. Электронная книга: новое средство социальной коммуникации. М.: Мир книги, 1997.

3. Барсегян А.А. Методы и модели анализа данных. OLAP и Data Mining. СПб.: Изд-во «БХВ», 2004.

4. Вентцель Е.С., Овчаров JI.A. Теория случайных процесов и ее инженерные приложения. М.: Высш. шк., 2000.

5. Вуль В.А. Электронные издания. СПб.: Изд-во «БХВ», 2003.

6. Вуль В.А. Совершенствование информационной структуры современного издательства и сетевые издательские технологии // Материалы конференции «Региональная информатика 2000». - СПб., 2001.

7. Гасов В.М., Цыганенко A.M. Методы и средства подготовки электронных изданий. М.: Изд-во МГУП, 2001.

8. ГОСТ 7.83-2001. Электронные издания. Основные виды и выходные сведения.

9. Дикарев С .Б, Целых А. А. Некоторые подходы к проектированию адаптивных систем // Перспективные информационные технологии и интеллектуальные системы №1(21). Таганрог, 2005.

10. Дикарев С.Б., Курейчик В.М., Сахаров B.JI. Проектирование адаптивных информационных и образовательных систем // Перспективные информационные технологии и интеллектуальные системы №4(16). -Таганрог, 2003.

11. Дикарев С.Б., Сахаров B.JI. Проектирование адаптивных гипермедиа систем для управления разнородными информационными ресурсами // Материалы конференции «Информационные технологии в образовании». -СПб, 2003.

12. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Кн.1. М.: Финансы и статистика, 1986.

13. Дюк В, Самойленко A. Data Mining: учебный курс. СПб.: Изд-во «Питер», 2001.

14. Зайцев И.Б. Оптимизация передачи гипертекстовых изданий в глобальных сетях // Известия вузов. Проблемы полиграфии и издательского дела. Вып.З. М.: МГУП, 2003. - С. 82-86.

15. Зайцев И.Б. Модифицированный алгоритм «К-ближайших соседей» для совместной фильтрации в адаптивных гипертекстовых системах // Вестник МГУП. №5.-М.: МГУП, 2005.-С. 105-112.

16. Зайцев И.Б. Оценка релевантности гипермедиа документов на основе скрытых марковских моделей // Информационные технологии моделирования и управления №5(23). Воронеж: Изд-во «Научная книга», 2005.-С. 730-738.

17. Зайцев И.Б. Методика «наивного» Байесовского классификатора для задачи совместной фильтрации в системах рекомендации // Доклады независимых авторов. Вып.2. Изд-во «DNA», Россия-Израиль, 2005. G.20-27.

18. Котов Э.М. Построение информационных систем для поиска релевантной информации в гипертекстовой информационной среде // Перспективные информационные технологии и интеллектуальные системы №4(20). Таганрог, 2004.

19. Кэннигнхэм С. Электронные издания сегодня и завтра. Журнал «Открытые системы», №5,1995 год // Издательство «Открытые системы».

20. Новичихин А.В. К вопросу об эффективности и проблемах при построении моделей оптимизации Web-сайтов // Материалы VI Всероссийской объединенной конференции IST/IMS-2003. Воронеж, ВГУ, 2003.

21. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Том 1.: Пер с англ. М.: Изд. Дом «Вильяме», 2001.

22. Томсон JL, Веллинг JI. Разработка Web-приложений на РНР и MySQL: Пер. с англ. К.: Изд-во «ДиаСофт», 2001.

23. Успенский И.В. Интернет-маркетинг. Учебник.- СПб.: Изд-во СПГУЭиФ, 2003. .

24. Anderson, С, Domingos, Р, and Weld, D. Adaptive Web navigation for wireless devices. In Proceedings of the Seventeenth International Joint Conference on Artificial Intelligence, pages 879-884. Morgan Kaufmann, San Francisco, CA, 2001.

25. Basu C., Hirsh H., and Cohen W. Recommendation as classification: Using social and content-based information in recommendation. In AAAI/IAAI, pages 714-720, 1998.

26. Berkhin P. Survey of clustering data mining techniques. Technical report, Accrue Software, San Jose, CA, 2002.

27. Billsus D. and Pazzani M. Learning collaborative information filters. In Proc. 15th International Conf on Machine Learning, pages 46-54. Morgan Kauf-mann, San Francisco, CA, 1998.

28. Billsus, D., Brunk, C.A., Evans, C., Gladish, В., and Pazzani, M. Adaptive interfaces for ubiquitous Web access. Commun. ACM 45, 2002.

29. Borges, J., and Levene,,M. Data mining of user navigation patterns. Web Usage Analysis and User Profiling, pages 92-111. Springer, Berlin, 2000.

30. Breese J., Heckerman D., and Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering. In Proceedings of the Fourteenth Annual Conference on Uncertainty in Artificial Intelligence, pages 43-52, July 1998.

31. Brusilovsky, P. Adaptive hypermedia // User Modeling and User Adapted Interaction, 11, 2001.

32. Brusilovsky, P., Kobsa, A., and Vassileva, J., Eds. Adaptive Hypertext and Hypermedia. Kluwer Academic Publishers, Dordrecht, 1998.

33. Brusilovsky, P, and Pesin, L. Adaptive navigation support in educational hypermedia: An evaluation of the ISIS-Tutor. Journal of Computing and Information Technology 6, 1998.

34. Brusilovsky, P, Stock, O., and Strapparava, C. Adaptive hypermedia and adaptive Web-based systems, AH2000. Lecture Notes in Computer Science, Springer-Verlag, Berlin, 2000..

35. Cadez, I. and Smyth, P. Probabilistic clustering using hierarchical models. Technical Report 99-16, Information and Computer Science, University of California, Irvine, 1999.

36. Cheeseman, P. and Stutz, J. Bayesian classification (AutoClass): Theory and results. Advances in Knowledge Discovery and Data Mining, pages 153180. AAAI Press, Menlo Park, CA, 1995.

37. Chen, M.-S, Park, J., and Yu, P. Efficient data mining for traversal patterns. IEEE Transactions on Knowledge and Data Engineering, 10:209221, 1998.

38. Claypool M, Le P, Wased M., and Brown D. Implicit interest indicators. In Intelligent User Interfaces, pages 33-40, 2001.

39. Cooley, R, Tan, P.-N, and Srivastava, J. Websift: the Web site information filter system. In Masand, B. and Spiliopoulou, M., editors, Web Usage Analysis and User Profiling, pages 163-182. Springer, Berlin, 2000.

40. De Bra, P, Aerts, A, Berden, B. AHA! The Adaptive Hypermedia Architecture // Proc. of the ACM Hypertext Conference. Nottingham, UK, 2003.

41. Denning P. Electronic junk. Communications of the ACM, 25(3):163-165, 1982.

42. Dempster, A., Laird, N., and Rubin, D. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, В 39:1-38, 1997.

43. Deshpande, M. and Karypis, G. Selective Markov models for predicting web-page accesses. ACM Transactions on Internet Technology, 2003.

44. Dumais, S. When do you want to go where everybody knows your name? A framework for personalization // DELOS/NSF Workshop on Personalization and Recommender Systems in Digital Libraries. Dublin, 2001.

45. Fink, J., Koenemann, J., Noller, S., and Schwab, I. Putting personalization into practice. Commun. ACM 45, 2002.

46. Fraley, C., and Raftery, A. How many clusters? Which clustering method? Answers via model-based cluster analysis. Computer Journal, 41:578-588,1998.

47. Fu, Y., Sandhu, K., and Shih, M. Clustering of Web users based on access patterns. In Masand, B. and Spiliopoulou, M., editors, Web Usage Analysis and User Profiling, pages 21-38. Springer, Berlin, 2000.

48. Girolami M. and Kaban A. Simplicial mixtures of markov chains: Distributed modelling of dynamic user profiles. In Proceedings of the Seventeenth Annual Conference on Neural Information Processing Systems (NIPS-2003), 2003.

49. Gokhale A. and Claypool M. Thresholds for more accurate collaborative filtering. In In Proceedings of the IASTED International Conference on Artificial Intelligence and Soft Computing, Honolulu, Hawaii, USA, 1999.

50. Goldberg D., Nichols D., Oki В., and Terry D. Using collaborative filtering to weave an information tapestry. Communications of the ACM, 35(12):61-70, 1992. '

51. Guyon I. and Elisseeff A. An introduction to variable and feature selection. Journal of Machine Learning Research. Special Issue on Variable and Feature Selection., 3:1157-1182, 2003.

52. Herlocker, J., Konstan, J., Borchers, A., Riedl, J. An Algorithmic Framework for Performing Collaborative Filtering // Proc. of the ACM SIGIR, 1999.

53. Hofmann T. Learning What People Don't Want. In Proceedings of the European Conference on Machine Learning (ECML), 2001.

54. Kaplan, C., Fenwick, J., and Chen, J. Adaptive hypertext navigation based on user goals and context. User Modeling and User-Adapted Interaction 3, 1993.

55. Kilfoil, M, Ghorbani, A. Toward An Adaptive Web: The State of the Art and Science // Proc. of the CNSR 2003 Conference. Moncton, New Brunswick, Canada, 2003.

56. Kohrs A. and Merialdo B. Clustering for collaborative filtering applications, 1999.

57. Little R. and Rubin D. Statistical analysis with missing data. John Wiley & Sons, Inc., 1987.

58. Loeb S. and Terry D. Information filtering. Communications of the ACM, 35(12):26-28, 1992.

59. Marlin В. Modeling user rating profiles for collaborative filtering. In Proceedings of the Seventeenth Annual Conference on Neural Information Processing Systems (NIPS-2003), 2003.

60. Melville P, Mooney R, and Nagarajan R. Content-boosted collaborative filtering. In Proceedings of the ACM SIGIR Workshop on Recommender Systems, 2001.

61. Miliar, N. and Donath, J. Visualizing crowds at a Web site. In Conference on Human Factors in Computing Systems; CHI99, pages 186187, 1999.

62. Mitchell T. Machine Learning. WCB McGraw-Hill, Boston, 1997.

63. Miyahara K. and Pazzani M. Collaborative filtering with the simple bayesian- classifier. In Pacific Rim International Conference on Artificial Intelligence, pages 679-689, 2000.

64. O'Connor M. and Herlocker J. Clustering items for collaborative filtering. In ACM SIGIR '99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999.

65. Pavlov D. and Pennock D. A maximum entropy approach to collaborative filtering in dynamic, sparse, high dimensional domains. In Proceedings of the Sixteenth Annual Conference on Neural Information Processing Systems (NIPS-2002), 2002.

66. Perkowitz, M, Etzioni, O. Towards Adaptive Web Sites: Conceptual Framework and Case Study if Artificial Intelligence, 118,2000.

67. Pirolli, P. and Pitkow, J. Distribution of surfer's paths through the world wide web. World Wide Web, 2:29-45, 1999.

68. Poulsen, C. Mixed Markov and latent Markov modelling applied to brand choice behavior. International Journal of Research in Marketing, 7:5-19, 1990.

69. Rabiner L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, 1989 Available athttp://www.caip.mtgers.edu/~lrr/Reprints/fetorial%20on%20hmm%20and%20appl ications.pdf

70. Ridgeway, G. and Altschuler, S. Clustering finite discrete Markov chains. Proceedings of the Section on Physical and Engineering Sciences, pages 228-229.

71. Sarukkai, R. Link prediction and path analysis using Markov chains. Computer Networks, 33(l-6):377-386, 2000.

72. Sarwar В., Karypis G., Konstan J., and Riedl J. Application of dimensionality reduction in recommender systems-a case study. In ACM WebKDD Workshop, 2000.

73. Schein A., Popescul A., and Ungar L. Methods and metrics for cold-start recommendations. \n Proceedings of the 25'th annual International ACM

74. SIGIR Conference on Research and Development in Information Retrieval, 2002.

75. Sen, R, and Hansen, M. Predicting a Web user's next access based on log data. Journal of'Computational Graphics and Statistics, 12(1): 143-—155, 2003.

76. Seymore K, McCallum A, and Rosenfeld R. Learning Hidden Markov Model Structure for Information Extraction. AAAI 99 Workshop on Machine Learning for Information Extraction, 1999.

77. Shardanand U, and Maes P. Social information filtering: Algorithms for automating "word of mouth". In Proceedings of ACM CHI'9 5 Conference on Human Factors in Computing Systems, volume 1, pages 210-217, 1995.

78. Smyth, P. Clustering sequences using hidden Markov models. In Mozer, M, Jordan, M., and Petsche, T, editors, Advances in Neural Information Processing Systems 9, pages 648-654. MIT Press, 1997.

79. Spiliopoulou, M, Pohle, C, and Faulstich, L. Improving the effectiveness of a web site with Web usage mining. In Masand, B. and Spiliopoulou, M., editors, Web Usage Analysis and User Profiling, pages 142-162. Springer, Berlin, 2000.

80. Ungar L, and Foster D. Clustering methods for collaborative filtering. In Proceedings of the Workshop on Recommendation Systems, Menlo Park California, AAAI Press, 1998.

81. Wexelblat, A. and Maes, P. Footprints: History-rich tools for information foraging. In Proceedings of ACM CHI 99 Conference on Human Factors in Computing Systems, pages 270-277, 1999.

82. Zaffalon M., and Hutter M. Robust feature selection using distributions of mutual information. Proceedings of the 18th International Conference on Uncertainty in Artificial Intelligence (UAI-2002), pages 577-584, San Francisco, CA., 2002. - .

83. Zuckerman, I., Albrecht, D., and Nicholson, A. Predicting user's requests on the WWW. In Proceedings of the Seventh International Conference on User Modeling, pages 275-284. Springer Wien, 1999.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00