Управление контентом веб-сайта на основе персонализации данных

Царев, Анатолий Геннадиевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Управление контентом веб-сайта на основе персонализации данных

кандидата технических наук: Царев, Анатолий Геннадиевич
город: Москва
год: 2011
специальность ВАК РФ: 05.13.01
цена: 450 рублей

Диссертация по информатике, вычислительной технике и управлению на тему «Управление контентом веб-сайта на основе персонализации данных»

Автореферат диссертации по теме "Управление контентом веб-сайта на основе персонализации данных"

На правах рукописи

Царев Анатолий Геннадиевич

¿У к

УПРАВЛЕНИЕ КОНТЕНТОМ ВЕБ-САЙТА НА ОСНОВЕ ПЕРСОНАЛИЗАЦИИ ДАННЫХ

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (в приборостроении)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 9 МАЙ 2011

Москва-2011

4846771

Работа выполнена в Государственном образовательном учреждении высшем профессионального образования «Московский государственный университет леса» (ГОУ НПО «МГУЛ»)

Научный руководитель: доктор технических наук, профессор

Домрачев Вилен Григорьевич

Официальные оппоненты: доктор технических наук, профессор

Иванников Александр Дмитриевич

кандидат технический наук Поярков Николай Геннадьевич

Ведущее учреждение: Государственное образовательное учреждение

высшего профессионального образования «Московский государственный институт электроники и математики (технический университет)»

Защита состоится СЛОИЛ 2011г. в часов О-О минут на заседани

диссертационного совета Д 212.146.04 при Государственном образовательно, учреждении высшего профессионального образования «Московский государственны университет леса» по адресу: 141005, Московская область, г. Мытищи, ул. Институтска д. 1, МГУЛ.

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «МГУЛ»

Автореферат разослан «¿2£Т> (. ¿¿&Л 2011 г.

Ученый секретарь диссертационног.о^ове^а'.;

Тарасенко П.А.

Актуальность работы. В настоящее время изделия приборостроения широко представлены в сети Интернет. С развитием и распространением Интернета растет количество крупных веб-сайтов (далее веб-сайтов) с большой номенклатурой изделий, высокой функциональностью и сложной структурой навигации. Все это приводит к тому, что пользователям веб-сайтов становится сложнее ориентироваться, находить и осуществлять выбор интересующих изделий и информации о них.

Таким образом, в современных веб-сайтах, посвященных изделиям приборостроения, существует актуальная задача эффективной навигационной поддержки его пользователей. Эту задачу можно решить путем управления контентом веб-сайта на основе персонализации данных.

Под управлением контентом веб-сайта на основе персонализации данных (далее персонализация веб-сайта) понимается автоматическое предоставление конкретному пользователю ссылок на страницы с интересующей (релевантной) его информацией. Системы, предоставляющие такие возможности, относятся к частному случаю персонализации, их также называют рекомендательными сервисами.

Проведенный обзор не выявил значимых работ и исследований по персонализации веб-сайтов в сфере приборостроения.

Основные предпосылки, определяющие актуальность диссертационного исследования:

• увеличение спроса на изделия приборостроения;

• увеличение номенклатуры изделий приборостроения отечественного и импортного производства;

• рост популярности сети Интернет;

• рост информационной перегруженности веб-сайтов, осуществляющих информационную поддержку конкретного пользователя при выборе изделий приборостроения;

• рост трудовых затрат пользователей на доступ к релевантной информации;

• отсутствие аналогичных работ и исследований в сфере приборостроения.

Целью диссертационной работы является разработка метода и модели персонализации веб-сайта изделий приборостроения, способных обеспечить эффективный доступ пользователей к релевантной информации, в том числе в начале сеанса. В работе под эффективностью персонализации, а также эффективностью доступа к релевантной информации понимается точность сформированных системой персонализации рекомендаций.

Задачи исследования. В соответствии с указанной целью в диссертационной работе были поставлены и решены следующие задачи:

• изучение и анализ теоретических и практических разработок в области персонализации веб-сайтов;

• выбор подхода к персонализации с учетом специфики веб-сайтов, обеспечивающих информационную поддержку при выборе изделий приборостроения;

• разработка модели пользователя веб-сайта с учетом его поискового поведения;

• разработка модели персонализации веб-сайта с учетом постоянных и текущих потребностей пользователя;

• разработка метода определения релевантности страниц на основе поведенческих характеристик пользователей;

• разработка архитектуры системы персонализации веб-сайта;

• практическая реализация системы персонализации с помощью выбранных программных и аппаратных средств;

• экспериментальная оценка практической пригодности разработанной системы персонализации.

Объект исследования. В качестве объекта исследования в диссертационной работе рассматривается веб-сайт изделий приборостроения с интегрированной системой персонализации данных.

Предмет исследования. Предметом исследования диссертационной работы является процесс персонализации данных.

Научная новизна. В диссертационной работе получены следующие научные результаты:

1. Разработана модель пользователя веб-сайта с учетом его поискового профиля, и интерфейсных взаимодействий.

2. Составлены требования к алгоритму кластеризации поисковых и навигационных профилей пользователей.

3. Проведен сравнительный анализ алгоритмов кластеризации под требования кластеризации поисковых и навигационных профилей. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом признан алгоритм СЬОРЕ.

4. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.

5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе в начале сеанса.

6. Разработан метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.

7. Разработана архитектура системы персонализации, реализующая предложенные модель персонализации и метод определения релевантности страниц.

Практическая значимость работы. На базе полученных теоретических результатов разработана система персонализации пользователя - специальное программное обеспечение, интегрируемое в веб-сайт с соответствующей программной платформой.

Достоверность полученных научных результатов подтверждается корректностью использования математического аппарата, результатами практических применений и положительными результатами их обсуждения на российских и международных научных конференциях.

Методы исследования. При выполнении диссертационной работы были использованы методы интеллектуального анализа данных, математической статистики и многокритериальной оптимизации.

Реализация и внедрение результатов. Полученные в диссертационной работе результаты внедрены в учебный процесс ГОУ ВПО «МГУЛ», разработанное программное обеспечение интегрировано в веб-сайты таких организаций как ООО «Фирма КРУГ», ООО «Верейский лесокомбинат», ЗАО «Радиотехкомплект», что подтверждается актами и справками об использовании полученных в диссертационной работе научных и практических результатов.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих научных конференциях:

• Ежегодная Научно-техническая конференция профессорско-преподавательского состава и аспирантов МГУ леса, Мытищи, 2004г., 2005г., 2006 г., 2007 г., 2008 г., 2009г, 2011г.

• Ежегодная научно-практическая конференция «Инновации в условиях развития информационно-коммуникационных технологий», Сочи 2007г., 2009 г.

• XVI Международная студенческая школа-семинар «Новые информационные технологии», Судак, 2008г.

• Международная научная конференция «Информационные технологии и телекоммуникации в образовании и науке» (ГГ&Т Ев 2010), г. Фетхие (Турция) 2010.

Полученные научные и практические результаты отмечены вторым местом в конкурсе «1Т-ПРОРЫВ» 2010г. (категория «ГГ-реализация», номинация «Интернет-технологии»).

Публикации. Автором опубликовано пятнадцать работ по теме диссертации [1-15], в том числе пять в журналах, входящих в «Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой стене ни доктора и кандидата наук в редакции 2011 года». Список опубликованных работ приведен на последних страницах автореферата.

Структура и объем диссертации. Работа состоит из введения, четырех глав и заключения. Список литературы включает 57 отечественных и 51 зарубежных источников. Содержит 8 таблиц и 22 рисунка. Объем диссертации - 115 страниц, приложение представлено на 5 страницах.

Результаты, выносимые на защиту*:

1. Модель персонализации веб-сайта с учетом постоянных и текущих потребностей пользователей на основе кластеризации поисковых и навигационных профилей.

2. Метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.

3. Архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантности страниц.

* При поддержке Фонда содействию развития МП НТС: гранты рег.

№01200809974 (2008г.), ргг. №01200956775(2009 г.).

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности работы, определяются объект и предмет исследования, формируются цели и задачи исследования, раскрывается научная новизна и практическая значимость работы, дается краткая характеристика содержания работы.

В первой главе рассмотрены вопросы персонализированного представления информации в веб-сайтах: осуществляется введение в персонализацию веб-сайтов, предлагается классификация веб-сайтов, выделяется особый подкласс адаптивных персонализированных сайтов, осуществляется классификация систем персонализации, выделяются ее концептуальные уровни, подробно описывается объект исследования, вводится модель веб-сайта и модель пользователя с учетом поискового поведения и интерфейсных взаимодействий.

В работе рассматривается персонализация на уровне навигации, то есть в результате ее работы пользователю должны быть рекомендованы гиперссылки на страницы, соответствующие его потребностям.

Обосновывается выбор комбинированного подхода к персонализации данных, предлагается использовать подход на основе комбинированной фильтрации через поисково-навигационные профили. Приводится обоснование ввода в модель пользователя его поискового профиля. В результате использования поискового профиля появляется возможность осуществлять эффективную персонализацию с начала сеанса.

Во второй главе описывается предложенная математическая модель персонализации сайта на основе комбинированной филмрации данных через поисково-навигационные профили с учетом постоянных и текущих потребностей пользователя. Описываются задачи, которые необходимо решить для осуществления персонализации на основе поисково-навигационных профилей. Указываются особенности обработки поисковых и навигационных профилей. Проводится сравнительный анализ алгоритмов кластеризации поисковых и навигационных профилей пользователей, осуществляется выбор алгоритма, в наибольшей степени соответствующего предлагаемым в работе требованиям. Описываются перспективы развития разработанной модели персонализации.

В большинстве случаев системы персонализации способны удовлетворять только текущие потребности. Предполагается, что, посещая веб-сайт, пользователь пытается удовлетворить некоторую известную ему совокупность потребностей. Причем одни потребности могут иметь постоянный характер вне зависимости от частоты сеансов, а другие нет. Исхода из этого, потребности разделяются на постоянные и текущие. Тогда множество рекомендуемых ссылок будет представлять из себя объединение множеств ссылок на страницы, удовлетворяющие постоянные и текущие потребности:

Д = {ДоиДс},где

Я - множество рекомендуемых пользователю ссылок; = {гоа} -множество ссылок на непросмотренные пользователем страницы, которые удовлетворяют его постоянные потребности; Яс = {гсь} - множество ссылок на непросмотренные пользователем страницы, которые удовлетворяют его текущие потребности.

Выявление ранее непросмотренных пользователем страниц, но удовлетворяющих постоянным потребностям, предлагается осуществлять с учетом соответствующего поискового профиля.

Были рассмотрены следующие алгоритмы кластеризации: singl-link, complete-link, average group, Rock, CURE, MST, BIRCH, k-raeans, РАМ, SOM, ART1, ART2, Fuzzy C-means, CLOPE. Анализ алгоритмов кластеризации показал, что из всех проанализированных алгоритмов только CLOPE удовлетворяет предложенным требованиям.

Алгоритм CLOPE в задаче кластеризации поисковых профилей выглядит следующим образом:

QP =U{ qp т } - множество поисковых профилей;

(Jp т = U {? „/ } - множество f-ых поисковых запросов го-ого поискового профиля;

Cqp =U {СЯР к) - множество кластеров, разбивающее множество

поисковых профилей QP так, что СЯР \ ■■■ СЧР к ~{йР\-ЧРп} и Cqp * 0 л Cqp n Cqp у = 0, i > \, у < к .

Каждый кластер Cqp , описывается следующими характеристиками: D { Cqp , ) - множество уникальных поисковых запросов; Осс (q,Cqp ,) - частота вхождений поискового запроса Я в кластер

Cqp , .

Задача кластеризации сводится к нахождению такого разбиения множества поисковых профилей на кластеры, при котором глобальная функция стоимости

имеет максимальное значение: Profit (.CQP ¡ ■> r ) max ; (i)

где

tap,,

profit (Cap r)-^W(CqP'Y

proja ((.qp ,,r)- , . глобальная функция

£ MP - I

/«1

стоимости;

S{Cqpt)= J] Occ(q,Cqpi)= J] IЯР*.

т I - площадь,

qcD(Cqp,) qp„eCqPi

занимаемая гистограммой кластера Cqp ,;

W (Cqp ,) = [D {Cqp ,)| - ширина гистограммы кластера Cqp ,; f - коэффициент отталкивания, положительное натуральное число, г =2.

В результате кластеризации поисковому профилю ЦР пользователя идентифицируется определенный кластер Cqp * .

Поисковые запросы, входящие в состав кластера Cqp *, ранжируются по частоте их вхождения в кластер. В расширенный поисковый профиль QPsim выбирается некоторое количество (lim) поисковых запросов с наибольшей частотой вхождения:

Qpsim = |J {qc,fqc}, причем |QPsim | lim , (2)

Occ(gc,Cqp*) | Cqp*

Далее формируется множество ссылок Ro на страницы, которые были просмотрены в сеансах с поисковыми запросами из кластера Cqp * . Ранжирование ссылок осуществляется в соответствии С частотностью поискового

запроса fyc и релевантностью страницы: Wa — fyc * , (3)

где Wa - вес ссылки на страницу ?Оа ; 1ЧС - частотность поискового запроса

Чс; - релевантность страницы УОа .

Под текущими потребностями понимаются такие потребности, удовлетворение которых для пользователя является основной задачей конкретного посещения веб-сайта.

где Лс--jp Ji - частотность поискового запроса Я с в кластере Cqp *

В случае посещения веб-сайта из поисковой системы пользователь заранее описывает свои потребности через поисковый запрос. Поэтому для персонализации веб-сайта кроме навигационного профиля предлагается учитывать текущий поисковый запрос. Использование поискового запроса позволит осуществлять рекомендации пользователю, зашедшему на сайт в первый раз, в момент загрузки первой страницы в браузер.

Предположим, пользователь зашел на веб-сайт из поисковой системы. Для предоставления рекомендаций предлагается решить следующие задачи: определить пользователей, потребности которых в наибольшей степени соответствуют потребностям пользователя; определить наиболее важные страницы, которые были просмотрены выбранными пользователями.

Для решения первой задачи предлагается использовать кластеры поисковых профилей, полученные за счет применения алгоритма CLOPE. Предполагается, что полученные кластеры поисковых профилей объединяют в себе пользователей с наиболее схожими потребностями. Для определения соответствующего кластера необходимо соотнести поисковый профиль пользователя, состоящий из одного поискового запроса, со всеми кластерами.

Cqn * = max Dprofit (Cqn ¡,r), (4)

где

Cqn*. кластер с максимальным приращением стоимости;

Cqn , = Cqp t KJ qp - кластер, образовавшийся в результате добавления поискового профиля пользователя к кластеру получившемуся в (1);

ПпгпЪ <Гп„ SjCqp ,.)

Dprofit (^^)-W(Cqny-W(Cqpy> где

Dprofit {Cqn г) - функция прироста стоимости;

W {Cqn ,) = |D{Cqn ,)| - ширина гистограммы кластера Cqn , ;

SiCqn i) = S(Cqn,) +1 - площадь, которую занимает гистограмма кластера Cqn , ,

Каждый кластер Cqn i описывается такими характеристиками как в (1):

Осе (q,Cqn ,) - частота вхождений поискового запроса Ч в кластер

- множество уникальных поисковых запросов. Далее поисковые запросы ранжируются по частоте их вхождения в выбранный кластер. В расширенный поисковый профиль выбирается некоторое количество (lim) поисковых запросов с наибольшей частотой вхождения:

■ I I г °cc{qc,Cqn*) Qpsim = (J {qc,fqe}, причем \QPsim\ < lim, где J4c =-j^T^j--

частотность поискового запроса Я с в кластере Cqn * .

На окончательном этапе формируется множество ссылок Rc на страницы, которые были просмотрены в сеансах с поисковыми запросами из кластера Cqn * . Ранжирование ссылок осуществляется по аналогии с (3).

Вышеописанная модель работоспособна только при наличии похожих поисковых профилей QPsim, однако, в случае отсутствия таковых она не сможет осуществить выдачу рекомендаций. Чтобы этого избежать, предлагается искать поисковые профили QPlex с похожими поисковыми запросами и далее на их основе выводить рекомендации. Похожесть поисковых запросов определяется на основе уже полученных в (1) кластеров. Разница лишь в том, что если поисковый запрос из поискового профиля пользователя признан похожим на поисковый запрос из кластера, то частота поискового запроса из кластера инкрементируется.

<7 = qif , если Sim (,q,qif) > 0,5 >где

м ы

X Е Jacb (wy>wiß)

sim (q,qjf) = yh=l-—1—:-

f max( \q\\qif\) " мера сходства между

поисковым запросом q , принадлежащего кластеру Cqpt, и поисковым запросом пользователя Qif .

Jacb{}Vy,wijh) - мера схожести между словом wу поискового запроса q и

словом Wyft поискового запроса q,/ , которая принимает два значения: 0 или 1.

12

Ноль присваивается в том случае, если мера Джаккарда между сравниваемыми словами меньше 0,5, иначе принимается единица:

У»уГ\\»ф,

>0,5.

При эксплуатации системы персонализации возможны ситуации, когда будут отсутствовать и похожие поисковые профили - это особенно актуально для вебсайтов, находящихся на ранней стадии жизненного цикла. В таком случае, чтобы обеспечить пользователя рекомендациями, предлагается составить поисковый профиль (¿Ррю на основе поисковых запросов в сеансах, с которыми просматриваемая пользователем страница была наиболее релевантной. Далее на их основе осуществлять вывод рекомендаций.

Для составления (¿Ррго необходимо: осуществить кластеризацию навигационных профилей, соотнести навигационный профиль пользователя с полученными кластерами, составить поисковый профиль <2Ррго , выявить наиболее важные страницы по расширенному поисковому профилю <2Ррго .

Навигационные профили по своей природе идентичны поисковым профилям. Поэтому в качестве алгоритма кластеризации навигационных профилей так лее как и в задаче кластеризации поисковых профилей, предлагается использовать алгоритм СШРЕ.

Для соотнесения навигационного профиля пользователя с полученными кластерами также используется алгоритм СШРЕ. Здесь просмотренные страницы, имевшие место у пользователя в текущем сеансе, добавляются в полученные на этапе кластеризации кластеры навигационных профилей, далее новые кластеры сравниваются по приросту функции стоимости по аналогии с (4). Считается, что навигационный профиль пользователя входит в состав того кластера, у которого был получен максимальный прирост функции стоимости.

После определения наиболее подходящего кластера навигационных профилей определяется множество соответствующих поисковых запросов (.}Ррго . Так как одному навигационному профилю может соответствовать только один поисковый профиль пользователя, то выявление поисковых запросов является несложной задачей. Далее осуществляются те же действия, что и в (2), и в (3) с той

13

лишь разницей, что действия применяются к ОРрго . При двух и более просмотренных в сеансе страницах предлагается проверять соответствие навигационного профиля V, его поисковому профилю {()1'$1т \miQPlex, или

Если коэффициент соответствия SubNQ £ 0,5, значит, текущий навигационный профиль пользователя соответствует его расширенному поисковому профилю. Иначе составляется поисковый профиль (ЦРрго , на

основе которого и формируется множество ссылок Яс .

В третьей главе анализируются традиционные индикаторы предпочтений, рассматриваются методы многокритериальной оптимизации, описывается метод определения релевантности страниц и соответствующая модель индикатора предпочтений на основе многокритериальной оптимизации, учитывающая особенности взаимодействия пользователя с интерфейсом веб-сайта.

Индикатор предпочтений показывает насколько та или иная страница вебсайта заинтересовала пользователя. В настоящее время выделяют два основных типа индикаторов: явные и неявные.

К явным индикаторам относят пользовательские оценки и интерфейсные действия. К неявным - фактические наблюдения, временные наблюдения, интерфейсные наблюдения, а также комбинированные временно-интерфейсные наблюдения.

В работе разработан и реализован индикатор предпочтений, учитывающий суммарное время пребывания на странице в сеансе, количество обращений к странице в сеансе, суммарное количество попаданий фрагментов страницы в поле зрения пользователя в сеансе и максимальную глубину просмотра страницы в сеансе.

Суммарное время пребывания на конкретной (§-ой) странице в сеансе рассчитывается по формуле:

ОРрго ):

ltg {gc , где

tgc - время пребывания пользователя на g - ой странице при С -ом обращении;

nPg- количество обращений пользователя к g -ой странице, С — 1 ,...,npg .

Под глубиной прокрутки понимается максимальное значение нижней границы рабочей области браузера в пикселях, до которой была осуществлена прокрутка востребованной страницы. Если пользователю интересно содержание страницы, предполагается, что он пролистает ее до конца, и наоборот.

Максимальная глубина прокрутки страницы в сеансе определяется по

формуле: smg =VCi3x{scrollgc(k) + hb) ; где SCroHgc(£)_положение полосы прокрутки в С -ом обращении пользователя к g -ой странице в момент к,

~ tk ' ^ = ~ ингсрв^1 времени, через который осуществляется

мониторинг прокрутки страницы. Установлено, что при tk менее чем 0,5 сек., результирующая модели практически не изменяется, при этом увеличивается объем базы данных, и, как следствие, растут вычислительные и временные затраты

на ее обработку. При tk более чем 0,5 сек., происходит потеря данных, что

приводит к искажению конечного результата.

hb

- высота рабочей области браузера (предполагается, что это величина не изменяется в течение конкретного сеанса).

Суммарное количество попаданий фрагментов страницы в поле зрения пользователя в сеансе рассчитывается по формуле:

Щ numfg ff

с=1 /=1

■К,

^ ) - количество попаданий / -ого фрагмента в С -ом обращении к ^ - ой странице в поле зрения пользователя;

f --Ei. ь

numjg ^ _ количество фрагментов на & -ой странице; "Pg -

высота S -ой страницы; hp - высота фрагмента страницы в пикселях; hf -Ititipx.

Получение оценки релевантности страницы сводится к решению задачи многокритериальной оптимизации, в которой указанные выше параметры должны быть максимизированы. Задача решается на основе предложенного метода комплексной оценки поведенческих характеристик пользователей (МКОПХП). Метод МКОПХП представляет собой измененный метод комплексной оценки структур. Его суть заключается в получении обобщенных скалярных оценок релевантности страниц на основе весов частных критериев, полученных от лица, принимающего решения (Л! If), и исходя из разброса векторных оценок поведенческих характеристик пользователей, обратившихся к соответствующим страницам. Для получения оценок от ЛПР предварительно составляется матрица бинарных предпочтений, которая содержит результаты попарных сравнений критериев по важности. Результатом попарного сравнения может выступать 0 -если критерий строки менее важен, чем критерий столбца; 0,5 - если критерии не сравнимы по важности и 1 - если критерий строки считается более важным, чем критерий столбца. Матрица бинарных предпочтений ЛПР представлена в табл. 1, в

которой обозначение Кх соответствует параметру Mg , К2 - параметру nPg, ^з - параметру nfs и Кл- параметру smg.

Таблица 1

Матрица бинарных предпочтений ЛПР

к, к2 А'3 к. Cj

К, 1 0 0,5 1,5

кг 0 0 0,5 0,5

Кг 1 1 0,5 2,5

к, 0,5 0,5 0,5 1,5

Стоимость критерия определяется в результате суммирования полученных

У

с

от ЛПР оценок по соответствующей строке: } Ц . Вес критерия от ЛПР

1

принимает значение, рассчитанное по формуле: ^ ~ ^С ' Веса частных

критериев, исходя из разброса векторных оценок, рассчитываются по формуле:

т

ТУ г

2», 8=1• 2«. •

а=\ а=1

/И. количество страниц, где - количество сеансов, в которых имел место просмотр Я -ой страницы.

Далее определяются обобщенные веса частных критериев в классе линейных

функций: ® ^ — й- Т]1} + Ъ • Т]г- > й и Ъ - коэффициенты, характеризующие

степень доверия к соответствующим весам. В нашем случае коэффициенты (I \\Ъ принимаются равными 0,5. Оценки матрицы критериев приводятся к

п ~ '' Ъл*

безразмерному виду: ' №" , где '"'у - кванта критерия, под которой

понимается мера разумной точности измерения соответствующей характеристики.

Формируется матрица взвешенных оценок: Е = \Pj ' Р]°а\. Вычисляются обобщенные скалярные оценки релевантности § -ой страницы для й -ого сеанса:

В итоге каждая страница получает определенную оценку, причем с ростом оценки растет и важность страницы.

Релевантность g -ой страницы, используемая в формуле (3), рассчитывается как OTHOtneinie суммы скалярных оценок, полученных в Q -ом сеансе, к количеству сеансов, в которых было зафиксировано обращение к £ -ой странице:

rei =-i-

Для оценки практической применимости разработанной модели индикатора был проведен эксперимент. На первом этапе эксперимента пользователям вебсайта ЗАО «РТКТ», отобранных случайным образом, сразу после выхода с определенной страницы предлагалось указать, соответствовала ли страница потребностям или нет. В результате опроса, в котором приняли участие двести пользователей, были накоплены две выборки с положительными ответами (релевантное посещение) и отрицательными ответами (нерелевантное посещение) соответственно. На втором этапе каждый из индикаторов предпочтений («Время пребывания на странице», «Время пребывания на странице в сеансе», «Частота обращений к странице в сеансе», «Индикатор МКОПХП») применялся к страницам, которые были получены на первом этапе эксперимента. Далее для каждого индикатора предпочтений была проверена гипотеза о разности между оценками релевантных и нерелевантных посещений. Для этой цели использовался ранговый критерий Уилкоксона - непараметрический метод проверки гипотезы о разности между двумя медианами. Этот метод освобождает эксперимент от предположения о нормальности распределения выборок, и при этом он по своей мощности мало отличается от более требовательных t-кригериев.

Таблица 2

Резз'льтаты теста Уилкоксона при критическом уровне значимости (р)

равном 0,05

Время пребывания на странице Время пребывания на странице в сеансе Частота обращений к странице в сеансе Индикатор МКОА

Н,\р = 0,0468 Н1 : р = 0,0312 Н0\р = 0,0884 Н1:р = 0,0027

Проверка гипотезы осуществлялась на основе двустороннего критерия:

Н0 : М, =М2 НХ\МХ * М2

Н0 - нулевая гипотеза, Н\ - альтернативная гипотеза, ~ медиана

оценок в выборке с релевантными посещениями, _ медиана оценок в выборке с нерелевантными посещениями.

Как видно из табл. 2 для разработанного индикатора предпочтений была не только опровергнута нулевая гипотеза, но и получено наименьшее р-значение, что свидетельствует о более высокой надежности индикатора МКОПХП по сравнению с остальными рассмотренными индикаторами. Предложенный индикатор предпочтений является важной и неотъемлемой составляющей системы персонализации и необходим для корректной обработки выборки рекомендуемых страниц на финальном этапе персонализации.

В четвертой главе рассматриваются вопросы практической реализации разработанной системы персонализации: осуществляется выбор аппаратных и программных средств, описываются архитектура разработанной системы персонализации (рис.) и алгоритмы работы модулей системы, проводится оценка эффективности разработанной системы персонализации.

Разработанная система персонализации состоит из следующих подсистем (модулей): модуля сбора пользовательской информации, модуля обработки пользовательской информации, модуля вывода рекомендаций, модуля администрирования.

Модуль сбора отвечает за регистрацию необходимого набора пользовательских данных и ее хранение. Он состоит из специального счетчика, снимающего данные и таблиц базы данных, в которых хранится полученная от счетчика информация.

Модуль обработки реализует алгоритм кластеризации СЬОРЕ, адаптированный для решения поставленных задач, метод расчета релевантности страниц на основе МКОПХП и состоит из соответствующих подмодулей: предварительной обработки пользовательской информации, кластеризации, расчета релевантности страниц.

Модуль вывода рекомендаций представляет собой информационный блок, занимающий определенное пространство на странице, выводимой пользователю.

Модуль администрирования необходим для настройки и управления указанных модулей. Для модуля сбора пользовательской информации предусматривается возможность задания количества и времени хранения записей, а также возможность настройки и перенастройки алгоритмов конвертации поисковых запросов различных поисковых систем из иКЬ-адреса в поисковый запрос на естественном языке. Для модуля обработки пользовательской информации настройка заключается в возможности управления интервалом времени, в который разрешается запуск процедур обработки данных в оффлайн режиме, и периодичностью запуска. Администрирование модуля вывода рекомендаций состоит в указании заголовка блока и задании количества рекомендуемых ссылок.

Архитектура системы персонал изации

Обсгскгчемме операций, »»шлиявмьк 8

Рис. Архитектура разработанной системы персонализации данных Для оценки эффективности обучающая выборка объемом в пятнадцать тысяч сеансов делится на две части равного объема: необходимую для обучения системы

и экспериментальную. У каждого г-ого сеанса из экспериментальной части поочередно удерживается от одного до пятнадцати (в зависимости от глубины сеанса) первых т просмотров, которые формируют частичный сеанс № , поступающую на вход системы персонализации. Полученное на выходе множество рекомендуемых ссылок К сравнивается с оставшейся частью пользовательского сеанса V - УЪ и определяется количество совпадений. Эффективность предложенной модели персонализации оценивается по показателю точности для множества из десяти рекомендуемых ссылок, который рассчитывается по формуле:

Точность характеризует способность системы персонализации выдавать в списке рекомендаций только ссылки на те страницы, которые будут реально востребованы пользователем.

Средняя точность для КФЧПНП составила 56,28%, для модели персонализации на основе РАМ-кластеризации навигационных профилей (РАМ) 40,61% и для модели персонализации на основе контентного анализа заголовков страниц (Subname) 30,66%. Точность разработанной модели после просмотра первой страницы оказалась в 2,91 раза выше точности РАМ (в среднем выше в 1,39 раза) и в 6,67 раза выше точности Subname (в среднем выше в 1,84 раза).

Апробация разработанной системы персонализации показала, что она применима не только в области приборостроения, но и других отраслях экономики.

В заключении приведены основные выводы и результаты, полученные в диссертационной работе.

В приложении приведены акты и справки об использовании научных и практических результатов работы.

ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработана модель пользователя веб-сайта с учетом его поискового профиля и интерфейсных взаимодействий.

2. Предложен модифицированный подход к совместной фильтрации данных, учитывающий постоянные и текущие потребности пользователя

при выборе изделий приборостроения, выраженные через поисковые запросы.

3. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.

4. Составлены требования к алгоритму кластеризации поисковых профилей и произведен сравнительный анализ алгоритмов кластеризации. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом для кластеризации поисковых и навигационных профилей признан алгоритм CLOPE.

5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе вначале сеанса.

6. Разработаны модель и метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.

7. Разработана архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантное™ страниц.

8. Произведен сбор и статистическая обработка пользовательской информации, формирующей обучающую выборку.

9. Проведена апробация разработанных моделей и алгоритмов, показавшая их эффективность, осуществлена программная реализация системы персонализации на основе клиентских сценариев, выполненных на языке JavaScript, серверных сценариев на языке PHP в связке с системой управления базами данных MySQL.

Список работ опубликованных по теме диссертации

1. Шереметьев К.П., Царев А.Г. Система персонализации данных для сайтов электронной коммерции. // Вестник Московского государственного университета леса - Лесной вестник.— 2005. — №6(42).-С. 172-175. -ISSN-1727-3749.**

2. Царёв А.Г. «Интернет-магазин для стоматолога. Медицинский алфавит» // Медицинский алфавит. Стоматология №3(46) 2005 - С. 16-17.

3. Шереметьев К.П., Царев А.Г. Тенденции развития интеллектуальных информационных систем в сети Интернет. // Интеллектуальные технологии в образовании, экономике и управлении -2005: Сборник статей 2 Международной конференции. - Воронеж, 2005. - С. 197-198.

4. Шереметьев К.П., Царев А.Г. Использование внешних статистических данных при персонализации сайта. // Вестник Московского государственного университета леса - Лесной вестник. — 2006. — №3(45). - С. 172-176. - ISSN - 1727-3749.**

5. Царев А.Г. Счётчик пользовательских данных для системы персонализации Интернет-магазина. // Инновации в условиях развития информационно-коммуникациоштых технологий: Материалы научно-практической конференции - М.: МИЭМ, 2007,- 331-333.

6. Царев А.Г. Выбор подхода к фильтрации информации для системы персонализации интернет-магазина. // Вестник Московского государственного университета леса - Лесной вестник. — 2008. — №4(61). - С. 180-182. - ISSN - 1727-3749.**

7. Царев А.Г. Исследование интерфейсных взаимодействие пользователей Интернет-магазина. // Новые информационные технологии. Тезисы докладов XVI международной студенческой школы-семинара - М: МИЭМ, 2008, С. 247-248.

8. Царев А.Г., Царева Т.Н. Исследование однопараметрнческих индикаторов заинтересованности пользователей веб-сайта. // Инновации в условиях развития информационно-коммуникационных технологий: Материалы научно-практической конференции - М.: МИЭМ, 2009.-е. 429-432.

9. Царев А.Г. О сборе пользовательских данных в системе персонализации Интернет-магазина. // Вестник Московского государственного университета леса - Лесной вестник. -2009. -№3(66). С. 141-145. -ISSN - 1727-3749.**

10. Царев А.Г, Домрачев В.Г., Ретинская И.В. Модель персонализации сайта на основе анализа постоянных потребностей конечного пользователя. // Новые информационные технологии и менеджмент качества (NIT&QM'2010). Материалы международной научной конференции/Редкол.: А.Н. Тихонов (пред.) и др.; ФГУ ГНИИ ИТТ «Информика».-М.: ООО «Арт-Флэш», 2010.-C.176-179.

11. Царев А.Г. Модель персонализации сайга на основе анализа текущих потребностей конечного пользователя. // Новые информационные технологии и менеджмент качества (NIT&QM'2010). Материалы международной научной конференции/Редкол.: А.Н. Тихонов (пред.) и др.; ФГУ ГНИИ ИТТ «Информика».-М.: ООО «Арт-Флэш», 2010.-c.179-182.

12. Царев А.Г. Модель индикатора предпочтений конечного пользователя веб-сайта на основе многокритериальной комплексной оценки альтернатив. // Мониторинг. Наука и технологии. №3, 2010.-е. 68-69. -ISSN 2076-7358.

13. Царев А.Г. Многокритериальная оптимизация в задаче вычисления релевантности страниц веб-сайта. Естественные и технические науки. // Естественные и технические науки №4 (48). Москва: ООО «Издательство «Спутник+», 2010,- с. 298-299. - ISSN 1684-2626.*»

14. Царев А.Г. Массовая рекомендательная система для веб-сайтов на основе SAAS-технологии. // Труды II международной научно-практической интернет-конференции / Под ред. Г.К. Сафаралиева, А.Н. Андреева, В.А. Казакова - Пенза: Издательство Пензенского филиала РГУИТП, 2010. -374-375.

15. Царев А.Г. Метод персонализации веб-сайта на основе анализа постоянных и текущих потребностей конечного пользователя. Труды II международной научно-практической интернет-конференции / Под ред. Г.К. Сафаралиева, А.Н. Андреева, В.А. Казакова - Пенза: Издательство Пензенского филиала РГУИТП, 2010. - 368-373.

** Научная работа, опубликованная в ведущем рецензируемом журнале, определенном ВАК.

Отпечатано в полном соответствии с качеством представленного оригинал-макета

Подписано в печать 25.04 2011. Формат 60x90 1/16 Бумага 80 г/мг Гарнитура «Тайме». Ризография. Усл. печ. л. 1,0 Тираж 100 экз. Заказ № 112.

Издательство Московского государственного университета леса 141005, Мытищи-5, Московская обл., 1-ая Институтская, 1, МГУЛ E-mail: izdat@mgnl.ac.ru

Оглавление автор диссертации — кандидата технических наук Царев, Анатолий Геннадиевич

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Введение в персонализацию данных веб-сайта.

1.2. Выделение класса персонифицированных веб-сайтов.

1.3. Классификация систем персонализации сайтов.

1.4. Выделение концептуальных уровней персонализации.

1.5. Объект исследования.

1.6. Модель веб-сайта.

1.1. Выбор подхода к персонализации данных.

1.8. Модель пользователя.

Выводы по главе.

2. РАЗРАБОТКА МОДЕЛИ ПЕРСОНАЛИЗАЦИИ ВЕБ-САЙТА НА ОСНОВЕ КОМБИНИРОВАННОГО ПОДХОДА К ФИЛЬТРАЦИИ

ДАННЫХ.

2.1. Получение множества ссылок, удовлетворяющих постоянные потребности пользователя.

2.1.1. Особенности обработки поисковых профилей.

2.1.2. Требования к алгоритму кластеризации.

2.1.3. Анализ алгоритмов кластеризации.

2.1.4. Алгоритм кластеризации СЬОРЕ.

2.1.5. Кластеризация поисковых профилей на основе алгоритма СЬОРЕ.

2.1.6. Ранжирование поисковых запросов и соответствующих ссылок.

2.1.7. Обобщенная блок-схема алгоритма персонализации с учетом постоянных потребностей конечного пользователя на основе кластеризации поисковых профилей.

2.2. Получение множества ссылок, удовлетворяющих текущие потребности пользователя.

2.2.1. Получение множества ссылок, удовлетворяющих текущие потребности пользователя, на основе похожих поисковых запросов.

2.2.2. Получение множества ссылок, удовлетворяющих текущие потребности пользователя, в случае отсутствия идентичных и похожих поисковых запросов.

2.2.3. Получение множества ссылок, в случае нескольких просмотренных страниц.

2.2.4. Обобщенная блок-схема алгоритма персонализации с учетом текущих потребностей конечного пользователей на основе непросмотренных страниц.

2.3. Перспектива развития разработанной модели персонализации.

Выводы по главе.

3. РАЗРАБОТКА МЕТОДА ОПРЕДЕЛЕНИЯ РЕЛЕВАНТНОСТИ СТРАНИЦ.

3.1. Анализ и классификация индикаторов предпочтений.

3.2. Многокритериальная оптимизация в задаче оценивания релевантности просмотренных страниц.

3.3. Метод определения релевантности страниц на основе индикатора предпочтений.

3.4. Экспериментальная оценка разработанной модели индикатора

МКОПХП.

Выводы по главе.

4. РЕАЛИЗАЦИЯ СИСТЕМЫ ПЕРСОНАЛИЗАЦИИ ДАННЫХ.

4.1. Выбор языков разработки сценариев и системы управления базой данных.

4.2. Особенности функционирования системы персонализации данных веб-сайта.

4.3. Оценка точности разработанной модели персонализации.

4.4. Перспективы развития системы персонализации данных на основе

8аа8-архитектуры.

Выводы по главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Царев, Анатолий Геннадиевич

Актуальность работы. В настоящее время изделия приборостроения широко представлены в сети Интернет. С развитием и распространением Интернета растет количество крупных веб-сайтов (далее веб-сайтов) с большой номенклатурой изделий, высокой функциональностью и сложной структурой навигации. Все это приводит к тому, что пользователям веб-сайтов становится сложнее ориентироваться, находить и осуществлять выбор интересующих изделий и информации о них.

Таким образом, в современных веб-сайтах, посвященных изделиям приборостроения, существует актуальная задача эффективной навигационной поддержки его пользователей. Эту задачу можно решить путем управления контентом веб-сайта на основе персонализации данных.

Под управлением контентом веб-сайта на основе персонализации данных (далее персонализация веб-сайта) понимается автоматическое предоставление конкретному пользователю ссылок на страницы с интересующей (релевантной) его информацией. Системы, предоставляющие такие возможности, относятся к частному случаю персонализации, их также называют рекомендательными сервисами.

Основные предпосылки, определяющие актуальность диссертационного исследования:

• увеличение спроса на изделия приборостроения;

• увеличение номенклатуры изделий приборостроения отечественного и импортного производства;

• рост популярности сети Интернет;

• рост информационной перегруженности веб-сайтов, осуществляющих информационную поддержку конкретного пользователя при выборе изделий приборостроения;

• рост трудовых затрат пользователей на доступ к релевантной информации;

• отсутствие значимых научных работ и исследований по рассматриваемой тематике в сфере приборостроения.

Целью диссертационной работы является разработка метода и модели персонализации веб-сайта изделий приборостроения, способных обеспечить эффективный доступ пользователей к релевантной информации, в том числе в начале сеанса. В работе под эффективностью персонализации, а также эффективностью доступа к релевантной информации понимается точность сформированных системой персонализации рекомендаций.

Задачи исследования. В соответствии с указанной целью в диссертационной работе были поставлены и решены следующие задачи:

• изучение и анализ теоретических и практических разработок в области персонализации веб-сайтов;

• выбор подхода к персонализации с учетом специфики веб-сайтов, обеспечивающих информационную поддержку при выборе изделий приборостроения;

• разработка модели пользователя веб-сайта с учетом его поискового поведения;

• разработка модели персонализации веб-сайта с учетом постоянных и текущих потребностей пользователя;

• разработка метода определения релевантности страниц на основе поведенческих характеристик пользователей;

• разработка архитектуры системы персонализации веб-сайта;

• практическая реализация системы персонализации с помощью выбранных программных и аппаратных средств;

• экспериментальная оценка практической пригодности разработанной системы персонализации.

Объект исследования. В качестве объекта исследования в диссертационной работе рассматривается веб-сайт изделий приборостроения с интегрированной системой персонализации данных.

Предмет исследования. Предметом исследования диссертационной работы является процесс персонализации данных.

Научная новизна. В диссертационной работе получены следующие научные результаты:

1. Разработана модель пользователя веб-сайта с учетом его поискового профиля и интерфейсных взаимодействий.

2. Составлены требования к алгоритму кластеризации поисковых и навигационных профилей пользователей.

3. Проведен сравнительный анализ алгоритмов кластеризации под требования кластеризации поисковых и навигационных профилей. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом признан алгоритм СЮРЕ.