автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Управление контентом веб-сайта на основе персонализации данных
Автореферат диссертации по теме "Управление контентом веб-сайта на основе персонализации данных"
На правах рукописи
Царев Анатолий Геннадиевич
¿У к
УПРАВЛЕНИЕ КОНТЕНТОМ ВЕБ-САЙТА НА ОСНОВЕ ПЕРСОНАЛИЗАЦИИ ДАННЫХ
Специальность: 05.13.01 - Системный анализ, управление и обработка информации (в приборостроении)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 9 МАЙ 2011
Москва-2011
4846771
4846771
Работа выполнена в Государственном образовательном учреждении высшем профессионального образования «Московский государственный университет леса» (ГОУ НПО «МГУЛ»)
Научный руководитель: доктор технических наук, профессор
Домрачев Вилен Григорьевич
Официальные оппоненты: доктор технических наук, профессор
Иванников Александр Дмитриевич
кандидат технический наук Поярков Николай Геннадьевич
Ведущее учреждение: Государственное образовательное учреждение
высшего профессионального образования «Московский государственный институт электроники и математики (технический университет)»
Защита состоится СЛОИЛ 2011г. в часов О-О минут на заседани
диссертационного совета Д 212.146.04 при Государственном образовательно, учреждении высшего профессионального образования «Московский государственны университет леса» по адресу: 141005, Московская область, г. Мытищи, ул. Институтска д. 1, МГУЛ.
С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «МГУЛ»
Автореферат разослан «¿2£Т> (. ¿¿&Л 2011 г.
Ученый секретарь диссертационног.о^ове^а'.;
Тарасенко П.А.
Актуальность работы. В настоящее время изделия приборостроения широко представлены в сети Интернет. С развитием и распространением Интернета растет количество крупных веб-сайтов (далее веб-сайтов) с большой номенклатурой изделий, высокой функциональностью и сложной структурой навигации. Все это приводит к тому, что пользователям веб-сайтов становится сложнее ориентироваться, находить и осуществлять выбор интересующих изделий и информации о них.
Таким образом, в современных веб-сайтах, посвященных изделиям приборостроения, существует актуальная задача эффективной навигационной поддержки его пользователей. Эту задачу можно решить путем управления контентом веб-сайта на основе персонализации данных.
Под управлением контентом веб-сайта на основе персонализации данных (далее персонализация веб-сайта) понимается автоматическое предоставление конкретному пользователю ссылок на страницы с интересующей (релевантной) его информацией. Системы, предоставляющие такие возможности, относятся к частному случаю персонализации, их также называют рекомендательными сервисами.
Проведенный обзор не выявил значимых работ и исследований по персонализации веб-сайтов в сфере приборостроения.
Основные предпосылки, определяющие актуальность диссертационного исследования:
• увеличение спроса на изделия приборостроения;
• увеличение номенклатуры изделий приборостроения отечественного и импортного производства;
• рост популярности сети Интернет;
• рост информационной перегруженности веб-сайтов, осуществляющих информационную поддержку конкретного пользователя при выборе изделий приборостроения;
• рост трудовых затрат пользователей на доступ к релевантной информации;
• отсутствие аналогичных работ и исследований в сфере приборостроения.
Целью диссертационной работы является разработка метода и модели персонализации веб-сайта изделий приборостроения, способных обеспечить эффективный доступ пользователей к релевантной информации, в том числе в начале сеанса. В работе под эффективностью персонализации, а также эффективностью доступа к релевантной информации понимается точность сформированных системой персонализации рекомендаций.
Задачи исследования. В соответствии с указанной целью в диссертационной работе были поставлены и решены следующие задачи:
• изучение и анализ теоретических и практических разработок в области персонализации веб-сайтов;
• выбор подхода к персонализации с учетом специфики веб-сайтов, обеспечивающих информационную поддержку при выборе изделий приборостроения;
• разработка модели пользователя веб-сайта с учетом его поискового поведения;
• разработка модели персонализации веб-сайта с учетом постоянных и текущих потребностей пользователя;
• разработка метода определения релевантности страниц на основе поведенческих характеристик пользователей;
• разработка архитектуры системы персонализации веб-сайта;
• практическая реализация системы персонализации с помощью выбранных программных и аппаратных средств;
• экспериментальная оценка практической пригодности разработанной системы персонализации.
Объект исследования. В качестве объекта исследования в диссертационной работе рассматривается веб-сайт изделий приборостроения с интегрированной системой персонализации данных.
Предмет исследования. Предметом исследования диссертационной работы является процесс персонализации данных.
Научная новизна. В диссертационной работе получены следующие научные результаты:
1. Разработана модель пользователя веб-сайта с учетом его поискового профиля, и интерфейсных взаимодействий.
2. Составлены требования к алгоритму кластеризации поисковых и навигационных профилей пользователей.
3. Проведен сравнительный анализ алгоритмов кластеризации под требования кластеризации поисковых и навигационных профилей. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом признан алгоритм СЬОРЕ.
4. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.
5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе в начале сеанса.
6. Разработан метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
7. Разработана архитектура системы персонализации, реализующая предложенные модель персонализации и метод определения релевантности страниц.
Практическая значимость работы. На базе полученных теоретических результатов разработана система персонализации пользователя - специальное программное обеспечение, интегрируемое в веб-сайт с соответствующей программной платформой.
Достоверность полученных научных результатов подтверждается корректностью использования математического аппарата, результатами практических применений и положительными результатами их обсуждения на российских и международных научных конференциях.
Методы исследования. При выполнении диссертационной работы были использованы методы интеллектуального анализа данных, математической статистики и многокритериальной оптимизации.
Реализация и внедрение результатов. Полученные в диссертационной работе результаты внедрены в учебный процесс ГОУ ВПО «МГУЛ», разработанное программное обеспечение интегрировано в веб-сайты таких организаций как ООО «Фирма КРУГ», ООО «Верейский лесокомбинат», ЗАО «Радиотехкомплект», что подтверждается актами и справками об использовании полученных в диссертационной работе научных и практических результатов.
Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих научных конференциях:
• Ежегодная Научно-техническая конференция профессорско-преподавательского состава и аспирантов МГУ леса, Мытищи, 2004г., 2005г., 2006 г., 2007 г., 2008 г., 2009г, 2011г.
• Ежегодная научно-практическая конференция «Инновации в условиях развития информационно-коммуникационных технологий», Сочи 2007г., 2009 г.
• XVI Международная студенческая школа-семинар «Новые информационные технологии», Судак, 2008г.
• Международная научная конференция «Информационные технологии и телекоммуникации в образовании и науке» (ГГ&Т Ев 2010), г. Фетхие (Турция) 2010.
Полученные научные и практические результаты отмечены вторым местом в конкурсе «1Т-ПРОРЫВ» 2010г. (категория «ГГ-реализация», номинация «Интернет-технологии»).
Публикации. Автором опубликовано пятнадцать работ по теме диссертации [1-15], в том числе пять в журналах, входящих в «Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой стене ни доктора и кандидата наук в редакции 2011 года». Список опубликованных работ приведен на последних страницах автореферата.
Структура и объем диссертации. Работа состоит из введения, четырех глав и заключения. Список литературы включает 57 отечественных и 51 зарубежных источников. Содержит 8 таблиц и 22 рисунка. Объем диссертации - 115 страниц, приложение представлено на 5 страницах.
Результаты, выносимые на защиту*:
1. Модель персонализации веб-сайта с учетом постоянных и текущих потребностей пользователей на основе кластеризации поисковых и навигационных профилей.
2. Метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
3. Архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантности страниц.
* При поддержке Фонда содействию развития МП НТС: гранты рег.
№01200809974 (2008г.), ргг. №01200956775(2009 г.).
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении содержится обоснование актуальности работы, определяются объект и предмет исследования, формируются цели и задачи исследования, раскрывается научная новизна и практическая значимость работы, дается краткая характеристика содержания работы.
В первой главе рассмотрены вопросы персонализированного представления информации в веб-сайтах: осуществляется введение в персонализацию веб-сайтов, предлагается классификация веб-сайтов, выделяется особый подкласс адаптивных персонализированных сайтов, осуществляется классификация систем персонализации, выделяются ее концептуальные уровни, подробно описывается объект исследования, вводится модель веб-сайта и модель пользователя с учетом поискового поведения и интерфейсных взаимодействий.
В работе рассматривается персонализация на уровне навигации, то есть в результате ее работы пользователю должны быть рекомендованы гиперссылки на страницы, соответствующие его потребностям.
Обосновывается выбор комбинированного подхода к персонализации данных, предлагается использовать подход на основе комбинированной фильтрации через поисково-навигационные профили. Приводится обоснование ввода в модель пользователя его поискового профиля. В результате использования поискового профиля появляется возможность осуществлять эффективную персонализацию с начала сеанса.
Во второй главе описывается предложенная математическая модель персонализации сайта на основе комбинированной филмрации данных через поисково-навигационные профили с учетом постоянных и текущих потребностей пользователя. Описываются задачи, которые необходимо решить для осуществления персонализации на основе поисково-навигационных профилей. Указываются особенности обработки поисковых и навигационных профилей. Проводится сравнительный анализ алгоритмов кластеризации поисковых и навигационных профилей пользователей, осуществляется выбор алгоритма, в наибольшей степени соответствующего предлагаемым в работе требованиям. Описываются перспективы развития разработанной модели персонализации.
В большинстве случаев системы персонализации способны удовлетворять только текущие потребности. Предполагается, что, посещая веб-сайт, пользователь пытается удовлетворить некоторую известную ему совокупность потребностей. Причем одни потребности могут иметь постоянный характер вне зависимости от частоты сеансов, а другие нет. Исхода из этого, потребности разделяются на постоянные и текущие. Тогда множество рекомендуемых ссылок будет представлять из себя объединение множеств ссылок на страницы, удовлетворяющие постоянные и текущие потребности:
Д = {ДоиДс},где
Я - множество рекомендуемых пользователю ссылок; = {гоа} -множество ссылок на непросмотренные пользователем страницы, которые удовлетворяют его постоянные потребности; Яс = {гсь} - множество ссылок на непросмотренные пользователем страницы, которые удовлетворяют его текущие потребности.
Выявление ранее непросмотренных пользователем страниц, но удовлетворяющих постоянным потребностям, предлагается осуществлять с учетом соответствующего поискового профиля.
Были рассмотрены следующие алгоритмы кластеризации: singl-link, complete-link, average group, Rock, CURE, MST, BIRCH, k-raeans, РАМ, SOM, ART1, ART2, Fuzzy C-means, CLOPE. Анализ алгоритмов кластеризации показал, что из всех проанализированных алгоритмов только CLOPE удовлетворяет предложенным требованиям.
Алгоритм CLOPE в задаче кластеризации поисковых профилей выглядит следующим образом:
QP =U{ qp т } - множество поисковых профилей;
(Jp т = U {? „/ } - множество f-ых поисковых запросов го-ого поискового профиля;
Cqp =U {СЯР к) - множество кластеров, разбивающее множество
поисковых профилей QP так, что СЯР \ ■■■ СЧР к ~{йР\-ЧРп} и Cqp * 0 л Cqp n Cqp у = 0, i > \, у < к .
Каждый кластер Cqp , описывается следующими характеристиками: D { Cqp , ) - множество уникальных поисковых запросов; Осс (q,Cqp ,) - частота вхождений поискового запроса Я в кластер
Cqp , .
Задача кластеризации сводится к нахождению такого разбиения множества поисковых профилей на кластеры, при котором глобальная функция стоимости
имеет максимальное значение: Profit (.CQP ¡ ■> r ) max ; (i)
где
tap,,
profit (Cap r)-^W(CqP'Y
proja ((.qp ,,r)- , . глобальная функция
£ MP - I
/«1
стоимости;
S{Cqpt)= J] Occ(q,Cqpi)= J] IЯР*.
т I - площадь,
qcD(Cqp,) qp„eCqPi
занимаемая гистограммой кластера Cqp ,;
W (Cqp ,) = [D {Cqp ,)| - ширина гистограммы кластера Cqp ,; f - коэффициент отталкивания, положительное натуральное число, г =2.
В результате кластеризации поисковому профилю ЦР пользователя идентифицируется определенный кластер Cqp * .
Поисковые запросы, входящие в состав кластера Cqp *, ранжируются по частоте их вхождения в кластер. В расширенный поисковый профиль QPsim выбирается некоторое количество (lim) поисковых запросов с наибольшей частотой вхождения:
Qpsim = |J {qc,fqc}, причем |QPsim | lim , (2)
Occ(gc,Cqp*) | Cqp*
Далее формируется множество ссылок Ro на страницы, которые были просмотрены в сеансах с поисковыми запросами из кластера Cqp * . Ранжирование ссылок осуществляется в соответствии С частотностью поискового
запроса fyc и релевантностью страницы: Wa — fyc * , (3)
где Wa - вес ссылки на страницу ?Оа ; 1ЧС - частотность поискового запроса
Чс; - релевантность страницы УОа .
Под текущими потребностями понимаются такие потребности, удовлетворение которых для пользователя является основной задачей конкретного посещения веб-сайта.
где Лс--jp Ji - частотность поискового запроса Я с в кластере Cqp *
В случае посещения веб-сайта из поисковой системы пользователь заранее описывает свои потребности через поисковый запрос. Поэтому для персонализации веб-сайта кроме навигационного профиля предлагается учитывать текущий поисковый запрос. Использование поискового запроса позволит осуществлять рекомендации пользователю, зашедшему на сайт в первый раз, в момент загрузки первой страницы в браузер.
Предположим, пользователь зашел на веб-сайт из поисковой системы. Для предоставления рекомендаций предлагается решить следующие задачи: определить пользователей, потребности которых в наибольшей степени соответствуют потребностям пользователя; определить наиболее важные страницы, которые были просмотрены выбранными пользователями.
Для решения первой задачи предлагается использовать кластеры поисковых профилей, полученные за счет применения алгоритма CLOPE. Предполагается, что полученные кластеры поисковых профилей объединяют в себе пользователей с наиболее схожими потребностями. Для определения соответствующего кластера необходимо соотнести поисковый профиль пользователя, состоящий из одного поискового запроса, со всеми кластерами.
Cqn * = max Dprofit (Cqn ¡,r), (4)
где
Cqn*. кластер с максимальным приращением стоимости;
Cqn , = Cqp t KJ qp - кластер, образовавшийся в результате добавления поискового профиля пользователя к кластеру получившемуся в (1);
ПпгпЪ <Гп„ SjCqp ,.)
Dprofit (^^)-W(Cqny-W(Cqpy> где
Dprofit {Cqn г) - функция прироста стоимости;
W {Cqn ,) = |D{Cqn ,)| - ширина гистограммы кластера Cqn , ;
SiCqn i) = S(Cqn,) +1 - площадь, которую занимает гистограмма кластера Cqn , ,
Каждый кластер Cqn i описывается такими характеристиками как в (1):
Осе (q,Cqn ,) - частота вхождений поискового запроса Ч в кластер
- множество уникальных поисковых запросов. Далее поисковые запросы ранжируются по частоте их вхождения в выбранный кластер. В расширенный поисковый профиль выбирается некоторое количество (lim) поисковых запросов с наибольшей частотой вхождения:
■ I I г °cc{qc,Cqn*) Qpsim = (J {qc,fqe}, причем \QPsim\ < lim, где J4c =-j^T^j--
частотность поискового запроса Я с в кластере Cqn * .
На окончательном этапе формируется множество ссылок Rc на страницы, которые были просмотрены в сеансах с поисковыми запросами из кластера Cqn * . Ранжирование ссылок осуществляется по аналогии с (3).
Вышеописанная модель работоспособна только при наличии похожих поисковых профилей QPsim, однако, в случае отсутствия таковых она не сможет осуществить выдачу рекомендаций. Чтобы этого избежать, предлагается искать поисковые профили QPlex с похожими поисковыми запросами и далее на их основе выводить рекомендации. Похожесть поисковых запросов определяется на основе уже полученных в (1) кластеров. Разница лишь в том, что если поисковый запрос из поискового профиля пользователя признан похожим на поисковый запрос из кластера, то частота поискового запроса из кластера инкрементируется.
<7 = qif , если Sim (,q,qif) > 0,5 >где
м ы
X Е Jacb (wy>wiß)
sim (q,qjf) = yh=l-—1—:-
f max( \q\\qif\) " мера сходства между
поисковым запросом q , принадлежащего кластеру Cqpt, и поисковым запросом пользователя Qif .
Jacb{}Vy,wijh) - мера схожести между словом wу поискового запроса q и
словом Wyft поискового запроса q,/ , которая принимает два значения: 0 или 1.
12
Ноль присваивается в том случае, если мера Джаккарда между сравниваемыми словами меньше 0,5, иначе принимается единица:
У»уГ\\»ф,
>0,5.
При эксплуатации системы персонализации возможны ситуации, когда будут отсутствовать и похожие поисковые профили - это особенно актуально для вебсайтов, находящихся на ранней стадии жизненного цикла. В таком случае, чтобы обеспечить пользователя рекомендациями, предлагается составить поисковый профиль (¿Ррю на основе поисковых запросов в сеансах, с которыми просматриваемая пользователем страница была наиболее релевантной. Далее на их основе осуществлять вывод рекомендаций.
Для составления (¿Ррго необходимо: осуществить кластеризацию навигационных профилей, соотнести навигационный профиль пользователя с полученными кластерами, составить поисковый профиль <2Ррго , выявить наиболее важные страницы по расширенному поисковому профилю <2Ррго .
Навигационные профили по своей природе идентичны поисковым профилям. Поэтому в качестве алгоритма кластеризации навигационных профилей так лее как и в задаче кластеризации поисковых профилей, предлагается использовать алгоритм СШРЕ.
Для соотнесения навигационного профиля пользователя с полученными кластерами также используется алгоритм СШРЕ. Здесь просмотренные страницы, имевшие место у пользователя в текущем сеансе, добавляются в полученные на этапе кластеризации кластеры навигационных профилей, далее новые кластеры сравниваются по приросту функции стоимости по аналогии с (4). Считается, что навигационный профиль пользователя входит в состав того кластера, у которого был получен максимальный прирост функции стоимости.
После определения наиболее подходящего кластера навигационных профилей определяется множество соответствующих поисковых запросов (.}Ррго . Так как одному навигационному профилю может соответствовать только один поисковый профиль пользователя, то выявление поисковых запросов является несложной задачей. Далее осуществляются те же действия, что и в (2), и в (3) с той
13
лишь разницей, что действия применяются к ОРрго . При двух и более просмотренных в сеансе страницах предлагается проверять соответствие навигационного профиля V, его поисковому профилю {()1'$1т \miQPlex, или
Если коэффициент соответствия SubNQ £ 0,5, значит, текущий навигационный профиль пользователя соответствует его расширенному поисковому профилю. Иначе составляется поисковый профиль (ЦРрго , на
основе которого и формируется множество ссылок Яс .
В третьей главе анализируются традиционные индикаторы предпочтений, рассматриваются методы многокритериальной оптимизации, описывается метод определения релевантности страниц и соответствующая модель индикатора предпочтений на основе многокритериальной оптимизации, учитывающая особенности взаимодействия пользователя с интерфейсом веб-сайта.
Индикатор предпочтений показывает насколько та или иная страница вебсайта заинтересовала пользователя. В настоящее время выделяют два основных типа индикаторов: явные и неявные.
К явным индикаторам относят пользовательские оценки и интерфейсные действия. К неявным - фактические наблюдения, временные наблюдения, интерфейсные наблюдения, а также комбинированные временно-интерфейсные наблюдения.
В работе разработан и реализован индикатор предпочтений, учитывающий суммарное время пребывания на странице в сеансе, количество обращений к странице в сеансе, суммарное количество попаданий фрагментов страницы в поле зрения пользователя в сеансе и максимальную глубину просмотра страницы в сеансе.
Суммарное время пребывания на конкретной (§-ой) странице в сеансе рассчитывается по формуле:
ОРрго ):
ltg {gc , где
tgc - время пребывания пользователя на g - ой странице при С -ом обращении;
nPg- количество обращений пользователя к g -ой странице, С — 1 ,...,npg .
Под глубиной прокрутки понимается максимальное значение нижней границы рабочей области браузера в пикселях, до которой была осуществлена прокрутка востребованной страницы. Если пользователю интересно содержание страницы, предполагается, что он пролистает ее до конца, и наоборот.
Максимальная глубина прокрутки страницы в сеансе определяется по
формуле: smg =VCi3x{scrollgc(k) + hb) ; где SCroHgc(£)_положение полосы прокрутки в С -ом обращении пользователя к g -ой странице в момент к,
~ tk ' ^ = ~ ингсрв^1 времени, через который осуществляется
мониторинг прокрутки страницы. Установлено, что при tk менее чем 0,5 сек., результирующая модели практически не изменяется, при этом увеличивается объем базы данных, и, как следствие, растут вычислительные и временные затраты
на ее обработку. При tk более чем 0,5 сек., происходит потеря данных, что
приводит к искажению конечного результата.
hb
- высота рабочей области браузера (предполагается, что это величина не изменяется в течение конкретного сеанса).
Суммарное количество попаданий фрагментов страницы в поле зрения пользователя в сеансе рассчитывается по формуле:
Щ numfg ff
с=1 /=1
■К,
^ ) - количество попаданий / -ого фрагмента в С -ом обращении к ^ - ой странице в поле зрения пользователя;
f --Ei. ь
numjg ^ _ количество фрагментов на & -ой странице; "Pg -
высота S -ой страницы; hp - высота фрагмента страницы в пикселях; hf -Ititipx.
Получение оценки релевантности страницы сводится к решению задачи многокритериальной оптимизации, в которой указанные выше параметры должны быть максимизированы. Задача решается на основе предложенного метода комплексной оценки поведенческих характеристик пользователей (МКОПХП). Метод МКОПХП представляет собой измененный метод комплексной оценки структур. Его суть заключается в получении обобщенных скалярных оценок релевантности страниц на основе весов частных критериев, полученных от лица, принимающего решения (Л! If), и исходя из разброса векторных оценок поведенческих характеристик пользователей, обратившихся к соответствующим страницам. Для получения оценок от ЛПР предварительно составляется матрица бинарных предпочтений, которая содержит результаты попарных сравнений критериев по важности. Результатом попарного сравнения может выступать 0 -если критерий строки менее важен, чем критерий столбца; 0,5 - если критерии не сравнимы по важности и 1 - если критерий строки считается более важным, чем критерий столбца. Матрица бинарных предпочтений ЛПР представлена в табл. 1, в
которой обозначение Кх соответствует параметру Mg , К2 - параметру nPg, ^з - параметру nfs и Кл- параметру smg.
Таблица 1
Матрица бинарных предпочтений ЛПР
к, к2 А'3 к. Cj
К, 1 0 0,5 1,5
кг 0 0 0,5 0,5
Кг 1 1 0,5 2,5
к, 0,5 0,5 0,5 1,5
Стоимость критерия определяется в результате суммирования полученных
У
с
от ЛПР оценок по соответствующей строке: } Ц . Вес критерия от ЛПР
1
принимает значение, рассчитанное по формуле: ^ ~ ^С ' Веса частных
критериев, исходя из разброса векторных оценок, рассчитываются по формуле:
т
ТУ г
2», 8=1• 2«. •
а=\ а=1
/И. количество страниц, где - количество сеансов, в которых имел место просмотр Я -ой страницы.
Далее определяются обобщенные веса частных критериев в классе линейных
функций: ® ^ — й- Т]1} + Ъ • Т]г- > й и Ъ - коэффициенты, характеризующие
степень доверия к соответствующим весам. В нашем случае коэффициенты (I \\Ъ принимаются равными 0,5. Оценки матрицы критериев приводятся к
п ~ '' Ъл*
безразмерному виду: ' №" , где '"'у - кванта критерия, под которой
понимается мера разумной точности измерения соответствующей характеристики.
Формируется матрица взвешенных оценок: Е = \Pj ' Р]°а\. Вычисляются обобщенные скалярные оценки релевантности § -ой страницы для й -ого сеанса:
В итоге каждая страница получает определенную оценку, причем с ростом оценки растет и важность страницы.
Релевантность g -ой страницы, используемая в формуле (3), рассчитывается как OTHOtneinie суммы скалярных оценок, полученных в Q -ом сеансе, к количеству сеансов, в которых было зафиксировано обращение к £ -ой странице:
rei =-i-
Для оценки практической применимости разработанной модели индикатора был проведен эксперимент. На первом этапе эксперимента пользователям вебсайта ЗАО «РТКТ», отобранных случайным образом, сразу после выхода с определенной страницы предлагалось указать, соответствовала ли страница потребностям или нет. В результате опроса, в котором приняли участие двести пользователей, были накоплены две выборки с положительными ответами (релевантное посещение) и отрицательными ответами (нерелевантное посещение) соответственно. На втором этапе каждый из индикаторов предпочтений («Время пребывания на странице», «Время пребывания на странице в сеансе», «Частота обращений к странице в сеансе», «Индикатор МКОПХП») применялся к страницам, которые были получены на первом этапе эксперимента. Далее для каждого индикатора предпочтений была проверена гипотеза о разности между оценками релевантных и нерелевантных посещений. Для этой цели использовался ранговый критерий Уилкоксона - непараметрический метод проверки гипотезы о разности между двумя медианами. Этот метод освобождает эксперимент от предположения о нормальности распределения выборок, и при этом он по своей мощности мало отличается от более требовательных t-кригериев.
Таблица 2
Резз'льтаты теста Уилкоксона при критическом уровне значимости (р)
равном 0,05
Время пребывания на странице Время пребывания на странице в сеансе Частота обращений к странице в сеансе Индикатор МКОА
Н,\р = 0,0468 Н1 : р = 0,0312 Н0\р = 0,0884 Н1:р = 0,0027
Проверка гипотезы осуществлялась на основе двустороннего критерия:
Н0 : М, =М2 НХ\МХ * М2
Н0 - нулевая гипотеза, Н\ - альтернативная гипотеза, ~ медиана
оценок в выборке с релевантными посещениями, _ медиана оценок в выборке с нерелевантными посещениями.
Как видно из табл. 2 для разработанного индикатора предпочтений была не только опровергнута нулевая гипотеза, но и получено наименьшее р-значение, что свидетельствует о более высокой надежности индикатора МКОПХП по сравнению с остальными рассмотренными индикаторами. Предложенный индикатор предпочтений является важной и неотъемлемой составляющей системы персонализации и необходим для корректной обработки выборки рекомендуемых страниц на финальном этапе персонализации.
В четвертой главе рассматриваются вопросы практической реализации разработанной системы персонализации: осуществляется выбор аппаратных и программных средств, описываются архитектура разработанной системы персонализации (рис.) и алгоритмы работы модулей системы, проводится оценка эффективности разработанной системы персонализации.
Разработанная система персонализации состоит из следующих подсистем (модулей): модуля сбора пользовательской информации, модуля обработки пользовательской информации, модуля вывода рекомендаций, модуля администрирования.
Модуль сбора отвечает за регистрацию необходимого набора пользовательских данных и ее хранение. Он состоит из специального счетчика, снимающего данные и таблиц базы данных, в которых хранится полученная от счетчика информация.
Модуль обработки реализует алгоритм кластеризации СЬОРЕ, адаптированный для решения поставленных задач, метод расчета релевантности страниц на основе МКОПХП и состоит из соответствующих подмодулей: предварительной обработки пользовательской информации, кластеризации, расчета релевантности страниц.
Модуль вывода рекомендаций представляет собой информационный блок, занимающий определенное пространство на странице, выводимой пользователю.
Модуль администрирования необходим для настройки и управления указанных модулей. Для модуля сбора пользовательской информации предусматривается возможность задания количества и времени хранения записей, а также возможность настройки и перенастройки алгоритмов конвертации поисковых запросов различных поисковых систем из иКЬ-адреса в поисковый запрос на естественном языке. Для модуля обработки пользовательской информации настройка заключается в возможности управления интервалом времени, в который разрешается запуск процедур обработки данных в оффлайн режиме, и периодичностью запуска. Администрирование модуля вывода рекомендаций состоит в указании заголовка блока и задании количества рекомендуемых ссылок.
Архитектура системы персонал изации
Обсгскгчемме операций, »»шлиявмьк 8
Рис. Архитектура разработанной системы персонализации данных Для оценки эффективности обучающая выборка объемом в пятнадцать тысяч сеансов делится на две части равного объема: необходимую для обучения системы
и экспериментальную. У каждого г-ого сеанса из экспериментальной части поочередно удерживается от одного до пятнадцати (в зависимости от глубины сеанса) первых т просмотров, которые формируют частичный сеанс № , поступающую на вход системы персонализации. Полученное на выходе множество рекомендуемых ссылок К сравнивается с оставшейся частью пользовательского сеанса V - УЪ и определяется количество совпадений. Эффективность предложенной модели персонализации оценивается по показателю точности для множества из десяти рекомендуемых ссылок, который рассчитывается по формуле:
Точность характеризует способность системы персонализации выдавать в списке рекомендаций только ссылки на те страницы, которые будут реально востребованы пользователем.
Средняя точность для КФЧПНП составила 56,28%, для модели персонализации на основе РАМ-кластеризации навигационных профилей (РАМ) 40,61% и для модели персонализации на основе контентного анализа заголовков страниц (Subname) 30,66%. Точность разработанной модели после просмотра первой страницы оказалась в 2,91 раза выше точности РАМ (в среднем выше в 1,39 раза) и в 6,67 раза выше точности Subname (в среднем выше в 1,84 раза).
Апробация разработанной системы персонализации показала, что она применима не только в области приборостроения, но и других отраслях экономики.
В заключении приведены основные выводы и результаты, полученные в диссертационной работе.
В приложении приведены акты и справки об использовании научных и практических результатов работы.
ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработана модель пользователя веб-сайта с учетом его поискового профиля и интерфейсных взаимодействий.
2. Предложен модифицированный подход к совместной фильтрации данных, учитывающий постоянные и текущие потребности пользователя
при выборе изделий приборостроения, выраженные через поисковые запросы.
3. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.
4. Составлены требования к алгоритму кластеризации поисковых профилей и произведен сравнительный анализ алгоритмов кластеризации. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом для кластеризации поисковых и навигационных профилей признан алгоритм CLOPE.
5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе вначале сеанса.
6. Разработаны модель и метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
7. Разработана архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантное™ страниц.
8. Произведен сбор и статистическая обработка пользовательской информации, формирующей обучающую выборку.
9. Проведена апробация разработанных моделей и алгоритмов, показавшая их эффективность, осуществлена программная реализация системы персонализации на основе клиентских сценариев, выполненных на языке JavaScript, серверных сценариев на языке PHP в связке с системой управления базами данных MySQL.
Список работ опубликованных по теме диссертации
1. Шереметьев К.П., Царев А.Г. Система персонализации данных для сайтов электронной коммерции. // Вестник Московского государственного университета леса - Лесной вестник.— 2005. — №6(42).-С. 172-175. -ISSN-1727-3749.**
2. Царёв А.Г. «Интернет-магазин для стоматолога. Медицинский алфавит» // Медицинский алфавит. Стоматология №3(46) 2005 - С. 16-17.
3. Шереметьев К.П., Царев А.Г. Тенденции развития интеллектуальных информационных систем в сети Интернет. // Интеллектуальные технологии в образовании, экономике и управлении -2005: Сборник статей 2 Международной конференции. - Воронеж, 2005. - С. 197-198.
4. Шереметьев К.П., Царев А.Г. Использование внешних статистических данных при персонализации сайта. // Вестник Московского государственного университета леса - Лесной вестник. — 2006. — №3(45). - С. 172-176. - ISSN - 1727-3749.**
5. Царев А.Г. Счётчик пользовательских данных для системы персонализации Интернет-магазина. // Инновации в условиях развития информационно-коммуникациоштых технологий: Материалы научно-практической конференции - М.: МИЭМ, 2007,- 331-333.
6. Царев А.Г. Выбор подхода к фильтрации информации для системы персонализации интернет-магазина. // Вестник Московского государственного университета леса - Лесной вестник. — 2008. — №4(61). - С. 180-182. - ISSN - 1727-3749.**
7. Царев А.Г. Исследование интерфейсных взаимодействие пользователей Интернет-магазина. // Новые информационные технологии. Тезисы докладов XVI международной студенческой школы-семинара - М: МИЭМ, 2008, С. 247-248.
8. Царев А.Г., Царева Т.Н. Исследование однопараметрнческих индикаторов заинтересованности пользователей веб-сайта. // Инновации в условиях развития информационно-коммуникационных технологий: Материалы научно-практической конференции - М.: МИЭМ, 2009.-е. 429-432.
9. Царев А.Г. О сборе пользовательских данных в системе персонализации Интернет-магазина. // Вестник Московского государственного университета леса - Лесной вестник. -2009. -№3(66). С. 141-145. -ISSN - 1727-3749.**
10. Царев А.Г, Домрачев В.Г., Ретинская И.В. Модель персонализации сайта на основе анализа постоянных потребностей конечного пользователя. // Новые информационные технологии и менеджмент качества (NIT&QM'2010). Материалы международной научной конференции/Редкол.: А.Н. Тихонов (пред.) и др.; ФГУ ГНИИ ИТТ «Информика».-М.: ООО «Арт-Флэш», 2010.-C.176-179.
11. Царев А.Г. Модель персонализации сайга на основе анализа текущих потребностей конечного пользователя. // Новые информационные технологии и менеджмент качества (NIT&QM'2010). Материалы международной научной конференции/Редкол.: А.Н. Тихонов (пред.) и др.; ФГУ ГНИИ ИТТ «Информика».-М.: ООО «Арт-Флэш», 2010.-c.179-182.
12. Царев А.Г. Модель индикатора предпочтений конечного пользователя веб-сайта на основе многокритериальной комплексной оценки альтернатив. // Мониторинг. Наука и технологии. №3, 2010.-е. 68-69. -ISSN 2076-7358.
13. Царев А.Г. Многокритериальная оптимизация в задаче вычисления релевантности страниц веб-сайта. Естественные и технические науки. // Естественные и технические науки №4 (48). Москва: ООО «Издательство «Спутник+», 2010,- с. 298-299. - ISSN 1684-2626.*»
14. Царев А.Г. Массовая рекомендательная система для веб-сайтов на основе SAAS-технологии. // Труды II международной научно-практической интернет-конференции / Под ред. Г.К. Сафаралиева, А.Н. Андреева, В.А. Казакова - Пенза: Издательство Пензенского филиала РГУИТП, 2010. -374-375.
15. Царев А.Г. Метод персонализации веб-сайта на основе анализа постоянных и текущих потребностей конечного пользователя. Труды II международной научно-практической интернет-конференции / Под ред. Г.К. Сафаралиева, А.Н. Андреева, В.А. Казакова - Пенза: Издательство Пензенского филиала РГУИТП, 2010. - 368-373.
** Научная работа, опубликованная в ведущем рецензируемом журнале, определенном ВАК.
Отпечатано в полном соответствии с качеством представленного оригинал-макета
Подписано в печать 25.04 2011. Формат 60x90 1/16 Бумага 80 г/мг Гарнитура «Тайме». Ризография. Усл. печ. л. 1,0 Тираж 100 экз. Заказ № 112.
Издательство Московского государственного университета леса 141005, Мытищи-5, Московская обл., 1-ая Институтская, 1, МГУЛ E-mail: izdat@mgnl.ac.ru
Оглавление автор диссертации — кандидата технических наук Царев, Анатолий Геннадиевич
ВВЕДЕНИЕ.
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.
1.1. Введение в персонализацию данных веб-сайта.
1.2. Выделение класса персонифицированных веб-сайтов.
1.3. Классификация систем персонализации сайтов.
1.4. Выделение концептуальных уровней персонализации.
1.5. Объект исследования.
1.6. Модель веб-сайта.
1.1. Выбор подхода к персонализации данных.
1.8. Модель пользователя.
Выводы по главе.
2. РАЗРАБОТКА МОДЕЛИ ПЕРСОНАЛИЗАЦИИ ВЕБ-САЙТА НА ОСНОВЕ КОМБИНИРОВАННОГО ПОДХОДА К ФИЛЬТРАЦИИ
ДАННЫХ.
2.1. Получение множества ссылок, удовлетворяющих постоянные потребности пользователя.
2.1.1. Особенности обработки поисковых профилей.
2.1.2. Требования к алгоритму кластеризации.
2.1.3. Анализ алгоритмов кластеризации.
2.1.4. Алгоритм кластеризации СЬОРЕ.
2.1.5. Кластеризация поисковых профилей на основе алгоритма СЬОРЕ.
2.1.6. Ранжирование поисковых запросов и соответствующих ссылок.
2.1.7. Обобщенная блок-схема алгоритма персонализации с учетом постоянных потребностей конечного пользователя на основе кластеризации поисковых профилей.
2.2. Получение множества ссылок, удовлетворяющих текущие потребности пользователя.
2.2.1. Получение множества ссылок, удовлетворяющих текущие потребности пользователя, на основе похожих поисковых запросов.
2.2.2. Получение множества ссылок, удовлетворяющих текущие потребности пользователя, в случае отсутствия идентичных и похожих поисковых запросов.
2.2.3. Получение множества ссылок, в случае нескольких просмотренных страниц.
2.2.4. Обобщенная блок-схема алгоритма персонализации с учетом текущих потребностей конечного пользователей на основе непросмотренных страниц.
2.3. Перспектива развития разработанной модели персонализации.
Выводы по главе.
3. РАЗРАБОТКА МЕТОДА ОПРЕДЕЛЕНИЯ РЕЛЕВАНТНОСТИ СТРАНИЦ.
3.1. Анализ и классификация индикаторов предпочтений.
3.2. Многокритериальная оптимизация в задаче оценивания релевантности просмотренных страниц.
3.3. Метод определения релевантности страниц на основе индикатора предпочтений.
3.4. Экспериментальная оценка разработанной модели индикатора
МКОПХП.
Выводы по главе.
4. РЕАЛИЗАЦИЯ СИСТЕМЫ ПЕРСОНАЛИЗАЦИИ ДАННЫХ.
4.1. Выбор языков разработки сценариев и системы управления базой данных.
4.2. Особенности функционирования системы персонализации данных веб-сайта.
4.3. Оценка точности разработанной модели персонализации.
4.4. Перспективы развития системы персонализации данных на основе
8аа8-архитектуры.
Выводы по главе.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Царев, Анатолий Геннадиевич
Актуальность работы. В настоящее время изделия приборостроения широко представлены в сети Интернет. С развитием и распространением Интернета растет количество крупных веб-сайтов (далее веб-сайтов) с большой номенклатурой изделий, высокой функциональностью и сложной структурой навигации. Все это приводит к тому, что пользователям веб-сайтов становится сложнее ориентироваться, находить и осуществлять выбор интересующих изделий и информации о них.
Таким образом, в современных веб-сайтах, посвященных изделиям приборостроения, существует актуальная задача эффективной навигационной поддержки его пользователей. Эту задачу можно решить путем управления контентом веб-сайта на основе персонализации данных.
Под управлением контентом веб-сайта на основе персонализации данных (далее персонализация веб-сайта) понимается автоматическое предоставление конкретному пользователю ссылок на страницы с интересующей (релевантной) его информацией. Системы, предоставляющие такие возможности, относятся к частному случаю персонализации, их также называют рекомендательными сервисами.
Основные предпосылки, определяющие актуальность диссертационного исследования:
• увеличение спроса на изделия приборостроения;
• увеличение номенклатуры изделий приборостроения отечественного и импортного производства;
• рост популярности сети Интернет;
• рост информационной перегруженности веб-сайтов, осуществляющих информационную поддержку конкретного пользователя при выборе изделий приборостроения;
• рост трудовых затрат пользователей на доступ к релевантной информации;
• отсутствие значимых научных работ и исследований по рассматриваемой тематике в сфере приборостроения.
Целью диссертационной работы является разработка метода и модели персонализации веб-сайта изделий приборостроения, способных обеспечить эффективный доступ пользователей к релевантной информации, в том числе в начале сеанса. В работе под эффективностью персонализации, а также эффективностью доступа к релевантной информации понимается точность сформированных системой персонализации рекомендаций.
Задачи исследования. В соответствии с указанной целью в диссертационной работе были поставлены и решены следующие задачи:
• изучение и анализ теоретических и практических разработок в области персонализации веб-сайтов;
• выбор подхода к персонализации с учетом специфики веб-сайтов, обеспечивающих информационную поддержку при выборе изделий приборостроения;
• разработка модели пользователя веб-сайта с учетом его поискового поведения;
• разработка модели персонализации веб-сайта с учетом постоянных и текущих потребностей пользователя;
• разработка метода определения релевантности страниц на основе поведенческих характеристик пользователей;
• разработка архитектуры системы персонализации веб-сайта;
• практическая реализация системы персонализации с помощью выбранных программных и аппаратных средств;
• экспериментальная оценка практической пригодности разработанной системы персонализации.
Объект исследования. В качестве объекта исследования в диссертационной работе рассматривается веб-сайт изделий приборостроения с интегрированной системой персонализации данных.
Предмет исследования. Предметом исследования диссертационной работы является процесс персонализации данных.
Научная новизна. В диссертационной работе получены следующие научные результаты:
1. Разработана модель пользователя веб-сайта с учетом его поискового профиля и интерфейсных взаимодействий.
2. Составлены требования к алгоритму кластеризации поисковых и навигационных профилей пользователей.
3. Проведен сравнительный анализ алгоритмов кластеризации под требования кластеризации поисковых и навигационных профилей. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом признан алгоритм СЮРЕ.
4. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.
5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе в начале сеанса.
6. Разработан метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
7. Разработана архитектура системы персонализации, реализующая предложенные модель персонализации и метод определения релевантности страниц.
Практическая значимость работы. На базе полученных теоретических результатов разработана система персонализации пользователя - специальное программное обеспечение, интегрируемое в веб-сайт с соответствующей программной платформой.
Достоверность полученных научных результатов подтверждается корректностью использования математического аппарата, результатами практических применений и положительными результатами их обсуждения на российских и международных научных конференциях.
Методы исследования. При выполнении диссертационной работы были использованы методы интеллектуального анализа данных, математической статистики и многокритериальной оптимизации.
Реализация и внедрение результатов. Полученные в диссертационной работе результаты внедрены в учебный процесс ГОУ ВПО «МГУЛ», разработанное программное обеспечение интегрировано в веб-сайты таких организаций как ООО «Фирма КРУГ», ООО «Верейский лесокомбинат», ЗАО «Радиотехкомплект», что подтверждается актами и справками об использовании полученных в диссертационной работе научных и практических результатов.
Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих научных конференциях:
• Ежегодная Научно-техническая конференция профессорско-преподавательского состава и аспирантов МГУ леса, Мытищи, 2004г., 2005г., 2006 г., 2007 г., 2008 г., 2009г, 2011г.;
• Ежегодная научно-практическая конференция «Инновации в условиях развития информационно-коммуникационных технологий», Сочи 2007г., 2009 г.;
• XVI Международная студенческая школа-семинар «Новые информационные технологии», Судак, 2008г.;
• Международная научная конференция «Информационные технологии и телекоммуникации в образовании и науке» (1Т&Т ЕЭ 2010), г. Фетхие (Турция) 2010.
Полученные научные и практические результаты отмечены вторым местом в конкурсе «ГГ-ПРОРЫВ» 2010г. (категория «ГГ-реализация», номинация «Интернет-технологии»).
Публикации. Автором опубликовано пятнадцать работ по теме диссертации [15,39-50,55,56], в том числе пять в журналах, входящих в «Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук в редакции 2011 года». Список опубликованных работ приведен на последних страницах автореферата.
Результаты, выносимые на защиту*:
1. Модель персонализации веб-сайта с учетом постоянных и текущих потребностей пользователей на основе кластеризации поисковых и навигационных профилей.
2. Метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
3. Архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантности страниц. При поддерэ/ске Фонда содействию развития МП НТС: гранты рег. Ко01200809974 (2008г.), рег. №01200956775(2009 г.).
Структура и объем диссертации. Работа состоит из введения, четырех глав и заключения. Список литературы включает 57 отечественных и 51 зарубежных источников. Содержит 8 таблиц и 22 рисунка. Объем диссертации -115 страниц, приложение представлено на 5 страницах.
Заключение диссертация на тему "Управление контентом веб-сайта на основе персонализации данных"
Выводы по главе
1. Разработана архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантности страниц.
2. Предложен способ идентификации сеанса пользователя с учетом IP-адреса и СооЫе-идентификатора, который корректно функционирует даже при смене IP-адреса при обращении ко второй странице сеанса.
3. Произведен сбор и статистическая обработка пользовательской информации, формирующей обучающую выборку.
4. Проведена апробация разработанных моделей и алгоритмов, показавшая их эффективность, осуществлена программная реализация системы персонализации на основе клиентских сценариев, выполненных на языке JavaScript, серверных сценариев на языке PHP в связке с системой управления базами данных MySQL.
5. Экспериментальная оценка показала, что точность разработанной модели после просмотра первой страницы оказалась в 12,18 раза выше точности метода персонализации на основе контентного анализа заголовков страниц (в среднем выше в 1,78 раза) и в 3,60 раза выше точности метода персонализации на основе РАМ-кластеризации навигационных профилей (в среднем выше в 1,33 раза).
ЗАКЛЮЧЕНИЕ
В диссертационной работе получены следующие основные научные и практические результаты:
1. Разработана модель пользователя веб-сайта с учетом его поискового профиля и интерфейсных взаимодействий.
2. Предложен модифицированный подход к совместной фильтрации данных, учитывающий постоянные и текущие потребности пользователя при выборе изделий приборостроения, выраженные через поисковые запросы.
3. Выделены ограничения и условия, которые должна учитывать модель персонализации, основанная на анализе поискового трафика.
4. Составлены требования к алгоритму кластеризации поисковых профилей и произведен сравнительный анализ алгоритмов кластеризации. В соответствии с результатами проведенного анализа и предъявленными требованиями наиболее подходящим алгоритмом для кластеризации поисковых и навигационных профилей признан алгоритм СЬОРЕ.
5. Разработаны модель, метод и алгоритм персонализации, учитывающие постоянные и текущие потребности пользователя, на основе кластеризации поисковых и навигационных профилей. В результате повысилась точность рекомендаций, в том числе вначале сеанса.
6. Разработаны модель и метод определения релевантности страниц на основе многокритериальной комплексной оценки поведенческих характеристик пользователей.
7. Разработана архитектура системы персонализации веб-сайта, реализующая предложенные модель персонализации и метод определения релевантности страниц.
8. Произведен сбор и статистическая обработка пользовательской информации, формирующей обучающую выборку.
9. Проведена апробация разработанных моделей и алгоритмов, показавшая их эффективность, осуществлена программная реализация системы персонализации на основе клиентских сценариев, выполненных на языке JavaScript, серверных сценариев на языке PHP в связке с системой управления базами данных MySQL.
Библиография Царев, Анатолий Геннадиевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Аверин Д.В. Опыт классификации электронных изданий // Известия вузов. Проблемы полиграфии и изд. дела. 2000 . № 1. С. 145-148.
2. Агеев В.Н. Электронная книга: новое средство социальной коммуникации. М.: Мир книги, 1997.
3. Алгоритмы кластеризации на службе Data Mining. http://www.basegroup.ru/library/analysis/clusterization/datamining/ //10.03.2009
4. Ашманов И.С., Иванов А.А. Продвижение сайта в поисковых системах.-М.: ООО «И.Д. Вильяме», 2007.-304 е.: ил.
5. Батищев Д.И. Поисковые методы оптимального проектирования.// М.: Советское радио. 1975 126 с.
6. Беляков Г.П. и др. Основы системотехники: Учеб. Пособие для вузов/ Г.П. Беляков, В.А. Сарычев, В.А. Сорокин, В.О. Чернышев. Под ред. В.О. Чернышева. Томск: МГП «РАСКО», 1992. 312 с ил.
7. Бунин О. Персонализация сайтов. Мир Internet. -2001. 12. -С. 66-69.
8. Вентцель Е.С, Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. М.: Наука. Гл. ред. физ.-мат. лит. -1991. -384с.
9. Вуль В.А. Электронные издания. СПб.: Изд-во «БХВ», 2003.
10. Выбор метода кластеризации. http://www.market-joumal.com/marketingovyeissledovanija/209.htinl // 10.03.2009
11. Гаек Я., Шидак 3. Теория ранговых критериев, М. :Наука, 1971.- 375 с.
12. Гасов В.М., Цыганенко А.М. Методы и средства подготовки электронных изданий. М.: Изд-во МГУП, 2001.
13. Гуменникова A.B. Адаптивные поисковые алгоритмы для решения сложных задач многокритериальной оптимизации. Диссертационная работа к.т.н.: Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева. Красноярск, 2006. -132с.
14. Джонс М.Т. Программирование искусственного интеллекта в приложениях / М. Тим Джонс; Пер. с англ. Осипов А.И. — М.: ДМК Пресс, 2006 312 с. : ил.
15. Емельянов C.B., Ларичев О.И. Многокритериальные методы принятия решений. М.: Знание, 1985. 32 с. (Новое в жизни, науке, технике. Сер. «Математика, кибернетика»; N» 10).
16. Живицкая E.H. «Системный анализ и проектирование» http://victor-safronov.narod.ru/systems-analysis/Iectures/zliivickaya.html
17. Зайцев И.Б., Адаптивные гипермедиа издания, интегрированные в Интернет: Диссертационная работа к.т.н.: 05.13.06. /Московский государственный университет печати. Москва, 2005. — 150 с.
18. Зайцев И.Б. Методика «наивного» Байесовского классификатора для задачи совместной фильтрации в системах рекомендации // Доклады независимых авторов. Вып.2. Изд-во «DNA», Россия-Израиль, 2005. G.20-27.
19. Зайцев И.Б. Модифицированный алгоритм «К-ближайших соседей» для совместной фильтрации в адаптивных гипертекстовых системах //
20. Вестник МГУП. Ko5.-U.: МГУП, 2005.-С. 105-112.
21. PHP и другие языки. http://phpm.ru/php/faq.languages.html // 23.02.2009
22. Калинина Э.В., Лапига А.Г. и др. Оптимизация качества. Сложные продукты и процессы. //Москва. Химия. 1989. 256 с.
23. Кейн В.М. Оптимизация систем управления по минимаксному критерию. М.: Наука, 1985.
24. Кластерный анализ морфологических множеств http://www.ecosyn.ru/page0047.html // 14.04.2009
25. Многокритериальные задачи принятия решений. Под ред. Д.М. Гвишиани, С В Емельянова. М.: Машиностроение, 1978.
26. Многокритериальная оптимизация. Математические аспекты. М.:Наука, 1989, с. 116-123.
27. Мур, Джеффри, Уэдерфорд, Лари Р., и др. Экономическое моделирование в Microsoft Excel, 6-е изд.: Пер. с англ. М.: Издательской дом «Вильяме», 2004. - 1024 с.
28. Нейрокомпьютер как основа мыслящих ЭВМ. М.: Наука, 1993. - 237 с.
29. О персонализации веб-сайта. http://www.webmascon.com/ 14.11.2003
30. Обзор методов кластеризации текстовой информации http://www.dialog-21.ru/Archive/2001/volume2/226.htm // 01.03.2009
31. Общая теория статистики: статистическая методология в изучении коммерческой деятельности: Учебник / Под ред. О.Э. Байтной, А.А. Спирина 5-е изд., доп. И перераб. - М.Ж Финансы и статистика, 2005.
32. Паклин Н. «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE».http://www.basegroup.ru/clusterization/clope.htm // 12.04.2009
33. Ретинская И.В. Система оценки качества и выбора программно-аппаратных средств учебного назначения: Диссертационная работа д.т.н.: 05.13.14. /Московский государственный университет леса. Москва, 1997. 342 с.
34. Семенкина О.Э. Поисковые методы синтеза систем управления космическими аппаратами. Дисс. на соиск. уч. ст. канд. техн. наук -Красноярск: Сибирская аэрокосмическая академия, 1995. -185 с.
35. Серов В.А. Генетический алгоритм многокритериальной оптимизации В.А. Серов, Ю.В. Горячев. Проблемы теории и практики в инженерных исследованиях: Сб. научных трудов. М.: Машиностроение, 1999, с. 23-29. 120
36. Статья из The Economist о коллаборативной фильтрации // http://artpragmatica.ru/rs/?uid=l 147 // 08.02.2010
37. Страничные серверы приложений на базе сценариев. http://www.pcmag.ru/issues/subdetail.php7ID-657l&SUB JPAGE=1 // 15.10.2001
38. Томсон Лаура, Люк Веллинг. Разработка web-приложений на PHP и MySQL: Пер. с англ. 2-е изд., испр. - СПб: ООО «ДиаСофтЮП», 2003.
39. Царев А.Г. Выбор подхода к фильтрации информации для системы персонализации интернет-магазина. // Вестник Московского государственного университета леса — Лесной вестник. — 2008. — №4(61).-С. 180-182.
40. Царев А.Г. Интернет-магазин для стоматолога. Медицинский алфавит. Стоматология №3(46). -2005. С. 16-17.
41. Царев А.Г. Исследование интерфейсных взаимодействий пользователей Интернет-магазина. Судак // Новые информационныетехнологии. Тезисы докладов XVI международной студенческой школы-семинара М: МИЭМ, 2008, С. 247-248.
42. Царев А.Г. Многокритериальная оптимизация в задаче вычисления релевантности страниц веб-сайта. // Естественные и технические науки №4 (48). Москва: ООО «Изадтельство «Спутник+», 2010,- с. 298-299. ISSN 1684-2626.
43. Царев А.Г. Модель индикатора предпочтений конечного пользователя веб-сайта на основе многокритериальной комплексной оценки альтернатив. // Мониторинг. Наука и технологии. №3, 2010.-е. 68-69. -ISSN 2076-7358.
44. Царев А.Г. О сборе пользовательских данных в системе персонализации Интернет-магазина. // Вестник Московскогогосударственного университета леса — Лесной вестник. — 2009. -№3(66). С. 141-145.
45. Царев А.Г. Счётчик пользовательских данных для системы персонализадии Интернет-магазина. // Инновации в условиях развития информационно-коммуникационных технологий: Материалы научно-практической конференции М.: МИЭМ, 2007.331-333.
46. Царев А.Г., Шереметьев К.П. Тенденции развития интеллектуальных информационных систем в сети Интернет. //Интеллектуальные технологии в образовании, экономике и управлении -2005: Сборник статей 2 Международной конференции. — Воронеж, 2005. — С. 197198.
47. Царев В .В. Оценка экономической эффективности инвестиций. -СПб.: Питер, 2004. 464 с.
48. Целых A.A., Разработка и исследование методов и алгоритмов для моделирования адаптивных веб-ресурсов на основе нечетких ультраграфов: Диссертационная работа к.т.н.: 05.13.17 / Таганрогский государственный радиотехнический университет, 2005
49. Чубукова И. A. Data Mining. Учебное пособие. М.: Интернет-Университет Информационных технологий; БИНОМ. Лаборатория знаний, 2006. - 382 е.: ил., табл. - (Серия «Основы информационных технологий»),
50. Щедрин А. Основы извлечения знаний из Internet. // Открытыесистемы, #04/2003
51. Шереметьев К.П., Царев А.Г. Использование внешних статистических данных при персонализации сайта. // Вестник Московского государственного университета леса Лесной вестник. — 2006. — №3(45). - С. 172-176.
52. Шереметьев К.П., Царев А.Г. Система персонализации данных для сайтов электронной коммерции. // Вестник Московского государственного университета леса — Лесной вестник. — 2005. — №6(42).-С. 172-175.
53. Экенроде Р.Т., Взвешенные многомерные критерии, книга «Статистическое измерение качественных характеристик» под ред. проф. Е.М. Четыркина. -М.:1970.
54. Adomavicius Gediminas. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 6
55. Ansari A., Essegaier S., and Kohli R., "Internet Recommendations Systems," J. Marketing Research, pp. 363-375, Aug. 2000.
56. Average Web Page Size Quintuples Since 2003 web page statistics and survey trends for page size and web objects.http ://www.websiteoptimization. com/ speed/tweak/average-web-page/ // 10.05.2010
57. Balabanovic M. and Shoham Y., "Fab: Content-Based, Collaborative Recommendation," Comm. ACM, vol. 40, no. 3, pp. 66-72,1997.
58. Basu C., Hirsh H., and Cohen W., "Recommendation as Classification: Using Social and Content-Based Information in Recommendation," Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, AAAI Press 1998.
59. Billsus D. and Pazzani M., "A Personal News Agent that Talks,Learns and
60. Explains," Proc. Third Ann. Conf. Autonomous Agents,1999.
61. Billsus D. and Pazzani M., "Learning Collaborative Information Filters," Proc. Int'l Conf. Machine Learning, 1998.
62. Breese J., Heckerman D., and Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering. In Proceedings of the Fourteenth Annual Conference on Uncertainty in Artificial Intelligence, pages 43-52, July 1998.
63. Carpenter G.A. and S. Grossberg, 1985. Category Learning and Adaptive Pattern Recognition: a neural network model, in proceedings of third army conference on applied mathematics and computing, ARO Report 86-1, 37-56.
64. Carpenter G.A., Grossberg S. Pattern Recognition by Self-Organizing Neural Networks, Cambridge, MA, MIT Press, 1991.
65. Claypool M., Gokhale A., Miranda T., Murnikov P., Netes D., and Sartin M., "Combining Content-Based and Collaborative Filters in an Online Newspaper," Proc. ACM SIGIR '99 Workshop Recommender Systems: Algorithms and Evaluation, Aug. 1999.
66. Claypool M., Le P., Wased M., and Brown D. Implicit interest indicators. In Intelligent User Interfaces, pagQS 33-40, 2001.
67. CondliffM., Lewis D., Madigan D., and Posse C., "Bayesian Mixed-Effects Models for Recommender Systems," Proc. ACMSIGIR '99 Workshop Recommender Systems: Algorithms and Evaluation,Aug. 1999.
68. Defays D., An efficient algorithm for a complete link method, The Computer Journal, 20:346-366, 1977
69. Dunn J.C., A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters, Journal of Cybernetics 3; 1973: 32-57.
70. Group-average agglomerative clustering. http://nlp.stanford.edu/lR-book/h1ml/htmledition/group-average-agglomerative-clustering-l.html // 08.02.2009
71. Guha Sudipto, Rastogi R., and Shim K. CURE: A clustering algorithm for large databases. Technical report, Bell Laboratories, Murray Hill, 1997.
72. Guha S., Rastogi R., and Shim K. ROCK: A robust clustering algorithm for categorical attributes. In Proc. ICDE'99, Sydney, Australia 1999.
73. He H., Singh A. Efficient Algorithms for Mining Significant Substructures in Graphs with Quality Guarantees. Department of Computer Science University of California, Santa Barbara, 2004.
74. Hill W., Stead L., Rosenstein M., and Furnas G., "Recommendingand Evaluating Choices in a Virtual Community of Use," Proc.Conf. Human Factors in Computing Systems, 1995.
75. Hofmann, "Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis," Proc. 26th Ann. Int'l ACM SIGIR Conf.,2003.
76. Hofmann, "Probabilistic Latent Semantic Analysis," Proc. 15 th Conf. Uncertainty in Artificial Intelligence, pp. 289-296, 1999.
77. Hubert, Lawrence; Baker, Frank B. Data Analysis by Single-Link and Complete-Link Hierarchical Clustering. Journal of Educational Statistics, 1, 2, 87-111, Sum 76.
78. Kaufman L. and Rousseeuw P. J., Finding Groups in Data, An Itroduction to Cluster Analysis. Brussels, Belgium: John Wiley and Sons, 1990.
79. Kilfoil M., Ghorbani A. Toward An Adaptive Web: The State of the Art and Science // Proc. of the GNSR 2003 Conference. Moncton, New Brunswick, Canada, 2003.
80. Kohonen T.- (1989/1997/2001), Self-Organizing Maps. Berlin-New York: Springer-Verlag. Firsteditionl989. Secondeditionl997. Thirdextendededition2001.
81. Lang K., "Newsweeder: Learning to Filter Netnews," Proc. 12thlnt'l Conf. Machine Learning, 1995.
82. Linden G., Smith B., and York J., "Amazon.com Recommendations: Item-to-item Collaborative Filtering," IEEE Internet Computing, Jan./Feb. 2003.
83. MacQueen, J.B. Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symposium on Math. Stat, and Prob., 1967.
84. Melville P., Mooney R., and Nagarajan R. Content-boosted collaborative filtering. In Proceedings of the ACM SIGIR Workshop on Recommender Systems, 2001.
85. Mooney R.J., Bennett P.N., and Roy L., "Book RecommendingUsing Text Categorization with Extracted Information," Proc. Recommender Systems Papers from 1998 Workshop, Technical Report WS-98-08, 1998.
86. Mooney RJ. and Roy L., "Content-Based Book RecommendingUsing Learning for Text Categorization," Proc. ACM SIGIR '99Workshop Recommender Systems: Algorithms and Evaluation, 1999.
87. O'Connor M. and Heriocker J. Clustering items for collaborative filtering. In ACM SIGIR '99 Workshop on Recommender Systems: Algorithms and Evaluation. 1999.
88. Pavlov D. and Pennock D., "A Maximum Entropy Approach to Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains," Proc. 16th Ann. Conf. Neural Information Processing Systems (NIPS '02), 2002.
89. Pazzani M., "A Framework for Collaborative, Content-Based, and Demographic Filtering, Artificial Intelligence Rev., pp. 393-408, Dec.1999.
90. Pazzani and Billsus D., "Learning and Revising User Profiles: The Identification of Interesting Web Sites," Machine Learning, vol. 27, pp. 313-331, 1997.
91. Pennock D.M. and Horvitz E., "Collaborative Filtering by Personality Diagnosis: A Hybrid Memory And Model-Based Approach," Proc. Int'l Joint Conf. Artificial Intelligence Workshop: Machine Learning for Information Filtering, Aug. 1999
92. Resnick P., Iakovou N., Sushak M., Bergstrom P. and Riedl J.,"GroupLens: An Open Architecture for Collaborative Filtering of Netnews," Proc. 1994 Computer Supported Cooperative Work Conf.,1994.
93. Sarwar B., Karypis G., Konstan J., and Riedl J., "Application of Dimensionality Reduction in Recommender Systems-A Case Study," Proc. ACM WebKDD Workshop, 2000.
94. Sarwar B., Karypis G., Konstan J., and Riedl J., "Item-Based Collaborative Filtering Recommendation Algorithms," Proc. lOthlnt'l WWW Conf., 2001.
95. Schein A.I., Popescul A., Ungar L.H., and Pennock D.M. /'Methods and Metrics for Cold-Start Recommendations," Proc. 25th Ann. Int'l ACM SIGIR Conf., 2002.
96. Shahabi Cyrus ,Banaei-Kashani Farnoush . "A Framework for Efficient and Anonymous Web Usage Mining Based on Client-Side Tracking", Department of Computer Science, Integrated Media Systems Center, University of Southern California, USA, 2001.
97. Shardanand U. and Maes P., "Social Information Filtering:Algorithms for Automating 'Word of Mouth'," Proc. Conf. Human Factors in Computing Systems, 1995.
98. Sibson R. SLINK: An optimally efficient algorithm for the single-link cluster method. King's College Research Center, King's College, Cambridge, and Cambridge University Statistical Laboratory.
99. Soboroff and Nicholas C., "Combining Content and Collaborationin Text Filtering," Proc. Int'l Joint Conf. Artificial Intelligence Workshop: Machine1.arning for Information Filtering, Aug. 1999.
100. Strehl A., Ghosh J., Mooney R., Impact of similarity measures on web-page clustering. In Proc. AAAI Workshop on AI for Web Search(2000), 58-64, 2000.
101. Tran T. and Cohen R., "Hybrid Recommender Systems forElectronic Commerce," Proc. Knowledge-Based Electronic Markets,Papers from the AAAI Workshop, Technical Report WS-00-04, AAAI Press, 2000.
102. Yang Y., Guan X., and You J. Clope: A fast and effective clustering algorithm for transactional data. Proc. of ACM SIGKDD Conference, July 2002.
103. Zhang Y., Callan J., and Minka T., "Novelty and Redundancy Detection in Adaptive Filtering," Proc. 25th Ann. Int'l ACM SIGIR Conf., pp. 81-88, 2002.
104. Zhang, T., Ramakrishnan, R., and Livny, M. BIRCH: An efficient data clustering method for very large databases. In Proc SIGMOD'96, Montreal, Canada, 1996.
105. Zuckerman, I., Albrecht, D., and Nicholson, A. Predicting user's requests on the WWW. In Proceedings of the Seventh International Conference on User Modeling, pages 275-284. Springer Wien, 1999.
-
Похожие работы
- Веб-сайт кафедры в структуре единой информационной образовательной среды
- Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран
- Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах
- XML-технология создания на Web-сервере персонализованных Word-документов на основе XSL-трансформации
- Разработка и исследование методов и алгоритмов для моделирования адаптивных веб-ресурсов на основе нечетких ультраграфов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность