автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой интернет-ресурсов

кандидата технических наук
Соколов, Сергей Николаевич
город
Москва
год
2009
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой интернет-ресурсов»

Автореферат диссертации по теме "Анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой интернет-ресурсов"

□ □34853 14

На правах рукописи

Соколов Сергей Николаевич

АНАЛИЗ И РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ АДАПТАЦИИ И УПРАВЛЕНИЯ НАВИГАЦИОННОЙ СТРУКТУРОЙ ИНТЕРНЕТ-РЕСУРСОВ

05.13.01 - Системный анализ, управление и обработка информации (в приборостроении)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

2 6 НОЯ 2009

Москва

-2009

003485314

Работа выполнена на кафедре «Информатика и программное обеспечение вычислительных систем» в Московском государственном институте электронной техники (техническом университете)

Научный руководитель: Илюшечкин В.М.

кандидат технических наук, доцент

Официальные оппоненты: Щагин A.B.

доктор технических наук, доцент

Мелконян O.E. кандидат технических наук

Ведущая организация: ОАО "ОТИК-групп"

Защита состоится « 2.2. » /2- 2009 года в ^ : — на заседании диссертационного совета Д 212.134.02 при Московском государственном институте электронной техники (техническом университете) по адресу: 124498, Москва, Зеленоград, проезд 4806, МИЭТ

С диссертацией можно ознакомиться в библиотеке МИЭТ.

Автореферат разослан « j{ » 4 / 2009 г.

Ученый секретарь диссертационного совета д.т.н., доцент —" A.B. Гуреев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Развитие информационных и телекоммуникационных технологий привело к значительному увеличению объема информации, размещенной в сети Интернет. Согласно исследованиям компании Cisco к 2010 году ежемесячный объем информации, передаваемый в сети Интернет, возрастет до 21,47 экзабайт в месяц, из которых 7,23 экзабайт будет приходиться на загрузку электронных страниц и документов. При этом исследования компании IDC показывают, что общий мировой объем цифровой информации составит 966 экзабайт.

Рост объема информации в сети Интернет приводит к возникновению проблемы когнитивной перегруженности и дезориентации конечных пользователей, связанной с повышением сложности поиска необходимой информации, размещенной на Интернет-ресурсах (ИР).

Одним из возможных путей решения данной проблемы является автоматическая адаптация навигационной структуры ИР, позволяющая уменьшить время поиска необходимой информации посредством добавления в навигационную структуру электронных страниц релевантных текущим потребностям пользователей.

Однако в настоящее время сегмент адаптивных ИР развит слабо. Согласно известным данным лишь 31% ИР обладают адаптивными возможностями, из которых только 3% ИР производят адаптацию с учетом предпочтений пользователей. Причины возникновения данной ситуации связаны с малой изученностью проблемы в области объекта исследования, а также в недостатке моделей и алгоритмов адаптации навигационной структуры Интернет-ресурсов.

Исследованию проблемы поиска информации, в том числе и в сети Интернет, посвящено большое количество работ отечественных ученых Ландэ Д.В., Байкова В.Д., Барсегяна A.A., Куприянова М.С., Гасанова Э.Э., Кудрявцева В.Б. и др. Среди исследований проблемы адаптации навигационной структуры ИР своей проработанностью выделяются диссертационные работы Зайцева И.Б., Целых A.A. и Майкевич Н.В. Однако применение разработанных данными авторами моделей и алгоритмов адаптации навигационной структуры возможно лишь для узкого класса Интернет-ресурсов. Кроме того, мало внимания уделяется аспекту практического применения разработанных методик.

С учетом вышеизложенного задача создания универсальных моделей и алгоритмов адаптации навигационной структуры, применимых

для широкого класса ИР, является актуальной и имеет научную и практическую значимость. При этом особую важность имеют вопросы, связанные с практическим применением разработанных алгоритмов и их интеграцией с существующими ИР.

Цели и задачи диссертационной работы

Целью работы является анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой Интернет-ресурсов, способных уменьшить время, затрачиваемое пользователями на поиск необходимой информации, а также увеличить число конверсий с целью повышения экономической эффективности ИР.

Для достижения указанной цели в диссертации необходимо решить следующие задачи:

1) провести анализ существующих методов и алгоритмов адаптации ИР;

2) определить основные показатели эффективности работы алгоритма адаптации и управления навигационной структурой ИР;

3) создать математические модели, необходимые для разработки алгоритма адаптации и управления навигационной структурой ИР;

4) провести анализ и оценку эффективности разработанного алгоритма адаптации и управления навигационной структурой ИР;

5) разработать структуру программных модулей и выполнить программную реализацию алгоритма адаптации и управления навигационной структурой ИР;

6) осуществить экспериментальную верификацию программной реализации алгоритма адаптации и управления навигационной структурой ИР.

Методы исследования

Для решения вышеперечисленных задач были использованы теоретико-графовые и теоретико-вероятностные методы, методы математической статистики и бинарной классификации, а также методы имитационного моделирования сложных систем.

Научная новизна

Научная новизна работы заключается в получении следующих результатов:

1) проведена формализация задачи адаптации ИР методом сведения к многокритериальной оптимизации целевой функции;

2) предложен алгоритм проведения адаптации навигационной структуры ИР на основе кластеризации историй посещений ИР и добавления в навигационную структуру электронных страниц с наибольшим индексом предпочтения;

3) разработана методика имитационного моделирования поведения пользователей ИР с применением таблицы вероятностей переходов между электронными страницами ИР, основанных на смеси цепей Маркова;

4) разработана методика определения эффективности работы алгоритма адаптации и управления навигационной структурой ИР, заключающаяся в проведении ROC-анализа алгоритма рекомендации и вычисления прогностической силы алгоритма;

5) разработана структура программных модулей, реализующих адаптацию навигационной структуры ИР, которая обеспечивает возможность интеграции сторонних модулей обработки журналов веб-сервера.

Достоверность научных результатов

Достоверность научных результатов подтверждена научной обоснованностью основных полученных теоретических выводов и положений, а также высокой корреляцией результатов имитационного моделирования с полученными экспериментальными данными.

Практическая значимость

Основное практическое значение имеют разработанная имитационная модель поведения пользователя и алгоритм адаптации и управления навигационной структурой ИР.

Основные положения, выводы и рекомендации диссертации ориентированы на широкое применение в информационно-поисковых системах, системах Интернет-страхования, а также системах электронной коммерции: В2В, В2С, B2G.

Экспериментально подтверждено, что использование результатов диссертационного исследования позволяет уменьшить когнитивную перегруженность пользователей в среднем на 12%. При этом значение параметра прогностической силы алгоритма составило в среднем 71,6% при оптимальном значении порога отсечения. Внедрение результатов диссертационного исследования в программный продукт «Wild Apricot», разрабатываемого компанией ЗАО «БонаСорс», позволило увеличить число конверсий пользователей в среднем на 19% по сравне-

нию со стандартными технологиями, что подтверждено соответствующим актом.

Личный вклад автора

Все результаты получены автором лично. Главными из них являются:

1) формализация задачи адаптации ИР;

2) обоснование необходимости адаптации навигационной структуры ИР;

3) разработка алгоритма адаптации и управления навигационной структурой ИР;

4) разработка методики имитационного моделирования поведения пользователей ИР;

5) программная реализация разработанного алгоритма адаптации и управления навигационной структурой ИР.

Внедрение результатов работы

Все работы по реализации и внедрению результатов диссертационного исследования проводились при непосредственном участии автора. Результаты работы использованы в системе учета выполненных в МИЭТ научно-исследовательских и опытно-конструкторских работ (НИОКР), предназначенной для регистрации и мониторинга НИОКР в области микроэлектроники и нанотехнологий, а также в ЗАО "Бона-Сорс" при создании комплекса адаптации навигационной структуры ИР «КАИР». Интеграция системы «КАИР» с программным продуктом «Wild Apricot» позволила уменьшить когнитивную перегруженность пользователей Интернет-ресурсов в области приборостроения, созданных на основе «Wild Apricot», в среднем на 12%. Ряд полученных результатов используется при проведении лекционных и практических занятий по курсам "Интернет-программирование" и "Базы данных" на кафедре ИПОВС в МИЭТ.

На защиту выносятся:

1) результаты анализа проблем разработки методов и алгоритмов адаптации ИР;

2) формализация задачи адаптации ИР;

3) алгоритм адаптации и управления навигационной структурой ИР;

4) имитационная модель поведения пользователей ИР;

5) результаты верификации работы алгоритма адаптации и управления навигационной структурой ИР;

6) результаты программной реализации предложенных моделей и алгоритмов.

Апробация работы и публикации

Основные результаты исследований представлены на 6 международных, всероссийских и межвузовских научных конференциях:

1. Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информатика - 2006» - г. Москва, МИЭТ, 2006 г.

2. Девятнадцатая Всероссийская научно-техническая конференция «Информационные технологии в науке, проектировании и производстве» - г. Нижний Новгород, ННИМЦ «Диалог», 2006 г.

3. Международная научно-практическая конференция «Новые информационные технологии в образовании », г. Екатеринбург, ГОУ ВПО «Российский государственный профессионально-педагогический университет», 2007 г.

4. Восьмая Всероссийская научно-техническая конференция «Теоретические и прикладные вопросы современных информационных технологий» - г. Улан-Удэ, ГОУ ВПО «Восточно-Сибирский государственный технологический университет», 2007 г.

5. Четырнадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информатика - 2007» - г. Москва, МИЭТ, 2007 г.

6. Всероссийская межвузовская научно-практическая конференция «Актуальные проблемы информатизации. Развитие информационной инфраструктуры, технологий и систем» - г. Москва, МИЭТ, 2007 г.

По результатам проведенных научных исследований опубликовано 12 печатных работ, из них 4 научных статьи, из которых 3 - в журналах, входящих в перечень изданий, рекомендуемых ВАК. Без соавторов опубликовано 3 статьи.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, библиографического списка из 111 наименований и приложения, состоящего из 3 частей. Работа содержит 116 страниц основного текста, 30 рисунков, 15 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика работы, обоснована актуальность решаемой проблемы, сформулированы цель и задачи исследования, перечислены положения, выносимые на защиту, показана научная новизна и практическая значимость результатов.

В первой главе проводится анализ современных проблем и особенностей адаптации Интернет-ресурсов.

В соответствии с целью исследования для разработки алгоритма адаптации навигационной структуры ИР разных классов произведена классификация ИР на основе различных параметров. Проведенные исследования показали, что из существующих способов .классификации наиболее подходящим для верификации алгоритма адаптации навигационной структуры ИР является классификация ИР по категориям решаемых задач. Подобный вывод был сделан в силу того, что данная классификация позволяет учитывать цели и задачи пользователей ИР. Также использование подобной классификации позволяет выделить веб-сервисы как класс ИР, которые в настоящее время являются наиболее востребованными, что косвенно подтверждается положительной динамикой роста сегмента рынка ИР данного класса во время глобального экономического кризиса (по данным издания С№\уз).

Для определения области применения алгоритмов адаптации была проанализирована структура ИР, а также способ взаимодействия с пользователем. Выявлено, что адаптации должен подвергаться компонент пользовательского интерфейса, поскольку только данный компонент доступен пользователям ИР.

Для определения показателей эффективности использования ИР рассмотрена область знаний, именуемая веб-аналитикой. Исследование данной области позволило определить критерии эффективности использования ИР на основе жизненного цикла клиента - этапов, которые должен пройти каждый клиент при долгосрочном взаимодействии с ИР.

С целью выбора наилучшего способа адаптации рассмотрена общая схема адаптации ИР, а также возможные атрибуты, изменяемые адаптацией. Исследование выявило существование трех общих классов атрибутов, которые можно адаптировать:

1) атрибуты содержимого. Адаптация заключается в показе различных информационных блоков в зависимости от текущего пользователя ИР;

2) атрибуты структуры. Адаптация подразумевает изменение взаимосвязей между электронными страницами;

3) атрибуты представления. Адаптация позволяет изменять форматирование содержимого электронных страниц.

При этом в зависимости от изменяемых атрибутов ИР выделяют различные методы адаптации, использующие специфичные параметры. В предметной области объекта исследования параметры адаптации называют моделью пользователя, которая является абстрактным представлением пользователя в виде набора его характеристик, значимых для проведения адаптации. Для выбора необходимых разрабатываемому алгоритму адаптации параметров проведен анализ состава модели пользователя.

Для определения наиболее востребованного класса атрибутов адаптации ИР выполнено сравнение различных зарубежных адаптивных ИР. Исследование выявило, что большинство ИР позволяет адаптировать атрибуты только одного класса, и наиболее часто адаптации подвергается навигационная структура ИР, что косвенно подтверждает актуальность выбранного направления исследований.

Для выбора формального подхода к решению диссертационных задач проведено исследование существующих математических методов адаптации ИР. Установлено, что существуют три основные группы методов, выделяемых на основе способа представления модели пользователя и применяемых алгоритмов:

1) дедуктивные методы. Логико-ориентированные методы, представляющие модель пользователя в виде дерева знаний;

2) индуктивные методы. Методы, основанные на самообучении, где модель пользователя отражает интересы и предпочтения пользователя;

3) методы, основанные на поиске аналогов. Методы, основанные на поиске пользователей с похожими моделями.

С учетом специфики области применения объекта исследований обоснован выбор методов, основанных на поиске аналогов.

На основе проведенного анализа сформулирована цель диссертационного исследования, заключающаяся в разработке алгоритма адаптации и управления навигационной структурой ИР, который можно применять для ИР различных классов.

Во второй главе описан разработанный алгоритм адаптации и управления навигационной структурой ИР.

Задача адаптации ИР была формализована посредством сведения к задаче многокритериальной оптимизации целевой функции.

Для этого вводится множество параметров Интернет-ресурса Р, изменяемых в процессе адаптации, где каждый параметр Р1 может принимать одно из ^ заранее заданных значений ри, принадлежащих множеству УР,={рц, рц,..., р,ю}.

Множество возможных результатов адаптации Г содержит кортежи вида <уи У2,.:, состоящие из значений параметров ИР, вычисленных в процессе адаптации:

Вводится функция <р, обозначающая известный алгоритм адаптации и, исходя из детерминированности процесса адаптации, утверждается

существование однозначного отображения Р —У .

Для оценки качества адаптации вводится т функций /к, отображающих множество У во множество вещественных чисел Я, где значение каждой из функций/к необходимо максимизировать.

<Р(Р)=<У1,У2^-'Ум>

/ = (/р/2 >—>/от)

Используя суперпозицию, вводится векторное отображение ./, а решаемая задача адаптации принимает вид:

J■.P^Rm,J = (Jl,...,Jm),J(P)<zRm (2)

Jk(P) тах, к = 1,2,...,от, ДР)сЯт

Исходя из цели работы, наибольший интерес представляет такой параметр адаптации ИР, как навигационная структура.

В качестве математического представления модели пользователя, с учетом используемого параметра адаптации ИР, выбран ориентированный, взвешенный (цветной) граф, в котором вершины графа представляют посещенные пользователем страницы, а дуги - совершенные переходы между страницами.

На основе проведенных исследований осуществлена разработка общей схемы адаптации навигационной структуры, представленной на рис. 1. Выделяются три основных этапа работы алгоритма: 1) фильтрация посещений с целью исключения влияния факторов, искажающих статистику популярности страниц: посещения поиско-

вых роботов, посещения злоумышленников, посещения с просмотром единственной страницы;

2) группировка похожих посещений на основе кластеризации;

3) рекомендация электронных страниц пользователю с учетом множества ранее просмотренных страниц.

Рис. 1 Общая схема адаптации навигационной структуры ИР Фильтрацию посещений пользователей предлагается осуществлять по нескольким параметрам. Для распознавания и фильтрации посещений поисковых роботов предложено использовать формулу (3):

- Г1 С >0

(3)

где у пороговое значение максимального количества просмотренных страниц, Ху - количество переходов со страницы / на страницу у в посещении, п - количество страниц ИР.

Для отсеивания посещений злоумышленников предложено использовать кластеризацию методом ¿-средних с фиксированным количеством кластеров к=2, где в качестве объектов кластеризации выступают количество просмотров страницы в каждом посещении, а удаленность объектов кластеризации друг от друга определяется на основе евклидова расстояния. Отсеивание посещений, страницы которых принадлежат подозрительному кластеру, осуществляется при ложности условия (4):

\х\-х2у\пх-пг\«т, (4)

где х1 - значения центров кластеров, л, - количества элементов в кластерах, а - порог отсеивания подозрительного кластера, который задается исходя из эмпирических предпосылок.

Чтобы обеспечить необходимое быстродействие, для группировки посещений также используется кластеризация методом ¿-средних. Вычисление расстояния между графами посещений производится по формуле расстояния на основе максимального общего подграфа (МСБ):

¿(С,, = - , . , ¿(С,, С2)е[0,1], (5)

тах^,^)

где й] и - графы посещений, тсз(0], бу - максимальный общий подграф наибольшей мощности.

Анализ имеющихся сведений о качестве и быстродействии оптимальных алгоритмов поиска МСБ позволил выбрать алгоритм МакГре-гора, который показывает наилучшие результаты в случае сильно разреженных матриц.

С целью увеличения качества кластеризации предложено выбирать начальные центры кластеров на основе к наблюдений с учетом максимизации начального расстояния. При этом для уменьшения вычислительной сложности на множество возможных центров кластеров накладывается ограничение (6): „

\/хку, хки еХ: ''—- = 1±<У,<Уб[-1;1]> (6)

к ]

где К - количество посещений, ху - количество переходов со страницы / на страницу у в к-м посещении, а 8 - определяет интервал принадлежности посещения множеству возможных центров кластеров.

Процесс кластеризация завершается при достижении целевой функцией оптимального значения V, которое остается неизменным на следующих итерациях кластеризации:

У-Е (7)

где Х1 - центры кластеров, X^ - объекты кластера с центром в X,.

Для рекомендаций страниц текущее посещение пользователя назначается в ближайший кластер Б(Х), и производится рекомендация электронных страниц х1 з Хг индекс предпочтения г, которых превышает заданное пороговое значение Я:

г,- = --, {xi 0, х,, х] е Б(Х) (8)

'"шах

х1 => Хг : т1 > Я

При этом из множества возможных кандидатов на рекомендацию Хг исключаются страницы, просмотренные пользователем в текущем посещении Хс :

Xг:Х\х. еХс, Х = \ - (9)

' [Х = Х]иХ2и...иХ1РЩ 6 ЯГ,)

В качестве показателей эффективности работы алгоритма адаптации и управления навигационной структурой ИР рассмотрены и выбраны в качестве основных следующие:

1) показатель качества кластеризации посещений алгоритмом группировки посещений;

2) показатель прогностической силы алгоритма рекомендации;

3) число конверсии посетителей.

Для обеспечения программной реализации предложенный алгоритм адаптации и управления навигационной структурой ИР детализирован в диссертации до уровня схем алгоритмов.

Третья глава посвящена исследованию и оценке эффективности алгоритма адаптации и управления навигационной структурой ИР на основе определенных ранее показателей.

Для исследования работы алгоритма адаптации и управления навигационной структурой ИР обосновывается использование имитационного моделирования.

В качестве исходных данных для построения имитационной модели применяются сведения об использовании трех ИР различных классов. Выбор ИР происходит на основе анализа базы данных ИР из 1969 записей. Репрезентативность выборки обеспечивается выбором ИР с максимальным индексом посещаемости, основанным на количестве электронных страниц ИР и количестве посещений пользователями. В связи с

перспективностью использования ИР в области приборостроения, выбираются ИР, относящиеся к этой области.

Для анализа качества кластеризации алгоритмом группировки посещений производится обработка журналов навигационных историй пользователей выбранных ИР при изменении лимита начального межкластерного расстояния й на интервале [0, 1]. Для каждого полученного результата кластеризации, с учетом приемлемой вычислительной сложности, производится расчет сл-метрики индекса Дэвиса-Болдина:

, о»)

"м <„ | хса.е,) ] '

где п - количество кластеров, - среднее расстояние всех объектов до центра их кластера, а Зфи - расстояние между центрами кластеров.

Результаты расчета, свидетельствующие о хорошем качестве кластеризации, приведены в табл. 1.

Таблица 1

Результаты расчета индекса Дэвиса-Болдина для ИР различных классов

Класс ИР Кол-во кластеров, п Лимит начального межкластерного расстояния, й Значение индекса Дэвиса-Болдина, £>

Веб-сервис 19 0,948 0,3186

Информационное представительство 13 0,954 0,2631

Информационный портал 55 0,97 0,3418

Для определения значения прогностической силы алгоритма рекомендаций разработана модель имитации поведения пользователей ИР. Модель построена на основе смеси цепей Маркова 1-ого порядка и использует матрицу вероятностей переходов между страницами, в которой вероятность перехода рассчитывается по формуле:

Р{5х\с = к)-Р{з,и1_1,с = к)-Р{с = к)

j

где Р(с = ¡) - вероятность принадлежности посещения к группе /, с = г) определяет вероятность возникновения перехода со страницы 5,./ на страницу при 1 < к< К, где К - количество кластеров.

Вероятности начала и завершения посещения на странице я, рассчитываются отдельно на частотной основе.

Для верификации имитационной модели использован подход, основанный на расчете доверительных интервалах по схеме Бернулли, где количество необходимых экспериментов вычисляется при вероятности истинности гипотезы 95%. Полученные результаты приведены в табл. 2.

Таблица 2

Результаты верификации алгоритма моделирования пользователей

Класс ИР Частота неудачи, h Кол-во необходимых испытаний, п Кол-во неуспешных испытаний, |Л"| Оценка точности модели, Р

Веб-сервис 0,02 753 9 98,8%

Информационное представительство 0,04 1476 38 97,4%

Информационный портал 0,12 4057 311 92,3%

На основе разработанной и верифицированной модели имитации поведения пользователей ИР исследована прогностическая сила алгоритма рекомендации с помощью ROC-анализа (ROC - Receiver operating characteristic). ROC-анализ алгоритма заключается в сборе результатов рекомендаций на основе данных об истинных и шумовых переходах между страницами 200 посещений для каждого класса ИР.

В зависимости от истинности исходных данных и результата рекомендации увеличивается значение параметра, определяющего количество исходов класса результатов рекомендаций. Исследования производятся при изменении значения порога отсечения Я на интервале [0, 1], который ограничивает множество рекомендуемых электронных страниц. Стратегия расчета параметров ROC-анализа, где в ячейках указано название класса увеличиваемого параметра, представлена в табл. 3.

Таблица 3

Стратегия расчета основных параметров ROC-анализа

Переход рекомендован Переход не рекомендован

Истинный переход Истинно положительный случай, ТР Ошибка I рода, FN

Шумовой переход Ошибка II рода, № Истинно отрицательный случай, Ш

На основе полученных значений параметров строятся графики зависимости относительной частоты истинно положительных случаев от относительной частоты ложно положительных случаев для каждого класса ИР, которые приведены на рис. 2.

а)

100 - специфичность, %

б)

В)

Рис. 2 ЯОС-кривые для ИР различных классов: а) веб-сервис; б) информационное представительство; в) информационный портал Расчет относительных частот производится по формулам (12): ТР

Бе = ——--100%

ТЫ ' 1 ;

ОТ? = 100%-Бр = 100%---100%

где Бе - относительная частота истинно положительных случаев или чувствительность алгоритма, ЕРЯ - относительная частота ложно положительных случаев, Бр - относительная частота истинно отрицательных случаев или специфичность алгоритма.

Значение прогностической силы алгоритма рекомендации определяется как площадь под полученной кривой, заштрихованной на рис. 2:

Ум +у/

АиС = ¡/(х)ск = X

' (х/+1 _ ).

(13)

где А иС - прогностическая сила алгоритма рекомендации, х и у - значения на соответствующих осях под кривой.

На основе баланса между чувствительностью и специфичностью алгоритма определяется оптимальное значение порога отсечения X .

В результате расчетов прогностическая сила модели оценена как «хорошая» на основе экспертной шкалы оценок (табл. 4).

Таблица 4

Характеристики алгоритма рекомендации электронных страниц ИР

Класс ИР Кол-во посещений, N Шум, % Порог отсечения, Л Прогностическая сила, лис

Веб-сервис 200 10 0,68 0,711

Информационное представительство 200 10 0,74 0,753

Информационный портал 200 10 0,71 0,684

Для оценки способности алгоритма адаптации и управления навигационной структурой ИР решить проблему когнитивной перегруженности пользователей произведен расчет сокращения пути до электронной страницы, которая была достигнута в моделируемом посещении и также была рекомендована на более раннем шаге, по формуле (14):

£ 1-141 У-'-

• /. I у I

-и--100%, (14)

|5|

где - моделируемое посещение, 4 - посещение с рекомендацией, / -количество сокращений пути, 5 - множество всех смоделированных посещений.

Для определения электронных страниц, которые пользователь хотел достигнуть в посещении, на основе (15) определяются ключевые электронные страницы ИР.

х б КР :Ц=->30, (15)

<

где КР - множество ключевых страниц, Т(У1 (х)) - время (в секундах), затраченное в г'-м посещении на просмотр страницы х.

Результаты проведенных исследований, показали, что снижение когнитивной перегруженности пользователей составило 11-22% в зависимости от класса ИР, при усредненном значении 14,5% (табл. 5).

Таблица 5

Результаты исследования по уменьшению когнитивной перегруженности пользователей ИР

Класс ИР Кол-во ключевых страниц, К Доля ключевых страниц, % Уменьшение когнитивной перегруженности, %

Веб-сервис 26 0,12 10,883

Информационное представительство 113 0,21 21,636

Информационный портал 134 0,095 10,887

С целью определения возможности практического применения разработанного алгоритма адаптации и управления навигационной структурой ИР выполнен анализ ограничений алгоритма и предложена методика их устранения.

В четвертой главе представлена программная реализация разработанного алгоритма адаптации и управления навигационной структурой ИР в системе адаптации «КАИР», а также проведено исследование быстродействия разработанного алгоритма, анализ качества и сложности программного кода, а также экспериментальное исследование изменения когнитивной перегруженности пользователей.

Схема модулей программной реализации алгоритма, разработанная с учетом принципа иерархической организации программного кода, приведена на рис. 3.

В диссертации определено функциональное назначение каждого модуля, обоснована необходимость организации структуры модулей таким образом, чтобы обеспечить возможность подключения сторонних модулей обработки журналов веб-сервера, и описана методика сокра-

щения времени решения задачи кластеризации посещений на основе кэширования результатов вычисления расстояния между графами посещений.

Для долгосрочного хранения информации о посещениях пользователей ИР и результатов работы алгоритма группировки посещений разработана структура базы данных «КАИР». Обоснована необходимость организации структуры базы данных с возможностью разделения источника данных на два независимых источника - для хранения информации журналов веб-сервера и для хранения результатов обработки журналов. В диссертации приведена ЕЙ-диаграмма структуры разработанной базы данных и описано назначение ее таблиц.

Рис. 3 Схема модулей программной реализации алгоритма Для определения качества программного кода вычислены метрики, позволяющие оценить надежность, сложность поддержки и развития системы. Результаты вычислений показали, что модули обладают значением индекса сопровождаемое™ более 75 единиц, при этом индекс сцепленности объектов внутри каждого модуля не превышает 2,5 единицы. Это свидетельствует о гранулированное™ и относительной простоте сопровождения программного кода.

Определение быстродействия работы алгоритма адаптации и управления навигационной структурой ИР проведено с использованием различного количества записей в журналах веб-сервера. В качестве кон-

трольных точек были выбраны журналы веб-сервера объемом в 1,5, 15, 30, 60 тыс. записей. Измерения осуществлялись отдельно для каждого из этапов работы исследуемого алгоритма. Результаты измерений для этапов восстановления и кластеризации посещений работы алгоритма приведены на рис. 4 и показывают, что приемлемое время обработки наблюдается при объеме данных не более 30 тыс. записей.

4000 3500 £ 3000 2500

I I 2000

& о 1500

т ^ 1000

ю 500

° О

1000 5000 15000 30000 60000 Количество записей в журнале

ш Восстановление посещений ® Кластеризация посещений

Рис. 4 Времена выполнения этапов восстановления и кластеризации посещений

Исследование времени работы алгоритма рекомендации электронных страниц показало прямую зависимость времени от количества электронных страниц и кластеров посещений (табл. 6).

Таблица 6

Результаты исследования быстродействия алгоритма рекомендации

Кол-во записей в журнале, шт. 1000 5000 15000 30000 60000

Количество страниц, шт. 419 925 1167 1253 1373

Количество кластеров, шт. 2 4 6 18 40

Время рекомендации, сек. 0,018 0,113 0,126 0,415 0,950

Экспериментальное исследование изменения когнитивной перегруженности пользователей осуществлено на основе данных о посещениях ИР различных классов за месяц работы. Для каждого ИР эксперимент осуществлялся 5 раз, в качестве ключевых страниц были выбраны страницы, аналогичные использованным при имитационном моделировании. Результаты расчетов приведены в табл. 7.

В результате исследования было выявлено снижение параметра 5(3 в среднем на 18% по отношению к теоретическим значениям. Экспериментальное значение снижения когнитивной перегруженности пользователей составило 8-20% для разных классов ИР, что при усреднении значений дает 12%.

Таблица 7

Экспериментальное исследование изменения когнитивной перегруженности пользователей

Класс ИР Теоретическое значение, SG, Экспериментальное значение, SGe Дельта, A SG

Веб-сервис 10,883 8,857 2,026

Информационное представительство 21,636 19,539 2,097

Информационный портал 10,887 8,012 2,875

Полученные результаты показывают, что разработанный и реализованный алгоритм адаптации и управления навигационной структурой ИР повышает эффективность доступа пользователей к информации.

В заключении диссертации изложены полученные результаты и сформулированы основные выводы.

В приложениях приведены акты внедрения результатов диссертационной работы, фрагменты листинга программной реализации разработанного комплекса адаптации ИР, результаты проведенного исследования прогностической силы алгоритма рекомендации.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В диссертационной работе разработан и исследован алгоритм адаптации и управления навигационной структурой ИР, который позволяет уменьшить когнитивную перегруженность пользователей в среднем на 12%. Внедрение результатов диссертационной работы в программный продукт «Wild Apricot» компании ЗАО «БонаСорс» показало увеличение числа конверсий пользователей на 19%.

Основные научные и практические результаты диссертационной работы заключаются в следующем:

1) проанализированы проблемы и особенности, связанные с адаптацией ИР, и обоснована целесообразность применения адаптации навигационной структуры ИР различных классов;

2) предложена формальная постановка задачи адаптации ИР и определены основные показатели эффективности работы алгоритма адаптации и управления навигационной структурой ИР;

3) разработан алгоритм адаптации и управления навигационной структурой ИР на основе поиска схожих навигационных историй пользователей, в котором предложены механизмы устранения шумовых посещений, методика инициализации алгоритма кластеризации к-средних, уменьшающая влияние выбора центров кластеров на результаты работы алгоритма, а также способ определения расстояния между кластерами навигационных историй на основе поиска MCS;

4) проведен анализ навигационной информации о поведении пользователей на основе трех ИР, относящихся к области приборостроения, и по результатам анализа определены оптимальные значения константных величин разработанных алгоритмов;

5) разработана модель имитации поведения пользователей ИР на основе смеси цепей Маркова и проведена экспериментальная оценка разработанной модели, которая свидетельствует о точности имитации поведения пользователей ИР свыше 90%;

6) исследована эффективность работы алгоритма адаптации и управления навигационной структурой ИР на основе применения ROC-анализа, позволившего определить прогностическую силу алгоритма, составившую в среднем 0,716, что с учетом экспертной шкалы является хорошим показателем;

7) произведено исследование изменения когнитивной перегруженности пользователей в результате работы алгоритма, свидетельствующее о снижении когнитивной перегруженности пользователей в среднем на 12%;

8) осуществлена программная реализация разработанных алгоритмов с применением языка программирования С# и СУБД Microsoft SQL Server 2008 и проведена оценка качества программного кода на основе вычисления метрик, в частности, значение индекса сопровождаемое™ модулей выше 75 единиц свидетельствует о высоком качестве программной реализации, а исследование быстродействия разработанного алгоритма показало приемлемое время работы алгоритма при 30 тыс. записях в журнале навигационных историй;

9) программная реализация разработанных алгоритмов интегрирована в программный продукт "Wild Apricot", управляющий содержимым ИР, а результаты эксплуатации свидетельствуют об увеличении числа конверсий пользователей в среднем на 19%.

По теме диссертации опубликованы следующие работы:

1. Соколов С.Н. Программа сбора и обработки информации о поведении пользователей веб-ресурсов // Микроэлектроника и информатика - 2006. 13-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тезисы докладов. - М.: МИЭТ, 2006.-С. 218.

2. Соколов С.Н. Моделирование поведения пользователей в системах электронной коммерции // Информационные технологии в науке, проектировании и производстве: материалы девятнадцатой Всероссийской научно-технической конференции - Н.Новгород: ННИМЦ «Диалог», 2006.-С. 16.

3. Соколов С.Н. Экспертиза образовательного Интернет-ресурса на основе анализа его использования // Новые информационные технологии в образовании: материалы международной научно-практической конференции, Екатеринбург: ГОУ ВПО «Российский государственный профессионально-педагогический университет», 2007. - С. 48-49.

4. Соколов С.Н. Методы анализа использования образовательного Интернет-ресурса // Теоретические и прикладные вопросы современных информационных технологий: материалы VIII Всероссийской научно-технической конференции. - Улан-Удэ: ВСГТУ, 2007. - С. 417420.

5. Соколов С.Н. Разработка методов индивидуальной адаптации Интернет-сервисов // Микроэлектроника и информатика - 2007. 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: тезисы докладов. - М.: МИЭТ, 2007. - С. 213.

6. Соколов С.Н. Исследование влияния контентной оптимизации на увеличение конверсии пользователей Интернет-ресурсов // Актуальные проблемы информатизации. Развитие информационной инфраструктуры, технологий и систем. Всероссийская межвузовская научно-практическая конференция: материалы конференции. М.: МИЭТ, 2007. -С. 154.

7. Соколов С.Н., Илюшечкин В.М. Системный подход к адаптации Интернет-сервисов для уменьшения сроков окупаемости инвестиций. // Оборонный комплекс - научно-техническому прогрессу России, М.: МИЭТ, 2008 - №2. - С. 28-32.

8. Соколов С.Н. Формализация процесса адаптации электронных информационных ресурсов // Естественные и технические науки, М.: Спутник*, 2009 С. 272-275.

9. Соколов С.Н., Илюшечкин В.М. Свидетельство об официальной регистрации программы для ЭВМ №2009611688, Россия. Интра-нет-система для регистрации и поиска научно-исследовательских и опытно-конструкторских работ. Зарегистрировано в РОСПАТЕНТ 30 марта 2009 г., заявка № 2009610277.

10. Соколов С.Н. Исследование алгоритма навигационной адаптации Интернет-ресурсов на основе коллаборативной фильтрации // Естественные и технические науки, М.: Спутник+, 2009. - №5. - С. 298-301.

11. Соколов С.Н. Моделирование поведения пользователей Интернет-ресурсов на основе смеси цепей Маркова // Естественные и технические науки, М.: Спутник+, 2009. - №5. - С. 302-305.

12. Соколов С.Н. Свидетельство об официальной регистрации программы для ЭВМ № 2009615411, Россия. Комплекс адаптации Интернет-ресурсов. Зарегистрировано в РОСПАТЕНТ 29 сентября 2009 г., заявка №2009610277.

Подписано в печать:

Заказ №/¿4. Тираж 90 экз. Уч.-изд. л.

Формат 60x84 1/16

Отпечатано в типографии МИЭТ

124498, Москва, МИЭТ

Оглавление автор диссертации — кандидата технических наук Соколов, Сергей Николаевич

Используемые сокращения.

Введение.

Глава 1. Исследование проблем и особенностей адаптации Интернет-ресурсов (ИР).

1.1. Классификация и обобщенная структура ИР.

1.2. Показатели эффективности использования ИР.

1.3. Проблемы использования неадаптивных ИР.

1.4. Обзор существующих методов и математического аппарата адаптации ИР.

1.5. Постановка задачи диссертационного исследования.

Выводы по главе 1.

Глава 2. Анализ и разработка алгоритма адаптации ИР.

2.1. Анализ и формализация процесса адаптации ИР.

2.2. Разработка математической модели пользователя ИР.

2.3. Разработка математической модели процесса адаптации ИР.

2.4. Определение показателей эффективности алгоритма адаптации ИР

2.5. Алгоритмизация процесса адаптации ИР.

Выводы по главе 2.

Глава 3. Исследование и оценка эффективности алгоритма адаптации ИР

3.1. Выбор методики моделирования поведения пользователей ИР.

3.2. Разработка методики оценки алгоритма адаптации ИР.

3.3. Верификация алгоритма моделирования поведения пользователей.

3.4. Анализ и оценка эффективности работы алгоритма рекомендации.

3.5. Исследование ограничений алгоритма адаптации ИР и методика их устранения.

Выводы по главе 3.

Глава 4. Программная реализация и верификация алгоритма адаптации PIP.

4.1. Структура программных модулей, реализующих алгоритма адаптации PIP.

4.2. Определение параметров и планирование экспериментов для оценки эффективности работы алгоритма адаптации PIP.

4.3. Экспериментальное исследование алгоритма адаптации PIP.

4.4. Анализ результатов экспериментального исследования алгоритма адаптации PIP.

Выводы по главе 4.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Соколов, Сергей Николаевич

Актуальность темы исследования. Развитие информационных и телекоммуникационных технологий привело к значительному увеличению объема информации, опубликованной в сети Интернет. Согласно исследованиям компании Cisco к 2010 году ежемесячный объем информации, передаваемый в сети Интернет, возрастет до 21,47 экзабайт в месяц, из которых 7,23 экзабайт приходится на загрузку файлов и электронных страниц [1]. При этом исследования компании IDC показывают, что общий мировой объем цифровой информации составит 966 экзабайт [2].

Рост объема информации в сети Интернет приводит к возникновению проблемы когнитивной перегруженности и дезориентации конечных пользователей [3], связанной с повышением сложности поиска необходимой информации, размещенной на Интернет-ресурсах (ИР).

Одним из возможных путей решения данной проблемы является автоматическая адаптация навигационной структуры ИР, позволяющая уменьшить время поиска необходимой информации посредством добавления в навигационную структуру электронных страниц релевантных текущим потребностям пользователей.

Однако в настоящее время сегмент адаптивных ИР развит слабо [4]. Согласно известным данным лишь 31% ИР обладают адаптивными возможностями, из которых только 3% ИР производят адаптацию с учетом предпочтений пользователей. Причины возникновения данной ситуации связаны с малой изученностью проблемы в области объекта исследования, а также в недостатке моделей и алгоритмов адаптации навигационной структуры Интернет-ресурсов.

Исследованию проблемы поиска информации, в том числе и в сети Интернет, посвящено большое количество работ отечественных ученых Ландэ Д.В. [5, 6], Байкова В.Д. [7], Барсегяна А.А. и Куприянова М.С. [8, 9, 10], Гасанова Э.Э. [11, 12], Кудрявцева В.Б. [12] и др. Среди исследований проблемы адаптации навигационной структуры ИР своей проработанностью выделяются диссертационные работы на соискание кандидатской степени Зайцева И.Б., Целых А.А. и Майкевич Н.В. Однако применение разработанных данными авторами моделей и алгоритмов возможно лишь для узкого класса Интернет-ресурсов. Кроме того, мало внимания уделяется аспекту практического применения разработанных методик.

С учетом вышеизложенного задача создания универсальных моделей и алгоритмов адаптации навигационной структуры, применимых для широкого класса ИР, является актуальной и имеет научную и практическую значимость. При этом особую важность имеют вопросы, связанные с практическим применением разработанных алгоритмов и их интеграцией с существующими ИР.

Объект и предмет исследования. Объектом исследования данной работы являются Интернет-ресурсы, пользователи которых могут испытывать когнитивную перегруженность вследствие большого объема информации, размещенной на ресурсе. Предметом исследования и разработки являются модели и алгоритмы адаптации навигационной структуры Интернет-ресурса в соответствии с потребностями пользователей.

Цель и задачи исследования. Целью работы является анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой Интернет-ресурсов, способных уменьшить время, затрачиваемое пользователями на поиск необходимой информации, а также увеличить число конверсии с целью повышения экономической эффективности ИР.

Для достижения указанной цели в диссертации необходимо решить следующие задачи:

1) провести анализ существующих методов и алгоритмов адаптации ИР;

2) определить основные показатели эффективности работы алгоритма адаптации и управления навигационной структурой ИР;

3) создать математические модели, необходимые для разработки алгоритма адаптации и управления навигационной структурой ИР;

4) провести анализ и оценку эффективности разработанного алгоритма адаптации и управления навигационной структурой ИР;

5) разработать структуру программных модулей и выполнить программную реализацию алгоритма адаптации и управления навигационной структурой ИР;

6) осуществить экспериментальную верификацию программной реализации алгоритма адаптации и управления навигационной структурой ИР.

Методы исследования. Для решения вышеперечисленных задач были использованы теоретико-графовые и теоретико-вероятностные методы, методы математической статистики и бинарной классификации, а также методы имитационного моделирования сложных систем.

Научная новизна. Научная новизна работы заключается в получении следующих новых научных результатов:

1) проведена формализация задачи адаптации ИР методом сведения к многокритериальной оптимизации целевой функции;

2) предложен алгоритм проведения адаптации навигационной структуры ИР на основе кластеризации историй посещений ИР и добавления в навигационную структуру электронных страниц с наибольшим индексом предпочтения;

3) разработана методика имитационного моделирования поведения пользователей ИР с применением таблицы вероятностей переходов между электронными страницами ИР, основанных на смеси цепей Маркова;

4) разработана методика определения эффективности работы алгоритма адаптации и управления навигационной структурой

ИР, заключающаяся в проведении ROC-анализа алгоритма рекомендации и вычисления прогностической силы алгоритма;

5) разработана структура программных модулей, реализующих адаптацию навигационной структуры ИР, которая обеспечивает возможность интеграции сторонних модулей обработки журналов веб-сервера.

Практическая значимость работы. Самостоятельное практическое значение имеют:

1) формализованное представление задачи адаптации ИР;

2) формализованное представление модели пользователя в случае навигационной адаптации ИР;

3) имитационная модель поведения пользователя ИР;

4) программная реализация разработанных алгоритмов.

Основные положения, выводы и рекомендации диссертации ориентированы на широкое применение в информационно-поисковых системах, системах Интернет-страхования, а также системах электронной коммерции: В2В, В2С, B2G.

Достоверность полученных результатов и выводов подтверждена научной обоснованностью основных полученных теоретических выводов и положений, а также высокой корреляцией результатов имитационного моделирования с полученными экспериментальными данными.

Реализация и внедрение результатов работы. Все работы по реализации и внедрению результатов диссертационного исследования проводились при непосредственном участии автора. Результаты работы использованы ЗАО "БонаСорс" при создании системы навигационной адаптации ИР «КАИР». Интеграция системы «КАИР» с веб-сервисом «Wild Apricot» позволила уменьшить когнитивную перегруженность пользователей ИР, относящихся к области приборостроения, в среднем на 12%. Ряд полученных результатов также используется при проведении лекционных и практических занятий по курсам "Интернет-программирование" и "Базы данных" в Московском государственном институте электронной техники (техническом университете).

Внедрение результатов диссертационной работы подтверждено соответствующими актами, копии которых приведены в приложении 1.

На защиту выносятся:

1) результаты анализа проблемы разработки методов и алгоритмов адаптации PIP;

2) формализация задачи адаптации PIP;

3) алгоритм навигационной адаптации PIP;

4) модель имитации поведения пользователей PIP;

5) результаты верификации работы алгоритма;

6) результаты реализации предложенных моделей и алгоритмов.

Апробация работы. Основные результаты исследований представлены на 6 международных, всероссийских и межвузовских научных конференциях:

1. Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информатика - 2006» - г. Москва, МИЭТ, 2006 г.

2. Девятнадцатая Всероссийская научно-техническая конференция «Информационные технологии в науке, проектировании и производстве» - г. Нижний Новгород, ННИМЦ «Диалог», 2006 г.

3. Международная научно-практическая конференция «Новые информационные технологии в образовании », г. Екатеринбург, ГОУ ВПО «Российский государственный профессионально-педагогический университет», 2007 г.

4. Восьмая Всероссийская научно-техническая конференция «Теоретические и прикладные вопросы современных информационных технологий» - г. Улан-Удэ, ГОУ ВПО «Восточно-Сибирский государственный технологический университет», 2007 г.

5. Четырнадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информатика - 2007» - г. Москва, МИЭТ, 2007 г.

6. Всероссийская межвузовская научно-практическая конференция «Актуальные проблемы информатизации. Развитие информационной инфраструктуры, технологий и систем» - г. Москва, МИЭТ, 2007 г.

Публикации. Основные результаты диссертации представлены в 12 работах, опубликованных в центральных журналах, сборниках и вузовских изданиях России.

Личный вклад автора. Все результаты получены автором лично. Главными из них являются:

1) обоснование необходимости навигационной адаптации ИР;

2) формализация задачи адаптации ИР;

3) разработка алгоритма навигационной адаптации ИР;

4) разработка методики имитационного моделирования поведения пользователей ИР;

5) реализация разработанного алгоритма навигационной адаптации ИР.

Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения, списка литературы и приложений. Работа содержит 116 страниц основного текста, 30 рисунков, 15 таблиц, список литературы из 111 наименований и 3 приложения. Приложения содержат листинги программ, копии документов о внедрении и использовании, результаты имитационного моделирования поведения пользователей ИР.

Заключение диссертация на тему "Анализ и разработка моделей и алгоритмов адаптации и управления навигационной структурой интернет-ресурсов"

Основные результаты диссертационного исследования заключаются в следующем:

1. На основе исследования существующих методов и алгоритмов проанализированы проблемы и особенности, связанные с адаптацией ИР. Обусловлена целесообразность применения адаптации ИР различных классов.

2. Предложена формальная постановка задачи адаптации ИР. Определены основные показатели эффективности работы алгоритма адаптации ИР.

3. Разработан алгоритм навигационной адаптации ИР на основе коллаборативной (совместной) фильтрации навигационных историй пользователей. Предложены механизмы устранения шумовых посещений. Разработана методика инициализации алгоритма кластеризации Аг-средних, уменьшающая влияние выбора центров кластеров на результаты работы алгоритма. Предложен способ определения расстояния между кластерами навигационных историй на основе вычисления максимального общего подграфа с использованием алгоритма МакГрегора.

4. Произведен сбор и обработка навигационной информации поведения пользователей на основе трех ИР, относящихся к области приборостроения, что позволило определить оптимальные значения константных величин предложенных алгоритмов.

5. На основе математической модели разработана методика имитации поведения пользователей ИР. В основу методики положены статистические данные о посещениях пользователями ИР и прогнозирование навигации на основе смеси цепей Маркова. Проведена экспериментальная оценка разработанной методики, которая свидетельствует о высокой точности имитации поведения пользователей ИР.

6. Исследована эффективность работы алгоритма навигационной адаптации ИР на основе применения ROC-анализа. Показано, что прогностическая сила алгоритма в среднем принимает значение 0,716, что на основании экспертной шкалы является хорошим показателем.

7. Произведено исследование снижения когнитивной перегруженности пользователей в результате работы алгоритма адаптации ИР. Результаты исследования показывают о снижении когнитивной перегруженности пользователей в среднем на 12%.

8. Осуществлена программная реализация разработанных алгоритмов с применением языка программирования С# и СУБД Microsoft SQL Server 2008. Проведенные вычисления метрик качества программного кода свидетельствуют о высоком качестве программной реализации.

9. Программная реализация разработанных алгоритмов интегрирована в информационную систему "Wild apricot". Результаты эксплуатации свидетельствуют об увеличении числа конверсий пользователей в среднем на 19%.

Заключение

Библиография Соколов, Сергей Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Cisco. Cisco visual networking index: forecast and methodology, 2008-2013. -(http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/ns537/ns705/ns 827/white paper cll-481360.pdf).

2. IDC. The expanding digital universe a forecast of world-wide information growth through 2010.http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf).

3. Ransom, S. Disorientation and cognitive overhead in hypertext systems / S. Ransom, X. Wu, H. Schmidt // International journal of artificial intelligence tools. 1997. - Vol. 6, № 2. - P. 227-253.

4. Зайцев, А. Б. Адаптивные гипермедиа издания, интегрированные в Интернет : дис. канд. техн. наук : 05.13.06. М., 2005. - 150 с.

5. Ландэ, Д. В. Поиск знаний в Internet / Д. В. Ландэ. Киев : Диалектика, 2005.-272 с.

6. Ландэ, Д. В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. М. : Либроком, 2009. - 264 с.

7. Байков, В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. СПб.: BHV, 2000. - 288 с.

8. Барсегян, А. А. Анализ данных и процессов / А. А. Барсегян и др.. -СПб. : БХВ-Петербург, 2009. 512 с.

9. Барсегян, А. А. Методы и модели анализа данных: OLAP и Data mining / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко. СПб. : БХВ-Петербург, 2004. - 336 с.

10. Барсегян, А. А. Технологии анализа данных. Data mining, visual mining, text mining, OLAP / А. А. Барсегян и др.. СПб. : БХВ-Петербург, 2007. -384 с.

11. П.Гасанов, Э. Э. Теория сложности информационного поиска / Э. Э. Гасанов. М.: МГУ, 2005. - 144 с.106

12. Гасанов, Э. Э. Теория хранения и поиска информации / Э. Э. Гасанов, В. Б. Кудрявцев. М. : ФИЗМАТЛИТ. - 288 с.

13. Шрайберг, Я. Л. Интернет-ресурсы и услуги для библиотек. Часть 1 / Я. Л. Шрайберг, М. В. Гончаров, О. В. Шлыкова. М. : Либерия, 2001. - 72 с.

14. Мальцева, С. В. Информационное моделирование Web-pecypcoB Интернет / С. В. Мальцева. -М. : Глобус, 2003. 216 с.

15. Казакова, О. В. Бизнес-веб будущее электронной коммерции / О. В. Казакова // Сетевой журнал. - 2001. - № 4.http ://www. setevoi.ru/cgi-bin/text.pl/magazines/2001/4/12).

16. Елманова, Н. Н. Настоящее и будущее Интернета и поисковых систем / Н. Н. Елманова, О. С. Татарников // КомпьютерПресс. — 2006. № 2. -(http.7/www.compress.ru/article.aspx?id=14777&iid=703).

17. Татарников, О. С. Состояние и перспективы развития Интернета / О. С. Татарников // КомпьютерПресс. 2007. — № 1. — (http://wwwxompress.ru/article.aspx?id=17118&iid=792).

18. Московский государственный институт электронной техники. М., 2006. -С. 218.

19. Симакина, А. С. Венчурные деньги для IT заканчиваются / А. С. Симакина // CNews. 2009. — № 1.http://www.cnews.ru/news/top/index.shtml72009/01/20/335123)

20. Peterson, Е. Web analytics demystified: A marketer's guide to understand how you web site affects your business / E. Peterson. Seattle : Celilo group media, 2004. - 266 p.

21. Sterne, J. Web metrics: proven methods for measuring web site success / J.

22. Жоголев, Е. А. Технология программирования / Е. А. Жоголев. — М. : Научный мир, 2004. 216 с.

23. Боэм, Б. Инженерное проектирование программного обеспечения / Б. Боэм. М. : Радио и связь, 1985. - 512 с.

24. ЗО.Зелковец, А. Принципы разработки программного обеспечения / А. Зелковец, А. Шоу, Дж. Гэннон. М. : Мир, 1982. - 368 с.

25. Брукс, Ф. Мифический человеко-месяц или как создаются программные системы / Ф. Брукс. М. : Наука, 1979. - 152 с.

26. Липаев, В. В. Проектирование программных средств: учебное пособие для ВУЗов / В. В. Липаев. М. : Высшая школа, 1990. - 303 с.

27. Tsandilas, Т. Adaptive hypermedia and hypertext navigation: research overview for depth oral examination / T. Tsandilas // Department of computer science, University of Toronto. — 2003. — 34 p.

28. Fink, J. Adaptable and adaptive information provision for all users, including disabled and elderly people / J. Fink, A. Kobsa, A. Nill // The new review of hypermedia and multimedia. 1998. -№ 4. - P. 163-188.

29. Mezak, J. An approach to modeling adaptive hypermedia for children with disabilities / J. Mezak, N. Hoic-Bozic // The 3rd IEEE International Conference. 2003. - Vol. 9, № 11. - P. 344-345.

30. Nguyen, L. Combination of Bayesian Network and Overlay Model in User Modeling / L. Nguyen, P. Do // Lecture notes in computer science: Computational science. 2009. - Vol. 5545/2009. - P. 5-14.

31. Glushkova, T. Adaptive model for user knowledge in the e-learning system / T. Glushkova // ACM International Conference Proceeding Series. — 2008. — Vol. 374.-P. 1-7.

32. Goy, A. Personalization in e-commerce applications / A. Goy, L. Ardissono, G. Petrone // Lecture notes in computer science: The adaptive web. 2007. - Vol. 4321/2007.-P. 485-520.

33. Kobsa, A. Personalised hypermedia presentation techniques for improving online customer relationships / A. Kobsa, J. Koenemann, W. Pohl // The knowledge engineering review. 2001. - Vol. 16, № 2. - P. 111-155.

34. Peppers, D. The One to One Future: Building Relationships One Customer at a Time / D. Peppers, M. Rogers. New South Wales : Currency press, 1997. -429 P.

35. Brusilovsky, P. Methods and techniques of adaptive hypermedia / P. Brusilovsky // User modeling and user adapted interaction. 1996, Vol. 6, № 2. -P. 87-129.

36. De Bra, P. Adaptive Hypermedia on the Web: Methods, Technology and Applications / P. De Bra // Proceedings of the AACE WebNet'98 Conference. -Orlando, 1998. P. 220-225.

37. Pohl, W. Logic-based representation and reasoning for user modeling shell systems / W. Pohl // User modeling and user-adapted interaction. 1999. - Vol. 9, № 3. - P. 217-282.

38. Jameson, A. Numerical uncertainty management in user and student modeling: an overview of systems and issues / A. Jameson // User modeling and user-adapted interaction. 1996. - Vol. 5, № 3. -P. 193-251.

39. Zukerman, I. Predictive statistical models for user modeling / I. Zukerman, D. Albrecht // User modeling and user-adapted interaction. 2001. - Vol. 11, № 1. -P. 5-18.

40. Bauer, M. A Dempster-Shafer approach to modeling agent preferences for plan recognition / M. Bauer // User modeling and user-adapted interaction. 1996 — Vol. 5,№3.-P. 317-348.

41. Jennings, A. A user model neural network for a personal news service / A. Jennings, H. Higuchi // User modeling and user-adapted information. — 1993. — Vol. 3,№ l.-P. 1-25.

42. Pazzani, M. Learning and revising user profiles: The identification of interesting web sites / M. Pazzani, D. Billsus // Machine learning. 1997. -Vol. 27, №3.-P. 313-331.

43. Breese, J. Empirical analysis of predictive algorithms for collaborative filtering / J. Breese, D. Heckerman, C. Kadie // In proceedings of the fourteenth conference on uncertainty in artificial intelligence. — Madison, 1998. P. 43-52.

44. Koch, K. Introduction to Bayesian statistics / K. Koch. Warren : Springer, 2007. - 250 p.61 .Черноруцкий, И. Г. Методы принятия решений / И. Г. Черноруцкий. -СПб. : БХВ-Петербург, 2005. 416 с.

45. Ларичев, О. И. Теория и методы принятия решений, а также хроника событий в Волшебных странах / О. И. Ларичев. М. : Логос, 2006. - 392 с.

46. Соколов, С. Н. Формализация процесса адаптации электронных информационных ресурсов / С. Н. Соколов // Естественные и технические науки. 2009. - № 1. - С. 272-275.

47. Adomavicius, G. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions / G. Adomavicius, A. Tuzhilin // IEEE transactions on knowledge and data engineering. 2005. -Vol. 17, №6.-P. 734-749.

48. Herlocker, J. Evaluating collaborative filtering recommender systems / J. Herlocker, J. Konstan, L. Terveen, J. Riedl // ACM transactions on information systems. 2004. - Vol. 22, № 1. - P. 5-53.

49. Рагк, Y. Modeling browsing behavior at multiple websites / Y. Park, P. Fader // Marketing science. 2004. - Vol. 23, № 3. - P. 280-303.

50. Marlin, B. Modeling user rating profiles for collaborative filtering / B. Marlin // Advances in neural information processing systems. — 2004. Vol. 16. - P. 627-634.

51. Соколов, С. H. Исследование алгоритма навигационной адаптации Интернет-ресурсов на основе коллаборативной фильтрации / С. Н. Соколов // Естественные и технические науки. — 2009. — №5. — С. 298-301.

52. Melville, P. Content-Boosted Collaborative Filtering for Improved Recommendations / P. Melville, R. Mooney, R. Nagarajan // In proceedings ofthe Eighteenth National Conference on Artificial Intelligence. Edmonton, 2002.-P. 187-192.

53. Мандель, И. Д. Кластерный анализ / И. Д. Мандель. — М. : Финансы и статистика, 1988. 176 с.

54. Чубукова, И. A. Data mining / И. А. Чубукова. М. : Бином, 2008. - 384 с.

55. Ullman J. An algorithm for subgraph isomorphism / J. Ullman // Journal of the ACM.-1976.-Vol. 23, № 1.-P. 31-42.

56. Bunke, H. A graph distance metric based on the maximal common subgraph / H. Bunke, K. Shearer // Pattern recognition letters. 1998. - Vol. 19, № 3. - P. 255-259.

57. Read, R. The graph isomorphism disease / R. Read, D. Corneil // Journal of Graph Theory. 1977. Vol. 1, № 4. -P. 339-363.

58. Levi, G. A note on the derivation of maximal common subgraphs of two directed or undirected graphs / G. Levi // Calcolo. 1973. - Vol. 9, № 4. - P. 341-352.

59. Conte, D. Thirty years of graph matching in pattern recognition / D. Conte, A. Foggia, C. Sansone, M. Vento // International journal of pattern recognition and artificial intelligence. 2004. - Vol. 18, № 3. - P. 265-298.

60. McGregor, J. Backtrack search algorithm and the maximal common subgraph problem / J. McGregor // Software: practice and experience. — 1982. Vol. 12, №1.-p. 23-34.

61. Yatskiv, I. The methods of cluster analysis results validation / I. Yatskiv, L. Gusarova // Transport and telecommunication journal. 2005. - Vol. 6, № 1. — P. 75-80.

62. Советов, Б. Я. Моделирование систем: Учебник для вузов / Б. Я. Советов, С. А. Яковлев. М. : Высшая школа, 2001. - 343 с.

63. Колесов, Ю.Б. Моделирование систем. Динамические и гибридные системы / Ю. Б. Колесов, Ю. Б. Сениченков. СПб. : БХВ-Петербург, 2006. - 224 с.

64. Павловский, Ю. Н. Имитационное моделирование / Ю. Н. Павловский, Н. В. Белотелов, Ю. И. Бродский. М. : Академия, 2008. - 240 с.

65. Колесов, Ю. Б. Моделирование систем. Практикум по компьютерному моделированию / Ю. Б. Колесов, Ю. Б. Сениченков. СПб. : БХВ-Петербург, 2007. - 352 с.

66. Соколов, С. Н. Моделирование поведения пользователей Интернет-ресурсов на основе смеси цепей Маркова / С. Н. Соколов // Естественные и технические науки. 2009. - №5. - С. 302-305.

67. Ревюз, Д. Цепи Маркова / Д. Ревюз. М. : РФФИ, 1997. - 432 с.

68. JIoy, А. Имитационное моделирование / A. Jloy, В. Кельтон. Спб. : Питер, 2004. - 848 с.

69. Thelwall, М. Link analysis: an information science approach / M. Thelwall. — New York : Academic Press, 2004. 282 p.

70. Cadez, I. Model-based clustering and visualization of navigation patterns on web site / I. Cadez et al. // Data mining and knowledge discovery. 2003. -Vol. 7, №4.-P. 399-424.

71. Кулаичев, А. П. Методы и средства комплексного анализа данных / А. П. Кулаичев. М. : Инфра-М, 2006. - 512 с.

72. Xie, L. A validity measure for fuzzy clustering / L. Xie, G. Beni // IEEE transactions on pattern analysis and machine intelligence. — 1991. Vol. 13, № 8.-P. 841-847.

73. Dunn, J. Well separated clusters and optimal fuzzy partitions / J. Dunn // Journal of Cybernetics. 1974. - Vol. 4. - P. 95-104.

74. Davies, D. A cluster separation measure / D. Davies, D. Bouldin // IEEE transactions on pattern analysis and machine intelligence. 1979. - Vol. 1, № 4.-P. 224-227.

75. Пугачев, В. С. Теория вероятностей и математическая статистика / В. С. Пугачев. М. : ФИЗМАТЛИТ, 2003. - 432 с.

76. Боровков, А. А. Математическая статистика / А. А. Боровков. — М. : ФИЗМАТЛИТ, 2007. 704 с.

77. Li, J. Combining usage, content and structure data to improve web site recommendation / J. Li, O. Zaiane // Lecture notes in computer science: e-commerce and web technologies. 2004. - Vol. 3182/2004. - P. 305-315.

78. Taghipour, N. Using Q-learning for web recommendations from web usage data / N. Taghipour, S. Ghidary, A. Kardan // 12th International CSI Computer Conference. Tehran, 2007. - P. 2392-2395.

79. Li, J. Using Distinctive Information Channels for a Mission-based Web Recommender System / J. Li, O. Zaiane // In proceeding of 6th web knowledge discovery workshop. Seattle, 2004. - P. 22-25.

80. Пономарев, И. А. Разработка моделей и алгоритмов для многокритериальной оценки качества графического пользовательского интерфейса: дис. канд. техн. наук : 05.13.01 -М., 2006. — 185 с.

81. Трояновский, В. М. Проектирование информационных систем: курс лекций / В. М. Трояновский. М.: МИЭТ, 2002. - 108 с.

82. Pugh, К. Interface oriented design: with patterns / К. Pugh. Lewisville : Pragmatic Bookshelf, 2006. - 240 p.

83. Макконнелл, С. Совершенный код / С. Макконнелл. М. : Русская редакция, 2008. - 896 с.

84. Golding, Т. Professional .NET 2.0 Generics / Т. Golding. Indianapolis : Wrox Press Ltd., 2005. - 408 p.

85. Мейер, Б. Объектно-ориентированное конструирование программных систем / Б. Мейер. М. : Русская редакция, 2005. — 1232 с.

86. Фаулер, М. Архитектура корпоративных приложений / М. Фаулер. М. : Вильяме, 2004. - 544 с.

87. Hambrick, G. Persistence in the Enterprise: a guide to persistence technologies / G. Hambrick, K. Brown, R. Barcia. — New York : IBM Press, 2008. 464 p.

88. Нильссон, Д. Применение DDD и шаблонов проектирования. Проблемно-ориентированное проектирование приложений с примерами на С# и .NET / Д. Нильссон. М. : Вильяме, 2008. - 560 с.

89. Safonov, V. Using aspect-oriented programming for trustworthy software development / V. Safonov. New Jersey : Wiley-Interscience, 2008. - 338 p.

90. Lanza, M. Object-oriented metrics in practice: using software metrics to characterize, evaluate and improve the design of Object-oriented systems / M. Lanza, R. Marinescu. Warren : Springer, 2006. - 206 p.

91. Martin, R. Clean code: a handbook of agile software craftsmanship / R. Martin. New Jersey : Prentice Hall PTR, 2008. - 464 p.