автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет

кандидата технических наук
Силич, Василий Викторович
город
Томск
год
2008
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет»

Автореферат диссертации по теме "Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет"

На правах рукописи

Силич Василий Викторович

АЛГОРИТМИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ РЕГИОНАЛЬНОЙ СИСТЕМЫ КОНТЕКСТНОЙ РЕКЛАМЫ В СРЕДЕ ИНТЕРНЕТ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Томск-2008 ^^ ДО"

003456330

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники (ТУ СУР)

Научный руководитель: доктор технических наук, профессор

Ехлаков Юрий Поликарпович

Официальные оппоненты:

доктор технических наук, профессор Цапко Геннадий Павлович

доктор технических наук, профессор Тарасенко Владимир Феликсович

Ведущая организация:

Иркутский государственный технический университет, г. Иркутск.

Защита состоится «24» декабря 2008 г. в 14.30 на заседании совета по защите докторских и кандидатских диссертаций Д 212.269.06 при Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84.

С диссертацией можно ознакомиться в библиотеке Томского политехнического университета

Автореферат разослан « » ноября 2008 г.

Ученый секретарь совета по защите докторских и кандидатских диссертаций к.т.н., доцент

М.А. Сонькин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Системы контекстной рекламы (СКР) в настоящее время широко используются как в зарубежном, так и в российском сегментах Интернета. Свою популярность они заработали за счёт того, что позволяют эффективно продвигать рекламодателю сайты в Интернете даже при сравнительно небольшом бюджете. При этом рекламодатель получает гарантированное количество целевых посетителей на свой сайт, а владельцы сайтов и поисковых систем, на которых размещены рекламные объявления - стабильный доход. Для пользователя СКР является источником дополнительной информации, соответствующей контексту просматриваемой им страницы.

Системы контекстной рекламы, как правило, создаются при поисковых системах ввиду их широкой аудитории, наличию явно сформулированного интереса пользователя, выраженного в поисковом запросе, высокому уровню доверия к поисковым системам. При этом СКР интегрируются не только с крупными Интернет-порталами, но и с региональными поисковыми системами (РПС), причем рекламодатели в большинстве случаев заинтересованы именно в последних, т.к. их целевой аудиторией являются преимущественно региональные посетители. Пользователи, в свою очередь, также все больше предпочитают РПС по той причине, что они позволяют искать информацию, актуальную именно для данного региона. В пользу ограничения поиска только региональными ресурсами выступает и наличие в ряде регионов бесплатного доступа к ним. Таким образом, создание системы контекстной рекламы, интегрированной с региональной поисковой системой, является актуальной задачей.

При организации систем контекстной рекламы разработчики используют методы, относящиеся к таким областям, как информационный поиск (Information Retrieval), машинное обучение (Machine Learning), интеллектуальный анализ текстов (Text Mining) и извлечение знаний из Internet (Web mining). Основными задачами при проектировании СКР являются: выбор рекламных объявлений, соответствующих контексту действий пользователя; выделение ключевых фраз из текстов страниц; рекомендация и сравнение ключевых фраз. При решении этих задач, как правило, применяются подходы, основанные на различных обучающих (Murdock V., Zhang W. и др.) и классификационных (Broder A., Josi-fovski V., Anagnostopoulos А. и др.) алгоритмах. Помимо этого широко распространены методы байесовской сети (Ribeiro-Neto В., Cristo M., GolgherP. и др.), генетического программирования (Lacerda A., Cristo M., Ribeiro-Neto В. и др.), а также метод анализа текстов TF-IDF (Baeza-Yates R., Ribeiro-Neto В., Yih W., Goodman J. и др.). Необходимо отметить, что отечественных разработок, посвященных организации СКР, крайне мало, однако ведутся исследования в смежных областях, таких как информационный поиск и компьютерная лингвистика. Наиболее авторитетными источниками информации в данных областях являются материалы международных конференций ДИАЛОГ и РОМИП.

Использование существующих методов применительно к развивающимся региональным СКР зачастую вызывает трудности. Дело в том, что большинство подходов основывается на различных видах статистического анализа и машин-

ного обучения. При этом необходимо предварительно обучить модель на некотором объёме исходных данных. Такие обучающие выборки отсутствуют как таковые в открытом доступе, поэтому эти данные необходимо накапливать в самой системе контекстной рекламы или поисковой системе. А поскольку на этапе разработки и в первое время существования СКР статистических данных в необходимых объёмах просто нет, то соответственно эффективность применения упомянутых методов крайне мала.

Ряд методов основан на принципах полного перебора: каждое объявление сравнивается с содержанием страницы или поисковым запросом. Учитывая, что количество объявлений может достигать тысяч, а запросов и текстов страниц -сотен тысяч, использование подобных методов в режиме реального времени невозможно из-за высоких требований к вычислительным мощностям.

Одним из наиболее важных является вопрос о том, какие факторы и с какой степенью должны учитываться при выборе и ранжировании объявлений. Подавляющее большинство систем контекстной рекламы при выборе руководствуется, прежде всего, стоимостью объявлений, стремясь показать наиболее дорогие объявления. При этом такие факторы, как интересы пользователя или, например, степень соответствия ключевых фраз объявления контексту страницы играют второстепенную роль либо не учитываются вовсе. В условиях большого количества пользователей и рекламных объявлений такой подход вполне оправдан, однако он оказывается не эффективным для развивающихся региональных СКР, конкуренция рекламодателей в которых мала, а количество пользователей невелико. Дело в том, что прибыль зависит не только от ставки за переход по объявлению, но и от количества переходов, а значит, от релевантности показываемых объявлений. Таким образом, более перспективным для региональной СКР представляется подход, ориентированный на выбор рекламных объявлений, наиболее релевантных интересам пользователей. При этом предлагается учитывать множество различных факторов, характеризующих как интересы пользователей и контекст страницы, так и само объявление. Вопросы одновременного использования в рамках систем контекстной рекламы нескольких факторов, влияющих на ранжирование объявлений, недостаточно проработаны в научных исследованиях.

Ввиду отсутствия точных количественных оценок релевантности1 рекламных объявлений представляется целесообразным при их выборе и ранжировании использовать аппарат нечетких множеств. При этом определение степени релевантности объявлений как по отдельным факторам, так и по их совокупности не должно опираться на методы обработки больших объемов статистических данных и машинного обучения, а также на методы полного перебора.

Цель работы. Разработка алгоритмов и программных средств организации системы контекстной рекламы, интегрированной с региональной поисковой системой, обеспечивающих высокую релевантность рекламных объявлений информационным потребностям пользователя.

1 Релевантность - субъективное понятие, под которым а системах текстового поиска понимается соответствие ответов системы информационным потребностям пользователя. Концептуально степень релевантности можно измерять вещественным числом от 0 до 1. Используется также термин «пертинентность».

Задачи для достижении поставленной цели

1. Анализ и сравнение существующих систем контекстной рекламы, а также методов их организации.

2. Разработка алгоритмов, не использующих большой объём накопленных данных, для выбора релевантных объявлений по отдельным факторам (поисковому запросу; тегам, характеризующим страницу; навигационной истории и истории поисковых запросов пользователя; качеству и эффективности объявлений) и по совокупности факторов, а также алгоритма выделения тегов из текста страницы.

3. Проведение экспериментальных исследований разработанных алгоритмов.

4. Создание программного комплекса, реализующего разработанные алгоритмы, включающего СКР и региональную поисковую систему.

Методы исследования. В ходе диссертационного исследования были использованы модели и методы теории нечетких множеств, статистического и морфологического анализа, а также методы, относящиеся к областям знаний Information Retrieval, Text Mining и Web Mining. При реализации программного комплекса был применён ряд методов объектно-ориентированного проектирования и программирования.

Научная новизна

1. Впервые предложен алгоритм выбора рекламных объявлений, основанный на формировании нечеткого множества релевантных объявлений по множеству факторов, характеризующих как сами рекламные объявления и контекст страницы, так и личные предпочтения пользователей.

2. Разработан новый алгоритм выбора рекламных объявлений в соответствии с поисковым запросом пользователя, позволяющий учитывать как степень совпадения, так и порядок слов запроса и ключевой фразы объявления с использованием коэффициента Джаккарда и наибольшей общей подпоследовательности фраз.

3. Предложен новый алгоритм выбора рекламных объявлений по тегам текущей страницы, учитывающий релевантность тегов по отношению к тексту страницы и степень их совпадения с ключевыми фразами объявлений. Для выделения тегов из текстов страниц и определения их релевантности разработан алгоритм, модифицирующий метод «ко-появлений» для выделения термов.

4. Разработаны новые алгоритмы выбора рекламных объявлений в соответствии с поисковой и навигационной историями пользователя. Первый учитывает не только степень релевантности ключевых фраз объявления наиболее популярным поисковым запросам пользователя, но и частоту встречаемости запросов в истории, второй - частоту встречаемости категорий, к- которым принадлежит сайт объявления, в истории посещенных пользователем сайтов.

5. Предложены новые алгоритмы выбора объявлений в соответствии с их эффективностью и качеством. Первый, основанный на расчете показателя CTR (Click-Through Rate), отличается тем, что учитывает лишь «гарантированные»

просмотры объявления пользователями. Второй, основанный на расчете показателя качества объявления, учитывает не только количество значимых слов объявления, находящихся в тексте целевой страницы, но и их наличие в различных Ьйп1-тегах.

Основные положения, выносимые на защиту

1. Разработанные алгоритмы выбора релевантных рекламных объявлений, позволяющие учитывать контекст страницы, характеризуемый текущим поисковым запросом или тегами страницы, прошлые интересы пользователя, характеризуемые поисковой и навигационной историями пользователя, а также характеристики объявлений.

2. Результаты экспериментов, показавшие превосходство разработанных алгоритмов по сравнению с аналогами, а также высокую степень соответствия результатов их работы оценкам экспертов.

3. Созданная система «Поисколог», реализующая предложенные алгоритмы, позволяющая пользователям осуществлять различные виды поиска по региональным ресурсам и получать в качестве дополнительной релевантной информации рекламные объявления, а рекламодателям - создавать и настраивать объявления.

Степень достоверности результатов работы. Достоверность результатов работы обеспечивается корректным применением методов рассматриваемой предметной области и теории нечетких множеств, согласованностью сформулированных выводов с результатами экспериментов. Кроме того, достоверность подтверждается внедрением разработанных алгоритмов в рамках системы контекстной рекламы, интегрированной с региональной поисковой системой.

Теоретическая значимость работы. Предложенные автором алгоритмы, базирующиеся на аппарате нечетких множеств, развивают существующие подходы к организации систем контекстной рекламы в направлении обеспечения высокого уровня релевантности объявлений информационным потребностям пользователей. Разработанные алгоритмы выделения тегов, сравнения запросов и ключевых фраз, сопоставления текстов объявлений и целевых страниц вносят вклад в развитие методов информационного поиска и анализа текста.

Реализация результатов работы. Разработанные алгоритмы использованы при создании СКР в рамках интегрированной системы «Поисколог» (свидетельство о регистрации в "Отраслевом фонде алгоритмов и программ" №10058 от 21.02.2008г. Номер госрегистрации №50200800460 от 28.02.2008 г.).

Практическая значимость работы. Разработанная в рамках диссертационной работы интегрированная поисковая система «Поисколог» используется для поиска информации в томском сегменте Интернета. С помощью данной системы возможен поиск как текстовой, так и мультимедиа-информации. Использование технологии разделения поиска на отдельные вертикали позволяет пользователям производить поиск необходимой информации лишь в интере-

сующей их области, не просматривая множество нерелевантных результатов других тематик.

Разработанная СКР, интегрированная с поисковой системой, позволяет рекламодателям продвигать свои сайты посредством показа объявлений в результатах поиска и на информационных страницах ПС. При этом рекламные объявления, показываемые пользователю, максимально соответствуют контексту страницы и его личным предпочтениям. Кроме того, созданная технология даёт возможность использовать СКР в отрыве от поисковой системы для показа рекламных объявлений на сторонних сайтах.

Практическая ценность работы подтверждается актами внедрения в ряде коммерческих фирм г. Томска.

Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно.

Апробация работы. Основные результаты диссертационной работы докладывались на следующих конференциях: всероссийской конференции студентов, аспирантов и молодых ученых «Энергия молодых - экономике России» (Томск, 2003); всероссийских научно-технических конференциях аспирантов и молодых ученых «Научная сессия ТУСУР» (Томск, 2004, 2005, 2006, 2007); всероссийских научно-технических конференциях студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2004, 2006, 2007); международных научно-практических конференциях «Средства и системы автоматизации» (Томск, 2004, 2007); международной научно-практической конференции «Современные техника и технологии» (Томск, 2006).

Публикации. По теме диссертационной работы опубликовано 15 научных работ, в том числе 4 статьи (все в изданиях, рекомендованных ВАК для опубликования результатов диссертаций). Список публикаций приведен в конце автореферата.

Структура и объем работы. Диссертационная работа включает: введение, четыре главы, заключение, список литературы из 198 наименований, 7 приложений. Общий объем диссертации составляет 244 страницы машинописного текста. Работа содержит 40 рисунков, 18 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, приводятся цель, основные положения, выносимые на защиту, задачи и методы исследования, формулируется научная новизна, теоретическая и практическая значимость полученных результатов, приводятся результаты внедрения, а также сведения о публикациях, апробации работы, объеме и структуре диссертации.

Первая глава посвящена сравнению контекстной рекламы с другими видами продвижения, а также обзору современных СКР и методов их организации.

В настоящее время системы контекстной рекламы являются одним из наиболее эффективных средств продвижения сайта в Интернете на всех стадиях его существования. Этот единственный способ, который, в отличие от других видов рекламы, может дать сайту в сжатые сроки гарантированную и при этом целевую аудиторию. Именно по этой причине контекстная реклама уверенно лидирует среди баннерной, e-mail и прочих видов рекламы.

Проведенный анализ как мирового, так и российского рынка контекстной рекламы показал, что, несмотря на ее высокую удельную долю в общем объёме Интернет-рекламы, в данном сегменте существует всего лишь несколько крупных игроков, занимающих более 95% рынка. Лидирующие позиции занимают компании, имеющие в распоряжении крупные поисковые системы и предоставляющие наиболее инновационные на сегодняшний момент достижения в области функциональности и интерфейса системы.

На основе анализа лидирующих СКР был сформирован набор ключевых факторов, используемых ими для подбора объявлений. Большинство систем в качестве основного используют фактор стоимости перехода по объявлению (ставку), а также широко используется значение CTR объявления. Факторы, основанные на качестве целевой страницы и объявления, имеют совсем небольшой вес при вычислении релевантности объявлений и используются, как правило, лишь для новых объявлений, CTR которых ещё не определен или нестабилен. При выборе по фактору соответствия ключевых фраз объявления поисковому запросу никак не учитывается количество совпавших слов, их порядок и словоформы. При вычислении качества целевой страницы не учитывается различная важность слов, которая зависит от их нахождения в заголовке или тексте объявления и от их местоположения в различных html-тегах целевой страницы. Также недостаточное распространение имеют поведенческие технологии, особенно учитывающие историю посещенных пользователем сайтов.

Был проведен обзор методов, используемых для решения таких задач, как максимизация прибыли СКР, выбор релевантных объявлений, организация тар-гетинга, выделение и рекомендация ключевых слов и др. Анализ методов показывает, что наибольшее внимание исследователей уделяется, как правило, вопросам максимизации прибыли системы при сохранении должного уровня релевантности рекламных объявлений. Большая часть используемых методов основывается на принципах машинного обучения или статистической обработки больших объёмов накопленной информации.

Во второй главе предлагается новый подход к организации системы контекстной рекламы, интегрированной с РПС, включающий ряд новых алгоритмов.

Региональная поисковая система представляет собой набор поисковых модулей, каждый из которых осуществляет поиск в определенных источниках или по определённому типу информации. В качестве региона, сайты которого будут донорами информации, в данной работе рассматривается Томск и Томская область. Основными модулями поиска являются (рис. 1): «Мета-поиск по Web», «Поиск по новостям», «Поиск по каталогу сайтов», а также модули поиска по различным видам мультимедиа-информации.

Рис. 1. Общая схема интегрированной РПС

Использование СКР при поисковой системе позволяет не только обеспечить пользователя контекстной информацией, но и быть успешным маркетинговым инструментом для рекламодателей и владельцев ПС. Кроме того, интеграция СКР и ПС позволяет максимально увеличить эффективность обеих систем, а также предоставить поиск по рекламным объявлениям. Для использования поведенческих технологий в составе интегрированной РПС необходим также модуль анализа поведения пользователя, который сохраняет данные обо всех действиях пользователя в его виртуальном профиле. Координирует работу всей интегрированной системы фреймворк (каркас программной системы), управляющий всеми запросами к системе и выводом информации пользователю.

Для выбора рекламных объявлений, показываемых в СКР, разработан алгоритм выбора объявлений по множеству факторов.

Обозначим исходное множество рекламных объявлений системы через О = {о, }. Каждое объявление характеризуется рядом параметров:

о, =< A(ol),F(ol),R(o1),K(oí)>, где A(o¡) - множество видимых параметров, включающее заголовок объявления ah(o¡), его текст at(o¡), ссылку (url-адрес) al(o¡), видимый url-адрес av(o¡)\ F(o,) -множество параметров фокусировки, таких как ключевые фразы {Д/о;)}, стоп-слова {w5m(Oj)}, категории объявления {сап(о,)}; R(o¡) - множество параметров, задающих ограничения на показ объявления, в том числе rp{o¡) — стоимость объявления, rd{o¡) - дата окончания показа объявления, rg(o¡), rt(o¡), rv(o,) - параметры, соответствующие ограничениям географического, временного и частотного таргетинга; K(o¡) — множество параметров, включающее показатель эффективности объявления eCTR(o¡) и показатель качества объявления aq(o¡).

Искомое множество Ор релевантных рекламных объявлений можно определить как нечеткое:

Ор = {<о,ц0р(о)>).

Из этого множества необходимо выбрать некоторое количество «наиболее релевантных» объявлений Оп, которые и будут показаны пользователю. Для этого определим Оп как подмножество множества Ор а-уровня:

Оп с Ора аОрсО,

где Орв ={оеО|^0(,(о)>а} (ае(0,1] выбирается в соответствии с опытными данными). При этом мощность множества Оп не может быть больше максимального количества одновременно показываемых на странице объявлений Ывь (| Оп |< ИоЬ, МоЬ е [7,10]), что объясняется удобством интерфейса пользователя.

Выбор объявления может происходить в соответствии с интересами пользователя, либо в соответствии с качеством и эффективностью самого объявления. При этом помимо текущих интересов пользователя могут также учитываться интересы, которые были у пользователя в прошлом. Текущие интересы пользователя определяются или по соответствию запроса ключевым фразам объявления (при наличии поискового запроса) или по соответствию тематики текущей страницы тематике объявления. Прошлые интересы пользователя определяются в соответствии с историей поисковых запросов или историей посещенных сайтов. Таким образом, можно выделить следующие факторы, влияющие на выбор объявления: = <текущий запроО; gг = <текущая тематика>; gз = <история запросов>; g^ = <история тематик>; gs = эффективность объявления^ g6 = <качество объявлениям

По каждому фактору gь к = 1,т определяется степень соответствия объявлений множеству Ор, т.е. формируется свое нечеткое множество релевантных объявлений Ogk с функцией принадлежности (о). Принадлежность множеству релевантных объявлений по всем факторам будем определять по формуле выпуклой комбинации нечетких множеств:

т т

мор(°) = 5>* • (°). 2Х = 1 >

*=1 к=1

где ч/к - вес к-го фактора.

Выбор факторов, по которым будет осуществляться подбор объявлений, зависит от текущей ситуации, а именно от того, с каким модулем системы в настоящий момент взаимодействует пользователь и от выполняемых им действий (поиск или просмотр информации). При этом ввиду того, что модули поиска «Поиск фото», «Поиск шрЗ», «Поиск видео» очень схожи, их можно условно объединить под одним названием — «Поиск по мультимедиа». Учитывая, что при взаимодействии с некоторыми модулями пользователь может осуществлять только поиск, можно выделить следующие ситуации: 51 = <Мета-поиск/поиск>, ¿7 = <Каталог сайтов/поиск>, = <Каталог сайтов/просмотр>, л4 = <Новости/ поиск>, $5 = <Новости/просмотр>, = <Мультимедиа/поиск>, з? = <Объявления/поиск>. Состав и важность используемых факторов выбора объявлений для различных ситуаций будут различными. Так, например, в ситуациях ^ и используются множества факторов = С2 == СА = g}, g¡, £б} с соответствующими векторами весов ИГ1 = Ж2 = Щ = {0.7, 0.12, 0.08, 0.04, 0.06}. Веса для каждого из факторов определялись экспериментально на основе метода последовательного сравнения Черчмена-Акоффа.

Факторы выбора объявлений можно разделить на два класса - основные (С"), характеризующие интересы пользователя gг, g■i, £4), и дополнительные (С^О. характеризующие само объявление g6). Дополнительные факторы

играют вспомогательную роль, их целесообразно использовать для выбора не из всего исходного множества объявлений, а для дополнительного отбора из множества объявлений, выбранных с помощью основных факторов. Это позволяет существенно сократить время и вычислительные затраты.

При выборе объявлений для показа необходимо также учитывать ограничения, в соответствии с которыми те или иные объявления могут быть запрещены к показу. Ограничения могут определяться самими рекламодателями либо в целях оптимизации проводимой рекламной кампании (ограничения на общий бюджет и длительность кампании), либо для оптимальной настройки показов объявлений с помощью механизмов таргетинга.

Таким образом, алгоритм в обобщенном виде выглядит следующим образом. Сначала для каждого из основных факторов, соответствующих текущей ситуации, формируются нечеткие множества объявлений с учетом ограничений. Затем из множества выбранных объявлений аналогичным образом формируются нечеткие множества по дополнительным факторам. Далее строится нечеткое множество по всем факторам с учётом их весов, из которого затем выбираются объявления с наибольшими значениями функции принадлежности.

Рассмотрим алгоритмы, осуществляющие формирование нечетких множеств по отдельным факторам.

Алгоритм выбора объявлений по поисковому запросу позволяет определить для каждого объявления значение (о) функции принадлежности множеству релевантных рекламных объявлений по фактору g¡ «текущий запрос>. Исходной информацией является:

1. Поисковый запрос пользователя /г, представляющий собой последовательность слов запроса:/г = <п'2и »гй>.

2. Совокупность ключевых фраз {/&,} объявления, = <юку, ^ку, ..., ъ1к,Л]>. Для каждой фразы рекламодатель задает один из следующих типов ее соответствия поисковому запросу: точное соответствие — фраза должна совпадать с запросом (/к) = /г); точное морфологическое соответствие — множество слов фразы в базовой форме должно совпадать с множеством слов запроса в базовой форме рг'}); фразовое соответствие - все слова из базовой формы фразы должны содержаться в базовой форме запроса {м'г'}); широкое соответствие - хотя бы одно из слов базовой формы фразы должно содержаться в базовой форме запроса ( {н}п {и^*} ^ 0 ).

3. Совокупность стоп-слов {ш^}, заданных для объявления.

Принадлежность объявления о множеству определяется по всем ключевым фразам. Обозначим функцию принадлежности объявления данному множеству, определяемую по ключевой фразе Д,, как Значение

данной функции, характеризующее степень сходства запроса и ключевой фразы, будем определять на основе вычисления «наибольшей общей подпоследовательности» слов и коэффициента Джаккарда, что позволит учитывать порядок слов в запросе и степень совпадения его слов со словами ключевой фразы и, таким образом, более точно определять степень релевантности объявлений:

(о, ДЛ = (-——-+1 - К) ■ МС(г,к),

[1, если 6 {и'/'} О, иначе

где Иг - количество слов в запросеД; ЬС8(/гь, Д у) - наибольшая общая подпоследовательность слов в базовых формах запросаДь и ключевой фразы Дь/, К ~ коэффициент, определяющий вес параметра ЬСБ в формуле и равный 0.02; МС{г, к) - коэффициент Джаккарда, рассчитанный для векторов запроса и ключевой фразы. Векторы соответствия слов запроса и слов ключевой фразы словам из векторного пространства {к,рт}={м2,}и{\мку} предлагается рассчитывать по формулам:

1, если Эи>кп) 1= и>рт , м>к^ е } 0.9, если 3м>кп) | и<к"щ = \мрш , ъ'кьщ е {и'г, } 0.5, если м>рт 6 {и^} 0, иначе

Функция принадлежности объявления по всем ключевым фразам определяется с помощью операции шах: рп,м (о ) = шах (о, Д;).

Обобщенно алгоритм выглядит следующим образом. Выбираются объявления, ключевые фразы которых содержат слова запроса, и происходит проверка на отсутствие стоп-слов объявления в поисковом запросе. Далее для каждой ключевой фразы объявления производится проверка на выполнение условий, соответствующих её типу, и рассчитывается значение функции принадлежности объявления по данной ключевой фразе. После этого рассчитывается значение функции принадлежности по всем ключевым фразам.

Алгоритм выбора объявлений по тегам страницы позволяет определить для каждого объявления значение (о) функции принадлежности множеству релевантных рекламных объявлений по фактору g2 <текущая тематика>. В целях снижения вычислительных затрат для выбора объявлений в соответствии с содержанием страницы предлагается использовать не весь её текст, а только теги — ключевые слова, характеризующие содержание текста.

Исходной информацией является:

1. Множество тегов {/4}, характеризующих текущую страницу,/г* =

..., и'/адк>. Каждому тегу сопоставляется вес V, отражающий важность тега.

2. Совокупность ключевых фраз {/&,} объявления.

3. Совокупность стоп-слов {шт}, принадлежащих объявлению.

Принадлежность объявления о множеству Og2 определяется по всем ключевым фразам объявления и по всем тегам страницы. Обозначим функцию принадлежности объявления данному множеству, определяемую по ключевой фразе Д, и по тегу Д какД,). Значение данной функции, характеризующее степень соответствия тега страницы ключевой фразе объявления, будем определять на основе количества совпавших слов и веса тега, что даст возможность учесть не только степень совпадения тега и фразы, но и важность данного тега по отношению к тексту страницы и, в конечном счете, повысить адекватность расчета релевантности объявлений:

Ntk

Mog,(o,ftt,ßcJ) = v(ßl)-

где v(ftk) - предварительно рассчитанный относительный вес к-го тега для данной страницы, Ntktj- количество найденных слов wta тега ftk в ключевой фразе fkh/, Ж;-количество слов в ключевой фразе fkj.

Функция принадлежности объявления по всем ключевым фразам и по всем тегам определяется с помощью операции максимума:

ß0gt (°) = m?x mfx MoSl (°> Л > Л ) •

Таким образом, для каждого тега выбираются объявления, ключевые фразы которых содержат слова тега, и происходит проверка на отсутствие стоп-слов в теге. Для каждой ключевой фразы объявления производится проверка на выполнение условий, соответствующих её типу, и рассчитывается значение функции принадлежности по данной ключевой фразе и тегу. Затем определяется значение функции принадлежности по всем ключевым фразам. Процедура выполняется для всех тегов, после чего рассчитывается значение функции принадлежности по всем тегам.

Алгоритм выделения тегов из текста страницы предназначен для выбора тегов, характеризующих содержание текущей страницы, и определения их весов на основе анализа только одного текста.

Исходной информацией является заголовок NH и текст NT страницы.

Используется модифицированный метод «ко-появлений». В соответствии с ним из множества предложений заголовка страницы NH и множества предложений текста страницы NT выделяются одно-, двух- и трехсложных термы, преобразованные к базовой форме: Р = {рт} = P'uf (i>*, Р* — множества термов, выделенных из заголовка и текста страницы). При этом в словосочетания, составляющие термы, попадают только слова, идущие подряд в предложении и относящиеся к «значимым» частям речи (исключая предлоги, союзы и т.д.). Для каждого терма рт определяется количество fq(pm) его появлений в предложениях из множеств NH и NT. Затем формируется подмножество, так называемых, «частотных» термов FR = {р*}, включающее термы, у которых количество появлений превышает единицу (FR = {рп | fq(p„)> 1}), а также его подмножество G = {pD «часто встречающихся термов» с наибольшими значениями частоты (|G|< 0.3-1/^1). Для каждого pfi рассчитывается величинапо формуле:

p'cG nps{pfi ) ■ nps(pg) / npt

где fqf(pfi,ps) - частота совместного появления термов рр и ps в одном предложении, npsip^) - количество термов в предложениях, в которых появляется терм р*, nps{ps) - количество термов в предложениях, в которых появляется терм ps, npt — общее количество термов в тексте. Для того чтобы больший вес получали составные термы, рассчитывается величина х'2(р/г) '■

р1 сО

Автором предлагается модификация данного алгоритма к задаче выделения тегов для СКР. Для этого, прежде всего, предлагается использовать для слов заголовка повышающий коэффициент к(р^г), т.к. эти слова должны иметь больший вес при выделении тегов:

[1,5, если р* еР4 [1, если рА 6 Р' ' Затем предлагается исключить из рассмотрения избыточные термы, входящие в состав более сложных термов, которые имеют меньшее значение %'кг '•

хЖ)

= ] 0, если такой, что р* с и х'кЧр?) ^ Х'н(рШ) Х'Ъ (РС), иначе

Определение весов термов на основе полученных значений х'у предлагается осуществлять путем их нормализации. В качестве нормирующего коэффициента выбирается максимальное значениеХуж - однако в случаях, когда оно существенно превышает ближайшее к нему значение (хЦ(р^)), предлагается занижать этот максимум. Т.е. если Ху^Р?) ^ 1,5 • х'^р?), то х'Ж) = х1г™ =1>5-х1}(Р?)-Вес теРма рассчитывается по формуле:

/ шах

Х/,/т

В искомое множество тегов {/?*} входят лишь термы, вес которых превышает пороговую величину: у(р*) > 0.2.

Так как метод «ко-появлений» не эффективен на малых текстах, то в этом случае предлагается выделять теги на основе метода ТР. Процедура выделения тегов и расчета весов в данном случае аналогична шагам предложенного алгоритма, однако в данном случае используются непосредственно значения частоты термов /д(р„).

Алгоритм выбора объявлений в соответствии с историей запросов пользователя позволяет определить для каждого объявления значение ц0е (о)

функции принадлежности множеству релевантных рекламных объявлений по фактору gз <история запросов>. Исходной информацией является:

1. История запросов пользователя 1г = ...,включающая не только запросы, которые пользователь вводил в системе, но также и запросы, по которым пользователь переходил в систему с других поисковых систем.

2. Совокупность ключевых фраз {%}, характеризующих объявление.

3. Совокупность стоп-слов {ж?,*}, принадлежащих объявлению.

В основу данного алгоритма положен алгоритм выбора объявлений по фактору g\, т.е. по соответствию поискового запроса ключевым фразам объявлений. Фактически алгоритм выбора объявлений по запросу расширяется до случая нескольких поисковых запросов, введенных пользователем ранее.

Из списка запросов /г выделяется список запросов /г', введенных пользователем за последний месяц. Данное ограничение обусловлено тем, что целесообразно учитывать лишь краткосрочные интересы пользователя, т.к. чем свежее эта информация, тем более точными будут предположения об информационных потребностях пользователя. Выделяется множество запросов, встречающихся в списке /г', и для каждого запроса /т* этого множества определяется вес:

шах^(Д)

где <р{/гк) - количество вхождений к-го запроса в список ¡г.

Из множества выделяются запросы с максимальным весом, и для каждого к-го запроса формируется нечеткое множество €>¿1 (аналогично тому, как формируется множество Og\). Обозначим функцию принадлежности объявления данному множеству, определяемую в соответствии с запросом через Мог,(°'/2к)- Тогда функция принадлежности множеству Ogi по всем запросам

будет определяться по формуле: /¿„^ (о) = шах v(_/г^)•/Jí0г,(o,^г,). Это позволяет

дать большее значение функции принадлежности объявлениям, выбранным по запросам, которые чаще встречались в истории запросов пользователя.

Алгоритм выбора объявлений в соответствии с историей посещенных пользователем сайтов позволяет определить для каждого объявления значение ц^ (о) функции принадлежности множеству релевантных рекламных

объявлений по фактору g^ «история тематик>. Исходные данные:

1. Список категорий Са = <саь са2, ..-, са^, к которым принадлежит сайт объявления.

2. Список сайтов > из истории посещенных пользователем сайтов. При этом учитываются не только сайты, на которые пользователь переходил из результатов поиска или рекламных объявлений системы, но также и сайты, с которых он переходил в систему. Каждому и^ соответствует список категорий Сц = <сщ, с/и, с4«Л>, определенных в соответствии с региональным рубрикатором сайтов (Каталогом сайтов), в котором проклассифицированы все сайты, известные системе.

Из списка Ь выделяется список /у' сайтов, посещенных пользователем за последние два месяца, т.к. целесообразно учитывать лишь краткосрочные интересы пользователя, чтобы точнее определять информационные потребности пользователя. Далее строится общий список С/ категорий всех сайтов из истории /У: С/ = Сг, -Сг2 ■...■Схш. Из списка Сг выделим множество категорий С{' и для каждой его категории с1т определим её относительный вес:

тахр(с!„,)

т

где (р(с1т) - количество вхождений категории с/я в список С/.

Из множества С? выделяются категории с максимальным весом, и для каждой _/-й категории формируется нечеткое множество Og^. Обозначим функ-

цию принадлежности объявления данному множеству, определяемую для категории cap через ц0г (о,сау). Ее значение будем определять в соответствии с весом категории, т.е. с тем, насколько часто пользователь интересовался соответствующей тематикой:

Г 0, если Vc/m е СГ caj Ф ciK

Vo^ca,) = если3cL ес.и ^ = ^ ■

Функция принадлежности объявления по всем его категориям будет определяться с помощью операции шах: (о) = шах ц0и(о,са.

Алгоритм выбора объявлений в соответствии с их эффективностью позволяет определить для каждого объявления значение ¡л0^ (о) функции принадлежности множеству релевантных рекламных объявлений по фактору g5 = «эффективность объявлениям Исходными данными являются:

1. Множество АС={аст} всех переходов по объявлению. Каждый переход аст сохранен в системе в виде отдельной записи в базе данных.

2. Множество AV = {avt} всех показов объявления. Здесь av* - количество показов объявления в А-тый день.

Основным показателем эффективности интернет-рекламы является CTR (Click-Through Rate), равный отношению количества переходов пользователей по рекламному объявлению к количеству его показов. Однако значение CTR зачастую не отражает реальную статистику просмотров объявлений, т.к. показ объявления не гарантирует того, что пользователь его увидел. Чтобы более адекватно отразить эффективность объявления, предлагается учитывать лишь, так называемые, гарантированные просмотры объявления пользователем, т.е. только те показы объявления, которые были осуществлены в блоке рекламных объявлений, в котором в последствии был осуществлен переход хотя бы по одному из них. CTR, рассчитанный соответствующим образом, будем называть эффективным CTR и обозначать как eCTR. Также предлагается значение eCTR рассчитывать не за всё время существования объявления, а лишь за последний месяц, чтобы учитывалась лишь текущая актуальная его эффективность.

Таким образом, из множеств АС и AV выделяются подмножества Ad и AV1 соответственно переходов и показов за рассчитываемый срок. При этом в aV включаются только гарантированные показы. Значение eCTR объявления определяется по следующей формуле:

Nc

eCTR{o) = ^, Nv

где Nc = | AC' | - количество всех переходов по объявлению за рассчитываете

мый срок, Nv — avk (avt е AV1) - количество гарантированных просмотров

объявления за рассчитываемый срок. При Nv*= 0 будем считать, что eCTR = 0.

Значение eCTR для любого объявления, как правило, не превышает максимальную отметку в 0,2, поэтому эффективность объявлений с eCTR > 0,2 можно считать максимальной. При малых значениях просмотров объявлений

< 20), значение еСТИ не может адекватно отражать его эффективность, поэтому для оценки эффективности таких объявлений предлагается использовать среднее значение еСПТ^ для объявлений с аналогичными категориями.

Таким образом, значение функции принадлежности будем рассчитывать на основе еСТЛ или еСТ11аУЕ:

шт(1,еСЩо)~),если AV>20 eCTR** (о), ' если Nv < 20

Алгоритм выбора объявлений в соответствии с их качеством позволяет определить для каждого объявления значение //Огб(о) функции принадлежности множеству релевантных рекламных объявлений по фактору g6 = качество объявлениям Исходными данными являются: заголовок ah объявления; текст at объявления; html-текст Ipt целевой страницы объявления.

Формируются множества значимых слов заголовка и текста объявления (в базовой форме) путем удаления всех дубликатов слов и стоп-слов (предлогов, союзов, частиц и т.д.): {wa^}-{\vahbm"}u{wat^}. Аналогично формируется множество значимых слов целевой страницы и его подмножества слов, содержащихся в html-тегах «title», «hl», «h2», «em»/«¡», «strong»/«b»: lp', lph\ lphl, lp'e, IpМножество остальных слов текста обозначим как 1р.

Значение функции принадлежности fi0¡it (о) будем рассчитывать на основе показателя качества объявления AQ{o), отражающего степень соответствия объявления тексту целевой страницы, следующим образом:

Nah Not

5Х Е*,

где Nah - общее количество значимых слов заголовка объявления, Nat - общее количество значимых слов текста объявления, km, k¡ - показатели, характеризующие наличие слов из множеств {v/ahи ¡wat,6"} в различных подмножествах слов целевой страницы. Показатель k¡ равен 1, если i-e слово содержится во множестве 1р", 0.9 - если в lph\ 0.8 — если в lphl, 0.7 - если в 1р'е, 0.6 - если в 1р", 0.5 - если в 1р' и 0 - иначе.

Таким образом, в алгоритме учитывается не только количество слов заголовка и текста объявления, находящихся на целевой странице, но и их наличие в различных html-тегах, что позволяет придать больший вес объявлениям, содержание которых наиболее выразительно представлено на странице.

Третья глава посвящена исследованию эффективности разработанных алгоритмов и прототипа системы в условиях малого количества данных, основываясь лишь на тестовых выборках. Для проведения тестирования был спроектирован и реализован соответствующий программный комплекс, организующий обработку данных, полученных от экспертов, а также реализующий различные стратегии, выдвинутые для сравнения с оцениваемыми алгоритмами.

В ходе тестирования алгоритма выбора рекламных объявлений по поисковому запросу результаты его работы сравнивались с результатами pea-

лизации других алгоритмических стратегий, которые могут использоваться для сопоставления ключевых фраз объявления и поисковых запросов, а также с результатами экспертизы. Стратегии отличались способами учета встречаемости слов, сравнения слов, учёта порядка слов. В ходе проведения экспертизы экспертами были проранжированы и оценены предложенные им ключевые фразы по степени соответствия различным поисковым запросам коммерческих тематик. На той же выборке было проведено ранжирование ключевых фраз с помощью программного комплекса, реализующего выбранные стратегии.

Для оценки результатов использовались метрики DCG («обесцениваемая совокупная выгода»), её нормализованная версия nDCG. Результаты анализа

значений рассчитанных метрик, а также графиков DCG/nDCG для каждой из стратегий (рис. 2) показали, что стратегии, основанные на векторном представлении слов, учёте морфологии и порядка слов в ключевой фразе, дают наилучшие результаты по сравнению с другими. Предпочтительной стратегией на всех уровнях ответов является стратегия, реализованная в Рис. 2. Графики значений nDCG для различных стратегий тестируемом алгоритме.

Аналогично, с использованием метрик DCG/nDCG было проведено тестирование алгоритма выбора объявлений в соответствии с их качеством в сравнении с результатами экспертизы, а также различными стратегиями сопоставления текстов объявлений и их целевых страниц. Наиболее эффективной по результатам тестирования была признана стратегия, реализованная в тестируемом алгоритме, использующая морфологию и учитывающая положение слов в разных частях объявления и html-тегах целевой страницы.

В ходе тестирования работы алгоритма выделения тегов из текста страницы для сравнения был предложен ряд стратегий выделения ключевых фраз, а также результаты ранжирования экспертами предложенных им фраз по степени соответствия их тематике страницы. Были выбраны бинарные метрики на последовательностях (MAP, MRR и Precision) и 11-точечный график полноты/точности. Наиболее эффективной по результатам тестирования была признана стратегия, реализованная в тестируемом алгоритме, основанная на подсчёте статистики совместной встречаемости ключевых фраз, учёте морфологии, выборе слов только определенных частей речи и использовании более высокого приоритета для фраз, выделенных из заголовка.

Основной целью тестирования эффеттвности алгоритма выбора объявлений по множеству факторов было выявление того, как влияет на ре-

nDCG curve

лсвантность выбора объявлений использование тех или иных факторов. Для сравнения были выбраны стратегии, отличающиеся набором учитываемых факторов. Из полученных значений оценок и DCG/nDCG был сделан вывод о том, что использование всех шести рассматриваемых факторов в качестве финальной стратегии в ряде случаев позволяет существенно улучшить результаты.

Также была произведена оценка эффективности выбора объявлений в СКР «Поисколог» в сравнении с другими системами контекстной рекламы. В качестве сравниваемых систем были выбраны две наиболее крупные СКР российского сегмента Интернета - «Яндекс.Директ» и «Бегун». В ходе эксперимента был выбран ряд объявлений, присутствующих одновременно по одному и тому же поисковому запросу в выдаче систем «Яндекс.Директ» и «Бегун». Выбранные объявления были занесены также в систему «Поисколог». Экспертами были проранжированы данные объявления в соответствии с поисковыми запросами, а также с качеством и эффективностью объявлений.

По результатам тестирования можно отметить достаточно высокий уровень значений рассматриваемых метрик DCG/nDCG (рис. 3) для всех оцениваемых систем на первых позициях. А также можно сделать вывод, что разработанная система в данном тестировании показала наилучший результат.

При проведении всех тестирований процессорные затраты и объём выделяемой оперативной памяти для различных стратегий отличались незначительно. Время, затрачиваемое на расчеты, по восходящей увеличивалось для более сложных стратегий, однако также находилось в заданных пределах.

В четвертой главе рассматривается программная реализация разработанных алгоритмов организации системы контекстной рекламы, интегрированной с региональной поисковой системой.

Основным средством реализации системы был выбран язык программирования PHP, который позволил быстро, в сжатые сроки реализовать систему. Кроме того, на выбор данной технологии оказало влияние наличие ряда развитых библиотек для поиска и морфологического анализа.

Основными компонентами разработанной интегрированной системы (ИС) «Поисколог» являются: база данных; поисковая система, содержащая модули вертикального поиска; система контекстной рекламы, включающая модули выбора рекламных объявлений и интерфейс рекламодателя; модуль анализа пове-

nDCG curve

Рис. 3. Графики значений nDCG для различных СКР

дения пользователя. Каркас системы составляет МУС-фреймворк Сос1е^пкег, через который проходят все запросы и вызываются другие компоненты ИС.

Разработанная СКР, основанная на алгоритмах, предложенных в данной работе, предоставляет следующие возможности: с минимальными трудозатратами создавать и настраивать рекламные объявления без предварительной мо-дерации; контролировать общий бюджет и сроки проведения рекламной кампании; использовать различные виды таргетинга с целью фокусировки кампании на целевую аудиторию; отслеживать статистику переходов по объявлениям в режиме реального времени. К достоинствам программной реализации СКР относится гибкость в управлении факторами выбора объявлений, а также возможность в дальнейшем легко расширить алгоритм выбора объявлений по множеству факторов за счёт добавления новых факторов.

В ходе создания поисковой системы были разработаны и программно реализованы алгоритмы: работы мета-поисковых систем (агрегации, фильтрации, ранжирования и кеширования результатов поиска); работы систем поиска по новостям и каталогу сайтов (агрегации, индексации, поиска информации); поиска мультимедиа-ресурсов (агрегации и извлечения информации из Ь(.т1-содержимого). Реализованные алгоритмы позволяют повысить эффективность работы поисковых модулей, увеличив их быстродействие и улучшив качество выдаваемых результатов.

Создание модуля анализа поведения пользователя включало в себя разработку и программную реализацию алгоритма анализа Ьйр-заголовка "геГегег" браузера пользователя, а также алгоритмов сохранения информации о действиях пользователя. Внедрение модуля позволяет анализировать сетевую активность пользователей, фиксируя не только их действия в системе, но и частично - за её пределами. Полученная информация используется СКР для реализации поведенческих технологий при выборе объявлений.

Исследование внедренной системы показывает высокую релевантность выдаваемых пользователям объявлений, выбираемых в соответствии с контекстом просматриваемых страниц. Средний СТЯ объявлений в ходе тестирования системы превысил отметку 6,7%, что доказывает эффективность разработанных алгоритмов даже в условиях отсутствия большого объема накопленной статистики о показах объявлений и истории сетевой активности пользователей.

Основные результаты работы:

1. Разработан ряд новых алгоритмов работы системы контекстной рекламы:

• алгоритм выбора рекламных объявлений по множеству факторов;

• алгоритм выбора объявлений в соответствии с поисковым запросом пользователя;

• алгоритм выбора объявлений по тегам страницы;

• алгоритм выделения тегов из текстов страниц;

• алгоритм выбора объявлений в соответствии с историей запросов пользователя;

• алгоритм выбора объявлений в соответствии с историей посещенных пользователем сайтов;

• алгоритм выбора объявлений в соответствии с их эффективностью;

• алгоритм оценки качества объявления.

2. Проведено тестирование эффективности основных разработанных алгоритмов, показавшее превосходство алгоритмов по сравнению с альтернативными стратегиями и высокую степень соответствия результатов работы предлагаемых алгоритмов оценкам экспертов. Тестирование разработанного прототипа СКР «Поисколог» показало высокую релевантность выдаваемых объявлений в сравнении с другими коммерческими СКР.

3. Разработана интегрированная система «Поисколог», включающая систему контекстной рекламы, поисковую систему и модуль анализа поведения пользователя. ИС реализует предложенные в работе алгоритмы выбора релевантных объявлений, а также ряд поисковых алгоритмов. Система «Поисколог» позволяет пользователям осуществлять различные виды поиска по региональным ресурсам и получать в качестве дополнительной релевантной информации рекламные объявления, а рекламодателям - создавать, настраивать и контролировать рекламные кампании и объявления.

4. Внедрение системы «Поисколог» показало высокую релевантность выдаваемых объявлений даже при отсутствии большого объема накопленной статистики о показах объявлений и длительной истории сетевой активности пользователей. Следовательно, достигается цель диссертационной работы - обеспечить высокую релевантность рекламных объявлений информационным потребностям пользователя.

Таким образом, по результатам выполненных теоретических и экспериментальных исследований разработано алгоритмическое и программное обеспечение системы контекстной рекламы, интегрированной с региональной поисковой системой. Решена задача, имеющая существенное значение для области информационного поиска в среде Интернет.

Публикации по теме диссертации:

1. Силич В.В. Методы организации системы поиска и индексации новостей в сети Интернет и её" взаимодействие с системой контекстной рекламы / В.В. Силич П Вестник компьютерных и информационных технологий. - 2008. -№9. - С. 50-55.

2. Силич В.В. Система автоматизации поиска информации в сети Интернет / В.В. Силич // Приборы. - 2008. - №3. - С. 55-60.

3. Силич В.В. Поисковый Интернет-портал и система контекстной рекламы "Поисколог" / В.В. Силич // Компьютерные учебные программы и инновации - М: ГОСКООРЦЕНТР. - 2008. - №6. - С. 156.

4. Силич В.В. Модель выбора рекламных объявлений веб-сайтов в системе поисковой рекламы / В.В. Силич // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2007. - №2(16). - С. 229-235.

5. Силич В.В. Метод организации системы поисковой рекламы в сети Интернет/ В.В. Силич // Известия Томского политехнического университета. —

2006.- №8. -С. 140-143.

6. Силич В.В. Организация системы поисковой рекламы в сети Интернет на основе нечетких множеств /В.В. Силич // Научная сессия ТУ СУР - 2007: Мат-лы докладов Всерос. науч.-техн. конф. студентов, аспирантов и молодых ученых. - Томск: Изд-во «В-Спектр», 2007. - Ч. I. - С. 332-335.

7. Силич В.В. Технология выборки оптимальных информационных блоков в системе поисковой рекламы в сети Интернет / В.В. Силич // Молодежь и современные информационные технологии: сб. трудов V Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых. - Томск: Изд-во ТПУ,

2007.-С. 260-261.

8. Силич В.В. Использование систем мета-поиска, для нахождения информации в сети Интернет / В.В. Силич // Современные техника и технологии : сб. трудов XII междунар. науч.-практ. конф. студентов, аспирантов и молодых ученых / ТПУ. - Томск, 2006. - Т.2. - С. 159-162.

9. Силич В.В. Развитие технологий поиска в среде Интернет за счет применения метапоисковых машин / В.В. Силич, Ю.П. Ехлаков // Молодежь и современные информационные технологии : сб. трудов 1У-ой Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых / ТПУ. - Томск, 2006.-С. 364-365.

10. Силич В.В. Технологии интерактивного взаимодействия веб-приложений в среде Интернет /В.В. Силич // Научная сессия ТУСУР-2006: Мат-лы докладов Всерос. науч.-техн. конф. аспирантов и молодых ученых. - Томск, 2006. -С. 35-37.

11. Силич В.В. Методы обработки запросов к веб-сайту / В.В. Силич // Научная сессия ТУСУР-2005: Мат-лы Всерос. науч.-техн. конф. аспирантов и молодых специалистов. - Томск, 2005. — С. 189-192.

.12. Силич В.В. Технологии разделения данных и их оформления в \veb-программировании / В.В. Силич // Научная сессия ТУСУР - 2004: Мат-лы Всерос. науч.-техн. конф. - Томск, 2004. - С. 100-103.

13. Силич В.В. Использование единого механизма управления динамическим \уеЬ-сайтом / В.В. Силич, В.Д. Автайкин // Средства и системы автоматизации: мат-лы 5-й науч.-практ. конф. — Томск, 2004. - с.123-124.

14. Силич В.В. Использование шаблонов при создании сайтов в сети Интернет / В.В. Силич, Ю.П. Ехлаков // Молодежь и современные информационные технологии: сб. тр. 1-й Всерос. науч.-практ. конф. - Томск, 2004. - С.164-165.

15. Силич В.В. Электронная торговля в России / В.В. Силич, М.В. Сподобаев И Энергия молодых - экономике России: тез. докл. 4-й Всерос. конф. студентов, аспирантов и молодых ученых. — Томск, 2003. - Т.1. - С. 165-166.

Подписано к печати 18.11.2008. Тираж 100 экз. Кол-во стр. 22. Заказ № 56-08 Бумага офсетная. Формат А-5. Печать RISO. Отпечатано в типографии ООО «РауШ мбх» Лицензия Серия ПД № 12-0092 от 03.05.2001г. 634034, г. Томск, ул. Усова 7, ком. 046 тел. (3822) 56-44-54

Оглавление автор диссертации — кандидата технических наук Силич, Василий Викторович

ВВЕДЕНИЕ.

1. ОРГАНИЗАЦИЯ СИСТЕМ КОНТЕКСТНОЙ РЕКЛАМЫ В СРЕДЕ ИНТЕРНЕТ.

1.1. Механизмы работы систем контекстной рекламы.

1.2. Другие виды рекламы в среде Интернет и их сравнение с контекстной рекламой.

1.3. Существующие системы контекстной рекламы.

1.4. Методы организации систем контекстной рекламы.

Выводы по главе 1.

2. АЛГОРИТМЫ ОРГАНИЗАЦИИ СИСТЕМЫ КОНТЕКСТНОЙ РЕКЛАМЫ, ИНТЕГРИРОВАННОЙ С РЕГИОНАЛЬНОЙ ПОИСКОВОЙ СИСТЕМОЙ.

2.1. Концепция интеграции системы контекстной рекламы и региональной поисковой системы.

2.2. Алгоритм выбора релевантных рекламных объявлений по множеству факторов.

2.3. Алгоритм выбора объявлений по поисковому запросу.

2.4. Алгоритмы выбора объявлений по тегам и выделения тегов.

2.4.1. Алгоритм выбора объявлений по тегам страницы.

2.4.2. Алгоритм выделения тегов из текста страницы.

2.5. Алгоритмы выбора объявлений по поведенческим факторам.

2.5.1. Алгоритм выбора объявлений в соответствии с историей запросов пользователя.

2.5.2. Алгоритм выбора объявлений в соответствии с историей посещенных пользователем сайтов.

2.6. Алгоритмы выбора объявлений в соответствии с их характеристиками.

2.6.1. Алгоритм выбора объявлений в соответствии с их эффективностью.

2.6.2. Алгоритм выбора объявлений в соответствии с их качеством.

Выводы по главе 2.

3. ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ СИСТЕМЫ КОНТЕКСТНОЙ РЕКЛАМЫ.

3.1. Методы оценки систем текстового поиска.

3.2. Выбор видов оценочного тестирования системы контекстной рекламы.

3.3. Оценка эффективности алгоритма выбора объявлений по поисковому запросу.

3.4. Оценка эффективности алгоритма выделения тегов из текста страницы.

3.5. Оценка эффективности алгоритма выбора объявлений в соответствии с их качеством.

3.6. Оценка эффективности алгоритма выбора объявлений по множеству факторов.

3.7. Оценка эффективности выбора объявлений в СКР «Поисколог» в сравнении с другими СКР.

Выводы по главе 3.

4. РЕАЛИЗАЦИЯ СИСТЕМЫ КОНТЕКСТНОЙ РЕКЛАМЫ И РЕГИОНАЛЬНОЙ ПОИСКОВОЙ СИСТЕМЫ.

4.1. Средства реализации.

4.2. Архитектура интегрированной системы.

4.3. Реализация системы контекстной рекламы.

4.4. Реализация поисковой системы.

4.5. Реализация модуля анализа поведения пользователя.

4.6. Внедрение интегрированной РПС «Поисколог».

Выводы по главе 4.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Силич, Василий Викторович

Актуальность темы диссертации

Системы контекстной рекламы (СКР) в настоящее время широко используются как в зарубежном, так и в российском сегментах Интернета. Свою популярность они заработали за счёт того, что позволяют эффективно продвигать рекламодателю сайты в Интернете даже при сравнительно небольшом бюджете. При этом рекламодатель получает гарантированное количество целевых посетителей на свой сайт, а владельцы сайтов и поисковых систем, на которых размещены рекламные объявления — стабильный доход. Для пользователя СКР является источником дополнительной информации, соответствующей контексту просматриваемой им страницы. Таким образом, системы контекстной рекламы в настоящее время являются неотъемлемым инструментом маркетинга в Интернете, будучи полезными как для рекламодателей, так и для владельцев сайтов и их посетителей.

Системы контекстной рекламы, как правило, создаются при поисковых системах ввиду их широкой аудитории, наличию явно сформулированного интереса пользователя, выраженного в поисковом запросе, высокому уровню доверия к поисковым системам. При этом СКР интегрируются не только с крупными Интернет-порталами, но и с региональными поисковыми системами (РПС), причем рекламодатели в большинстве случаев заинтересованы именно в последних, т.к. их целевой аудиторией являются преимущественно региональные посетители. Пользователи, в свою очередь, также все больше предпочитают РПС по той причине, что они позволяют искать информацию, актуальную именно для данного региона. В пользу ограничения поиска только региональными ресурсами выступает и наличие в ряде регионов бесплатного доступа к ним. Таким образом, создание системы контекстной рекламы, интегрированной с региональной поисковой системой, является актуальной задачей.

При организации систем контекстной рекламы разработчики используют методы, относящиеся к таким областям, как информационный поиск (Information Retrieval), машинное обучение (Machine Learning), интеллектуальный анализ текстов (Text Mining) и извлечение знаний из Internet (Web mining). Основными задачами при проектировании СКР являются: выбор рекламных объявлений, соответствующих контексту действий пользователя; выделение ключевых фраз из текстов страниц; рекомендация и сравнение ключевых фраз. При решении этих задач, как правило, применяются подходы, основанные на различных обучающих (Murdock V., Zhang W. и др.) [163165, 198] и классификационных (Broder A., Josifovski V., Anagnostopoulos А. и др.) [109-110, 117] алгоритмах. Помимо этого широко распространены методы байесовской сети (Ribeiro-Neto В., Cristo M., Golgher Р. и др.) [172], генетического программирования (Lacerda A., Cristo M., Ribeiro-Neto В. и др.) [144], а также метод анализа текстов TF-IDF (Baeza-Yates R., Ribeiro-Neto В., Yih W., Goodman J. и др.) [115, 172, 194-195].

Необходимо отметить, что отечественных разработок, посвященных организации СКР, крайне мало (одна из них - [62]), однако ведутся исследования в смежных областях, таких как информационный поиск и компьютерная лингвистика. Наиболее авторитетными источниками информации в данных областях являются материалы международных конференций ДИАЛОГ и РОМИП.

Использование существующих методов применительно к развивающимся региональным СКР зачастую вызывает трудности. Дело в том, что большинство подходов основывается на различных видах статистического анализа и машинного обучения. При этом необходимо предварительно обучить модель на некотором объёме исходных данных. Такие обучающие выборки отсутствуют как таковые в открытом доступе, поэтому эти данные необходимо накапливать в самой системе контекстной рекламы или поисковой системе. А поскольку на этапе разработки и в первое время существования

СКР статистических данных в необходимых объёмах просто нет, то соответственно эффективность применения упомянутых методов крайне мала.

Ряд методов основан на принципах полного перебора: каждое объявление сравнивается с содержанием страницы или поисковым запросом. Учитывая, что количество объявлений может достигать тысяч, а запросов и текстов страниц - сотен тысяч, использование подобных методов в режиме реального времени невозможно из-за высоких требований к вычислительным мощностям.

Одним из наиболее важных является вопрос о том, какие факторы и с какой степенью должны учитываться при выборе и ранжировании объявлений. Подавляющее большинство систем контекстной рекламы при выборе руководствуется, прежде всего, стоимостью объявлений, стремясь показать наиболее дорогие объявления. При этом такие факторы, как интересы пользователя или, например, степень соответствия ключевых фраз объявления контексту страницы играют второстепенную роль либо не учитываются вовсе. В условиях большого количества пользователей и рекламных объявлений такой подход вполне оправдан, однако он оказывается не эффективным для развивающихся региональных СКР, конкуренция рекламодателей в которых мала, а количество пользователей невелико. Дело в том, что прибыль зависит не только от ставки за переход по объявлению, но и от количества переходов, а значит, от релевантности показываемых объявлений. Таким образом, более перспективным для региональной СКР представляется подход, ориентированный на выбор рекламных объявлений, наиболее релевантных интересам пользователей. При этом предлагается учитывать множество различных факторов, характеризующих как интересы пользователей и контекст страницы, так и само объявление. Вопросы одновременного использования в рамках систем контекстной рекламы нескольких факторов, влияющих на ранжирование объявлений, недостаточно проработаны в научных исследованиях (они затрагиваются лишь в [140, 181]).

Ввиду отсутствия точных количественных оценок релевантности1 рекламных объявлений представляется целесообразным при их выборе и ранжировании использовать аппарат нечетких множеств. При этом определение степени релевантности объявлений как по отдельным факторам, так и по их совокупности не должно опираться на методы обработки больших объемов статистических данных и машинного обучения, а также на методы полного перебора.

Цель работы

Разработка алгоритмов и программных средств организации системы контекстной рекламы, интегрированной с региональной поисковой системой, обеспечивающих высокую релевантность рекламных объявлений информационным потребностям пользователя.

Задачи для достижения поставленной цели

1. Анализ и сравнение существующих систем контекстной рекламы, а также методов их организации.

2. Разработка алгоритмов, не использующих большой объём накопленных данных, для выбора релевантных объявлений по отдельным факторам (поисковому запросу; тегам, характеризующим страницу; навигационной истории и истории поисковых запросов пользователя; качеству и эффективности объявлений) и по совокупности факторов, а также алгоритма выделения тегов из текста страницы.

3. Проведение экспериментальных исследований разработанных алгоритмов.

4. Создание программного комплекса, реализующего разработанные алгоритмы, включающего СКР и региональную поисковую систему.

1 Релевантность - субъективное понятие, под которым в системах текстового поиска понимается соответствие ответов системы информационным потребностям пользователя. Концептуально степень релевантности можно измерять вещественным числом от 0 до 1 [56]. Используется также термин «пертинентность».

Методы исследования

В ходе диссертационного исследования были использованы модели и методы теории нечетких множеств, статистического и морфологического анализа, а также методы, относящиеся к областям знаний Information Retrieval, Text Mining и Web Mining. При реализации программного комплекса был применён ряд методов объектно-ориентированного проектирования и программирования.

Научная новизна

1. Впервые предложен алгоритм выбора рекламных объявлений, основанный на формировании нечеткого множества релевантных объявлений по множеству факторов, характеризующих как сами рекламные объявления и контекст страницы, так и личные предпочтения пользователей.

2. Разработан новый алгоритм выбора рекламных объявлений в соответствии с поисковым запросом пользователя, позволяющий учитывать как степень совпадения, так и порядок слов запроса и ключевой фразы объявления с использованием коэффициента Джаккарда и наибольшей общей подпоследовательности фраз.

3. Предложен новый алгоритм выбора рекламных объявлений по тегам текущей страницы, учитывающий релевантность тегов по отношению к тексту страницы и степень их совпадения с ключевыми фразами объявлений. Для выделения тегов из текстов страниц и определения их релевантности разработан алгоритм, модифицирующий метод «ко-появлений» для выделения термов.

4. Разработаны новые алгоритмы выбора рекламных объявлений в соответствии с поисковой и навигационной историями пользователя. Первый учитывает не только степень релевантности ключевых фраз объявления наиболее популярным поисковым запросам пользователя, но и частоту встречаемости запросов в истории, второй - частоту встречаемости категорий, к которым принадлежит сайт объявления, в истории посещенных пользователем сайтов.

5. Предложены новые алгоритмы выбора объявлений в соответствии с их эффективностью и качеством. Первый, основанный на расчете показателя CTR (Click-Through Rate), отличается тем, что учитывает лишь «гарантированные» просмотры объявления пользователями. Второй, основанный на расчете показателя качества объявления, учитывает не только количество значимых слов объявления, находящихся в тексте целевой страницы, но и их наличие в различных html-тегах.

Основные положения, выносимые на защиту

1. Разработанные алгоритмы выбора релевантных рекламных объявлений, позволяющие учитывать контекст страницы, характеризуемый текущим поисковым запросом или тегами страницы, прошлые интересы пользователя, характеризуемые поисковой и навигационной историями пользователя, а также характеристики объявлений.

2. Результаты экспериментов, показавшие превосходство разработанных алгоритмов по сравнению с аналогами, а также высокую степень соответствия результатов их работы оценкам экспертов.

3. Созданная система «Поисколог», реализующая предложенные алгоритмы, позволяющая пользователям осуществлять различные виды поиска по региональным ресурсам и получать в качестве дополнительной релевантной информации рекламные объявления, а рекламодателям - создавать и настраивать объявления.

Степень достоверности результатов работы

Достоверность результатов работы обеспечивается корректным применением методов рассматриваемой предметной области и теории нечетких множеств, согласованностью сформулированных выводов с результатами экспериментов. Кроме того, достоверность подтверждается внедрением разработанных алгоритмов в рамках системы контекстной рекламы, интегрированной с региональной поисковой системой.

Теоретическая значимость работы

Предложенные автором алгоритмы, базирующиеся на аппарате нечетких множеств, развивают существующие подходы к организации систем контекстной рекламы в направлении обеспечения высокого уровня релевантности рекламных объявлений информационным потребностям пользователей. Разработанные алгоритмы выделения тегов, сравнения поисковых запросов и ключевых фраз, сопоставления текстов объявлений и целевых страниц вносят вклад в развитие методов информационного поиска и анализа текста.

Реализация результатов работы

Разработанные алгоритмы использованы при создании системы контекстной рекламы в рамках интегрированной поисковой системы «Поиско-лог» (свидетельство о регистрации в "Отраслевом фонде алгоритмов и программ" №10058 от 21.02.2008г. Номер госрегистрации №50200800460 от 28.02.2008 г.).

Практическая значимость работы

Разработанная в рамках диссертационной работы интегрированная поисковая система «Поисколог» используется для поиска информации в томском сегменте Интернета. С помощью данной системы возможен поиск, как текстовой информации, так и фото-, видео- и аудиоматериалов. Использование технологии разделения поиска на отдельные вертикали позволяет пользователям производить поиск необходимой информации лишь в интересующей их области, не просматривая множество нерелевантных результатов других тематик.

Разработанная система контекстной рекламы, интегрированная с поисковой системой, позволяет рекламодателям продвигать свои сайты посредством показа объявлений в результатах поиска и на информационных страницах ПС. При этом рекламные объявления, показываемые пользователю, максимально соответствуют контексту страницы и его личным предпочтениям. Кроме того, созданная технология даёт возможность использовать СКР в отрыве от поисковой системы для показа рекламных объявлений на сторонних сайтах.

Практическая ценность данной работы подтверждается актами внедрения в ряде коммерческих фирм г. Томска.

Личный вклад автора

Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно.

Апробация работы

Основные результаты диссертационной работы докладывались на следующих конференциях:

• всероссийской конференции студентов, аспирантов и молодых ученых «Энергия молодых - экономике России» (Томск, 2003);

• всероссийских научно-технических конференциях аспирантов и молодых ученых «Научная сессия ТУ СУР» (Томск, 2004, 2005, 2006, 2007);

• всероссийских научно-технических конференциях студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2004, 2006, 2007);

• международных научно-практических конференциях «Средства и системы автоматизации» (Томск, 2004, 2007);

• международной научно-практической конференции «Современные техника и технологии» (Томск, 2006).

Публикации

По теме диссертационной работы опубликовано 15 научных работ, в том числе 4 статьи (все в изданиях, рекомендованных ВАК для опубликования результатов диссертаций).

Структура и объем работы

Диссертационная работа включает: введение, четыре главы, заключение, список литературы из 198 наименований, 7 приложений. Общий объем диссертации составляет 244 страницы машинописного текста. Работа содержит 40 рисунков, 18 таблиц.

Заключение диссертация на тему "Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет"

Выводы по главе 4

1. Выбранные средства реализации системы «Поисколог», а также набор сторонних библиотек для поиска и морфологического анализа позволяют быстро реализовать прототип системы.

2. Спроектированная архитектура интегрированной системы в качестве основных компонентов включает: поисковую систему, содержащую модули вертикального поиска; систему контекстной рекламы, включающую модули выбора рекламных объявлений и интерфейс рекламодателя; модуль анализа поведения пользователя. Каркас системы составляет MVC-фреймворк

Сос1е1§ш1ег, через который проходят все запросы и вызываются другие компоненты интегрированной системы.

3. Разработанная СКР, основанная на алгоритмах, предложенных в данной работе, предоставляет следующие возможности: с минимальными трудозатратами создавать и настраивать рекламные объявления; контролировать общий бюджет и сроки проведения рекламной кампании; использовать различные виды таргетинга; отслеживать статистику переходов по объявлениям в режиме реального времени. Программная реализация СКР дает возможность в дальнейшем легко расширить алгоритм выбора объявлений по множеству факторов за счёт добавления новых факторов.

4. Поисковая система, реализующая разработанные алгоритмы обработки результатов поиска, в том числе их фильтрации, группировки, кеширо-вания и ранжирования, позволяет повысить эффективность работы поисковых модулей, увеличив их быстродействие и улучшив качество выдаваемых результатов.

5. Модуль анализа поведения пользователя, реализующий разработанные алгоритмы анализа ЬИр-заголовка "геГегег" браузера пользователя и сохранения информации о действиях пользователя, позволяет анализировать сетевую активность пользователей, фиксируя не только их действия в системе, но и частично — за её пределами. Полученная информация используется СКР для реализации поведенческих технологий при выборе объявлений.

6. Внедрение системы «Поисколог» показало высокую релевантность выдаваемых пользователям объявлений, выбираемых в соответствии с контекстом просматриваемых страниц, что доказывает эффективность разработанных алгоритмов даже при отсутствии большого объема накопленной статистики о показах объявлений и истории сетевой активности пользователей.

ЗАКЛЮЧЕНИЕ

В диссертационной работе по результатам выполненных теоретических и экспериментальных исследований разработано алгоритмическое и программное обеспечение системы контекстной рекламы, интегрированной с региональной поисковой системой. Решена задача, имеющая существенное значение для области информационного поиска в среде Интернет. Внедрение результатов работы позволяет существенно увеличить степень удовлетворения информационных потребностей пользователя, а также повысить эффективность продвижения сайтов рекламодателей.

Перечислим основные результаты, в которых отражена научная новизна и практическая ценность данной работы:

1. Разработан ряд новых алгоритмов работы системы контекстной рекламы:

• алгоритм выбора и ранжирования рекламных объявлений, основывающийся на формировании нечеткого множества релевантных объявлений по множеству факторов, характеризующих как сами рекламные объявления и контекст страницы, так и личные предпочтения пользователей. Алгоритм позволяет учесть не только различные факторы выбора объявлений в зависимости от текущей ситуации, но и ограничения на показ объявлений;

• алгоритм выбора объявлений в соответствии с поисковым запросом пользователя, основанный на вычислении наибольшей общей подпоследовательности фраз и коэффициента Джаккарда. Алгоритм позволяет учитывать не только степень совпадения слов запроса и ключевой фразы объявления, но и их порядок в запросе;

• алгоритм выбора объявлений в соответствии с выделенными тегами страницы, который учитывает как релевантность самих тегов по отношению к тексту страницы, так и степень их совпадения с ключевыми фразами объявлений. Это позволяет повысить адекватность расчета релевантности объявлений тексту страницы;

• алгоритм выделения тегов из текстов страниц, основанный на методе выделения термов в соответствии со статистикой их «ко-появлений». Алгоритм отличается тем, что придает больший вес тегам, встречающимся в заголовке текста, позволяет сократить количество тегов за счёт удаления более простых тегов, входящих в состав более сложных, рассчитывает вес выделенных тегов;

• алгоритм выбора объявлений в соответствии с историей запросов пользователя, позволяющий учитывать соответствие ключевых фраз объявления наиболее популярным поисковым запросам пользователя с учетом частоты встречаемости запросов в истории. При этом в качестве источника актуальной информации о поисковых запросах предлагается использовать данные за некоторый период времени, полученные не только от региональной поисковой системы, но и от других поисковых систем;

• алгоритм выбора объявлений в соответствии с навигационной историей пользователя, учитывающий частоту встречаемости категорий, к которым принадлежит сайт объявления, в истории посещенных пользователем сайтов. В качестве источника актуальной информации предлагается использовать данные за некоторый период времени, полученные как от поисковой системы, так и от системы контекстной рекламы;

• алгоритм выбора рекламных объявлений в соответствии с их эффективностью, основанный на вычислении показателя CTR объявлений, который позволяет более точно оценить их эффективность за счет учета только «гарантированных» просмотров объявлений. Алгоритм дает возможность оценить эффективность объявлений даже при малом количестве просмотров или их отсутствии;

• алгоритм выбора объявлений в соответствии с их качеством, основывающийся на расчетах степени соответствия текста объявления содержанию целевой страницы. Учет не только количества слов объявления, находящихся в тексте целевой страницы, но и их наличия в различных Ызп1-тегах, позволяет отдать больший вес тем объявлениям, содержание которых наиболее выразительно представлено на целевой странице.

2. Проведено тестирование эффективности основных разработанных алгоритмов, показавшее превосходство алгоритмов по сравнению с альтернативными стратегиями и высокую степень соответствия результатов работы предлагаемых алгоритмов оценкам экспертов. Тестирование разработанного прототипа СКР «Поисколог» показало высокую релевантность выдаваемых рекламных объявлений в сравнении с другими коммерческими СКР.

3. Разработана интегрированная система «Поисколог», включающая систему контекстной рекламы, поисковую систему и модуль анализа поведения пользователя. ИС реализует предложенные в работе алгоритмы выбора релевантных объявлений, ряд поисковых алгоритмов, а также алгоритмы анализа сетевой активности пользователя. Система «Поисколог» позволяет пользователям осуществлять различные виды поиска по региональным ресурсам и получать в качестве дополнительной релевантной информации рекламные объявления, а рекламодателям - создавать, настраивать и контролировать рекламные кампании и объявления.

4. Внедрение системы «Поисколог» показало высокую релевантность выдаваемых объявлений даже при отсутствии большого объема накопленной статистики о показах объявлений и длительной истории сетевой активности пользователей. Таким образом, достигается цель диссертационной работы -обеспечить высокую релевантность рекламных объявлений информационным потребностям пользователя.

Библиография Силич, Василий Викторович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Автоматическое определение ключевых слов Электронный ресурс . — Электрон, дан. — Режим доступа : http://xpoint.ru/know-how/VebAlgoritmyi /RabotaSTekstami/AvtomaticheskoeOpredelenieIClyuchevyihSlov?comments.

2. Агапов Ю. Время RSS-рекламы еще не пришло? / Ю. Агапов Электронный ресурс . Электрон, дан. - Режим доступа: http://www.searchen-gines.ru/articles/005092.html.

3. Амилющенко А. Как зарабатывать с Яндексом? Электронный ресурс . : мат-лы семинара «Интернет-реклама: итоги и перспективы. Рекламные возможности Яндекса» / А. Амилющенко. — Томск, 2008.

4. Аналитический обзор «Рынок контекстной рекламы в России в 2007 г.» Электронный ресурс . — Электрон, дан. Режим доступа : http://www.begun.ru /begun/research/beguncontextmarket2007.pdf.

5. Ашманов И.С. Продвижение сайта в поисковых системах / И.С. Ашма-нов, A.A. Иванов М. : Изд-во Вильяме, 2006. - 304 с.

6. Баранов A. Data Mining. Теория и практика / А. Баранов, И. Брянцев, И. Жевлаков. -М. : БДЦ-пресс, 2006. 208 с.

7. Барсегян А. Методы и модели анализа данных: OLAP и Data Mining / А. Барсегян, М. Куприянов, В. Степаненко, И. Холод. СПб. : БХВ-Петербург, 2004. - 336 с.

8. Браславский П. Тематическая кластеризация / П. Браславский. // Программа курса "Интеллектуальные информационные системы" Электронный ресурс . Электрон, дан. — Режим доступа : http://www.kansas.ru/ai2006/slides/lecture9.pdf.

9. Бумажный "Инфобизнес" про рич-медиа // Библиотека Интернет индустрии 12Я Электронный ресурс . Электрон, дан. - Режим доступа : http://www.i2r.ru/static/358/out17759.shtml.

10. В системе МБЫ adCenter появился поведенческий таргетинг Электронный ресурс . Электрон, дан. - Режим доступа : http://habrahabr.ru/blog/ со1итпз/6158.html

11. В ходе опроса CNews выяснил, что баннерная реклама по-прежнему самая востребованная // Е-хесиЙуе Электронный ресурс . Электрон, дан. - Режим доступа : http://www.e-xecutive.ru/news/news/682674/

12. Варламов А. «Бегун» предлагает контекстную рекламу с социально-демографическим таргетингом / А. Варламов Электронный ресурс . -Электрон, дан. Режим доступа : http://habrahabr.ru/blog/context/ 30713.html

13. Вахитов Я. Виртуальный офис открыт всегда / Я. Вахитов Электронный ресурс . Электрон, дан. - Режим доступа : http://www.klerk.ru/bank/ 743028.

14. Видеореклама побьет контекст Электронный ресурс . — Электрон, дан. Режим доступа : http://mediarevolution.ru/advertiser/markets/820.html

15. Вилявин Р. Основные игроки зарубежного сегмента контекстной рекламы / Р. Вилявин Электронный ресурс . — Электрон, дан. — Режим доступа : http://www.seonews.ni/article/.publication/252/

16. Выделение ключевых (по смыслу) слов из сообщения Электронный ресурс . Электрон, дан. - Режим доступа : http://xpoint.ru/forums/ programming/theory algorythms/thread/29319. xhtml

17. Гаврилова Т. А. Базы знаний интеллектуальных систем / Т. А. Гаврилова, В. Ф. Хорошевский. СПб.: Питер, 2000. - 384 с.

18. Геотаргетинг в RSS-рекламе Электронный ресурс . Электрон, дан. — Режим доступа: http://www.seonews.rU/news/.infonews/1092/

19. Глушак Б. CPA-маркетинг. Работаем с MSN AdCenter / Б. Глушак Электронный ресурс . Электрон, дан. - Режим доступа : http://www.profit-hunter.ru/cpa-marketing/cpa-marketing-rabotaem-s-msn-adcenter/

20. Глушак Б. CPA-маркетинг. Работаем с Yahoo Search / Б. Глушак Электронный ресурс . — Электрон, дан. Режим доступа : http://www.profith-unter.ru/cpa-marketing/cpa-marketing-rabotaem-s-yahoo-search/

21. Глушак Б. CPA-маркетинг. MSN AdCenter — ключевые слова, таргеттинг и т.д. / Б. Глушак Электронный ресурс . Электрон, дан. - Режим доступа : http://tinyurl.com/4m6suf

22. Глушак Б. CPA-маркетинг — Yahoo Search Marketing / Б. Глушак Электронный ресурс . Электрон, дан. - Режим доступа :http://www.profithunter.ru/cpa-marketing/cpa-marketing-yahoo-search-marketing/

23. Губин M.B. Влияние морфологического анализа на качество информационного поиска / М.В. Губин, А.Б. Морозов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды 8-й Всерос. науч. конф. RCDL'2006. Суздаль, 2006.

24. Гусев B.C. Аналитика веб-сайтов. Использование аналитических инструментов для продвижения в Интернет / B.C. Гусев. — М. : Изд-во Диалектика, 2007. — 176 с.

25. Дмитриева А. Контекстная реклама Рунета: чего ждать? / А. Дмитриева // TelNews Электронный ресурс . Электрон, дан. - Режим доступа : http://www.telnews.ni/event/l 6610/

26. Дубнер П.Н. Анализ строк. / П.Н. Дубнер Электронный ресурс . -Электрон, дан. Режим доступа : http://itman.narod.ru/articles/infoscope/ stringsearch. 1 -3 .html

27. Дюбуа Д. Теория возможностей. Приложения к представлению знаний в информатике: пер. с фр. / Д. Дюбуа, А. Прад. — М. : Радио и связь, 1990. -288 с.

28. Евланов JI. Г. Теория и практика принятия решений / JL Г. Евланов. М.: Экономика, 1984. - 176 с.

29. Зайцев П. Эффективный полнотекстовый поиск по базам данных / П. Зайцев Электронный ресурс . — Электрон, дан. — Режим доступа : http://www.rit2008.ru/ paperview.html?id=l 106

30. Как искать информацию в Интернете Электронный ресурс . Электрон. дан. - Режим доступа: http://www.findingdulcinea.com/guides.html7to pic=/categories/technology/Dulcineas-Guide-to-Searching-on-the-Web/russian

31. Как работает антифродовая система Google: отчет Тужилина Электронный ресурс . Электрон, дан. - Режим доступа : http://habrahabr.ru/blog/ columns/5948.html

32. Каролик А. «Яндекс.Директом» пользуются несколько десятков тысяч различных рекламодателей / Каролик А., Попов А. Электронный ресурс . — Электрон, дан. Режим доступа : http://advertising.yandex.ru/ yandexdirect.xml

33. Кириченко K.M. Обзор методов кластеризации текстовой информации / K.M. Кириченко, М.Б. Герасимов // Тез. докл. Междунар. конф. Диалог. — 2001.

34. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. М. : Изд-во Вильяме, 2007. — 272 с.

35. Колмановская Е. Яндекс раздает партнерам Рекламной сети 2,5 млн долларов в месяц / Е. Колмановская Электронный ресурс . Электрон, дан. - Режим доступа : http://company.yandex.rU/news/2007/l 112/index.xml

36. Коновалов A.B. Анализ связи ранговых признаков / A.B. Коновалов Электронный ресурс . Электрон, дан. - Режим доступа : http://www.yartel.ru/stat/qkaches2.html

37. Контекстка и медийка сдают позиции Электронный ресурс . Электрон. дан. - режим доступа: http://www.seonews.rU/news/.contextadv/3341/

38. Контекстная реклама Электронный ресурс . Электрон, дан. - Режим доступа : http://m.wikipedia.org/wiki/KoHTeKCTHaa%20peKnaMa

39. Контекстная реклама в России Электронный ресурс . — Электрон, дан.- Режим доступа : http://download.yandex.ru/company/yandexoncontext-advertisingsummer2007.pdf

40. Контекстная реклама на засекреченных площадках Электронный ресурс .- Электрон, дан. Режим доступа : http://www.tden.ru/articles/internet/ 005446/

41. Корнилов С. Клик фрод как проблема контекстной рекламы в России / С. Корнилов Электронный ресурс . — Электрон, дан. Режим доступа : http ://www. whiteseo.ru/content/ view/272/б/

42. Коротов П. Контекстная реклама сегодня / П. Коротов Электронный ресурс . Электрон, дан. - Режим доступа : http://www.oborot.ru/article/395/34

43. Коротов П. "Продающая" контекстная реклама: перспективные системы / П. Коротов Электронный ресурс . — Электрон, дан. Режим доступа : http://www.oborot.ru/article/398/34

44. Котеров Д. Эвристическое (без словаря) извлечение корня из русского слова / Д. Котеров Электронный ресурс . — Электрон, дан. — Режим доступа : http://tinyurl.com/3oktuv

45. Кураленок И. Официальные метрики РОМИП'2006 / И. Кураленок, И. Некрестьянов, Н. Агеев // Труды четвертого российского семинара РОМИП'2006 / НУ ЦСИ. СПб., 2006, - С. 160-169.

46. Кураленок И. Оценка систем текстового поиска / И. Кураленок, И.Некре-стьянов // Программирование. 2002. — № 4 (28). - С.226-242.

47. Кураленок И.Е. Оценка систем текстового поиска : дис. . канд. физ.-мат. наук / И.Е. Кураленок. Санкт-Петербург, 2004. - 112 с.

48. Курапов А. Морфологический поиск / А. Курапов Электронный ресурс .- Электрон, дан. Режим доступа : http://kurapov.name/article/ morphologicalsearch/

49. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Д.В. Ландэ. М.: Изд-во Диалектика, 2005. - 272 с.

50. Леоненков А. В. Нечеткое моделирование в среде МАТЬАВ и ¡гуТЕСН / А. В. Леоненков. СПб. : БХВ-Петербург, 2003. - 736 с.

51. Люгер Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем / Дж. Ф. Люгер. 4-е изд. - М.: Изд-во Вильяме, 2003.- 864 с.

52. Мельников Л. Опыт пользования АсКагег / Л. Мельников Электронный ресурс . Электрон, дан. — Режим доступа : http://leonid.habrahabr.ru/ Ыо§/7436.Ы;т1

53. Минус-слова для всей кампании Электронный ресурс . Электрон, дан.- Режим доступа : http://www.seonews.rn/news/.contextadv/2143/

54. Новая система контекстной рекламы Advizer.ru Электронный ресурс . — Электрон, дан. — Режим доступа : http://www.seonews.ru/news/xontextadv /1252/

55. Обзор по контекстной рекламе в англоязычном Интернете Электронный ресурс . Электрон, дан. — Режим доступа : http://s-catalog.info/ ахсЫчеъПбЗ

56. Объем рынка контекстной рекламы в Рунете вырос до $225 млн. в 2007 г. Электронный ресурс . Электрон, дан. - Режим доступа : http://pda.cnews.ru/news/index.shtml71ine/2008/02/06/286777.

57. Оптимист \Vebalta Электронный ресурс . - Электрон, дан. - Режим доступа : http://op.webalta.ru

58. Основные виды рекламы в Интернете Электронный ресурс . Электрон. дан. - Режим доступа : http://www.rle.ru/info/bannertypes/

59. Остапенко М. Gender Guesser — угадыватель пола / М. Остапенко Электронный ресурс . Электрон, дан. - Режим доступа : http ://mclaud.habrahabr.ru/blog/3773 5.html

60. Парамонов В. Количество веб-сайтов в Интернете превысило 150 миллионов / В. Парамонов Электронный ресурс . — Электрон, дан. — Режим доступа : http://net.compulenta. ги/344742/

61. Перегудов Ф. И. Основы системного анализа : Учеб. / Ф. И. Перегудов, Ф. П. Тарасенко. 3-е изд. - Томск : Изд-во HTJT, 2001. - 396 с.

62. Поведенческая реклама Yahoo! работает Электронный ресурс . Электрон. дан. - Режим доступа: http://www.seonews.rU/news/.contextadv/2245/

63. Поиск в интернете: что и как ищут пользователи (информационный бюллетень по данным поиска Яндекса) Электронный ресурс . — Электрон, дан. Режим доступа : http://tinyurl.com/61f8tu

64. Последние разработки adCenter Labs Электронный ресурс . Электрон, дан. - Режим доступа: http://habrahabr.ru/blog/columns/6912.html

65. Правила показа Электронный ресурс . Электрон, дан. - Режим доступа. : http://help.yandex.ru/direct/?id=990407

66. Проект «Панама» принесет Yahoo сотни миллионов Электронный ресурс . — Электрон, дан. — Режим доступа : http://www.habrahabr.ru/ blog/columns/5817.html

67. Рассел С. Искусственный интеллект: современный подход / С. Рассел, П. Норвиг: Пер. с англ. 2-е изд. - М.: Издательский дом «Вильяме», 2007. - 1408 с.

68. РБКшная "Магна" ищет клиентов Электронный ресурс . Электрон, дан. - Режим доступа : http://roem.ru/2008/02/05/addednews5262/

69. Реклама в рунете продолжает удваиваться Электронный ресурс . -Электрон, дан. Режим доступа: http://seonews.ru/news/.infonews/ 2794/

70. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская, М. Пилиньский, JT. Рутковский: Пер. с польск. -М.: Горячая линия Телеком, 2007. - 452 с.

71. Самые дорогие ключевые слова за май 2008 Электронный ресурс . -Электрон, дан. Режим доступа : http://www.begun.ru/begun/research/ detail.php?ID=2450

72. Силич В.В. Использование единого механизма управления динамическим web-сайтом / В.В. Силич, В.Д. Автайкин // Средства и системы автоматизации: мат-лы 5-й науч.-практ. конф. Томск, 2004. - с. 123-124.

73. Силич В.В. Использование шаблонов при создании сайтов в сети Интернет / В.В. Силич, Ю.П. Ехлаков // Молодежь и современные информационные технологии: сб. тр. 1-й Всерос. науч.-практ. конф. Томск, 2004. -С.164-165.

74. Силич В.В. Метод организации системы поисковой рекламы в сети Интернет/ В.В. Силич // Известия Томского политехнического университета. 2006. - №8. - С. 140-143.

75. Силич В.В. Методы обработки запросов к веб-сайту / В.В. Силич // Научная сессия ТУСУР-2005: Мат-лы Всерос. науч.-техн. конф. аспирантов и молодых специалистов. Томск, 2005. — С. 189-192.

76. Силич В.В. Методы организации системы поиска и индексации новостей в сети Интернет и её взаимодействие с системой контекстной рекламы /

77. B.В. Силич // Вестник компьютерных и информационных технологий. -2008.-№9.-С. 50-55.

78. Силич В.В. Модель выбора рекламных объявлений веб-сайтов в системе поисковой рекламы / В.В. Силич // Доклады Томского государственного университета систем управления и радиоэлектроники. 2007. - №2(16).1. C. 229-235.

79. Силич В.В. Организация системы поисковой рекламы в сети Интернет на основе нечетких множеств / В.В. Силич // Научная сессия ТУ СУР — 2007:

80. Мат-лы докладов Всерос. науч.-техн. конф. студентов, аспирантов и молодых ученых. Томск: Изд-во «В-Спектр», 2007. -Ч. 1. - С. 332-335.

81. Силич В.В. Поисковый Интернет-портал и система контекстной рекламы "Поисколог" /В.В. Силич // Компьютерные учебные программы и инновации М: ГОСКООРЦЕНТР. - 2008. - №6. - С. 156.

82. Силич В.В. Система автоматизации поиска информации в сети Интернет /В.В. Силич //Приборы.- 2008. -№3.- С. 55-60.

83. Силич В.В. Электронная торговля в России /В.В. Силич, М.В. Сподобаев // Энергия молодых — экономике России: тез. докл. 4-й Всерос. конф. студентов, аспирантов и молодых ученых. — Томск, 2003. Т.1. - С. 165-166.

84. Силич В.В. Технологии интерактивного взаимодействия веб-приложений в среде Интернет /В.В. Силич // Научная сессия ТУСУР-2006: Мат-лы докладов Всерос. науч.-техн. конф. аспирантов и молодых ученых. — Томск, 2006. С. 35-37.

85. Силич В.В. Технологии разделения данных и их оформления в web-программировании / В.В. Силич // Научная сессия ТУСУР 2004: Мат-лы Всерос. науч.-техн. конф. - Томск, 2004. - С. 100-103.

86. Сирович Дж. Поисковая оптимизация на PHP для профессионалов. Руководство разработчика по SEO / Дж. Сирович, Д. Кристиан : Пер. с англ. -М.: ООО «И.Д. Вильяме», 2008. 352 с.

87. Система размещения контекстной рекламы magna Контекст: презентация Электронный ресурс . Электрон, дан. - Режим доступа : http://docs.google.com/ Present?docid=ajff7cc73c629cp4d3hc9#0

88. Ценовая политика Оптимиста Электронный ресурс . Электрон, дан. -Режим доступа: http://habrahabr.ru/blog/context/1894.html

89. Что такое вертикальный поиск? Электронный ресурс . Электрон, дан. -Режим доступа : http://www.osp.ru/cw/2006/04/375068/

90. Что такое CTR? Высокий, средний, низкий? Электронный ресурс . -Электрон, дан. — Режим доступа : http://tinyurl.com/yandexc

91. Яковлев А.А. Контекстная реклама. Основы. Секреты. Трюки / А.А.Яковлев, А.Б.Чупрун. СПб.: Изд-во БХВ-Петербург, 2008. - 304 с.

92. Abdi Н. The Kendall Rank Correlation Coefficient / H. Abdi // In N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks, 2007. -pp. 508-510.

93. Abrams Z., Optimal delivery of sponsored search advertisements subject to budget constraints / Z. Abrams, O. Mendelevitch, J. Tomlin // ACM Conference on Electronic Commerce, 2007. P. 272-278.

94. Advizer Электронный ресурс . Электрон, дан. - Режим доступа : http://advizer.ru/

95. Agarwal D. Estimating rates of rare events at multiple resolutions / D. Agar-wal, A. Broder, D. Chakrabarti, D.Diklic, V.Josifovski, M.Sayyadian //

96. Knowledge discovery and data mining: Proceedings of the 13th ACM SIGKDD International Conference. San Jose, California. 2007. - pp. 16-25.

97. Anupam V. On the security of pay-per-click and other web advertising schemes / V. Anupam, A. Mayer, K. Nissim, B. Pinkas, M. Reiter // Proceedings of 9th World Wide Web Conference (WWW9). 1998. - pp. 1091-1100.

98. Application Flow Chart : Codelgniter User Guide Электронный ресурс . -— Электрон, дан. — Режим доступа: http://codeigniter.com/userguide/over-view/appflow.html

99. Aslam J. Models for metasearch / J.Aslam, M.Montague // Proc. of the 24th ACM SIGIR conf. on Research and Development in Information Retrieval. -New Orleans, 2001. pp. 276-284.

100. Baeza-Yates R. Modern information retrieval / R.Baeza-Yates, B. Ribeiro-Neto. New York et al.: ACM Press, Addison-Wesley, 1999. - 513 p.

101. Bollegala D. A Web-based semantic similarity measure / D. Bollegala, Y. Ma-tsuo, M. Ishizuka // The 21st Annual Conference of the Japanese Society for Artificial Intelligence, 2007.

102. Buckley C. Evaluating evaluation measure stability / C. Buckley, E. Voor-hees //Proceedings of ACM SIGIR conference, 2000. pp. 33- 40.

103. Buckley C. Retrieval evaluation with incomplete information / C. Buckley , E.

104. Voorhees // Proc 27th Annu Int ACM SIGIR Conf Res Dev Inform Retriev. -Sheffield, England: ACM Press, 2004. pp. 25-32.

105. Carrasco J. Clustering of bipartite advertiser-keyword graph / J. Carrasco, D. Fain, K. Lang, L.Zhukov // Workshop on Large Scale Clustering at IEEE International Conference on Data Mining, 2003.

106. Carson M. Your adCenter Questions Answered: Part 2 Demographic Targeting / M. Carson Электронный ресурс . - Электрон, дан. - Режим доступа : http://tinyurl.com/53vozo

107. Demographic bidding now available Электронный ресурс . Электрон, дан. - Режим доступа : http://adwords.blogspot.com/2008/03/demographic-bidding-now-available.html

108. FAQ of Google Adsense Электронный ресурс . Электрон, дан. - Режим доступа : http://www.master.cdvlad.com/item646.html

109. Fayyad U. From Data Mining to Data Strategy towards the New Sciences Underlying the Internet / U. Fayyad Электронный ресурс . - Электрон, дан. - Режим доступа : http://www.jcagroup.com/pdf/VetNurseVetSurgeo-nAdRates2008.pdf.

110. Feng J. Comparison of allocation rules for paid placement advertising in search engines / J.Feng, H.Bhargava, D.Pennock // ICEC "03: Proceedings of the 5th international conference on Electronic commerce. New York, 2003. -pp. 294-299.

111. Feng J. Implementing sponsored search in web search engines: computational evaluation of alternative mechanisms / J. Feng, H. Bhargava, D. Pennock // INFORMS J. on Computing. 2007. - Vol. 19, No. 1. - pp. 137-148.

112. Frank E. Domain-specific keyphrase extraction / E.Frank, G.Paynter, I.Witten, C.Gutwin, C.Nevill-Manning // Proc. of IJCAI-99. 1999. - pp. 668-673.

113. Ghose A. An empirical analysis of sponsored search performance in search engine advertising / A. Ghose, Sh. Yang // Proceedings of the international conference on Web search and web data mining. Palo Alto, California, USA, 2008.-pp. 241-250.

114. Google будет улучшать методы борьбы с обманными кликами Электронный ресурс . Электрон, дан. - Режим доступа : http://www.internet.ru/social/2007-03-16189

115. Harold D. Google Advertising Tools / D. Harold. Sebastopol: O'Reilly Media, 2006.-366 c.

116. Hespos Т. Как применять Rich Media? / T.Hespos Электронный ресурс . Электрон, дан. - Режим доступа : http://www.bizport.e-stile.ru/reklamal 1/

117. IntelliTXT Электронный ресурс . — Электрон, дан. Режим доступа : http://en.wikipedia.org/wiki/IntelliTXT

118. Jakobsson М. Secure and lightweight advertising on the Web / M. Jakobsson, Ph. MacKenzie, J. Stern // World Wide Web '99: Journal of Computer Net-, works. 1999. - vol. 31. - pp. 1101-1109.

119. Jarvelin K. Cumulated Gain-based Evaluation of IR Techniques / K. Jarvelin, J. Kekalainen // ACM Transactions on Information Systems (TOIS). 2002. -pp. 422-446.

120. Jarvelin K. IR evaluation methods for retrieving highly relevant documents / K. Jarvelin, J. Kekalainen // Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.-2000.-pp. 41-48.

121. Jian H. Demographic prediction based on user's browsing / H. Jian, Z. Hua-Jun, L.Hua, N.Cheng, Ch.Zheng // International World Wide Web Conference (WWW'07). Banff, Alberta, Canada, 2007. - pp. 151-160.

122. Joshi A. Keyword generation for search engine advertising / A. Joshi, R. Motwani // ICDM Workshops 2006: Proceedings of the Sixth IEEE International Conference. 2006. - pp. 490-496.

123. Kazienko P. AdROSA-Adaptive personalization of web advertising / P. Kazienko, M. Adamski // Information Sciences: an International Journal. — 2007.-Vol. 177, Issue 11.-pp. 2269-2295.

124. Kendall tau rank correlation coefficient Электронный ресурс . Электрон, дан. - Режим доступа : http://tinyurl.com/2qqlmk

125. Know Your Visitors Profile and Attribute with adCenter Demographics Prediction Электронный ресурс . — Электрон, дан. — Режим доступа : http ://tinyurl. com/4pj wj 6

126. Krovetz R. Viewing morphology as an inference process / R. Krovetz // Proceedings of SIGIR '93. 1993. - pp. 191-202.

127. Lacerda A. Learning to advertise / A. Lacerda, M. Cristo, M. Goncalves, W. Fan, N. Ziviani, B. Ribeiro-Neto // Annual ACM Conference on Research and Development in Information Retrieval. Seattle, Washington, USA, 2006. — pp. 549-556.

128. Langheinrich M. Unintrusive customization techniques for web advertising / M. Langheinrich, A.Nakamura, N. Abe, T. Kamba, Y. Koseki // Computer Networks. 1999. - vol. 31(11-16). - pp. 1259-1272.

129. Le Q. Direct optimization of ranking measures / Q. Le, A. Smola Электронный ресурс . — Электрон. дан. Режим доступа : http://arxiv.org/abs/0704.3359

130. Li Н. Learning to rank: A new technology for text processing / H. Li Электронный ресурс . Электрон, дан. - Режим доступа : http://www-tsujii.is. s.u-tokyo.ac.jp/T-FaNT/T-FaNT.files/Slides/Li.pdf

131. Liu В. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data / B. Liu. Springer, 2007. - 532 p.

132. Magna Faq Электронный ресурс . Электрон, дан. - Режим доступа : http://advertise.magna. ru/faq/faq.html

133. Mahdian M. Pay-per-action model for online advertising / M. Mahdian, K. Tomak 11 Proceedings of the 3rd International Workshop on Internet and Network Economics. San Jose, CA, USA, 2007. - pp. 549-557.

134. Manning Ch. An Introduction to Information Retrieval / Ch. Manning, P. Raghavan, H. Scultze. Cambridge University Press, 2008. - 482 p.

135. Matsuo Y. Keyword extraction from a single document using word cooccurrence statistical information / Y. Matsuo, M. Ishizuka. International Journal on Artificial Intelligence Tools. - 2004. - Vol. 13 (1). - pp. 157-169.

136. Mattis M. A New Pricing Model Rolls Out Today / M. Mattis Электронный ресурс . Электрон, дан. — Режим доступа : http://www.ysmblog.com/blog/ 2007/06/04/a-new-pricing-model-rolls-out-today/

137. Metwally A. Duplicate detection in click streams / A. Metwally, D. Agrawal, A. Abbadi // Proceeding of the 14th International Conference on World Wide Web. New York, 2005. - pp. 12-21.

138. Metwally A. Hide and seek: detecting hit inflation fraud in streams of web advertising networks / A. Metwally, D. Agrawal, A. Abbadi // CS Department of Computer Science / University of California. Santa Barbara, 2006.

139. Metwally A. Using association rules for fraud detection in web advertising networks / A. Metwally, D. Agrawal, A. Abbadi // Proceedings of the 31st international conference on Very large data bases. — Trondheim, Norway, 2005. -pp. 169-180.

140. Metzler D. Similarity Measures for Short Segments of Text / D.Metzler, S.Du-mais, Ch.Meek // ECIR. 2007. - pp. 16-27.

141. Microsoft занимается «демографическими предсказаниями» Электронный ресурс . Электрон, дан. - Режим доступа : http://habrahabr.ru/blog/ columns/6712 .html

142. Microsoft использует Intellitxt для поиска Live.com Электронный ресурс . Электрон, дан. - Режим доступа: http://webformula.ru/new3.html

143. Model-view-controller Википедия Электронный ресурс . - Электрон, дан. - Режим доступа: http://ru.wikipedia.org/wiki/MVC.

144. MSN тестирует собственную систему контекстной рекламы Электронный ресурс . Электрон, дан. - Режим доступа : http://habrahabr.ru/blog/ columns/6124.html

145. Murdock V. A noisy channel approach to contextual advertising / V.Murdock, M.Ciaramita, V. Plachouras // ADKDD'07. San Jose, CA, USA, 2007. - pp. 21-27.

146. Murdock V. Online learning from click data for sponsored search / V. Murdock, M.Ciaramita, V. Plachouras // Proceedings of World Wide Web Conference (WWW'08). 2008. - pp. 227-236.

147. Murdock V. Semantic associations for contextual advertising/ V. Murdock, M.Ciaramita, V. Plachouras // Journal of Electronic Commerce Research: Special Issue on Online Advertising and Sponsored Search. — 2008. Vol. 9, Issue 1.— pp. 1-15.

148. Najork M. Comparing the Effectiveness of Different Scoring Functions for Web Search / M. Najork Электронный ресурс . Электрон, дан. - Режим доступа : http://www.cse.lehigh.edu/%7Ebrian/course/2007/searchengines/ notes/Naj ork-2007-02-14.pdf

149. Najork М. Comparing the effectiveness of hits and salsa / M. Najork // CIKM. -2007.-pp. 157-164.

150. Pay-Per-Click (PPC) Services Comparison Электронный ресурс . Электрон. дан. - Режим доступа : http://www.yourseoplan.com/yahoo-google-ppc.html

151. PEAR :: Package :: HTTPRequest Электронный ресурс . Электрон, дан. - Режим доступа : http://pear.php.net/package/HTTPRequest

152. Program to evaluate TREC results using SMART evaluation procedures. Documentation Электронный ресурс . Электрон, дан. - Режим доступаhttp://www-nlpir.nist.gov/projects/tre^

153. Regelson M. Predicting click-through rate using keyword clusters / M. Regel-son, D.Fain // Proceedings of the 2nd Workshop on Sponsored Search Auctions. 2006.

154. Richardson M. Predicting clicks: estimating the click-through rate for new ads / M. Richardson, E. Dominowska, R. Ragno // Proceedings of World Wide Web Conference (WWW'07). -2007. pp. 521-529.

155. Rijsbergen C. J. Information Retrieval / C. J. Rijsbergen.- Glasgow: Dept. of Computer Science. University of Glasgow, 1979. 147 p.

156. Saham M. A Web-based Kernel Function for Matching Short Text Snippets / M. Saham, T.Heilman // A Web-based kernel function for matching short text snippets. In: International Workshop on Learning in Web Search (LWS2005). -2005.-pp. 2-9.

157. Saham M. A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets / M. Saham, T.Heilman // Proceedings of the 15th international conference on World Wide Web. Edinburgh, Scotland, 2006. - pp. 377-386.

158. Schwartz B. Google Gets Demographic Targeting, But Didn't They Already Have That? / B. Schwartz Электронный ресурс . Электрон, дан. - Режим доступа : http://searchengineland.com/080124-081305.php

159. Search Marketing Still Dominates Online Advertising Электронный ресурс . — Электрон, дан. Режим доступа: http://www.emarketer.com/Arti-cle.aspx?id=l 005890

160. Seracevic Т. Evaluation of evaluation in Information retrieval / T. Seracevic // Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval. Seattle, Washington, USA, 1995.-pp. 138-146.

161. Shanahan J. Online advertising using machine learning / J. Shanahan // NATO MMDSS Work shop. Varese, Italy, 2007. - 172 p.

162. Smarty: Why Use Smarty Электронный ресурс . — Электрон, дан. Режим доступа : http://smarty.net/rightforme.php

163. SourceForge.net: phpMorphy Электронный ресурс . Электрон, дан. -Режим доступа: http://sourceforge.net/projects/phpmorphy

164. Sullivan D. Paid Search Advertising: Google AdWords, Yahoo Search Marketing & Microsoft adCenter / D. Sullivan Электронный ресурс . Электрон. дан. — Режим доступа: http://searchenginewatch.com/show-Page.html?page=2167821

165. Thom J. A Comparison of Evaluation Measures Given How Users Perform on Search Tasks / J.Thom, F. Scholer // Proceedings of Twelfth Australasian Document Computing Symposium (ADCS 2007). — Melbourne, Australia, 2007.-pp. 100-103.

166. Tomlin J. An entropy approach to unintrusive targeted advertising on the Web / J. Tomlin // Proc. WWW9 conference. 2000. - pp.767-774.

167. Turney P.D. Coherent Keyphrase Extraction via Web Mining / P.D. Turney // Proceedings of the 18th International Joint Conference on Artificial Intelligence (IJCAI-03). Acapulco, Mexico, 2003. - P. 434-439.

168. Turney P.D. Learning algorithms for keyphrase extraction. Information Retrieval / P.D. Turney // Information Retrieval. 2000. - Vol. 2, No. 4. - pp. 303-336.

169. Tuzhilin A. The Lane's Gifts v. Google Report / A. Tuzhilin Электронный ресурс . Электрон, дан. - Режим доступа: http://googleblog.blogspot.com/ pd£/TuzhilinReport.pdf

170. Walsh J. MSN PPC Advertising Behavioral and Demographic Targeting: Killer App. or Achilles' Heel? / J. Walsh Электронный ресурс . Электрон, дан. - Режим доступа : http://www.building-ecommerce-websites.com/ arti-cles/msn-ppc-advertising-achilles.php

171. Yahoo договорились с Viacom Электронный ресурс . Электрон, дан. -Режим доступа : http://www.e-generator.ru/news/?newsid=8867

172. Yahoo открывает «Панаму» для партнёров Электронный ресурс . -Электрон, дан. режим доступа: http://www.habrahabr.ru/blog/context/ 14179.html

173. Yahoo!: новый подход к интернет-рекламе Электронный ресурс . -Электрон, дан. — Режим доступа : http://www.seonews.ru/news/ .contextadv/2933/

174. Yih W. Finding Advertising Keywords on Web Pages / W. Yih, J. Goodman, V.Carvalho // Proc. WWW '06 conference. — Edinburgh, Scotland, 2006. — pp. 213-222.

175. Yih W. Improving similarity measures for short segments of text / W. Yih, Ch. Meek // Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence. Vancouver, Canada. AAAI Press, 2007. - pp. 1489-1494.

176. Zend Framework: Documentation Электронный ресурс . Электрон, дан. - Режим доступа: http://tinyurl.com/5caorf

177. Zend Framework: Documentation ZendSearchLucene. Электронный ресурс . - Электрон, дан. - Режим доступа: http://framework.zend.com/ manual/ru/zend.search. lucene.html

178. Zhang W. Query rewriting using active learning / W. Zhang, X.He, B. Rey, R. Jones // SIGIR 2007: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. -Amsterdam, 2007. pp. 853-854.