автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет
Автореферат диссертации по теме "Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет"
На правах рукописи
/^РГ^еесА-'О
ЛЫСЕНКО ДМИТРИЙ СЕРГЕЕВИЧ
МЕТОД ПОИСКОВОЙ ОПТИМИЗАЦИИ ВЕБ-САЙТОВ В РОССИЙСКОМ СЕГМЕНТЕ СЕТИ ИНТЕРНЕТ
Специальность 05.13.15 - Вычислительные машины, комплексы и компьютерные сети
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Москва 2011
^ I '.¡.и- ш\ I
4841575
Работа выполнена в государственном научно-исследовательском институте информационных технологий и телекоммуникаций «Информика» (г. Москва).
Научный руководитель - доктор технических наук, профессор Гридина Елена Георгиевна.
Официальные оппоненты: доктор технических наук, профессор Ретинская Ирина Владимировна;
кандидат технических наук, доцент Королев Денис Александрович.
Ведущая организация - Московский государственный технический университет им. Н.Э. Баумана (г. Москва).
Защита диссертации состоится «19» апреля 2011 г. в 15 часов на заседании диссертационного совета Д 212.133.03, в Московском государственном институте электроники и математики «МИЭМ» по адресу: г. Москва, Б. Трехсвятительский пер., д. 3.
С диссертацией и авторефератом можно ознакомиться в библиотеке Московского государственного института электроники и математики «МИЭМ». Автореферат размещен на сайте ученого совета «МИЭМ» http://sovet.mitme.ru
Автореферат разослан «17» марта 2011 г.
Ученый секретарь диссертационного совета доктор технических наук, профессор
Леохин ЮЛ.
Общая характеристика работы
Актуальность работы
С развитием глобальной сети Интернет и ростом количества документов, размещенных в ней, возникла проблема поиска информации. На сегодняшний день в большинстве случаев ее решают поисковые системы, которые определяют список документов, соответствующих (релевантных) запросу пользователя. Таких документов могут быть миллионы, и задача поисковой системы - расположить найденные документы в порядке убывания релевантности. Процесс упорядочивания документов называется ранжированием.
Релевантность определяется на основе свойств как документа, так и запроса пользователя. Эти свойства называются факторами ранжирования, число их может достигать нескольких сотен. Каждый из факторов вносит свой вклад в формулу ранжирования, которая в ответ на запрос пользователя определяет порядок документов в результатах поиска. Среди этих факторов могут быть, например, наличие слов запроса пользователя в заголовке и тексте документа, география пользователя (результаты поиска для пользователя из Санкт-Петербурга будут отличаться от списка при поиске из Москвы) и множество других.
Рост объемов информации, индексируемый поисковыми системами, порождает постоянное развитие алгоритмов. За последние несколько лет реализовано множество нововведений. Например, поисковые системы научились определять первоисточник документа (для исключения из результата поиска дубликатов), реализовали поиск с учетом региона пользователя и многое другое.
При этом поисковые системы не в состоянии определить качество и достоверность индексируемой информации, в том числе в сфере образования и образовательных ресурсов. На протяжении многих лет ведутся работы по созданию и развитию Федеральной системы информационно-
образовательных ресурсов (далее - ФСИОР). Основными элементами ФСИОР являются: информационная система «Единое окно доступа к ресурсам образовательных порталов» (http://window.edu.ru). Федеральный образовательный портал «Российское образование» (http://edu.ru). Единая коллекция цифровых образовательных ресурсов (http://school-collection.edu.ru). ФСИОР содержит только качественные и достоверные ресурсы сферы образования, которые помогают решать различные задачи в информатизации сферы образования. ФСИОР получает свыше 90% своего пользовательского трафика через поисковые системы, что составляет около 4,5 млн. переходов из поисковых систем ежемесячно (суммарные показатели для http://window.edu.ru. http://edu.ru и http://school-collection.edu.ru на основе данных Liveinternet). При изменении формулы ранжирования поисковой системы меняется релевантность документов, позиции документов ФСИОР в результатах поиска, а, следовательно, и трафик, получаемый через поисковые системы. Важной задачей является не только сохранение текущих показателей трафика, но и его повышение. Поставленную задачу решает поисковая оптимизация - комплекс мер по анализу алгоритмов (формул ранжирования) поисковых систем и повышения релевантности документов запросам пользователей.
Исследование работы поисковых систем и вопросы повышения релевантности документов запросам пользователей проводились В.Д. Байковым, Д.Н. Колисниченко, Н.В. Евдокимовым, И.С. Ашмановым, A.A. Ивановым, A.A. Яковлевым. В них рассматривались факторы, влияющие на ранжирование в поисковых системах. Формулы ранжирования поисковых систем претерпели значительные изменения за последние 2-3 года, и результаты работ вышеперечисленных авторов неактуальны.
Поскольку использование поисковых систем растет и останется таковым в обозримом будущем, проведенные в диссертации исследования являются астуальиыми и имеют важное практическое значение, так как
позволяют увеличить посещаемость ФСИОР путем повышения видимости гю целевым запросам в поисковых системах.
Целыо работы является повышение посещаемости Федеральной системы информационно-образовательных ресурсов по целевым запросам к поисковым системам Рунет.
В качестве исследуемых поисковых систем, для которых производилась оптимизация, были выбраны наиболее популярные и прогрессивные Яндекс (www.vandex.ni) и Google (www.googIe.ru). Исследование остальных известных поисковых систем Рунет неактуально: Aport (www.aport.ru) - развитие прекращено в середине 2000-х годов, Rambler (www.rambler.ru) - развитие также остановлено, рассматривается использование поиска от Google. Портал Мэйл.ру (www.mail.ru) является в первую очередь развлекательным порталом и почтовым сервисом, поисковая система которого вторична, и трафик с Мэйл.ру для ФСИОР составляет менее 3%.
Для достижения цели решены следующие задачи:
- проведен анализ современных поисковых систем, используемых в российском сегменте сети Интернет;
- разработана система факторов, участвующих в формулах ранжирования поисковых систем;
- разработан метод поисковой оптимизации, проведена поисковая оптимизация Единой коллекции цифровых образовательных ресурсов (http://school-collection.edu.ru) и проанализированы ее результаты.
На защиту выносятся:
- результаты анализа современных поисковых систем;
- составление семантического ядра;
- метод поисковой оптимизации;
- реализация метода поисковой оптимизации для образовательного портала Единой коллекции цифровых образовательных ресурсов.
Научная новизна полученных результатов:
- разработка системы факторов, участвующих в формулах ранжирования поисковых систем;
- формирование семантического ядра;
- разработка метода поисковой оптимизации.
Практическая ценность результатов в том, что применение разработанного метода поисковой оптимизации позволяет повышать посещаемость интернет-ресурсов по целевым запросам.
Достоверность и обоснованность результатов диссертации основаны на обобщении и развитии десятилетнего опыта работы в области поисковой оптимизации, позволившего в максимально полном объеме определить набор факторов, участвующих в формулах ранжирования поисковых систем; на положительном опыте в поисковой оптимизации некоммерческих и коммерческих как небольших веб-сайтов, так и крупных порталов.
Методы исследовании
При решении поставленных в диссертации задач применялся метод экспертных оценок, метод шинглов для определения схожести документов.
Реализация и внедрение результатов и следований
Результаты диссертационной работы внедрены и эффективно используются в Федеральном государственном учреждении «Государственный научно-исследовательский институт информационных технологий и телекоммуникаций» (ФГУ ГНИИ ИТТ «Информика»), Петрозаводском государственном университете.
Апробация работы
Основные положения диссертации докладывались на семинарах ФГУ ГНИИ ИТТ «Информика», Международной научно-технической конференции «Проблемы автоматизации и управления в технических системах» (Пенза, 2007), Всероссийской научно-практической конференции «Информационные технологии в образовании и науке» (Москва, 2007),
6
Всероссийской научно-технической конференции «Телематика» (Санкт-Петербург, 2007, 2009), Материалы международной научной конференции IT&T ES (Турция, 2007), Материалы международной научной конференции «Новые информационные технологии и менеджмент качества» (Турция, 2007).
Публикации
Результаты диссертационной работы отражены в восьми опубликованных печатных работах. В том числе опубликованы две статьи в журналах, включенных в перечень ВАК.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав, списка литературы и приложения. Объем диссертации 117 страниц. Работа содержит 31 рисунок, 6 таблиц.
Краткое содержание работы
Во введении обосновывается актуальность темы; цели и задачи исследования; в краткой форме дана общая характеристика работы; показана научная новизна и практическая значимость полученных результатов; содержится перечень задач, решаемых в диссертации; сформулированы основные положения, выносимые на защиту.
В первой главе проведен анализ поисковых систем Рунет. Рассмотрено их устройство, индексирование и хранение информации, а также принципы определения релевантности документов запросам пользователей. Рассмотрены внутренние и внешние группы факторов, участвующих в формулах ранжирования поисковых систем.
Внутренние факторы связаны непосредственно с самим документом -релевантность документа запросу зависит от наличия слов запроса в тексте документа, а также в ключевых HTML-тегах. Описана формула расчета показателя релевантности документа запросу, подобная которой используется в Яндекс.
Внешние факторы определения релевантности связаны с множеством гиперссылок, проиндексированных поисковой системой и указывающих на рассматриваемый документ. Впервые модель ссылочного ранжирования использовалась в поисковой системе Google, и сегодня эта группа факторов является одной из важнейших в определении релевантности документа словам запроса. Речь идет об учете «анкоров» - текстов ссылок на документ с других веб-сайтов (<а href=http://www.edu.ruX)TKpbiToe образование</а> - в примере HTML кода «открытое образование» является анкором). Модель ссылочного ранжирования Google, названная «Page Rank», строится на предположении, что если на веб-сайте № 1, стоит гиперссылка на документ веб-сайта № 2 со словом «образование», то с некоторой долей вероятности можно утверждать, что сайт № 2 посвящен образованию и будет релевантен соответствующему запросу.
Рассмотрены вопросы анализа статистики запросов пользователей, предлагаемых поисковыми системами, для корректного подбора наиболее популярных фраз. Рассмотрены возможности языка поисковых запросов в Яндекс, а также метод шинглов, на основе которого определяется схожесть документов и определяется первоисточник. Рассмотрены вопросы регионального поиска, а также геозависимьте и геонезависимые запросы -запросы, результаты поиска для которых, соответственно, зависят и не зависят от местонахождения пользователя.
Во второй главе определены факторы, используемые поисковыми системами в формулах ранжирования. Их можно разбить на три группы: внутренние, внешние и доверие к веб-сайту.
Для определения факторов и их важности использовался метод экспертных оценок. Он позволил объединить знания экспертов в области поисковой оптимизации для выявления всех возможных факторов, влияющих на релевантность документа запросу, а также важность каждого из них в рамках нормированной шкалы. На первом этапе каждому эксперту предлагается перечислить всевозможные факторы, которые могут
8
участвовать в формуле ранжирования. Применяется так называемый мозговой штурм - один из вариантов экспертного оценивания, при котором можно высказывать любые собственные идеи, но наложено одно очень существенное ограничение - нельзя критиковать идеи других экспертов. В итоге, в процессе высказывания идей получается максимально возможное количество факторов.
На втором этапе происходит анализ факторов, полученных на первом этапе. Каждому эксперту предлагается анкета, содержащая полный список факторов. Устанавливается шкала от 0 до 1 степени важности фактора, шаг принимается равным 0,1. Каждый эксперт высказывает свое мнение по каждому из факторов, полученных на первом шаге в рамке принятой шкалы. Результирующая оценка получается путем вычисления среднего арифметического результатов анализа всех экспертов в нормированной шкале с учетом коэффициента доверия к каждому эксперту. Факторы, важность которых в рамках установленной шкалы получилась равной менее 0.1, исключались.
Вопросы в анкете разделяются на два блока:
1 - вопросы, характеризующие степень доверия к эксперту, его профессиональный уровень.
2 - вопросы, характеризующие важность факторов, участвующих в формуле ранжирования.
Обработка результатов и формирование экспертных оценок осуществляется последовательно, начиная с вопросов Блока 1. По каждому эксперту, по каждому вопросу этой группы в зависимости от номера выбранного ответа из таблицы пересчета выбирается коэффициент, характеризующий степень доверия к этому эксперту, и определяется среднее значение коэффициента доверия по всем вопросам Блока 1 для каждого эксперта К;. В дальнейшем все ответы эксперта умножаются на этот коэффициент.
Вопросы Блока 2 направлены на оценку важности факторов, участвующих в формуле расчета релевантности. Все ответы приводятся к нормированной шкале (от 0.0 до 1.0). Факторы с окончательной оценкой важности менее 0.1 исключаются из окончательного списка.
Оценка важности фактора определяется путем усреднения результатов анкетирования, относящегося к этому фактору с учетом степени доверия к эксперту по всем заполненным анкетам (см. ф. 1).
^ (1) где: рц - коэффициент, который определяется на основании анкет в нормированной шкале (от 0.0 до 1.0), К; - коэффициент доверия к эксперту, N - число экспертов.
В результате обработки оценок экспертов получилось три группы факторов и оценка важности каждого из них. Факторы рассматривались в работе [2].
Внутренние факторы приведены в табл. 1.
Таблица 1
Фактор Оценка
1.Точное вхождение ключевого слово на странице в рамках пассажа 0.9
2. Точное вхождение ключевого слова в тег title 0.9
3. Точное вхождение ключевого слова в тег keywords 0.1
4. Точное вхождение ключевого слова в тег description 0.1
5. Точное вхождение ключевого слова в теги hl-h6 0.7
6. Плотность ключевого слова в тексте страницы - до 5% 0.8
7. Общий объем полезного текста на странице 1000-2000 знаков 0.5
8. Обновление веб-сайта 0.7
9. Выделение ключевого слова жирным шрифтом (теги <strong> или <Ь>) 0.3
10. Точное вхождение ключевого слова в текстах гиперссылок в 0.5
других документах веб-сайта
11. Уникальность документа внутри веб-сайта 0.8
12. Уникальность документа и веб-сайта в целом в Интернег 1.0
13. Корректная работа скриптов 0.6
14. Запрет от индексации избыточных и служебных страниц и разделов 0.8
15. «Понятные» URI-адреса веб-страниц 0.4
16. Вынос java-script и css в отдельные файлы 0.3
17. Главное зеркало для поисковых систем 0.5
Внешние факторы приведены в табл. 2. Таблица 2
Фактор Оценка
1. Анкор (разнообразие, естественность) 1.0
2. Качество донора 0.9
3. Разнообразие анкор-лис га (порог по ключевым словам) 1.0
4. Динамика изменения анкор-листа (порог по приросту) 1.0
Факторы, влияющие на доверие к веб-сайту, приведены в табл. 3. Таблица 3
Фактор Оценка
1. Траст 1.0
2. Возраст домена 0.7
3. Наличие в Яндекс-каталог 0.5
4. Наличие в каталоге ВМОХ 0.5
Основываясь на представлении формулы текстовой релевантности, используемой в Яндекс, а также факторов поисковой оптимизации, конечную формулу расчета релевантности можно представить в виде (см. ф. 2).
КДоы = СИе1(ехг Т йеи^ +Ке!ех1ап21)*Р1*Р2%*Т1ш1 (2) 11
где Relfotai - общая релевантность документа запросу; Reltexl - текстовая релевантность - наличие слов запроса (или его части); Relintcrnai -релевантность внутренних ссылок - наличие слов запроса (или его части) в анкорах гиперссылок на документ с других страниц этого же веб-сайта; Relextemai - релевантность внешних ссылок - наличие слов запроса (или его части) в анкорах (текстах) гиперссылок на документ со страниц других вебсайтов; Fi, Fi, F3 - коэффициенты, понижающие релевантность за поисковый спам; Trust - коэффициент «доверия» к веб-сайту поисковой системой.
Текстовая релевантность может быть представлена в (см. ф. 3).
^pair + W^TOrds+WF£ (3)
где Wsmgie - встречаемость слов в документе (см. ф. 4), Wplir - учет пар слов,
входящих в документ (см. ф. 5), WaMwords - бонус при наличии всех слов
запроса в документе (см. ф. 6), W^ - бонус при «похожести» документа
запросу.
W!JI12b= log(p) *(TFj + 0.2*TTVi (4)
TF
"J'J? _ _
1 TF + kj+ k2 * DocLenghf
Hdr
TF>=--
2 1+Hdi
CF
p=l-exp(-1.5*—)
где Wsmgie - встречаемость слов в документе, TF - число вхождений леммы в документ, DocLength - длина документа в словах, D - число документов в коллекции, CF - число вхождений леммы в коллекцию, Hdr - сумма весов слова за форматирование, k! = 1, fo = 1/350.
WpA=03*(log(Pl)+Iog(p2))'^ (5)
где pi и p2 здесь - p для первого и второго слова пары из слагаемого WSjngie.
watoräs=°.2* 2 log(p.) *0.03Nmiss (6)
где Waiiwolds - бонус, если все слова участвуют в документе, где Nroiss -
количество отсутствующих в документе слов запроса.
Wprf - слагаемое за «похожесть» документов.
По аналогии релевантность внутренних может быть представлена (см.
ф. 7).
Хр
1 ТГ^-к-ЮосЬепнЫ СБ
р=1-ехр(-1.5*—)
где, ТБ - число вхождений леммы в текст анкора ссылки, DocLength -количество слов в анкоре ссылки, к! = 1, к2 = 1/8; СБ - число вхождений слов во все ссылки на документ со всех страниц веб-сайта; Б - общее число ссылок на документ со всех страниц веб-сайта; к - взвешенный индекс цитируемости (вИЦ) документа - вес, документа, рассчитываемый на основе множества внешних ссылок, ссылающихся на него.
Аналогично можно представить релевантность внешних ссылок (см.
ф. 8).
Е-^с^ппа! = + ^'гх^рлг + ^х^аД-.-.-огсЬ""^.^ рг) (8)
Сумма текстовой, внутри- и внешнессылочной релевантности умножается на коэффициенты т.н. «фильтров», которые могут понижать искусственно созданную веб-мастерами релевантность документов:
• Б! = 1, если процент внешних ссылок, включающих слова запроса в анкоре, от общего количества внешних ссылок на страницу не превышает 30%, в противном случае Р| может равняться от 0.01 до 0.9.
• ¥2 = 1, если скорость прироста внешних ссылок на страницу лежит в пределах от 0 до 200% от прироста количества внешних ссылок для сайтов схожей тематики.
• Рз = 0 или Из = 1 - коэффициент «аффилированное™» веб-сайта. В случае определения двух веб-сайтов, как принадлежащих одной компании или организации в результатах поиска по одному запросу будет выводиться только один из двух веб-сайтов, соответственно релевантность другого запросу будет равна 0.
Результат умножается на коэффициент «доверия» к веб-сайту.
В третьей главе рассмотрена поисковая оптимизация веб-сайта -повышение релевантности документа словам запросов пользователей в поисковых системах. Рассмотрены вопросы анализа веб-сайта для подбора ключевых слов на основе статистики поисковых запросов в Яндекс, а также распределения их по страницам. На основе факторов, определенных во второй главе, проводится поисковая оптимизация веб-сайта. Данное положение рассматривалось в работе [3].
При подборе ключевых слов для веб-сайтов необходимо учитывать, что не все запросы пользователей могут привести к желаемому результату. К примеру, по запросу «купить учебник математики» пользователь будет искать информацию об он-лайн магазинах по продаже книг. В случае поисковой оптимизации каталога образовательных ресурсов более подходящим запросом будет «скачать учебник математики» и т.д.
При составлении семантического ядра (списка запросов для поисковой оптимизации) на основании общих запросов («учебник математики», «учебник литературы» и т.д.) составляют расширенный список из многословных запросов:
учебник по математике скачать учебник по математике учебник по математике 5 класс учебник по математике Виленкин и
учебник по литературе учебник по литературе Коровина учебник по литературе Коровиной скачать учебник по литературе
После подбора ключевых слов их необходимо распределить по страницам. Этот вопрос неразрывно связан с возможностью написания текста для страницы, чтобы он был логичным, читаемым, удобным для восприятия
пользователем. Возможна группировка слов, например, по видам услуг, тематикам каталога, т.е. всевозможная каталогизация.
В данном примере необходимо распределить слова на две группы, страницы которых будут содержать информацию об учебных пособиях по математике и, отдельно, по литературе.
После распределения слов по страницам для них необходимо провести внутреннюю оптимизацию.
Тег <title> - вписываем ключевые слова, учитывая, что Яндекс воспринимает 150 символов текста в данном теге, а также то, что содержимое данного тега будет отображаться в результатах поиска в виде ссылки. Соответственно, необходимо сделать содержание лаконичным и в то же время привлекательным для пользователя. Необходимо также избегать простого повтора ключевых слов.
Тег <keywords> - перечисляем все ключевые слова, разделяя их запятой; тег <description> - описание документа - одно предложение, характеризующее содержание страницы; тег <hl> - необходимо вставить наиболее часто запрашиваемые 1-2 ключевых слова.
Основной текст на странице необходимо разбивать на абзацы (тег <р>текст страницы</р>), он должен содержать хотя бы по одному вхождению всех ключевых слов группы.
В конце текста страницы необходимо добавить абзац с текстом об учебных пособиях по литературе со ссылками на соответствующую страницу каталога, а в анкорах использовать соответствующие ключевые слова: Смотрите также раздел с учебниками по литературе Одним из важных параметров достижения высоких позиций в поисковых системах является уникальность текстовой информации, размещенной на страницах веб-сайта. Данное положение рассматривалось в работе [8]. Существуют программы для автоматической проверки текстов на уникальность в поисковых системах. Среди них http://copyscape.сот/, http://www.antiplagiat.ru/. http://advego.ru/plagiatus/.
15
После внутренней оптимизации веб-сайта под выбранные ключевые слова необходимо определить конкуренцию по внешним ссылкам. Проще говоря, оценить, каким количеством ссылок с анкорами в виде ключевых слов обладают веб-сайты, занимающие позиции на первой странице результатов поиска. Задача заключается в том, чтобы найти как можно больше ссылок на веб-сайты из первой десятки Яндекс и среди всей ссылочной массы подсчитать количество анкоров, которые содержат ключевое слово.
Решение на сегодняшний день выглядит следующим образом: внешние ссылки можно посмотреть через поисковые системы Yahoo, Altavista и Alexa. Необходимо отметить, что поисковая система Yahoo, которая находит большую часть ссылок, показывает максимум 1000 найденных ссылок. Поэтому при анализе высоко конкурентных запросов необходимо учитывать этот факт. Вышеперечисленные поисковые системы индексируют Рунет медленней, чем Яндекс, поэтому для большей точности следует умножить количество анкоров на 2-3, и мы получим приблизительное количество ссылок с нужным анкором, которое необходимо проставить на оптимизированную страницу нашего веб-сайта для попадания в десятку.
В качестве сайтов-доноров для размещения ссылок можно использовать дружественные, партнерские ресурсы. Для попадания на первые страницы результатов поиска требуется от одной до нескольких тысяч внешних ссылок, поэтому найти такое количество дружественных вебсайтов невозможно. Тогда необходимо воспользоваться размещением ссылок на платной основе. Наилучший вариант покупки ссылок на сегодняшний день - это размещение ссылок «навсегда», т.е. размещение оплачивается один раз, и веб-мастер или система, через которую куплена ссылка, гарантирует ее размещение на время существования сайта-донора.
При размещении внешних ссылок необходимо делать это как можно более естественно, т.е. прирост ссылочной массы должен быть равномерным.
В случае проведения поисковой оптимизации веб-сайта, расположенного на новом домене, необходимо размещать не более 50-100 внешних ссылок ежемесячно в течение первых 3-4 месяцев. Затем можно размещать до 30% от количества уже проиндексированных ссылок в каждый последующий месяц. Если проводится поисковая оптимизация веб-сайта, уже имеющего ссылочную массу, то допустимо размещать до 30% от общего количества уже проиндексированных ссылок в каждый месяц.
В четвертой главе рассмотрена поисковая оптимизация веб-сайта Единой коллекции образовательных ресурсов (http://school-collection.edu.ru).
Необходимость в поисковой оптимизации портала возникла в 2008 году после анализа источников посетителей. Количество поискового трафика могло быть существенно увеличено.
Свыше 80% трафика портала в 2008 году составляли переходы из поисковых систем. Количество переходов на сентябрь 2008 года с Яндекс и Google составляло 137 тыс. в месяц с каждой из поисковых систем.
Анализируя структуру портала, целевую аудиторию, а также запросы, по которым возможно получение трафика из поисковых систем, было принято решение - для поисковой оптимизации подбирать не высокочастотные общие запросы («образование», «обучение» и т.д.), а сосредоточиться на поисковой оптимизации каталога образовательных ресурсов, который является главной ценностью портала. Целевыми запросами каталога являются названия учебной литературы, а также отдельные главы и темы учебников («причастный оборот», «наука о человеке», «теорема Пифагора» и др.).
Была поставлена задача оптимизации внутренних страниц и ссылочной структуры под поисковые запросы.
В ходе анализа текущей поисковой оптимизации были выявлены ошибки в HTML-коде страниц, недостаточное наполнение важных тегов ключевыми словами, некорректная ссылочная структура внутри портала, а
также индексация большого числа служебных документов, не представляющих никакой ценности для поисковой системы.
Количество внешних ссылок, найденное через поисковые системы Yahoo, Altavista и Alexa, было равным 600. Все ссылки были естественными, т.е. пользователи проставляли их добровольно, и не было замечено никаких покупных ссылок через различные биржи. Все ссылки имели разнообразные анкоры. Около 50% из них ссылались на главную страницу, остальные - на различные внутренние страницы. Сайт имел большое количество внешних ссылок с главных страниц и в совокупности с перечисленным обладал достаточным трастом с точки зрения поисковых систем.
Дополнительной ссылочной массы для оптимизации страниц каталога по целевым запросам не требовалось.
Исходя из поставленных задач поисковой оптимизации страниц каталога Единой коллекции образовательных ресурсов были внесены изменения в «движок» портала. Ключевые слова каждой страницы прописаны в тегах <title> и <hl>, тексты страниц были проверены на уникальность. Данные положения рассматривались в работах [1,4, 5, 6, 7].
В результате комплекса работ по поисковой оптимизации посещаемость портала в сентябре 2010 года составила 782 000 посетителей месяц, т.е. в 6,1 раза больше, чем в 2008 году:
Трафик с Яндекс увеличился в 4,1 раз (со 137 тыс. до 569), с Google - в 3 раза (с 137 тыс. до 414 тыс.).
Если рассматривать точки входа, т.е. страницы, на которые попадают пользователи при переходе на портал, то значительно возросло количество страниц каталога (страницы начинаются с '/catalog/').
В приложениях представлены опросные анкеты экспертов для определения факторов, влияющих на ранжирование.
Основные результаты работы
К основным результатам, полученным в диссертационной работе, относятся:
1. Результаты анализа поисковых систем Рунет, позволяющие определить основные принципы ранжирования документов.
2. Результаты анализа подходов при определении релевантности текстовых документов, а также определение ссылочной релевантности, позволившие выявить основные принципы ранжирования результатов поиска.
3. Полученная система факторов, участвующих в формулах ранжирования поисковых систем, на основе метода экспертных оценок. Для каждого фактора определена важность в рамках шкалы от 0 до 1 с шагом 0,1.
4. Разработанный метод поисковой оптимизации на основе факторов, участвующих в формулах ранжирования поисковых систем, позволяющий повышать посещаемость веб-сайтов.
5. Применение предложенного в диссертации метода для проведения поисковой оптимизации веб-сайта Единой коллекции образовательных ресурсов, который позволил повысить посещаемость Единой коллекции образовательных ресурсов в 6 раз.
Публикации
1. Гридина Е.Г., Лысенко Д.С. Использование поисковых систем для увеличения посещаемости федеральной системы информационно-образовательных ресурсов // Научно-практический журнал «Открытое образование» № 3, 2009. - с. 43 - 48.
2. Гридина Е.Г., Лысенко Д.С. Факторы формул ранжирования поисковых систем Яндекс и Google // Журнал «Качество. Инновации. Образование» № 3, 2011. - с. 35 -41.
3. Лысенко Д.С. Разработка автоматизированной системы создания Интернет представительства организации / Проблемы автоматизации и управления в технических системах: труды Международной научно-
технической конференции / под ред. д.т.н. проф. Щербакова М.А. - Пенза: Информационно-издательский центр ПГУ, 2007. - с. 187 - 190.
4. Лысенко Д.С., Блажнов Э.Е., Булакина М.Б. Повышение посещаемости федерального портала «Российское образование» через поисковую систему Яндекс // Материалы Всероссийской научно-практической конференции «Информационные технологии в образовании и науке», ч. 1. - М.: МФА, 2007. - с. 54 - 57.
5. Булакина М.Б., Лысенко Д.С., Чайников Ю.С. Увеличение посещаемости портала «Российское образование» на основе анализа поисковых запросов // Труды XIV Всероссийской научно-технической конференции «Телематика 2007». - СПб., 2007. - с. 366 - 369.
6. Лысенко Д.С., Блажнов Э.Е., Булакина М.Б. Поисковая оптимизация Федерального портала «Российское образование» // Информационные технологии и телекоммуникации в науке и образовании (1Т&Т Е8'2007). Материалы международной научной конференции. Редкол.: Тихонов А.Н. (пред.) и др. ФГУ ГНИИ ИТТ «Информика». - М.: ЭГРИ, 2007. - с. 17-19.
7. Лысенко Д.С., Блажнов Э.Е., Булакина М.Б. Повышение посещаемости федерального портала «Российское образование» через поисковую систему Яндекс // Материалы Всероссийской научно-практической конференции «Информационные технологии в образовании и науке», ч. 1. - М.: МФА, 2007. - с. 54-57.
8. Лысенко Д.С. Увеличение посещаемости федеральных образовательных порталов www.edu.ru и school-collection.edu.ru через поисковую систему Яндекс путем уникализации документов // Материалы международной научной конференции «Новые информационные технологии и менеджмент качества», Турция, 2009. - с. 18.
Автореферат
Подписано в печать 16.03.2011 г. Формат 60x84/16. Усл. печ. л. 1,16. Уч. изд. л. 1,2. Тираж 100 экз. Заказ № 100.
Отпечатано в ФГУ ГНИИ ИТТ «Информика» г. Москва, Брюсов пер. 21, стр.2
Оглавление автор диссертации — кандидата технических наук Лысенко, Дмитрий Сергеевич
Введение.
Глава 1. Обзор и анализ поисковых систем российского Интернет.
1.1. Понятие, характеристики и устройство поисковой системы.
1.2. Поисковые системы Рунет.
1.3. Яндекс.
1.4. Google.,.
1.5. Выводы.
Глава 2. Определение факторов, участвующих в формуле ранжирования.
2.1. Группы факторов, влияющих на релевантность.
2.2. Определение факторов, участвующих в формуле ранжирования, методом экспертных оценок.
2.3. Выводы.
Глава 3. Метод поисковой оптимизации.
3.1. Составление семантического ядра.
3.2. Распределение ключевых слов по страницам.
3.3. Внутренняя оптимизация.
3.4. Указание главного зеркала, настройки скриптов.
3.5. Определение внешне-ссылочной конкуренции.
3.6. Источники внешних ссылок.
3.7. Выводы.
Глава 4. Поисковая оптимизация веб-сайта единой коллекции образовательных ресурсов (http://school-collection.edu.ru/).
4.1. Анализ источников посетителей и постановка задачи поисковой оптимизации портала.
4.2. Анализ текущей оптимизации портала.
4.3. Оптимизация портала.
4.4. Результаты работ по оптимизации портала.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Лысенко, Дмитрий Сергеевич
Актуальность работы
С развитием глобальной сети Интернет и ростом количества документов, размещенных в ней, возникла проблема поиска информации. На сегодняшний день в большинстве случаев ее решают поисковые системы [21], которые определяют список документов, соответствующих (релевантных) запросу пользователя. Таких документов могут быть миллионы, и задача поисковой системы - расположить найденные документы в порядке убывания релевантности. Процесс упорядочивания документов называется ранжированием.
Релевантность определяется на основе свойств как документа, так и запроса пользователя. Эти свойства называются факторами ранжирования, число их может достигать нескольких сотен. Каждый из факторов вносит свой вклад в формулу ранжирования, которая в ответ на запрос пользователя определяет порядок документов в результатах поиска. Среди этих факторов могут быть, например, наличие слов запроса пользователя в заголовке и тексте документа, география пользователя (результаты поиска для пользователя из Санкт-Петербурга будут отличаться от списка при поиске из Москвы) и множество других.
Рост объемов информации, индексируемый поисковыми системами, порождает постоянное развитие алгоритмов. За последние несколько лет реализовано множество нововведений. Например, поисковые системы [28] научились определять первоисточник документа (для исключения из результата поиска дубликатов), реализовали поиск с учетом региона пользователя и многое другое.
При этом поисковые системы не в состоянии определить качество и достоверность индексируемой информации, в том числе в сфере образования и образовательных ресурсов. На протяжении многих лет ведутся работы по созданию и развитию Федеральной системы информационно-образовательных ресурсов (далее - ФСИОР). Основными элементами ФСИОР являются: информационная система «Единое окно доступа к ресурсам образовательных порталов» (http://window.edu.ru')., Федеральный образовательный портал «Российское образование» (http://edu.ru). Единая коллекция цифровых образовательных ресурсов (http://school-collection.edu.ru). ФСИОР содержит только качественные и достоверные образовательные ресурсы, которые помогают решать различные задачи в информатизации сферы образования. ФСИОР получает свыше 90% своего пользовательского трафика через поисковые системы, что составляет около 4,5 млн. переходов из поисковых систем ежемесячно (суммарные показатели для http://window.edu.ru, http://edu.ru и http://school-collection.edu.Ri на основе данных Liveinternet). При изменении формулы ранжирования поисковой системы меняется релевантность документов, позиции документов ФСИОР в результатах поиска, а, следовательно, и трафик, получаемый через поисковые системы. Важной задачей является не только сохранение текущих показателей трафика, но и его повышение [5, 6, 24]. Поставленную задачу решает поисковая оптимизация [1] - комплекс мер по анализу алгоритмов (формул ранжирования) поисковых систем и повышения релевантности документов запросам пользователей [30, 26].
Исследование работы поисковых систем [18, 31] и вопросы повышения релевантности документов запросам пользователей проводились В. Д. Байковым [3], Д.Н. Колисниченко, Н.В. Евдокимовым [11, 12, 13], И.С.Ашмановым [2], A.A. Ивановым, A.A. Яковлевым [42, 43] и другими авторами [32, 40, 41]. В них рассматривались факторы, влияющие на ранжирование в поисковых системах. Формулы ранжирования поисковых систем претерпели значительные изменения за последние 2-3 года, и результаты работ вышеперечисленных авторов неактуальны.
Поскольку использование поисковых систем растет и останется таковым в обозримом будущем, проведенные в диссертации исследования 5 являются актуальными и имеют важное практическое значение, так как позволяют увеличить посещаемость ФСИОР путем повышения видимости по целевым запросам в поисковых системах [23].
Целью работы является повышение посещаемости Федеральной системы информационно-образовательных ресурсов по целевым запросам к поисковым системам Рунет.
В качестве исследуемых поисковых систем, для которых производилась оптимизация, были выбраны наиболее популярные и прогрессивные Яндекс (www.yandex.ru) и Google (www.Roogle.ru). Исследование остальных известных поисковых систем Рунет неактуально: Aport fwww.aport.ru) - развитие прекращено в середине 2000-х годов, Rambler (www.rambler.ru) - развитие также остановлено, рассматривается использование поиска от Google. Портал Мэйл.ру (www.mail.ru) является в первую очередь развлекательным порталом и почтовым сервисом, поисковая система которого вторична, и трафик с Мэйл.ру для ФСИОР составляет менее 3%. , .
Для достижения цели решены следующие задачи:
- проведен анализ современных поисковых систем, используемых в российском сегменте сети Интернет;
- разработана система факторов, участвующих в формулах ранжирования поисковых систем;
- разработан метод поисковой оптимизации, проведена поисковая оптимизация Единой коллекции цифровых образовательных ресурсов (http://school-collection.edu.ru) и проанализированы ее результаты.
На защиту выносятся: |
- результаты анализа современных поисковых систем;
- составление семантического ядра;
- метод поисковой оптимизации;
- реализация метода поисковой оптимизации для образовательного портала
Единой коллекции цифровых образовательных ресурсов. 6
Научная новизна полученных результатов заключается в следующем:
- разработке системы факторов, участвующих в формулах ранжирования поисковых систем;
- формировании семантического ядра;
- разработке метода поисковой оптимизации.
Практическая ценность результатов в том, что применение разработанного метода поисковой оптимизации позволяет повышать посещаемость интернет-ресурсов по целевым запросам.
Достоверность и обоснованность результатов диссертации основаны на обобщении и развитии десятилетнего опыта работы в области поисковой оптимизации, позволившего в максимально полном объеме определить набор факторов, участвующих в формулах ранжирования поисковых систем; на положительном опыте в поисковой оптимизации некоммерческих и коммерческих как небольших веб-сайтов, так и крупных порталов.
Методы исследований
При решении поставленных.в .диссертации задач применялся метод экспертных оценок, метод шинглов для определения схожести документов. Реализация и внедрение результатов исследований Результаты диссертационной работы внедрены и эффективно используются в Федеральном государственном учреждении «Государственный научно-исследовательский институт информационных технологий и телекоммуникаций» (ФГУ ГНИИ ИТТ «Информика»), Петрозаводском государственном университете. Апробация работы
Основные положения диссертации докладывались на семинарах ФГУ
ГНИИ ИТТ «Информика», Международной научно-технической конференции «Проблемы автоматизации и управления в технических системах» (Пенза, 2007), Всероссийской научно-практической конференции 7
Информационные технологии в образовании и науке» (Москва, 2007), Всероссийской научно-технической конференции «Телематика» (Санкт-Петербург, 2007, 2009), Материалы международной научной конференции 1Т&Т ЕБ (Турция, 2007), Материалы международной научной конференции «Новые информационные технологии и менеджмент качества» (Турция, 2007).
Публикации
Результаты диссертационной работы отражены в восьми опубликованных печатных работах. В том числе есть две статьи в журналах, включенных в перечень ВАК.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав, списка литературы и приложения. Объем диссертации - 117 страниц. Работа содержит 31 рисунок, 6 таблиц.
Заключение диссертация на тему "Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет"
3.7. Выводы
В третьей главе описаны этапы проведения поисковой оптимизации веб-сайта: от составления семантического ядра, оптимизации текстов и структуры до определения внешнессылочной конкуренции и наращивания ссылочной массы.
Глава 4. Поисковая оптимизация веб-сайта Единой коллекции образовательных ресурсов (http://school-collection.edu.гиЛ
Практическая реализация работы представлена поисковой оптимизацией веб-сайта «Единой коллекции образовательных ресурсов». Необходимость в поисковой оптимизации портала возникла в 2008 году после анализа источников посетителей - количество поискового трафика могло быть существенно увеличено [19].
4.1. Анализ источников посетителей и постановка задачи поисковой оптимизации портала
Свыше 80% трафика портала (рис. 4.1) в 2008 году составляли переходы из поисковых систем. Количество переходов на сентябрь 2008 года с Яндекс и Google составляло 137 тыс. в месяц с каждой из них.
• «}•. rschool-colecöan.edy.iit' Пдаекз Вид ИЛ*«»*13* Сервис Справка t.дина»*аплвхч*я Цифровых Обрмюмтелных Р. . i :5Й >5: .: ix >:
СЯШ
--.--■.: J:. .•.'„•; .-ic.
Vi'MSM-^.V.A ivSCili i
0обрес>»кы>:олп9«гцим лрзднэзяочены только .аяя • ■ ь-ятемм^всхогс игпзль здания s эдтеыв oCpaJcesHw Р&с£ийсхсй ^föm'« шт лх 1 i л
• . ::■;■ •;•:• . ЗЗйЙ шшшшшшшшшшшш i i'i&X&iS.
JJJJ ,ч •• i 5; vitvw * • !'л-1А jj'JJ. »WX'li'Xv Ж
Э&Ю хЖр-А : '52016
Л*нтв нзкостей.'::::: ;■;'::,•>::. « 10.20 № ••.
1« " 0.201 е
Лейта rtot^TSli: :::::::: -у
И .103010
Рис. 4.1. Портал Единая коллекция образовательных ресурсов
По результатам анализа структуры портала, целевой аудитории, а также запросов, по которым возможно получение дополнительного трафика из поисковых систем, было принято решение подбирать не высокочастотные и общие запросы («образование», «обучение» и т.д.), а сосредоточиться на поисковой оптимизации каталога образовательных ресурсов, который является главной ценностью портала. Целевыми запросам каталога являются названия учебной литературы, а также отдельные главы и темы учебников («причастный оборот», «науки о человеке», «теорема Пифагора» и др.).
Была поставлена задача оптимизации внутренних страниц и внутренней ссылочной структуры под поисковые запросы [15].
4.2. Анализ текущей оптимизации портала
В ходе анализа текущую структуру портала были выявлены недостатки в HTML-коде страниц. На страницах с карточками цифровых образовательных ресурсов отсутствовали ключевые слова в важных для поисковых систем тегах. Поисковым роботом Яндекс было проиндексировано около 25 тыс. страниц, часть из которых являлась версиями для печати страниц. Такие страницы не содержат уникальной информации для поисковой системы, т.к. являются дубликатами с отсутствующими элементами дизайна.
В ходе анализа структуры внутренних гиперссылок было установлено, что портал содержит порядка 26 тыс. страниц в форматах, индексируемых поисковыми системами. Большая часть страниц портала создана в формате HTML (около 70%), остальные 30% составляли документы в форматах Microsoft Word, Adobe PDF, Microsoft Excel, а также ряд мультимедийных форматов.
В ходе анализа уникальности текстовых документов с помощью программы Advego Plagiatus fhttp://adve go.ru/plagiatus/) было установлено, что документов с уникальностью 90% и выше на портале около 70% от общего числа. Уникальность остальных документов находилась в пределах от 30 до 89%. Высокий процент неуникальных документов обусловлен тем, что цифровые образовательные ресурсы содержат множество учебных материалов (теоремы, правило, леммы и т.д.), текст которых не может быть подвержен изменениям. Аналогичная ситуация существует среди юридических порталов и веб-сайтов, которые содержат множество нормативных документов.
В данном случае существует два варианта решения проблемы. В первом случае, если веб-сайт обладает большим уровнем доверия с точки зрения поисковой системы, можно размещать неуникальные документы без изменений. Но при этом общий прирост неуникальных документов, по сравнению с приростом уникальных, должен находиться в соотношении один к двум, и более. Второй вариант решения проблемы состоит в написании уникальных комментариев или пояснений к текстам этих документов. Таким образом, повышается общая уникальность страницы.
Для выбора варианта необходимо определить два параметра: примерное соотношение уникальных документов к заимствованным, а также, что наиболее важно, процент индексации веб-сайта. К примеру, веб-сайт имеет 1000 страниц, разрешенных для индексации, а в базе поисковой системы хранится всего 400. Низкий процент индексации (менее 90%) в течение 1-2 месяцев после размещения документов на веб-сайте может говорить о том, что поисковый робот игнорирует неуникальные документы.
Процент индексации страниц портала «Единой коллекции образовательных ресурсов» поисковыми системами превышал 90%, и дополнительного придания уникальности документам не требовалось.
В структуру внутренних гиперссылок портала также должны быть внесены изменения. Анкоры содержали недостаточное количество ключевых слов, поэтому страницы-доноры передавали акцепторам меньшую релевантность. При рассмотрении множества внутренних ссылок на отдельно взятую страницу был выявлен большой процент ссылок с одинаковыми анкорами, что также понижало релевантность.
98
Количество внешних ссылок, найденное через поисковые системы Yahoo, Altavista и Alexa, было равным 600 [37]. Все ссылки были естественными, т.е. пользователи проставляли их добровольно, и не было замечено купленных через биржи ссылок. Все ссылки имели разнообразные анкоры (рис 4.2), около 50% из них ссылались на главную, остальные - на различные внутренние страницы. Сайт имел большое количество внешних ссылок с главных страниц и в совокупности всего перечисленного обладал достаточным уровнем доверия с точки зрения поисковых систем.
3.&ГЙЙГН¡Xisxsmxt. 61 www, seddnovo.prûlirn.ru 1 ЦОР http://www. schod-cokchon edu. ru и www.Qomulina.orc, ru/index t,htnj t ЦОР. Коллекция интерактивных эадангй rio фиэике http.//schod<ciectk)n.edu.ru/cafcalog/rub/ïbûl 1676-Ьв57 2653^1 144M99W
63 www.opercla5S.ru/communiticsyS3469 2 Едиюй коллекции цифровых обраэсеателы*>к ресурсов http://schcxil-colectinn.edu.ru/
64 www. 5 t .nj/hewt/pr essreise.)sp?ttl=74fi 2 hthp://school-c olectior.edu.ru/ http://school-rnlectDn.edii.ru/
65 pedsovet .org/content/v»w/28U4/443/ 2 http://schoot-coeecdor.edu.ru/ http://school-colec,r)n.edu.ru/ 66 lhip.su ~2 n/t http://cchooi-colection.edu.ru/ 67 www.nguo.ru 2 Единая коллекция цифровых обраооеательнь» ресурсов http://school-colection.edu.ru/ 66 schod3.strel.tsu.ru 1 п/а
69 metodist .bz. ru/lecttons/ 1 сайте hittp://www school-coBection.edu ju/ 70 gim2.ru 1 пД http://school-colectlon.edu.ru/
А 71 eng.ntf.ru l "А http://schooi-colectlon.edu.ru/
9 72 7thschool.ru X Единая коллекция цифровых образовательны* ресурсов http://school-colection.e0J.ru/ 73 www.tlkay.ru 1 Ед иная коллекция Цифровых Образовательных Ресурсов httpr//school-colecrion.edu.ru/ 74 denttra.znaet.ru 1 n/ten/t http://school-colection.edu.ru/ • http://schaol-cofledon.edu.ru;
7S reoeckn. tambor.ivi'piv/obr«i/ 1 пД http://sthool-«iection,edu.ru/
76 www.radmuseumart.ai/pages/irdex.asp?)dpag. 4 «А . http://schod-cd^t fcn.edu.ru/cataiogAufr/b0^3cf*6^
77 www.buicfc.samochodifa.rif o/ru/%D04WA%Oa. 1. лЦ .
76 www.ed.gov.ru/edusupp/rformedu/3505/ 3 Относительность деления элементов na металлы и неметаллы, • П. http://schoobcolection.edu.ru/dirstore/0ab8fl79-4ie5-l Idb-b0de-(»u020üc9a66/x9l
79 1еййй.ги/|П(кХ.^/%С<ГУ.92%00%ве%00%. 2 http; //schooi-coüecbon .edu.ru http://schooi-colectlop.edu.ru/
60 www.lmuxcenCer.ru/news/2OlÖ/Ö$/O6/l0e30/ l стандарту ЦОР • Ед»*юй коллекции ЦОР http://schooi-coledlon.edu.ru/deve(op/cor/spec/ • http://sdvjol-colection.edu.ru/
Cl wo.me/PJarX"ja 1 п/а
62 www.youtube.com/watch7v-Eua2S7RWbEs 2 http://schooi-calectlon.edu.rU/catal.w http://sct»ol-cblectton.edu.ru/catalog/res/2cccc07d-b0ee-42e2-e667-c86fbe2747et/'g
83 sltos.google com/sKe/dpoamursfc/ 2 Коллекция ЦОР http://school-colectlon,edu.ru/ 84 «йс.ЭсКги 2 Единая коллекция ЦОР http;//sdiool -col 6cti0n.eou.ru/ SS ■nc.rfcc-74.ru 3- подробнее • шдробнве « подрпбмее » подробнее http://sdxxrf-cciection.edij.ru/fwws/edu/2069/ • http://school-cglectnn.edü,ru/news/« $ 86 wwwjrmloro ru 2 ЦИОР http://school-colectEin.edu.ru/ 87 www.profil.3drt.ru 1 Ед»4чая коллекция Цифровых Обра зова re льны х Ресурсов http://schooi-ColectKm.edu.riV 88 u7a.0penet.ru 2 рД • Единая коллекция цифровых образовательных ресурсов http://schooi-col ectoi.edu.ru/ • http//schgci-c ofection.edu. ru/ 89 0br.lc.ru/catal0g.1spPaux-15 7 www.«bool-cofectton.eAj.nj http://www. schooi-cofectiOn.eAj.ru/
------- i
ШЦМСУК« 1^<и».Яки«.><«Т«><«. вОЯЬЗФ.эеп««:::*.':
НЛ«» «иное сгаюыил -<тка**х »Лиа«с.<»т»погв-о.
•оивйга-о.саотж с .айн» — КО, с • »шкс.К.М'яге—С.
Рис. 4.2. Внешние ссылки единой коллекции образовательных ресурсов
С учётом всего этого дополнительной ссылочной массы для оптимизации страниц каталога по целевым запросам не требовалось. Была поставлена задача повышения текстовой и внутриссылочной релевантности (см. ф. 2.2).
4.3. Оптимизация портала
Исходя из поставленных задач поисковой оптимизации страниц портала единой коллекции образовательных ресурсов были внесены изменения в программный код портала [22]. Ключевые слова каждой страницы прописаны в тегах <Ш1е> и <Ы>. В результате т.н. «карточка ресурса» в оптимизированном виде, рис. 4.3:
3 <»*» - Г юлоо« и сбшество. О6ще<тео»«ние. Икпас . | I Сто»«»« 6г>оо»лХ1». Ся 111
• ^мвчкодс*. .ЛУ м-*::*-; гданаф?:.»'* ул <*•«
•■ С' '-*.-:'.
-.- V: у.'уЛу.ъУ* су. у^у'.у:"** ысашз нгйгл с Ж йюмтжяи •■
БС
-¿Ыитсичм«». 13 кяга Стьян Е -г Су.и^яд >С.Г.
334
Рис. 4.3. Оптимизация карточек ресурсов портала
До проведения оптимизации документа ключевое слово «Человек и общество» было употреблено на странице один раз и не использовалось в тегах, которые дают бонус за форматирование (см. ф. 2.4)
4.4. Результаты работ по оптимизации портала
В результате комплекса работ по поисковой оптимизации посещаемость портала в сентябре 2010 года составила 782 ООО посетителей месяц, т.е. в 6,1 раза больше, чем в 2008 году, рис. 4.4:
Трафик с Яндекс увеличился в 4,1 раз (со 137 тыс. до 569), с Google - в
3 раза
Рис. 4.5. Переходы из поисковых систем с 137 тыс. до 414 тыс.), рис. 4.5:
Если рассматривать точки входа, т.е. страницы, на которые попадают пользователи при переходе на портал, то значительно возросло количество страниц каталога (страницы начинаются с '/catalog/'), рис. 4.6: отчет: тводгахвА» на сайт r; ^ ги» месяцам сгкгяЗгь2 21 Cr asrycT 2 Д1С г. E CpS^r -a 3 «es>
Щ .1 . . . . . ■58,96* ■4- Ь5.1с1 S.-»¿ 25.42.0 5
Р cata:cs< 8,344 Sis 1521- ; ? ш SJt
W cata ац!ъЪт:т&2\ S-ScaS-1 i а а-а?2в-С?-С. t.SIS :Л J «t 0.3 íí í SJ-? 3 щ 5.145 3 1. 3 3% 2.445 5 г сага :с вй-м bttäf 53721S-55 а£-11 i а-а?2 5-525 3 1 Sc Л У '! 1.875 J
4.Ш 3 45*. S6S 3 -t« 1.SS4 3
Р caí а ф Sí'ri. S-í 5 -4¿S- 31 -a=4 ., 2¿S 0 "!•* 1.41? o 34 i cata k> з?П» tifi?5á&e ea3-J-a2 sc-í a 3c-Sb4&-ü5 5. 3,783 151 З.Г?£ 1 31? Л f caíass^üu« 3 1.1 IS ^. • ii 1 731 Л J f. cata ® s 'Yü f? 2 1С -11 a a -a * 2 s -C 2 С., 5.2S2 3 £ OOí: 1.125 3 —H j.ise Л V 3% чс 5 í,v
V-, 154 2 a* 25? 3 1.254 cata io afryerí SfSs 7210-5£ас-11 o з-з72з-СоС . 2.974 3 J^s 1*1 3.1^ 1.102 0 г 2.9V4 n V 21; 8£5 O.f'i 1.429 у*** Í cata»otráWa-500§S8&-¿fc:8c-11 áfc-cí 55-820. ■ч je ¡* a. v'C"^ vi л f«' 34% i } ¿«ív 5 г cata:« ¡*®fStf721С í 5 a -5 72 íj-CS 0. 2.522 3 3% Л 0.3?-. 3 ZH г cata le aMiferíSdáS 1 af2 Ss-dOSö-Га 1. . 2.73« 3 3*<j ¿•S3 3 2=* i.1 í2 ^ casa»üfru&sBSíH277£-á?b5~ct<c;-ai ía-8ca . 254! 0 í-rt 1.515: J 2%
Г- cataicí-^twSfSo?210-гва€-11ca-s72í>-GSS . 2.4*4 10 3 522 3 caía la о- ^с.<-"зе22а cr-Sa С1 -С t52-012; -sä«. 2.554 3 2*4 211 3 S22 3 cata icSíVíAr? a21«ác$3-aa«4-4SaS-aáSS-254 . 2,533 3 с л с 3.2% ST*5 3
Рис. 4.6. Точки входа
Сравнивая количества переходов на страницы каталога портала в сентябре 2008 и 2010 года из результатов поиска Яндекс и Google, получим, что данные показатели возросли более, чем в 3 и 1,5 раза соответственно.
На основе этого можно сделать вывод о правильной постановке задачи поисковой оптимизации, которая подразумевала повышение релевантности по низко- и среднечастотным запросам пользователей в поисковых системах. Данный метод отлично подходит для оптимизации веб-сайтов и порталов, содержащих большое количество документов (от 1000). Для веб-сайтов с небольшим количеством страниц выбирают чаще средне- и высокочастотные запросы, которые обеспечат больший трафик.
Заключение
В диссертационной работе на основе метода экспертных оценок поставлена и решена задача определения факторов, влияющих на ранжирование.
К основным результатам, полученным в диссертационной работе, относятся:
1. Результаты анализа поисковых систем Рунет, позволяющие определить основные принципы ранжирования документов.
2. Результаты анализа подходов при определении релевантности текстовых документов, а также определение ссылочной релевантности, позволивших выявить основные принципы ранжирования результатов поиска.
3. Полученная система критериев, участвующих в формулах ранжирования поисковых систем, на основе метода экспертных оценок. Для каждого критерия определена важность в рамках шкалы от 0 до 1 с шагом 0,1.
4. Разработанный метод поисковой оптимизации на основе факторов, участвующих в формулах ранжирования поисковых систем, позволяющего повышать посещаемость веб-сайтов.
5. Применение предложенного в диссертации метода для проведения поисковой оптимизации веб-сайта Единой коллекции образовательных ресурсов, который позволил повысить посещаемость Единой коллекции образовательный ресурсов в 6 раз.
Библиография Лысенко, Дмитрий Сергеевич, диссертация по теме Вычислительные машины и системы
1. Ашманов И.С., Иванов A.A. Продвижение сайта в поисковых системах. М. : Вильяме, 2007. - 304 с.
2. Ашманов И.С., Иванов A.A. Оптимизация и продвижение сайтов в поисковых системах. СПб. : Питер, 2009. - 400 с.
3. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов. — СПб. : БХВ-Петербург, 2000. 288 с.
4. Бенкен Е. PHP, MySQL, XML. Программирование для Интернета. -СПб. : БХВ-Петербург, 2007. 336 с.
5. Булакина М.Б., Лысенко Д.С., Чайников Ю.С. Увеличение посещаемости портала «Российское образование» на основе анализа поисковых запросов // Труды XIV Всероссийской научноIтехнической конференции «Телематика 2007». СПб., 2007. - с. 366 -369.
6. Гридина Е.Г., Лысенко Д.С. Использование поисковых систем для увеличения посещаемости федеральной системы информационно-образовательных ресурсов // Научно-практический журнал «Открытое образование» № 3, 2009. с. 43 - 48.
7. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска: дис. . канд. физ.-мат. наук: 05.13.11.-СПб., 2005.
8. Гусев B.C. Аналитика веб-сайтов. Использование аналитических инструментов для продвижения в Интернет. М.: Диалектика, Вильяме, 2008. - 176 с.
9. Дамашке Г. PHP и MySQL = PHP & MySQL. М.: НТ Пресс, 2008.320 с.
10. Дорнфест Р., Бош П., Калишейн Т. Секреты Google. Трюки и тонкая настройка. = Google Hacks: Tips & Tools Finding and Using the World's Information. Б.м.: Русская Редакция, 2008. - 748 с.
11. Евдокимов Н. В. Раскрутка Web-сайтов. Эффективная Интернет-коммерция. М.: Вильяме, 2007. - 160 с.
12. Евдокимов Н., Лебединский И. Раскрутка веб-сайта. Практическое руководство. М.: Вильяме, 2011. - 288 с.
13. Евдокимов Н.В. Основы контентной оптимизации. Эффективная интернет-коммерция и продвижение сайтов в интернет. М : Вильяме, 2007. - 160 с.
14. Зандстра М. РНР. Объекты, шаблоны и методики программирования = PHP: Objects, Patterns, and Practice. M.: Вильяме, 2011. - 560 с.
15. Зуев М.Б., Маурус П.А., Прокофьев А.Г. Продвижение сайтов в поисковых системах. Спасательный круг для малого бизнеса. М.: Бином, 2007. - 304 с.1. Г " ' 1 '
16. Интернет-маркетинг на 100%. СПб. : Питер, 2009. - 240 с.
17. Клифтон Бр. Google Analytics. Профессиональный анализ посещаемости веб-сайтов. = Advanced Web Metrics with Google Analytics. M.: Вильяме, 2009. - 400 с.
18. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. М.: Диалектика, 2007. - 272 с.
19. Кошик А. Веб-аналитика. Анализ информации о посетителях вебсайтов. = Web Analytics: An Hour A Day. M.: Диалектика, Вильяме, 2009. - 464 с.
20. Кузнецов М., Симдянов И. PHP. Практика создания Web-сайтов. -СПб. : БХВ-Петербург, 2008. 1244 с.
21. Ландэ Дм. Поисковые системы: Поле семантика // InfoStream. -2004.
22. Лысенко Д.С., Гридина Е.Г. Факторы формул ранжирования поисковых систем Яндекс и Google // Журнал «Качество. Инновации. Образование» № 3, 2011. с. 35 -41.
23. Лысенко Д.С., Блажнов Э.Е., Булакина М.Б. Поисковая оптимизация Федерального портала «Российское образование» // Информационные технологии и телекоммуникации в науке и образовании (IT&T
24. ES'2007). Материалы международной научной конференции. Редкол. : Тихонов А.Н. (пред.) и др. ФГУ ГНИИ ИТТ «Информика». М.: ЭГРИ, 2007. - с. 17 - 19.
25. Маслак A.A. Критерии оценки качества текстов / Труды межд. симпозиума Формирование контингента инж.-тех. вуза: мировой опыт и основные тенденции развития. М.: 2004. - с. 58 - 60.
26. Мидоу Ч. Анализ информационно-поисковых систем. М. : Мир, 1970.-368 с.
27. Орлов А.И. Экспертные оценки // учеб. пособие. М., 2002.
28. Севостьянов И. Поисковая оптимизация. Практическое руководство по продвижению сайта в Интернете. Б.м.: Питер, 2010. - 240 с.
29. Сегалович И., Маслов М., Зеленков Ю. Цели и результаты программы научных стипендий Яндекса. М.: 2005. - с. 7 - 17.
30. Сергеев А.П. Раскрутка сайтов и основы электронной коммерции. Краткое руководство, г-М;:,Диалектика, 2005. 256 с.
31. Сирович Дж., Дари Кр. Поисковая оптимизация на PHP для профессионалов. Руководство разработчика по SEO. = Professional Search Engine Optimization with PHP: A Developer's Guide to SEO. M. : Диалектика, Вильяме, 2008. - 352 с.
32. Скляр Д., Трахтенберг А. PHP. Рецепты программирования PHP Cookbook. Спб.: БХВ-Петербург, 2007. - 736 с.
33. Солтон Дж. Динамические библиотечно-поисковые системы. М.: Мир, 1979. - 558 с.
34. Суэринг Ст., Конверс Т., Парк Дж. PHP и MySQL. Библия программиста. = PHP 6 and MySQL 6: Bible. M.: Диалектика, 2010. —912 с.
35. Тероу Ш. Видимость в Интернете. Поисковая оптимизация сайтов. = Search Engine Visibility. Б. м.: Символ-Плюс, 2009. - 288 с.
36. Уайт Э., Камаль Э. Дж. Статистические методы работы с электронными документами в библиотечной сфере, или Э-метрики. -М. : Омега-Л, 2006. 393 с.
37. Федоровский А.Н, Костин М.Ю. Mail.ru на РОМИП-2005.: сб. / Труды третьего российского семинара по оценке методов информационного поиска. СПб.: НИИ Химии СПбГУ, 2005. - с. 106 -124.
38. Фролов И.Л., Перелыгин В.А., Самойлов Е.Э. Разработка, дизайн, программирование и раскрутка web-сайта. М.: Триумф, 2009. - 302 с.
39. Энж Э., Спенсер Ст., Фишкин Р., Стрикчиола Дж. SEO — искусство раскрутки сайтов. = The Art of Seo. СПб.: БХВ-Петербург, 2011. -592 с.
40. Яковлев А. А. Раскрутка и продвижение сайтов: основы, секреты,трюки. СПб.: БХВ-Петербург, 2007. - 336 с.ч ' '
41. Яковлев А., Ткачев В. Раскрутка сайтов. Основы, секреты, трюки. -СПб. : БХВ-Петербург, 2010. 352 с.
42. Agrawal R., Srikant R. Searching with numbers // In Proceedings of the eleventh international conference on World Wide. ACM Press, 2002.
43. Aizawa A. The feature quantity: an information theoretic perspective of tfldf-like measures // In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval.
44. ACM Press, 2000. p. 104-111.
45. Arampatzis A., Weide T., Koster C., Bommel P. Linguistically motivated information retrieval. 2000.
46. Bahle D., Williams H.E., Zobel J. Efficient phrase querying with an auxiliary index // Proceedings of the ACM-SIGIR Conference on Research and Development in Information Retrieval. Tampere, 2002. - p. 215 -221.
47. Brin S., Page L. The anatomy of a large-scale hypertextual Web search engine / Computer Networks and ISDN Systems, 30,1998. p. 107 - 117.
48. Buckley Clir. Implementation of the smart information retrieval system // Technical report, 1985.
49. Chowdhury A. McCabe M. C. Improving information retrieval systems using part of speech tagging //Technical Report, 1998.
50. Crivellari M. Web document retrieval using passage retrieval, connectivity information, and automatic link weighting // In The Tenth Text Retrieval Conference (TREC 2001). 2001. - p. 624 - 633.
51. Danowslci J.A. A word-pair approach to information retrieval. In TREC, 1992.-p. 131-136.
52. Dias G., Guillore S., Bassano J-C., Pereira Lopes J.G. Combining linguistics with statistics for multiword term extraction: A fruitful association? // In Proceedings of Recherche d'Informations Assistee par1. Ordinateur. 2000.
53. Downes-Powell G., Green T., Mairlot B. Dreamweaver MX: PHP Web Development (Programmer to Programmer). 2002. - 360 p.
54. Harman D. What we have learned, and not learned, from tree // In Proceedings of the BCS IRSG'2000. 2000. - p. 2 - 20.
55. Haveliwala T. Topic-sensitive pagerank // In Proceedings of the Eleventh
56. Henzinger M. Link analysis in web information retrieval. IEEE Data Engineering. Bulletin, 23(3). 2000. - 3 - 8.
57. Huang Ch., Pan H., Zhang L., Ming Z. Automatic detecting/correcting errors in Chinese text by an approximate wordmatching algorithm // In 38th Annual Meeting of the Association for Computational Linguistics. -2000.-p. 315-340.
58. Hull D.A. Stemming algorithms: A case study for detailed evaluation / Journal of the American Society of Information Science, 47(1). 1996. -p. 70-84.
59. International World Wide Web Conference. 2002.
60. Jin H., Wong K. A Chinese dictionary construction algorithm for information retrieval // ACM Transactions on Asian Language Information Processing (TALIP). 2002. - p. 281 - 296.
61. Jones K.S., Walker S., Robertson S.E. A probabilistic model of information retrieval: development and comparative experiments / Inf. Process. Manage., 36(6). 2000. - p. 779 - 808.
62. Kamvar S.D., Haveliwala T.H., Manning C.D., Golub G.H. Extrapolation methods for accelerating pagerank computations // In Proceedings of the twelfth international conference on World Wide Web. 2003. - p. 261
63. Kantrowitz M., Mohit B., Mittal V. Stemming and its effects on tfidf ranking (poster session) // In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 2000. - p. 357 - 359.
64. Kaszkiel M., Zobel J. Effective ranking with arbitrary passages / Journal of the American Society of Information Science. 2001. - p. 344 - 364.
65. Kozima H. Text segmentation based on similarity between words. // In Meeting of the Association for Computational Linguistics. 1993. - p. 286 - 288.
66. Krovetz R., Croft W.B. Lexical ambiguity and information retrieval / Information Systems. 1992. - p. 115 - 141.
67. Lecky-Thompson E. , Eide-Goodman H., Nowicki S., Cove A. Professional PHP5. 2004. - 672 p.
68. Li K.M. A composite approach to language/encoding detection // In Nineteenth International Unicode Conference. 2002.
69. Lim L., Wang M., Padmanabhan S. Dynamic maintenance of web indexes using landmarks.
70. Lovins J.B. Development of a stemming algorithm / Mechanical Translation and Computation. 1968. - p. 22 - 31.
71. Mauldin M.L. Lycos: Design choices in an internet search service // Technical report, 1997.
72. Mihaila G.A., Bharat K. Hilltop: A search engine based on expert documents. 2003.
73. Mittendorfer M., Winiwarter W. Exploiting syntactic analysis of queriesfor information retrieval // Data Knowl. Eng., 42(3). 2002. - p. 315 -325.
74. Monz Chr. Computational semantics and information retrieval // In Proceedings of the 2nd Workshop on Inference in Computational Semantics (ICoS-2). 2000. - p. 1 - 5.
75. Newby G.B. Information space based on html structure // In Proceedings of TREC9. 2000. - p. 600 - 601.
76. Ponte J.M., Croft W.B. Text segmentation by topic. In European Conference on Digital Libraries. 1997. - p. 113 - 125.
77. Porter M.F. An algorithm for suffix stripping / Program, (14). 1980. - p. 130-137.
78. Robertson S.E., Walker S., Jones S., Hancock-Beaulieu M.M, Gatford M. Okapi at trec-3 // In Proc. of the TREC-3, 1994.
79. Salton G., Allan J., Buckley C. Approaches to Passage Retrieval in Full Text Information Systems // In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1993. - p. 49 - 58.
80. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval / Information Processing & Management, 24(5). p. 513 - 523.
81. Salton G., Fox E. A., Wu H. Extended Boolean information retrieval. -Commun, 1983. p. 1022 - 1036.
82. Salton G., McGill M. J. Introduction to modern information retrieval. -NY. : McGraw-Hill, 1983. 29 p. ISBN 0-07-054484-0.
83. Scholer F., Williams H., Yiannis J., Zobel J. Compression of inverted indexes for fast query evaluation. 2002.
84. Shih M.Y. and Meng W. Using the structure of html documents to improve retrieval // In USENIX symposium on Internet Technologies and Systems (NISTS'97). 1997. - p. 241 - 251.
85. Sidorov G., Gelbukh A. Zipf and heaps laws coefficients depend on language // In Proceeding of Conference on Intelligent Text Processing and Computational Linguistics (CICLing'2001). 2001. - p. 332 - 335.
86. Singhal A., Kaszkiel M. A case study in web search using tree algorithms. -2001.-p. 708-716.
87. Smeaton A.F., O'Donnell R., Kelledy F. Indexing structures derived from syntax in TREC-3: System description. 1994, p. 100 - 110.
88. Song F., Croft W.B. A general language model for information retrieval (poster abstract) // In Research and Development in Information Retrieval. -1999.-p. 279-280.
89. Stobart S., Vassileiou M. Php and Mysql Manual: Simple, Yet Powerful Web Programming (Springer Professional Computing). 598 p.
90. Voorhees E.M. Natural language processing and information retrieval // Ini1.formation Extraction: Towards Scalable, Adaptable Systems. 1999. -p. 32-48.i
91. Xu J., Croft Br. Query expansion using local and global documentanalysis / In Proc. of the SIGIR'96, 1996. p. 4 - 11.i ' ■ i • '
-
Похожие работы
- Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах
- Веб-редактирование
- Модель и методы мониторинга и оценки защищенности веб-сайтов сети Интернет
- Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран
- Разработка математических моделей, методов и программных средств для исследования взаимосвязей регламентируемых веб-сайтов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность