автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей, методов и программных средств для исследования взаимосвязей регламентируемых веб-сайтов

доктора технических наук
Печников, Андрей Анатольевич
город
Петрозаводск
год
2011
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических моделей, методов и программных средств для исследования взаимосвязей регламентируемых веб-сайтов»

Автореферат диссертации по теме "Разработка математических моделей, методов и программных средств для исследования взаимосвязей регламентируемых веб-сайтов"

с/ /

Печников Авдрей Анатольевич

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ, МЕТОДОВ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ ИССЛЕДОВАНИЯ ВЗАИМОСВЯЗЕЙ РЕГЛАМЕНТИРУЕМЫХ ВЕБ-САЙТОВ

Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени доктора технических наук

1 2 МАЙ 2011

Петрозаводск - 2011

4845513

Работа выполнена в Институте прикладных математических исследований Карельского научного центра РАН

Официальные оппоненты:

доктор ф ю ико - м атематич е с ких наук,

профессор Елизаров Александр Михайлович

доктор технических наук, профессор Кулагин Владимир Петрович

доктор технических наук, профессор Путилов Владимир Александрович

Ведущая организация:

Санкт-Петербургский институт информатики и автоматизации Российской академии наук

Защита состоится «17» июня 2011 г. в 13:00 часов на заседании диссертационного совета Д 212.190.03 при Петрозаводском государственном университете по адресу: 185910, г. Петрозаводск, пр. Ленина, д.ЗЗ.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан «. гъ » 2011 г.

Ученый секретарь диссертационного совета к.т.н., доцент

Р.В. Воронов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. World Wide Web, WWW, W3, Web, Сеть, Всемирная паутина, Веб - все эти термины используются для обозначения одного явления глобального масштаба. Определим Веб как распределенную систему взаимосвязанных гипертекстовых документов, содержащихся на различных компьютерах, подключенных к Интернету. Термин «вебометрика» (webometrics) обозначает научное направление, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к Вебу (Г. Almind, P. Ingwersen lnformetric analyses on the World Wide Web: Methodological approaches to «webometrics» // Journal of Documentation. - 1997.-№ 53 (4). - P. 404-426).

Сегодня официальные веб-сайга являются средствами для публикации открытой и доступной пользователям Веба информации и выполняют коммуникационные функции меяеду организациями-владельцами и людьми, что полностью соответствует Берлинской декларации об открытом доступе к научному и гуманитарному знанию (http://oa.mpg.de/openaccess~berlin/berlindeclaration.html). Сказанное

относится и к веб-ресурсам органов государственной власти, создание которых направлено на повышение открытости их деятельности и оказание государственных услуг в электронном ввде (План реализации Стратегии развития информационного общества в Российской Федерации до 2011, http://www.infosovet.ru/actionplari). Такой взгляд на Веб требует разработки новых подходов, направленных на создание благоприятной информационной среды, способствующей доступу пользователей Веба к открытой информации.

Одним из основных вопросов вебометрики является вопрос об оценке присутствия веб-ресурсов в Вебе. Для единичного веб-сайга речь вдет о таких индикаторах, как, например, количество страниц («объел«)) и количество гиперссылок, сделанных на него с других сайтов («узнаваемость»). Для сообщества сайтов одной тематики можно говорить о таких характеристиках, как возможность перехода по гиперссылкам с одного сайга на другой («связность») и количество таких переходов (<<расстояние»). Рост присутствия веб-сайтов и их сообществ влияет на их поисковые характеристики, облегчая пользователям нахождение требуемой информации. Исследования, оценивающие присутствие веб-ресурсов университетов и научных организаций, показывают существенное отставание российских сайтов от зарубежных аналогов. По данным испанской группы Cybermetrics Lab на январь 2010 года, сайг Московского госуниверсигета занимал 226 место в рейтинге университетов, а порталу

РАН - 114-е в рейтинге научных организаций в мире (www.webometrics.info). Скромные позиции российских сайтов объясняются такими причинами, как малое количество англоязычных веб-страниц, низкая активность ученых и преподавателей в формировании контента веб-ресурсов и недостаток внешних гиперссылок, подчеркивающий невысокую коммуникабельность в Вебе.

Веб-ресурсы органов государственной власти, научных учреждений и вузов относятся к так называемым «регламентируемым веб-ресурсам». Это означает, что существует официальный документ, в котором изложены цели и задачи веб-ресурса, основные структурные составляющие, правила изменения информации и т.д. Под управляемостью процессами в Вебе понимается реализация управленческих решений в ввде пунктов регламента, определяющих их исполнение. В этом случае для единичных сайтов и их сообществ могут быть выработаны управленческие решения, направленные на улучшение их присутствия в Вебе. Однако прежде чем реализовывать управленческие решения через регламенты, необходимо пройти путь от сбора информации о присутствии и взаимосвязи веб-сайтов в Вебе до построения формальных моделей, формулировки и решения математических задач и разработки рекомендаций, сделанных на их основе.

Учитывая размерность Веба, в качестве объектов исследований принимаются фрагменты Веба, задаваемые перечислением веб-сайтов заданной тематики (т.н. «тематические целевые множества» или «тематические сообщества»). Такой подход имеет ряд недостатков, в частности, из поля зрения выпадают веб-ресурсы, не вошедшие в целевое множество, но оказывающие существенное влияние ка присутствие сайтов в Вебе. Для реализации целенаправленного процесса построения расширенного объекта исследований необходимо располагать достаточно большим множеством веб-ресурсов, сформированным независимо от предпочтений исследователя, которые потенциально могут воздействовать на целевое множество посредством гиперссылок, и иметь автоматизированные процедуры отбора из него допустимых (в смысле некоторых формальных критериев) веб-ресурсов с отсевом заведомо неприемлемых. Однако на сегодняшний день не разработаны подходы к формализации понятия «фрагмент Веба», не выявлено различий между важными и второстепенными веб-ресурсами. Это делает актуальной разработку конце ray альной модели, отражающей общие характеристики фрагмента Веба, описывающей его разбиение на составляющие подмножества и их свойства, и определяющей связи между этими подмножествами.

Анализ концептуальной модели позволяет перейти к использованию теоретико-графовых подходов для исследования наиболее важных

компонент, причем размерность такой задачи заведомо меньше, чем размерность задачи исследования фрагмента Веба в целом. Исследования зарубежного Веба показывают, что, несмотря на видимое отсутствие непосредственных управляющих воздействий на процессы взаимосвязи сайтов посредством гиперссылок, в тематических сообществах возникают компоненты сильной связности большой мощности и малого диаметра. Такие исследования для российских фрагментов Веба на сегодня практически не проводились. Отсутствуют исследования, посвященные влиянию на связность тематических сообществ веб-сайтов, выполняющих функции посредников, которые не входят в заданное тематическое сообщество, но имеют большое количество гиперссылок, связывающих их с сайгами сообщества. Исследования связности сообществ и анализ влияния сайтов-посредников на их связность являются актуальными задачами, напрямую влияющими на присутствие тематических сообществ.

Управляемость процессами в Вебе подразумевает применение количественных математических методов для обоснования решений о целенаправленной деятельности. Решение таких задач дает принципиальную возможность создания механизмов самоорганизации фрагментов Веба. И хотя спектр таких задач применительно к Вебу представляется чрезвычайно широким, на сегодня эта тема является мало исследованной. Наиболее актуальными представляются постановки математических задач, решение которых существенно влияет на присутствие в Вебе сайтов и тематических сообществ.

Анализ открытых источников, посвященным программным средствам вебометрики, не позволил обнаружить некоммерческие российские разработки на эту тему. Необходима разработка программных средств для изучения Веба, применимых к российским веб-ресурсам и открытым для использования российскими исследователями.

Таким образом, актуальна проблема разработки общих подходов, методов и программных средств для исследования Веба, позволяющих строил, формальные модели и ставить математические задачи, исследование и решение которых направлено на улучшение присутствия в Вебе российских сайтов и тематических сообществ. Предложенные в диссертационной работе решения поставленной проблемы опираются на результаты исследований университетских гиперссылок {М. Thelwall, Statistical Cybermetrics Research Group, University of IVolverhatnpton), теоретико-множественных и теоретико-графовых моделей Веба (A-L. Barabasi, L. Björneborn, A. Broder), ранжирования сайтов (I.F. Aguillo, Cybermetrics Lab; Ю.И. Шокин, ИВТСОРАН).

Основные объекты исследований. Целевым множеством называется задаваемое прямым перечислением множество

регламентируемых тематических сайтов. Сопутствующим множеством называется множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества Фрагмент Веба - это объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. Основным объектом исследований в диссертационной работе является регламентируемый тематический фрагмент Веба В качестве объектов для апробации математических моделей, методов и программ использовались академический фрагмент Веба (целевое множество - официальные сайты научных учреждений РАН), университетский фрагмент Веба (целевое множество - официальные сайты классических университетов Российской) и фрагмент Веба региональных органов государственной власти (целевое множество — сайты органов государственной власти Республики Карелия

(РЮ).

Цель работы заключается в разработке математических моделей, методов и программных средств для исследования взаимосвязей российских регламентируемых тематических веб-сайтов, направленных на улучшение их присутствия в Вебе.

Для достижения указанной цели решается ряд задач:

1. разработка метода построения концептуальной модели фрагмента Веба для регламентируемого тематического целевого множества, обеспечивающего автоматизированную реализацию моделей для целевых множеств различной тематики;

2. применение теоретико-графовых моделей и методов для исследования характеристик веб-графа, построенного на основе концептуальной модели фрагмента Веба, позволяющее дать оценки связности и определить основные направления для постановки задач улучшения присутствия в Вебе тематических сообществ;

3. исследование характеристик присутствия единичных сайтов с использованием известных алгоритмов ранжирования;

4. постановка, исследование и решение задач, улучшающих характеристики присутствия веб-сайтов и их сообществ в Вебе;

5. разработка структурных и функциональных требований, положенных в основу программного обеспечения для сбора, хранения и обработки вебометрической информации и его программная реализация.

Методы исследования. Для решения поставленных в работе задач используются методы концептуального моделирования, элементы теории множеств, теории графов, методов оптимизации, теории вероятностей и математической статистики, имитационное моделирование и численные

эксперименты на ЭВМ и методы проектирования программного обеспечения и баз данных.

Практической основой исследований являются:

1. созданные в процессе исследований вебометрические базы данных академического фрагмента Веба, университетского фрагмента Веба и фрагмента Веба региональных органов государственной власти РК;

2. массив данных о гиперссылках российского Веба, предоставленный Компанией Явдекс.

Научная новизна выполненных исследований заключается разработке и развитии теоретических и практических разделов вебометрики, направленных на улучшение присутствия в Вебе российских регламентируемых тематических веб-ресурсов. Основные аспекты научной новизны:

1. Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в ввде теоретико-множественных отношений. Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Метод автоматизированного построения реализации концептуальной модели реального фрагмента Веба, позволяющий дать численные оценки для каждого из составляющих подмножеств и степень их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зренга влияния на связность фрагмента.

3. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе.

4. Теоретико-графовые характеристики веб-графа для реальных фрагментов российского Веба, показывающие незначительную взаимосвязь веб-сайтов российских тематических сообществ.

5. Математические модели взаимосвязей сайтов посредством гиперссылок, применение которых позволяет улучшить характеристики присутствия веб-сайтов и их сообществ в Вебе.

Практическая значимость:

• Предложенные методы и реализованные на программном уровне алгоритмы позволяют строить научно обоснованные модели фрагментов Веба, которые могут бьггь использованы при разработке сценариев развития

комплексов веб-ресурсов организационных систем, направленных на улучшение их присутствия в Вебе.

• Результаты исследований внедрены для комплекса веб-ресурсов Карельского научного центра РАН в рамках проекта «Исследование и разработка научно-методических основ создания и развития инфраструктуры информационно-телекоммуникационной системы КарНЦ РАН».

• Результаты работы получили практическое применение в рамках исследований официальных сайтов органов государственной власти РК, что подтверждено соответствующим актом.

• Результаты исследований включены в Отчет о деятельности РАН в 2006 году (том 3, Основные исследования и разработки научных учреждений РАН, готовые к практическому применению).

• По результатам исследований прочитан обязательный спецкурс «Технологии специализированных баз данных для вебометрических исследований» для магистрантов факультета прикладной математики -процессов управления Санкт-Петербургского государственного университета (2009/2010 уч.год).

• Получено Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.

• Широкая применимость предложенных моделей, методов и программного обеспечения подтверждается результатами апробации для тематических фрагментов Веба различной тематики.

Достоверность и обоснованность результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, применении системного подхода в исследованиях, корректности принятых при разработке моделей допущений. Разработанные и используемые методы и теоретические подходы находят свое подтверждение посредством их сравнения на различных фрагментах российского Веба и проверкой на множестве данных, предоставленных Компанией Яндекс. Адекватность ряда математических моделей подтверждается результатами компьютерного моделирования.

Личный вклад автора в проведенное исследование. В

диссертацию включены результаты, которые получены лично автором.

Связь работы с научными темами и грантами.

В основу диссертации положены результаты, полученные автором в ходе исследований, проводимых по планам научно-исследовательских

работ Института прикладных математических исследований КарНЦ РАН «Исследование и разработка научно-методических основ создания и развития инфраструктуры информационно-телекоммуникационной системы КарНЦ» (тема НИР № 56,2008-2010 гг.). Исследования поддержаны:

• Компанией Яндекс (конкурс Интернет-математика 2007, проект «Математические модели согласованного поведения малых Интернет-сообществ»),

• инициативным грантом РФФИ (проект «Вебометрические исследования научных интернет-ресурсов российского Интернета», №08-07-00023а, 2008-2010 гг.),

Программой фундаментальных исследований ОМН РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения» (проект «Задачи оптимальной маршрутизации трафика, распределения и защиты информационных ресурсов», 2009,2010 гг.).

Апробация работы. Результаты исследований докладывались на 22 конференциях, научных школах, семинарах и совещаниях:

• I и V научно-методическая конференция «Университеты в образовательном пространстве региона: опыт, традиции и инновации», Петрозаводск, 1999,2010 гг.

Всероссийская научная школа «Математические методы в экологии», Петрозаводск, 2001 г.

• Международная конференция «Северная Европа в XXI веке: природа, культура, экономика», Петрозаводск, 2006 г.

IX и XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007 г., Петрозаводск, 2009 г.

• Седьмая международная Петрозаводская конференция «Вероятностные методы в дискретной математике», Петрозаводск, 2008 г.

• XV, XVI и XVII Всероссийская научно-методическая конференция «Телематика», Санкт-Петербург, 2008,2009 и2010 гг.

• Третья Всероссийская школа молодых ученых «Математические методы в экологии», Петрозаводск, 2008 г.

• II, III и IV Всероссийская научно-практическая конференция «Информационная среда вуза XXI века» Петрозаводск, 2008,2009,2010 гг.

• Научный семинар Хельсинкского института информационных технологий (Helsinki Institute for Information Technology), Хельсинки, 2009 г.

• Международная научно-практическая конференция «Теория активных систем - 2009», Москва, 2009 г.

VIII Международная конференция «Когнитивный анализ и управление развитием ситуаций», Москва, 2009 г.

• IV Международная научно-практическая конференция "Современные информационные технологии и ИТ-технологии", Москва, 2009 г.

• Семинар по теории управления организационными системами Института проблем управления им. В. А Трапезникова РАН, 2009 г.

• VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами», Апатиты, 2010 г.

• Семинар по информационному поиску факультета прикладной математики-процессов управления СПбГУ, 2010 г.

• Научный доклад на заседании Президиума Карельского научного центраРАН, 29 июня 2010 г.

Основные результаты, выносимые на защиту:

1. Концегауальная модель фрагмента Веба и основанные на ней метод и автоматизированная процедура построения модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Теоретико-графовая модель взаимосвязей веб-сайтов посредством гиперссылок, дающая оценки влияния на связность целевого множества иерархической подчиненности организаций-владельцев сайтов и веб-сайтов организаций, выполняющих коммуникационные функции для его участников.

3. Задачи взаимосвязей веб-сайтов посредством гиперссылок, поставленные и исследованные с использованием методов дискретной оптимизации, кооперативной теории игр и имитационного моделирования, решение которых позволяет улучшить характеристики присутствия вебсайтов и их сообществ в Вебе.

4. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе, требующий вдвое меньше исходных данных по сравнению с известными алгоритмами.

5. Рекомендации для организаций-владельцев официальных сайтов, использование которых в административных регламентах позволяет улучшить присутствие их веб-ресурсов в Вебе. Реализация рекомецдаций для сайтов органов государственной власти Республики Карелия обеспечила прирост тематического индекса цитирования от 10 до 15% в течение года.

6. Проблемно-ориентированная информационная система, включающая в себя робот-сборщик информации о сайгах российского Веба, и реляционную базу данных для хранения и обработки собираемой

информации, в которой реализован набор операций, соответствующий основным задачам вебометрических исследований.

Публикации. Результаты диссертации опубликованы в 36 печатных работах, из которых 11 - статьи в журналах и сборниках, входящих в Перечень изданий, рекомендованных ВАК РФ для опубликования результатов докторских диссертаций. Разработан сайт рабочей группы по вебометрике ИПМИ КарНЦ РАН. Получено Свидетельство о государственной регистрации программы для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ.

Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, приложений и списка использованных источников, включающего 198 наименований. Общий объем диссертации 304 страницы, га них основная часть работы содержит 266 страниц и включает 43 рисунка и 66 таблиц; 9 приложений имеют общий объем 15 страниц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении дан анализ исследуемой проблемы, её специфика и современное состояние, подходы, применяемые для её решения. Обосновывается актуальность темы диссертации, определены цели и задачи исследования, охарактеризована научная новизна и практическая значимость результатов, приводятся данные о внедрении и апробации результатов исследований.

В первой главе дается аналитический обзор современного состояния вебо метрических исследований, позволивший изложить основные понятия предметной области, определить основные объекты исследования и используемые подходы и методы.

Во второй главе представлена формализованная концетуальная модель для регламентируемого тематического целевого множества вебсайтов и основанные на ней метод автоматизированного построения фрагментов Веба на основе задаваемого целевого множества и оценки её реализации.

Веб-сайт (сайг) - совокупность /г/т/-страниц и веб-документов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по уникальному доменному имени.

Внешняя гиперссылка с сайга 5 на сайг / формально представляет собой четверку:

<адрес исходной страницы на сайте я, уровень исходной страницы, контекст гиперссылки, адрес целевой страницы на сайге />.

Уровень страницы определяется следующим образом: начальная страница сайга имеет уровень 0, а уровень любой другой страницы сайга -

это минимальное количество внутренних гиперссылок, ведущих от начальной страницы к данной. Под контекстом гиперссылки понимается текст, сопровождающий её на странице.

Уникальной внешней гиперссылкой называется гиперссылка из множества гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная с исходной страницы с наивысшим уровнем. Далее рассматриваются именно такие гиперссылки, поэтому как аналогичные будут использоваться термины «гиперссылка» или «ссылка». Обозначим множество всех гиперссылок, сделанных с сайга s на сайт t, как {<.?,/>}.

Целевым множеством называется множество сайтов, задаваемое перечислением доменных имен, а сопутствующим множеством (по отношению к заданному целевому множеству) называется множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. Введем следующие обозначения: <T={t¡,t2, ..., ¡щ) - целевое множество, и={и1,и2, ..., щ<о} - сопутствующее множество, <F=nW - объединение целевого и сопутствующего множеств, £

- множество гиперссылок, соединяющих сайты из <F: <£= U {< s, t >}.

VieP V rnr, t*s

Фрагмент Веба - это пара <<F, <Е>.

Регламентируемый сайт — это сайг, для которого существует нормативный акт организации-владельца, содержащий определение цели и задач веб-ресурса, основных структурных составляющих, правил добавления и изменения информации и т.д. Множество регламентируемых сайтов будем называть регламентируемым множеством. Тематическое множество официальных сайтов — это множество официальных сайтов организаций, относящихся к заданной тематике (например, реализующих одинаковые ввды деятельности). Фрагмент Веба для регламентируемого тематического целевого множества - это rapa <rF, £>, для которой Т является регламентируемым тематическим множеством официальных сайтов.

Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества представляет собой следующий набор множеств:

<B,%S,Ли, СИат},

где Т— целевое множество, (В— множество сайтов ближайших окрестностей, ЗС- множество сайтов-коммуникаторов, S-множество сайтов оболочки, Як

- множество отношений, определяющих структуру КМ; Cüar - множество атрибутов объектов

Ближайшей окрестностью веб-сайга называется множество сайтов его организации-владельиз, являющихся элементами U, на которые

существуют гиперссылки с официального сайга. Обозначим И, ближайшую

окрестность сайга te % тогда <8 = U ®t .

Vfif

Веб-коммуникатором называется сайг, принадлежащий V и имеющий входящие ссылки с «достаточно большого» количества сайтов Т и/или исходящие ссылки на «достаточно большое» количество сайтов из Т. Определим две функции: insitecounlffl^) - количество сайтов из множества Л, имеющих гиперссылки на заданный сайт s, a outsitecountfs, Я) -количество сайтов из Я, на которые существуют гиперссылки с сайга s. Обозшчим нижнее и верхнее пороговые значения, как Ли ¡х, Л, ¡л- целые и Л<и

В качестве нижнего порогового значения принимается

Z insitecoun t(T,t) Л = round( --j^j-, ,

(round - функция округления до ближайшего целого). Значение X характеризует «среднюю степень» интереса к сайгу из % проявляемую со стороны других сайтов из Т.

Замеры показывают, что около 80% сайтов из U имеют лишь по одному сайгу из Т, ссылающемуся на них, поэтому говорить о «среднем» интересе к сайтам %) со стороны сайтов Ткак о среднем арифметическом не представляется возможным. Поэтому верхнее пороговое значение задается следующим образом:

Z insitecoun t(T,u)

иеЪ>\<8 insitecou*( *Т ,и J ¿Я

(Л = round (тт--¡г, .

1)\<В,ШисоиЫ(Т,и)'гЛ\

Определим функцию тематической близости сайга ие'V к тематике целевого множества "Г как T_genre: 1) -» {0,1}, T__genre(u)=l, если и тематически близок к Т и T_genre(u)=0, если нет. В настоящее время зшчения T_genre(u) определяются на основе прямого просмотра сайтов экспертом.

Тематическим сайтом-посредником называется сайг ueU\<B, для которого выполняется условия insitecount(%u)>jj&outsitecomt(ufT)>X и T_genre(u)=\. Множество тематических сайтов-посредников обозначим 1С*.

Тематическим сайтом-коллектором называется сайг иеЪ>\<В, для которого выполняется условие insitecount(%u)>p&X>outsitecount(u,t)>l и T_genre(u)=\. Множество тематических сайтов-коллекторов обозначим

Тематическим сайтом-индуктором называется сайг иеТ/iffl, для

которого выполняется условие n>insitecount(T,u)>X & outsitecount(u, 1)>Л и

Tjgenre(u)=1. Множество тематических сайтов-индукторов обозначим 1С*.

Сайты-посредники, коллекторы и индукторы, для которых

T_genre(u)=0, составляют множество ^'her («нетематические» веб-

коммуникаторы) .

Множество веб-коммуникаторов- это UiC^uiC0"'"'-

Множество сайтов оболочки S=V\(<Ви%) составляют сайты из V, не

являющиеся сайгами ближайших окрестностей или веб-коммуникаторами.

5 разбивается на три непересекающихся подмножества: S- Уи^иУ;

У - насыщенная оболочка (VseS": insitecount(T,u)>/j), S* - вязкая оболочка

(\/seS*~: ¡j>insitecounl(T,u)> Я), У - разреженная оболочка (Vse^1:

X>insitecount(<T,u)>\).

Множество отношений jitt, определяющих структуру модели, это:

Att= {1% Щ <ВТ, <пс, 1ХГ, ТС.тСЪ тС% тС% Л, 'fs, <PS, ST), где

ТГсТхТ - отношение, задающее структуру Т через множество

гиперссылок, связывающих его сайты: 7Т= U {< s, t >};

Vier VteT,i*i

ТФсТхФ- отношение, задающее связи между Ти <В: ТВ = U {< £, б >);

V !£<Г Vfe®

ФТсФхТ- обратное отношение по отношению к 1®;

отношения ТКсТхК и КТсК*Т задаются аналогично ТВ и <2^ где в

качестве К могут бьпъ 1С, тС или 1С';

iScz'TxS— отношение, задающее связи между Ти множеством S, где

в качестве S могут быть У, У или У: lS= U{<t,s>);

VieT Vj6 S

ST=0 - отношение, задающее связи между Ти S. Множество атрибутов объектов 'КМ Ckar={<Distr, Jnd\.

Показатель тематического распределения сайтов множества d ist г (Я) характеризует, какова доля элементов из Я, тематически близких к тематике целевого множества. В качестве Я принимаются У, s\ и

У, поэтому

(Distr={distr{'K(xf'r)> distr{<B.), distr(^), distrtf), dis!r{Si)}.

Множество показателей степени связности Ind характеризует множества отношений Jitt по степени связности самого целевого множества Т, а также Ти всех подмножеств множеств Ф, 1Q S, составляющих 7CfW: Ы={М<П), inc&n®), М<ВЧ), М<ПС), МПС), indnX"), i indilCT), indi^S), ЦО1), in^TS'), Mfl), Ы&1), MS"!)}.

Здесь zW(TT)=|r7,7f/|7['. Остальные показатели равны суммарному количеству гиперссылок, входящих в соответствующее множество, деленному на мощность этого множества, или суммарному количеству гиперссылок, исходящих с соответствующею множества, деленному на мощность этого множества.

Процедура построения t&t состоит из следующих этапов:

1. задание целевого множества Т,

2. формирование сопутствующего множества V для заданного %

3. формирование множества ближайших окрестностей Ф,

4. вычисление пороговых значений Я и ц и задание функции T_genre;

5. формирование множества подмножеств коммуникаторов ?С и множества-оболочки S',

6. формирование множества отношений Jitt;

7. определение множества значений атрибутов Char.

Первый этап выполняется вручную, остальные этапы выполняются с использованием информационной системой для вебометрических исследований (ИС4ВИ), разработанной в Институте прикладных математических исследований Карельского научного центра РАН.

Рис. 1. Диаграмма концептуальной модели академического фрагмента Веба

На рис. 1 приводится диаграмма концептуальной модели, реализованная для академического фрагмента Веба. В качестве Т принято

288 официальных сайтов учреждений РАН. Каждое из подмножеств обозначено соответствующим кружком, в котором дано обозначение подмножества, его мощность и значение distr (для некоторых из них). Стрелки задают отношения между подмножествами и помечаются значениями ind. Похожие результаты были получены в случае реализации концептуальной модели для университетского фрагмента Веба и для фрагмента Веба органов государственной власти Р К.

Анализ реализаций ко нце пгуаль ной модели позволяет сделать ряд общих выводов об организации реальных фрагментов Веба. Большинство сайтов характеризуются тематической близостью по отношению к % но степень их влияния на присутствие в Вебе сайтов целевого множества, реализуемая через гиперссылки, различна. Сайты, входящие в S, составляя от 80 до 96% всех сайтов реальных фрагментов Веба, такого влияния практически не оказывают вследствие отсутствия гиперссылок, сделанных с них на сайты Т. Сайты множества ближайших окрестностей также слабо влияют на связность % поскольку в основном имеют гиперссылки, сделанные на головные сайты организаций, входящих в ft, а не на другие сайты из Т. Высокую степень связности с Тдемонстрируют сайты множеств

В третьей главе рассмотрено применение теоретико-графовых методов к исследованию связности регламентируемых тематических фрагментов Веба, как одной из основных характеристик присутствия t в Вебе.

Веб-графом Gra(F,£), заданным на фрагменте Веба <Т,'Е> называется ориентированный граф без петель и кратных дуг, множество вершин которого является объединением целевого множества и множества веб-коммуникаторов V-T^J'K, а множество дуг Е задается следующим образом: Vv/;v2e V: fv/.v^eJEo 3<v],v2>e1(lLi7KSJ'K%J'KK,

Исследуются вопросы связности целевого множества на административном каркасе и административных подмножествах. Для организаций-владельцев сайтов целевого множества, имеющих иерархическую структуру, иерархический граф обозначен Gffz(<DT, Ен), где Ф7"- это множество наименований организаций-владельцев сайтов целевого множества, а Еи- множество дуг. определяется следующим образом: для \/u,de<Dr: (u,d)eEH тогда и только тогда, когда организация d находится в отношении подчиненности к организации и.

Пусть даны ds,dte<iy, причем организация dt находится в отношении подчиненности к организации ds, т.е. (ds,dt)eEH, и сайгам организаций ds.dt

соответствуют вершины s,teT. Определим каркасную функцию связности сверху вниз (Skeleton Force of Connectivity) SFC?(s,i) следующим образом: SFC*(s,t)={\| (3(s,t)eEk)&(ds,dt)eElh 0| (-n3(s,t)eE^&(ds,dt)eEH}. Обозначим через <Dd={dti, dt2, ...}, Ф^с®7 множество организаций, которые шходятся в отношении подчиненности к организации ds (0Js - т.н. административное подмножество). Обозначим s сайг организации ds, а % - множество сайтов, соответствующих организациям из (Dd, (любой организации dt,e(Dih взаимнооднозначно соответствует сайг Определим функцию связности сверху вниз между сайтом s и всеми сайтами ie Ts:

X S<FC+(s,t) t^Es_

S<Ff(s,<rs) = -

N

Каркасная функция связности снизу вверх SFC(s,t) и функция связности снизу вверх SFC(s,%) определяются аналогично. Функцию связности для пары сайтов sut можно задать как SFC(s,t}=a SFC*(s,t)-tfi SFC(s,t), где аир являются коэффициентами, отражающими важность иерархии сверху и вниз снизу вверх (ос,р>0, а+Р=1). Функция связности SFC{s,%) для сайта s и подмножества % определяется аналогично.

Исследование реальных фрагментов Веба показывает существенное влияние административного каркаса на связность целевого множества. Значения функции связности для академического фрагмента Веба приведены нарис. 2.

■го/

йвр/ /(1.0,1.0)Л

,(1.0.0.75) I <0.M.ae7) V

сайты региональных

owX^f t ^?делении1%Н \це£тров РАН

/(0.73.061)

0.44 /

0.71\¡0.82,0.6) сайты институтов

сайты организаций • составе институт«

Рис. 2. Значения функции связности на административном каркасе

Дуги помечены следующим образом: слева от дуги (или над ней) стоит значение SFC(s,TJ для соответствующих s и <Г; справа от дуги (или под ней) пара значений в скобках обозначает (SFC¥(s,%), SFCis.'TJ).

Графом административного подмножества вершины set называется граф Gs=G(rCaEs), где множество дуг EsczE содержит только те дуги из Е, которые связывают вершины из % В качестве «слабой» характеристики связности принята функция CFCS (Community Force of Connectivity)

Исследования различных подграфов С-С^Е^ показывают незначительную связность административных подмножеств академического фрагмента Веба и фрагмента Веба органов государственной власти РК. Например, для институтов Отделения математических наук (s~onm.ras.ru, 113=10) имеем СРС,=0Д61.

Предложена следующая процедура исследования компонент сильной связности (КСС) веб-графа Сп(У,Е). Исследуется подграф С^(ЪЕг)я:Сге(У,Е), построенный на целевом множестве Т , в качестве множества дуг которого принимается подмножество дуг Егс:Е, соединяющих только вершины, входящие в множество Т. вычисляются полустепени захода (1п(1е§гее) и исхода (Outdegree) вершин из Т, формируются все КСС, изолированные вершины, вершины, имеющие только входящие и только исходящие дуги, определяется максимальная КСС и ее диаметр. Построенные конструкции и вычисленные характеристики позволяют дать содержательную интерпретацию взаимосвязей сайтов и охарактеризовать присутствие в Вебе сайтов целевого множества

Далее исследуется веб-граф С^е(У,Е), что позволяет дать содержательную интерпретацию взаимосвязей сайтов и оценить влияние веб-коммуникаторов на изменение связности сайтов Т. Изначально важная роль сайтов-коммуникаторов может быть оценена как с точки зрения их влияния на прирост взаимосвязей сайтов % так и изменения диаметра КСС.

Приведем некоторые результаты, полученные для университетского фрагмента Веба (\Т |=56). Значения полустепеней захода и исхода для некоторых вершин Т. Indegree: сайг Новосибирского госуниверсигета - 15, Московского - 14, Санкт-Петербургского - 12; Outdegree: сайг Бурятского госуниверсигета - 43, Горно-Алтайского - 35, Нижегородского - 30. Статистической зависимости между значениями Indegree и Outdegree не обнаруживается.

Рис. 3. Веб-граф СГ№(<Т,Е'1) университетского фрагмента Веба В университетском веб-графе СТ^ТуЕ"1) обнаружена единственная КСС, содержащая 29 вершин с диаметром 5; из остальных 27 вершин у 21 вершины имеются исходящие, но нет входящих дуг, 4 являются изолированными, а 2 имеют исходящие и входящие дуги, но не входят в КСС. На рис. 3 вершины, составляющие КСС, изображены серыми кружками, а остальные вершины - светлые кружки.

В веб-графе С№(У,Е) мощность КСС увеличивается до 70 вершин, а её диаметр остается равен 5. Количество «вовлеченных» сайтов из Тв этом случае равняется 17.

По результатам исследований веб-графов реальных фрагментов Веба можно сделать следующие выводы:

1. степень связности целевых множеств невысока, следствием чего является их незначительное присутствие в Вебе,

2. административная иерархия организаций-владельцев сайтов находит хорошее отражение в Вебе и повышает присутствие сайтов в Вебе,

3. связь между сайтами организаций, подчиненных одной и той же вышестоящей организации, является весьма незначительной, что существенно снижает их присутствие в Вебе.

4. существенно влияние сайгов-коммуникаторов на увеличение связности сайтов целевого множества для всех рассмотренных фрагментов Веба.

В четвертой главе исследуются вопросы ранжирования сайтов тематического сообщества, связанные с их индивидуальными характеристиками присутствия в Вебе. В первоначальной постановке задача была сформулирована СуЪегтеи-'кя ЬаЬ. Используются вебометрические

индикаторы, измеряемые с помощью поисковых машин (Google, Yahoo, Live Search и Exalead)-. S - размер сайта (количество страниц, обнаруживаемых на сайге поисковыми машинами), V - видимость сайта (количество гиперссылок на сайт с других веб-ресурсов), R - количество полнотекстовых файлов и Sc - научность сайта (количество ссылок на сайг, обнаруживаемых Google Scholar). Значения для S, VnR определяются как сумма результатов замеров по каждой машине (для S минимальное и максимальное значение отбрасываются). По каждому индикатору производится ранжирование сайтов по убыванию их значений. Для обозначения ранга по заданному индикатору используются обозначения RankV, RankS, RankR и RankSc соответственно (наивысший ранг равен 1). Интегральный показатель W вычисляется по формуле W=Kv -RankV+Ks -RankS+Kr-RankR+Ksc-RankSc, где Kv=4, Ks=2, Kr=l и Ksc=l - весовые коэффициенты при рангах по соответствующим индикаторам (на 2008 год).

Поясним содержательный смысл индикаторов присутствия через оценки возможности попадания пользователя на заданный сайг. Все множество пользователей Веба по отношению к данному сайгу можно разделить два подмножества: первое - это пользователи, знающие данный сайг и обращающиеся к нему по адресу, а второе - это все остальные пользователи, которые имеют потенциальную возможность узнать о сайге различными способами. Индикаторы характеризуют возможность попадания на сайг через один из четырех таких способов: S- обнаружение с помощью поисковой машины и переход на сайг, V - переход с другого сайга по ссылке, R — обнаружение с помощью поисковой машины полнотекстового файла данного сайга и переход на сайт и Sc — переход через ссылку, найденную поисковой машиной для научных публикаций. Следовательно, критерий, основанный на S, V, R и Sc, характеризует возможность попадания пользователей из второго подмножества на заданный сайт. Для российских университетских сайтов показана сильная попарная статистическая зависимость между S,R и Sc, поэтому для каждого ранжируемого сайта достаточно вычислить значение одного из интегральных показателей, например, количества страниц как средневзвешенного значения

Sint(i) = Ряндекс'^ЯндексО)+РкатЫег^ЯатЫег(1)+ РGoogle $Q>og}e(í),

где i - номер сайга, а Ря„декс, РцатЪкг и Pcoogie - показатели популярности поисковых систем. Производится нормирование всех Sint(i): ,я Sint(i)

Sintnorm(^Ts^) i

Для каждого сайга измеряется значение СУ - тематического индекса цитирования Явдекса и производится нормирование :

«w^lщгу i

Интегральный показатель вычисляется по формуле WRR(i)-Ps-Sintnorm(i)+PvCYnorm(i), где Ps hPv - вероятности реалшации того или иного способа попадания на сайт. Далее производится ранжирование сайтов по убывания значений WRR(i).

Для реалшации процедуры ранжирования используются данные Livelnternet «Сайты Рунета». В качестве значений РЯ11декс, РRambler и Plagie берутся данные по статистике переходов. Для вычисления значений Ps и Pv берутся переходы с поисковых систем SE, переходы с каталогов и рейтингов Cat и количество переходов по ссылкам L. Ps и Pv вычисляются по формулам:

р SE /у- Cat + L

SE+Cat+L' ~ SE+Cat+L'

Сопоставление результатов ранжирования по методу Cybermetrics Lab и предложенному алгоритму показывает, что полученные результаты близки между собой, например, в первую двадцатку как по одному, так и по другому алгоритму входят четырнадцать сайтов одних и тех же университетов.

Измерения вебометрических индикаторов показывают существенное отставание по всем индикаторам от зарубежных аналогов.

Пятая глава посвящена математическим задачам, разработка и решение которых ведут к улучшению присутствия в Вебе сообществ сайтов в смысле некоторых заданных критериев. Первая из задач относится к дискретным оптимизационным задачам и позволяет найти такой способ расстановки гиперссылок в заданном множестве сайтов, который повышает их присутствие в Вебе с точки зрения поисковых машин. На основе предложенной модели исследованы вопросы согласованного поведения реальных веб-сообществ. Выявлены подмножества российского Веба, поведение которых является близким к согласованному. Во второй задаче исследуется вопрос о том, каков должен быть вклад организаций-владельцев заданного множества сайтов на создание сайга-коммуникатора, существенно улучшающего его связность. Построена и исследована математическая модель дележа затрат на создание веб-коммуникатора, основанная на методах кооперативной теории игр. В третьей задаче исследуется вопрос о том, при каких условиях сайты получают дополнительную выгоду (в смысле количества посещений пользователями) от участия в множестве сайтов, ссылающихся на один и тот же сайт-коммуникатор и имеющих обратные гиперссылки с него. Получены решения, позволяющие каждому участнику сообщества оценивать полезность его участия в нем. На практике решение указанных задач могут

быть положены в основу административных регламентов, направленных на улучшение присутствия в Вебе регламентируемых тематических сообществ сайтов.

Рассмотрим веб-сообщестю со следующими характеристиками:

п - количество сайтов-участников,

c¡- значимость i-ro участника, с,>0, \/i~l..n,

m¡ - максимально возможное количество ссылок от /-го на других участников, m¡>0, Vi-l..n.

Определим матрицу ссылок X=(x¡¡), i,j-1 ..n, где x¡~l, если существует ссыпка от /-го участника к у'-му, и х,у=0, если ссыпки не существует. Пусть - функция, характеризующая некоторый интегральный показатель значимости всех участников и зависящая от того, каким образом расставлены ссылки между ее участниками.

Тогда задача заключается в нахождении матрицы X, удовлетворяющей заданным ограничениям и доставляющей оптимальное значение целевой функции:

F(X)- opt (1).

XV

Основные предположения, принятые для задания ввда функции приращения значимости, заключаются в следующем:

- чем больше ссылок на ресурс, тем он становится «значимее»,

- чем больше значимость ресурса /, тем больше возрастает значимость ресурса j, еслил:,у=1,

- чем больше исходящих ссыпок от ресурса /, тем меньше приращение значимости каждого ресурса j, для которого x¡j=\.

Считаем, что внешние влияния на участников системы не существенны, и поэтому изменение значимости у-го участника может быть

__п

представлено следующей формулой: Vj = l,nc¡ = с, + Y.x1.c,a¡.

i=i

Здесь a¡ = p/ î.xik и™ содержательно - если пользователь попал на

заданную страницу, то он равновероятно отправится далее по любой из имеющихся на ней ссылок и при этом вероятность того, что он не закончит работу в Вебе на этой странице, равна так называемому «дампинг-фактору» Д 0</?<1. По аналогии с Брином и Пейждем чаще всего принимается /М),85 (Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Computer Networfo and ISDN Systems. - 1998.-№ 30. - P. 107-117).

Тогда изменение значимости j-ro участника выражается следующей формулой:

М

*=1

Введем следующие ограничения:

Хц =0, /=1,И

(3)

(4)

(5)

ху=0,Ь / = 1,п. / = 1,и

I Ху. 5 т,. ¿ = 1, п

М

£ Лу 2:1, / = 1,и

(6)

Ограничения (3) учитывают, что сайту нельзя дать ссылку на самого себя, (4) - ссылки с /'-го сайга либо существуют, либо нет. Ограничение (5) означает, что количество исходящих ссылок ограничено некоторыми реальными соображениями, например, оно меньше и, т.к. в этом случае поисковые системы обнуляют значимости всех участников сообщества. Ограничение (6) означает, что участником может быть сайг, который обязательно делится своей значимостью с другими, но обратное не обязательно.

Рассматриваются различные варианты задачи в зависимости от ввда целевой функции (1) и дополнительных содержательных ограничений.

В первом случае договоренность участников сообщества можно сформулировать так: распределение ссылок должно привести в первую очередь к увеличению значимости наименее значимых ресурсов, при этом суммарный прирост значимости по всем участникам системы должен быть максимальным. Тогда целевая функция принимает вид

где коэффициенты 0<Л,<1 имеют следующий содержательный смысл, - чем больше начальное значение с,-, тем меньше значение Л^.

Во втором случае договоренность участников можно сформулировать так: распределение ссылок среди участников должно привести к минимальному отклонению полученных значимостей каждого участника от нового среднего значения по всему сообществу:

у-'

О'),

шах

X

\

—> ПИГ1

ч

Исследованы свойства моделей (Г), (3-6) и (1"), (3-6), учитываемые при разработке точных и приближенных алгоритмов решения задач.

В рамках конкурса Интернет-математика 2007 выполнен проект по выявлению согласованного поведения реальных веб-сообществ. Были взяты 20 реальных сообществ, содержащих от 7 до 84 участников, относящихся к различной тематике. Использовались предоставленные компанией Яцдекс наборы данных о ссылках сайтов друг на друга по состоянию на 7 декабря 2007 года, содержащие информацию о 2714279 сайгах.

В модели (Г), (3-6) и (1"), (3-6) был введен ряд дополнительных ограничений, появившихся в процессе их адаптации к реальным сообществам. Например, обе модели изначально трактуются как регламентируемые, - если известен оптимальный способ расстановки ссылок между участниками, то он и будет директивно реализован, -поэтому неравенства (5) заменяются на равенства (5'):

п _

Z Хц = m¡, i = l,n (5').

/=1

В качестве значений c¡,/' = \,п были взяты значения тематического индекса цитирования Яндекса (тИЦ) соответствующих сайтов. Поскольку c¡,i-l,n - это значения, которые являются результатом согласованных действий участников сообщества, из (2) я (5') следует, что начальные значения c¡, i = \,n являются решениями системы линейных уравнений:

/=1 А

П f

(-1 Li " х

c„+E"7"c<=2'» .-i L¡

где L¡,i~\,n - общее количество исходящих ссыпок от i-го участника сообщества. Обнаружено, что в рамках социальной модели наиболее согласовано поведение сообщества Религия: Православие, а в рамках кооперативной модели - сообщество сайтов министерств Правительства РФ.

С использованием методов кооперативных игр рассматривается вопрос о вкладе организаций-владельцев сообщества сайтов в создание общего сайга-коммуникатора. Предполагается, что веб-граф Gr,№(cí,ErT) -

сильно связный и веса его дуг равны 1. Обозначим сЦЦ) длину кратчайшего пути га г в I, ¡¿еТ. Критерием доступности сайта Г на целевом множестве Т

является средняя длина пути, которая задается следующим образом:

--

Предположим, что игроки-владельцы сайтов договорились создать веб-коммуникатор А, с которого обязательно будут сделаны гиперссьшки с весом 1 на любой сайт из Т и с каждого сайта из Т будет сделана гиперссылка на А, имеющая вес 1. При добавлении сайга А средняя длина пути в вершину ¡в Тиз всех других вершин, кроме А и её самой, равна

тЫ^Ы-еУ*---

я-1

При этом верно неравенство т1с!е?(¡)<2 (на сайт) существуют ссылки с некоторых сайтов из Т и длина пути равна 1, либо кратчайший путь проходит через сайт-коммуникатор А и длина пути равна 2). Выигрыш /'-го участника от создания веб-коммуникатора А равен у(г)=тег^(/-) - пп

Обозначим 2 стоимость разработки и поддержки сайга А, а взнос

каждого игрока г„ 2 = . Требуется ответить на вопрос, каковы должны /е Т

быть значения 2,, гь ..., 2„, справедливые (в некотором смысле) для каждого игрока-владельца сайта целевого множества.

Считаем коалицией множество владельцев сайтов из % участвующих в создании А, причем А будет ссылаться только на участников коалиции, и только они будут ссылаться на коммуникатор. Зададим выигрыш коалиции Б как у(Б)= X»>(/), где значение характеристической функции для г'-го

участника у(;) = т\й<1{г)-т\(}<£5(1) рассчитывается с учетом того, того что коммуникатор создается только для членов коалиции & Именно поэтому в качестве вычитаемого принято значение т'кЗсР¡(¡}, т.е. средняя длина пути в вершину i из всех других вершин коалиции Б, кроме А и её самой.

Решение основано на разделении платы на создание веб-коммуникатора пропорционально компонентам вектора Шепли, строящемуся с учетом среднего вклада каждого участника в выигрыш гранд-коалиции. Плата за создание сайта-коммуникатора г/, г2, ..., гп делится между членами сообщества Тпропорционально величинам

. у (И-Жи-Ы)/.

ф, = 2----(Ч^-уГЗД;,

Задача обобщается на случай взвешенного графа, когда его дуги имеют веса, большие 0.

Рассмотрена математическая модель, связанная с увеличением посещаемости сайтов за счет участия в сообществе динамического каталога (СДК). В СДК имеется головной сайг, на первой странице которого расположена видимая часть динамического каталога, содержащего ссылки на всех остальных участников сообщества, а остальные сайты, называемые рядовыми участниками, имеют прямые ссылки на головной сайг со своей первой страницы. Возможный выигрыш рядового сайга от участия в СДК заключается в увеличении его посещаемости за счет роста переходов на него с каталога головного сайга.

Попадая на сайг любого участника СДК, пользователь выполняет одно из следующих действий:

- если это головной сайт, то пользователь может остаться на этом сайге и сеанс заканчивается, либо перейти через каталог на рядового участника (сеанс заканчивается);

- если это рядовой участник, то пользователь может остаться на этом сайге (сеанс заканчивается), либо перейти головной сайг (сеанс заканчивается).

Введем следующие обозначения:

Р[- вероятность попадания пользователя на /-Йсайт СДК, £Л = 1;

¡=о '

р? - вероятность перехода с 1-го рядового сайга на головной сайт (вероятность того, что пользователь, попав на 1-й рядовой сайт, останется на нем, равна 1-рр);

- вероятность того, что пользователь, попав на головной сайг, останется на нем;

вероятность перехода на любой рядовой сайт с у'-й позиции каталога,

п

- 1

qj -1-

/-0

На головном сайге расположена видимая часть каталога, содержащая к позиций для ссылок (А£л); q{a, & q™t2 - 2 <7 к"»а Яля V/=к + \,п, = 0.

Пусть Г; - позиция рядового участника в каталоге в некоторый момент времени, 1 = 1,и, У/,у=1,«:г; . Позиция /-го участника изменяется за один сеанс следующим образом:

• если пользователь переходит с /-го рядового сайга на головной сайг, то г,- уменьшается, а г,./ - увеличивается на единицу (либо rt не изменяется, если он уже был равен 1);

• если пользователь попадает с головного сайга на i-го участника, то гi увеличивается, а - уменьшается на единицу (либо г, не изменяется, если он уже был равен и);

• если пользователь за сеанс не делает перехода с головного сайга на рядовой (или наоборот), то позиции всех рядовых сайтов остаются прежними.

Обозначим // = (Лу; матрицу предельных вероятностей, где л^ - это

вероятность тога, что r=j. Зная матрицу П можно определить значения qt - вероятностей перехода с каталога головного сайга на любой рядовой сайг СДК:

у=1

Для /-го рядового сайга доход от участия в СДК как вероятность перехода на г-й сайт с головного сайта равен с/,- = Po(l-%)Qj, потери от участия в СДК как вероятность перехода с /-го сайга на головной сайт -щ = p^f, а функция выигрыша от участия в сообществе:

п

Ъ = РоО-%) ^ чУ"яуР№ '

Для нахождения матрицы П построена система уравнений, содержащая л2+2п уравнений и л2 неизвестных, при этом л2 уравнений являются уравнениями третьего порядка относительно неизвестных ж^. На

неизвестные также накладываются условия 0 s п^ s 1 для Wi,j=l,n.

Для случая системы из двух участников получено достаточное условие выигрыша каждого из участников

? тах{р,р,У2р2°} • 0-<7о )ЧТ

Для общего случая разработана имитационная модель СДК. Результаты моделирования показывают, что чем больше значение вероятности р0, тем больше рядовых участников оказываются в выигрыше. Причем наибольший выигрыш получают участники сообщества, у которого вероятность попадания пользователя на него не самая большая, но и не самая маленькая. При достаточно малых значениях вероятности р0 ни один рядовой участник не получает положительного выигрыша, то есть если головной сайг не слишком популярен по сравнению с остальными

рядовыми участниками, то нет смысла участвовать в таком СДК.

В шестой главе описаны основные программные средства, используемые в диссертационной работе для сбора и обработки вебометрической информации. В состав специализированного комплекса программ, названного Информационной системы для вебометрических исследований (ИС4ВИ), входят поисковый робот LPR (от Link, Page, Robot), задачей которого является сбор внешних гиперссылок, и база данных для вебометрических исследований, представляющая множество взаимосвязанных реляционных таблиц и набор операций над ними.

Единицей анализа LPR является страница, переданная веб-сервером клиенту по й^-залросу и имеющая /и/me-тип «text/html». Начальным адресом сканируемого сайга является доменное имя сайга. Рассматриваются гиперссылки, заданные в тегах <а></а> в значении параметра href, либо в тегах <frame> в значении параметра src. Если там обнаруживается абсолютный адрес ввда

[http[s]://doMeitiioe_iiun[:nopmy]nymb_K_cmpaituiie и если доменное имя отлично от адреса сайга, то такая ссылка считается внешней гиперссылкой. В качестве контекста внешней ссылки рассматривается текст, расположенный между тегами <а> и </а>.

Анализ страницы начинается с й/гр-запроса к странице и чтения заголовков, по которым выясняются следующие моменты:

1. Существует ли такая страница, если нет, то ссылка на страницу помечается как неработающая, и анализ данной страницы завершается.

2. Не является ли данная страница перенаправлением на другую страницу. Если есть перенаправление, то анализируется ссылка-перенаправление. Если это ссылка на другой сайт, то она записывается как внешняя ссылка, а анализируемая внутренняя ссылка удаляется. Если это ссылка на внутреннюю страницу, то переписывается ссылка, и данный этап завершается.

3. Является ли данный объект /г/»г/-страницей. Если нет, то данная ссылка помечается как «докумеш» и данный этап завершается.

Далее счигавается код страницы, который проверяется на наличие перенаправлений на уровне страницы и в случае перенаправления подвергается обработке как в п.2. Если перенаправлений нет, то из кода извлекаются теги фреймов и гиперссылок, из которых отбирается вся требуемая информация о ссылках, включая контекст, которая записывается в отдельные таблицы ВНУТРЕННИЕ ССЫЛКИ и ВНЕШНИЕ ССЫЛКИ, соответствующие сканируемому сайту. Все ссылки, являющиеся ссыпками на докумешы, записываются в таблицу внутренних ссылок с пометкой «документ». Остальные ссылки с пометкой «непроверенная страница», записываются в эту же таблицу, если их там еще нет.

Процесс сканирования сайга вдет как поиск вширь: начальная страница, потом непроверенные страницы первого уровня, потом второго и т.д. Если по каким-то причинам сканирование было прервано, то оно может быть возобновлено с точки прерывания. LPR может быть в любой момент остановлен пользователем благодаря интерактивному режиму отслеживания работы робота.

В базе данных реализовано более 15 операций, соответствующих основным задачам вебометрических исследований. Программный комплекс ИС4ВИ разработан на языке PHP и работает под управлением веб-сервера Apache с интегрированным модулем PHP и СУБД MySQL. Реализован прототип компьютерной программы визуализации веб-графов, который в качестве исходных данных использует информацию из базы данных ИС4ВИ.

Проведенное сканирование более 3000 сайтов академического, университетского фрагментов Веба и фрагмента Веба органов государственной власти Карелии позволило сформировать базы данных, являющихся экспериментальной основой для исследований реальных фрагментов Веба.

ЗАКЛЮЧЕНИЕ

В диссертации сформулирована и решена важная научная задача разработки и развития теоретических и практических разделов вебометрики, направленных на улучшение присутствия в Вебе сайтов, входящих в состав множеств, являющихся тематическими регламентируемыми веб-ресурсами. Проведенные исследования представляют собой новый подход к исследованию Веба, базирующийся на разработанных формализованных методах и специализированных программных средствах для детального обследования фрагментов Веба, заключающийся в построении и анализе описательных и формальных моделей, выявлении наиболее значимых компонент и постановке и решении математических задач рационального поведения веб-сайтов, входящих в данные компоненты. Основные научные и практические результаты работы состоят в следующем:

1. Предложен метод автоматизированного построения

фрагментов Веба на основе задаваемого целевого множества, веб-ресурсы которого относятся к одной тематике и являются регламентируемыми, т.е. создаются и развиваются по заранее сформулированным правилам, утвержденным в ввде нормативных документов организаций-владельцев ресурсов. Основу метода составляет формализованная концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в ввде теоретико-множественных отношений.

Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества, предполагающей программную реализацию большинства этапов.

Концептуальная модель, реализованная на реальных фрагментах Веба, позволила дать численные оценки для каждого из подмножеств и степени их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зрения влияния на связность фрагмента. В случае академического множества мощность исследуемого множества сайтов уменьшается в 22 раза, а количества связывающих их гиперссылок - в 17 раз; в случае университетского Веба - в 9 и 14 раз соответственно.

2. Показано, что теоретико-графовые модели и методы позволяют дать оценки связности фрагментов Веба и определить основные направления для постановки задач улучшения присутствия в Вебе тематических сообществ. Установлена невысокая степень связности целевых множеств академического и университетского Веба. Показано, что административный каркас играет системообразующую роль в организации академического Веба в целом, однако его возможности для улучшения связности использованы не более чем на 60%. Установлено существенное влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для всех рассмотренных фрагментов Веба.

3. Исследование задач ранжирования сайтов на университетском и академическом российском Вебе показывает, что на результаты ранжирования в значительной степени влияет выбор единиц анализа, а не использование тех или иных поисковых систем для измерения индикаторов. Сопоставление результатов ранжирования по предложенному в диссертации алгоритму с результатами ранжирования по известному алгоритму Cybermeirics Lab показывают их сильную положительную статистическую взаимосвязь. Показано, что для случая российского университетского Веба предложенный алгоритм требует в два раза меньше исходных данных, чем алгоритм Cybermetrics Lab.

4. Поставлены и исследованы математические задачи, основанные на применении методов математического моделирования, разработка и решение которых ведут к улучшению присутствия в Вебе сообществ сайтов в смысле некоторых заданных критериев, и предложены алгоритмы их решения. Получены решения, позволяющие каждому участнику сообщества оценивать полезность его участия в нем. На практике решение указанных задач могут быть положены в основу

административных регламентов, направленных на улучшение присутствия в Вебе регламентируемых тематических сообществ сайтов.

5. Создана проблемно-ориентированная информационная

система для вебометрических исследований, включающая в себя робот-сборщик информации, сканирующий исследуемые сайты российского Веба, и реляционную базу данных для хранения и обработки собираемой информации, в которой реализован набор операций, соответствующий основным задачам вебометрических исследований. Сформированы базы данных внешних гиперссылок для академического и университетского фрагментов Веба и фрагмента Веба органов власти Карелии, часть из которых доступна для пользователей Веба.

СПИСОК ТРУДОВ

Статьи, опубликованные в реферируемых журналах из Перечня ВАК:

1. Печников А А Математические модели размещения ссылок в локализованной системе Интернет-ресурсов // Системы управления и информационные технологии. - 2007. - №2(28). - С. 92-96.

2. Печников A.A. О некоторых подходах к моделированию клик-сообществ // Системы управления и информационные технологии. - 2008. -№3(33).-С. 15-18.

3. Печников А А., Чуйко Ю.В. Исследование согласованного поведения малых Интернет-сообществ // Телекоммуникации. - 2008. - №10. -С. 8-12.

4. Печников АА Вебометрические исследования Web-сайтов университетов России // Информационные технологии. - 2008. - №11. - С. 74-78.

5. Мазалов В.В., Печников А А О рейтинге официальных сайтов научных учреждений Северо-запада России // Управление большими системами. - М.: ИПУ РАН. - 2009. - Вып. 24. - С.130-146.

6. Печников А А., Луговая Н.Б., Чуйко Ю.В., Косинец И.Э. Разработка инструментов для вебометрических исследований гиперссылок научных сайтов // Вычислительные технологии. - 2009. — Том 14, №5. - С. 66-78.

7. Печников АА., Луговая Н.Б., Чуйко Ю.В.О связности множества официальных сайтов РАН // Вопросы современной науки и практика Университет им.В.И.Вернадского.-2009.-№ 12(26)-С. 154-158.

8. Мазалов В.В., Печников АА, Фалько И. А О построении рейтинга научных журналов // Управление большими системами. - М.: ИПУ РАН. -2009.-№27-С. 47-52.

9. Воронин AB., Печников А.А Исследования сайтов органов власти Республики Карелия // Век качества: Связь, сертификация, управление, экономика. - 2010. - №3. - С. 2-4.

10. Мазалов В. В., Печников А А, Чирков А. В., Чуйко Ю. В. Задача дележа затрат на создание веб-коммуникатора как кооперативная игра / Управление большими системами. Специальный выпуск ЗОЛ 'Сетевые модели в управлении". - М.: ШУ РАН. - 2010. - №30.1. - С. 187-196.

11. Печников А.А Модель университетского Веба / A.A. Печников // Вестник Нижегородского университета им. Н.И. Лобачевского. - 201Í. - №6 -С. 2(12,-21 Ц.

Статьи в других научных изданиях:

12. Мазалов В.В., Печников A.A., Раковский И.В. Создание информационно-коммуникационной среды поддержки развития общественного участия и межмуниципальной кооперации// Петрозаводск: ЗАО «Копистар Опгима». - 2005. - 33 с.

13. Печников A.A. Задача рационального размещения ссылок в регламентируемой локализованной системе интернет-ресурсов // Методы математического моделирования и информационные технологии. Труды ИПМИ КарНЦ. - Петрозаводск. -2006. - вып. 7. - С.176-182.

14. Печников A.A., Чуйко Ю.В. Математические модели согласованного поведения малых Интернет-сообществ // Интернет-математика. - Екатеринбург: Издательство Уральского университета. -2007.-С. 164-170.

15. Печников A.A., Илюкевич О.Г. Рейтинг официальных web-сайтов университетов России и Финляндии: сравнительный анализ // Информационные ресурсы России. 2008. - № 3 (103)- С. 25-28.

16. Печников А А, Луговая Н.Б. Являются ли сайты конференций RCDL научными веб-коммуникаторами? // Тр. XI Всероссийской научной конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - Петрозаводск. - 2009. - С. 329-332.

17. Печников А А Об исследованиях российского научного Веба // Материалы Всеросс. конф. с международным участием «Знания -Онтологии - Теории» (30HT-09, 22-24 октября 2009 г., Новосибирск). -Новосибирск: Институт математики им. С.Л. Соболева. - 2009. - Т.2. - С. 197-201.

18. Печников А А О некоторых подходах к исследованию российского научного Веба // Теория активных систем - 2009. Тр. междунар. научно-практ. конф. (17-19 ноября2009 г., Москва). Том II. - 2009. - С. 140-144.

19. Чуйко Ю.В., Печников А А Исследование связности российского научного Веба / Ю.В. Чуйко, АА. Печников // Когнитивный анализ и управление развитием ситуаций (CASC'2009). Тр. Междунар. конф. (17-19 ноября 2009 г., Москва). - С.283-286.

20. Печников АА. О некоторых результатах вебометрических исследований университетского Веба // IV Междунар. научно-практ. конф.

«Современные информационные технологии и ИТ-образование». Сборник избранных трудов. - М.: ИНТУИТ.РУ. - 2009. - С. 530-537.

Тезисы докладов на научных конференциях:

21. Осолоткина Е.Ю., Печников A.A. Экспертные оценки предметной области в INTERNET // Университеты в образовательном пространстве региона: опыт, традиции и инновации. Тез. докладов научно-методической конф. (Петрозаводск, 18-20 мая 1999 г.). - 1999. - Часть 1. - С. 40.

22. Осолоткина Е.Ю., Печников А.А Экологический аспект в Internet-моделях муниципальных образований // Математические методы в экологии. Тез. докладов Всеросс. научной школы (Петрозаводск, 10-16 июня 2001 г.). -2001,- С. 186.

23. Печников A.A. Вэбометрика интернет-ресурсов Карельского научного центра РАН // Северная Европа в XXI веке: природа, культура, экономика. Материалы Междунар. конф., посвященной 60-летию КарНЦ РАН (24-27 октября 2006 г.). - Том 2. - Петрозаводск: КарНЦ РАН. - 2006. С. 146-147.

24. Печников A.A. Моделирование клик-сообществ // Обозрение прикладной и промышленной математики. - 2008. - том 15, вып. 3. - С. 566567.

25. Луговая Н.Б., Печников АА. Измерения научных сайтов // Телематика'2008. Тр. XV Всероссийской научно-методической конф., Санкт-Петербург, 23-26 июня 2008.- Том 1 - С. 166.

26. Луговая НБ., Печников А.А Исследование экологических сайтов // Математические методы в экологии. Тез. докладов Третьей Всероссийской школы молодых ученых (Петрозаводск, 24-29 августа 2008 г.). 2009. -С. 106.

27. Печников АА. О некоторых результатах вебометрических исследований университетских сайтов // Информационная среда вуза XXI века: материалы II Всероссийской научно-практической конф., Петрозаводск, 15-18 сентября 2008.-С. 122-123.

28. Косинец И.Э., Луговая Н.Б., Печников А.А Об одном подходе к исследованию ресурсов российского сегмента сети Интернет // Информационная среда вуза XXI века: материалы II Всероссийской научно-практической конф., Петрозаводск, 15-18 сентября 2008,- С. 15-18.

29. Печников АА., Луговая Н.Б. Структурные исследования научного Веба // Телематика'2009. Тр. XVI Всероссийской научно-методической конф. (22-25 июня 2009 г., С-Петербург), Том 2. - 2009,- С.340.

30. Луговая Н.Б., Печников А.А Разработка инструментов для вебометрических исследований // Телематика'2009. Тр. XVI Всероссийской научно-метод. конф. (22-25 июня 2009 г., С-Петербург), Том 2.- С.341.

31. Косинец И.Э., Печников A.A. О подходе к классификации внешних гиперссылок // Информационная среда вуза XXI века: материалы III Всероссийской научно-практической конф. (21-25 сентября 2009 г.). -Петрозаводск. - 2009,- С. 121-124.

32. Печников A.A. О связях между сайгами Российской академии наук и учреждений высшего образования // Информационная среда вуза XXI века: материалы III Всероссийской научно-практической конф. (21-25 сентября 2009 г.). - Петрозаводск. - 2009. - С. 181 -182.

33. Печников А.А О веб-коммуникациях между официальными сайтами вузов Карелии // Университеты в образовательном пространстве региона: опыт, традиции и инновации. Материалы научно-методической конф. (Петрозаводск, 16-17 февраля 2010 г.), Часть II. - С. 81-83.

34. Мазалов В.В., Печников А. А Задача дележа затрат на создание веб-коммуникатора как кооперативная игра // VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами». Материалы докладов (Апатиш, 29 марта-2 апреля 2010 г.) - С.37-38.

35. Косинец И.Э., Печников A.A. Об анализе веб-ресурсов органов власти // Информационная среда вуза XXI века: материалы IV Всеросс. таучно-практ. конф. (20-24 сентября 2010 г.). Петрозаводск, 2010. - С. 131133.

36. Печников А.А Концептуальная модель фрагмента Веба и примеры ее реализации // Информационная среда вуза XXI века: материалы IV Всеросс. научно-практ. конф. (20-24 сентября 2010 г.). Петрозаводск, 2010. -С. 172-173.

Веб-ресурсы

37. Вебометрика. Институт прикладных математических исследований КарНЦ РАН [Электронный ресурс]. - Режим доступа: http://webometrics.krc.kareJia.ru.

Свидетельства о регистрации программ:

38. Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г. Авторы: Печников АА, Луговая Н.Б.

Формат 60x84 V16 Бумага офсетная. Гарнитура «Times». Уч.-изд. л. 2,5. Усл. печ. л. 2,1. Подписано в печать 15.02.11. Тираж 100 экз. Изд. № 175. Заказ Л» 933.

Карельский научный центр РАН Редакционно-издательский отдел 185003, Петрозаводск, пр. А. Невского, 50

Оглавление автор диссертации — доктора технических наук Печников, Андрей Анатольевич

ВВЕДЕНИЕ.

1. ВЕБОМЕТРИЧЕСКИЕ ИССЛЕДОВАНИЯ: СОВРЕМЕННОЕ СОСТОЯНИЕ И АКТУАЛЬНЫЕ ЗАДАЧИ.

1.1 Вебометрика как научное направление.1.23^

1.2 Единицы-анализа и целевые множества исследований.25*

1.3 Теоретико-графовые модели Веба.31?

1.4 Социальные феномены в Вебе.

1.5 Программные средства для сбора данных о Вебе.

1.6 Вебометрические индикаторы и задачи ранжирования сайтов.

1.7 Поисковое продвижение сайтов.

1.8 Другие вебометрические исследования.

1.9 Выводы.

2. МЕТОД ПОСТРОЕНИЯ МОДЕЛЕЙ ФРАГМЕНТОВ ВЕБА ДЛЯ РЕГЛАМЕНТИРУЕМЫХ ТЕМАТИЧЕСКИХ ЦЕЛЕВЫХ МНОЖЕСТВ.

2.1 Общая характеристика метода построения моделей фрагментов Веба.

2.2 Базовые понятия и определения.

2.3 Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества.

2.4 Процедура построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2.5 Диаграмма концептуальной модели фрагмента Веба.

2.6 Реализация концептуальной модели фрагмента Веба на множестве официальных сайтов учреждений РАН.

2.6.1 Задание целевого множества официальных сайтов учреждений РАН.

2.6.2 Формирование сопутствующего множества по отношению к академическому целевому множеству.782.6.3 Формирование множества ближайших окрестностей академического Веба.

2.6.4 Вычисление пороговых значений и задание функции Т genre.81^

2.6.5 Формирование множеств веб-коммуникаторов и оболочки.83'

2.6.6 Формирование множеств отношений.89'

2:6.7 Определение значений атрибутов.89й

2.6.8 Диаграмма концептуальной модели академического фрагмента Веба

2.6.9 Сайты научных конференций как веб-коммуникаторы.

2.7 Реализация концептуальной модели фрагмента Веба на множестве-официальных сайтов классических университетов РФ

2.7.1 Задание целевого множества официальных сайтов классических университетов РФ.

2.7.2 Формирование сопутствующего множества по отношению к университетскому целевому множеству.

2.7.3 Формирование множества ближайших окрестностей университетского Веба.

2.7,.4 Вычисление пороговых значений и задание функции Tgenre.

2.7.5 Формирование множеств веб-коммуникаторов и оболочки.

2.7.6 Формирование множеств отношений.

2.7.7 Определение значений атрибутов.

2.8 Реализация концептуальной модели фрагментаВеба на множестве официальных сайтов органов государственной власти Республики Карелия.

2.8.1 Задание целевого множества официальных сайтов органов государственной власти Республики Карелия.

2.8.2 Формирование сопутствующего множества по отношению к целевому множеству сайтов органов госвласти РК.111'

2.8.3 Формирование множества ближайших окрестностей фрагмента Веба органов госвласти РК

2.8.4 Вычисление пороговых значений и задание функции Tgenre.

2.8.5 Формирование множеств веб-коммуникаторов и оболочки.

2:8.6 Формирование множеств отношений.

2.8.7 Определение значений атрибутов.

2.9 Выводы.

3. ПРИМЕНЕНИЕ ТЕОРЕТИКО-ГРАФОВЫХ МОДЕЛЕЙ И МЕТОДОВ ДЛЯ ИССЛЕДОВАНИЯ ФРАГМЕНТОВ ВЕБА.

3 .1 Общая характеристика теоретико-графового подхода для исследования-связности фрагментов Веба.

3.2 Исследование связности целевого множества на административном каркасе и административных подмножествах.

3.3 Исследование компонент связности веб-графа Gye(V,E).128'

3.4 Результаты исследования веб-графа академического фрагмента Веба.

3.4.1 Исследование связности на административном каркасе и административных подмножествах.131'

3.4.2 Исследование компонент связности веб-графа академического фрагмента Веба.

3.5 Результаты исследования-веб-графа университетского фрагмента Веба.

3.6 Результаты исследования веб-графа фрагмента Веба органов, государственной власти РК.

3.6.1 Исследование связности на административном каркасе и административных подмножествах органов госвласти РК.

3.6.2 Исследование компонент связности веб-графа фрагмента Веба органов госвласти РК.

3.7 Выводы.

4. ВЕБОМЕТРИЧЕСКИЕ МЕТОДЫ РАНЖИРОВАНИЯ САЙТОВ.

4.1 Общая характеристика вебометрических методовфанжирования.

4.2 Ранжирование сайтов университетов СЗФО РФ и Финляндии.

4.2.1 Целевое множество исследований.

4.2.2 Измерения, анализ и ранжирование.

4.2.3 Анализ результатов и выводы.

4.3 Ранжирование, сайтов классических университетов России.

4.3.1 Целевое множество исследований.171'

4.3.2 О содержательном смысле вебометрических индикаторов.

4.3.3 Измерения, результаты и анализ.

4.3.4 Критерии и результаты ранжирования.

4.4 Ранжирование сайтов учреждений РАН северо-запада России.179!

4.4.1 Целевое множество исследований.179;

4.4.2 Ранжирование по критерию ИВТ СО РАН.

4.4.3 О применимости поисковых машин.181'

4.4.4 Смешанный подход к измерениям индикаторов и модифицированный рейтинг.

4.5 Предложения и рекомендации.

4.6 Краткие выводы.

5. РАЗРАБОТКА И ИССЛЕДОВАНИЕ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ВЕБОМЕТРИЧЕСКИХ ЗАДАЧ.

5.1 Общая характеристика задач математического моделирования в вебометрике.

5.2 Задача оптимальной расстановки ссылок в локализованной системе веб-ресурсов.

5.2.1 Описание задачи расстановки ссылок.

5.2.2 Математическая модель в общей постановке.

5.2.3 Кооперативная и согщалъная целевые функции.

5.2.4 Анализ линейной кооперативной модели.

5.2.5 Анализ социальной модели.

5.2.6 Исследования согласованного поведения реальных веб-сообществ.

5.3 Задача дележа затрат на создание веб-коммуникатора.

5.3.1 Описание задачи дележа затрат на создание веб-коммуникатора.

5.3.2 Постановка задачи дележа затрат.

5.3.3 Эгоистичный подход.

5.3.4 Кооперативный подход.

5.3.5 Определение исходных данных для задачи дележа затрат.

5.4 Задача об участии в сообществе динамического каталога.

5.4.1 Описание задачи о динамическом каталоге.

5.4.2 Постановка задачи о динамическом каталоге.228 '

5.4.3 Построение системы для вычисления предельной матрицы.

5.4.4 Анализ модели для частных случаев.

5.4.5 Численные эксперименты и результаты.

5.5 Краткие выводы.

6. ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ СБОРА, ХРАНЕНИЯ И ОБРАБОТКИ ВЕБОМЕТРИЧЕСКОЙ ИНФОРМАЦИИ.

6.1 Общая характеристика программных средств для вебометрических исследований.

6.2 Информационная система для вебометрических исследований.

6.2.1 Поисковый робот. ЬРЯ.

6.2.2 База данных для вебометрических исследований.

6.3 Измерения индикаторов средствами поисковых машин.

6.4 Краткие выводы.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Печников, Андрей Анатольевич

Общая характеристика работы

Веб, Глобальная сеть, Всемирная паутина, World Wide Web, WWW, W3, Web - все эти термины сегодня используются для обозначения одного явления глобального масштаба. Веб представляет собой распределенную систему взаимосвязанных гипертекстовых документов, расположенных на различных компьютерах, подключенных к Интернету.

Изучение Веба началось с его появлением в 1989 году, и в первые годы его можно было исследовать, так сказать, «в целом», вследствие небольшой размерности рассматриваемых задач.

Рис. 0.1. Общее количество веб-сайтов в мире с августа 1995 г. по июнь 2010 г.

Примерно с 1996 года в связи с быстрым ростом Веба (см. рис. 0.1 из Web Server Survey Archives, http://news.netcraft.com/archives/webserversurvey.html) формируется новое научное направление, получившее название «вебометрика». К основным разделам вебометрики относятся: разработка средств сбора данных о Вебе, изучение гиперссылок, описательные и формальные модели Веба и социальные феномены в Вебе.

В вебометрике большое внимание уделяется веб-ресурсам научных институтов и университетов. С одной стороны, они являются средствами для публикации открытой и доступной всем пользователям Веба информации и выполняют коммуникационные функции как между самими организациями, так и между учеными и научно-педагогическими работниками (причем не только в масштабах региона или страны, но и во всем мире), что в полной мере соответствует Берлинской декларации об открытом доступе к научному и гуманитарному знанию (http://oa.mpg.de/openaccess-berlin/berlindeclaration;html).

С другой стороны, по ряду причин эти веб-ресурсы представляют собой удачные экспериментальные площадки для того, чтобы впоследствии перенести полученные результаты на другие фрагменты и/или более общие случаи. Понимание взаимодействия сайтов научного и/или вузовского Веба позволяет не только сформулировать описательные модели, объясняющие их природу, но и попытаться, в случае необходимости, сделать некоторые процессы в Вебе управляемыми.

Мы исходим из того, что научные и вузовские веб-ресурсы (в отличие от многих других ресурсов Веба), могут быть отнесены к так называемым «регламентируемым веб-ресурсам». Это означает, что существует официальный документ (например, регламент официального сайта университета, утвержденный приказом ректора), в котором изложены цели и задачи веб-ресурса, основные структурные составляющие, правила добавления и изменения информации и т.д. (на сегодня точнее сказать, что такие документы должны существовать, поскольку на большинстве официальных сайтов их обнаружить не удалось). Таким образом, под управляемостью процессами в Вебе понимается формулировка управленческих решений в виде официальных документов, определяющих их реализацию и дальнейшее исполнение.

Прежде чем реализовывать управленческие решения в виде регламентов, необходимо пройти путь от сбора информации о конкретной предметной области (фрагменте Веба) к построению ее формальных моделей и формулировке и решению оптимизационных задач.

Исследования, оценивающие веб-ресурсы высших учебных заведений и научно-исследовательских институтов по различным критериям, показывают существенное отставание сайтов- российских учреждений от зарубежных аналогов. К примеру, по: данным Cybermetrics Lab на январь 2010 года, сайт. Московского государственного университета занимал 226 место, в рейтинге университетов мира, а портал Российской академии наук - 114-е в рейтинге научных организаций-мира. Скромные позиции российских научных и учебных заведений рядом исследователей объясняются такими причинами, как малое количество англоязычных веб-страниц, низкая активность ученых и преподавателей в формировании контента веб-ресурсов и недостаток внешних гиперссылок, подчеркивающий невысокую коммуникабельность в Вебе. В этом случае можно говорить о слабом присутствии в Вебе единичных сайтов.

В более общем виде речь идет о проблеме присутствия веб-ресурсов в Вебе* как с точки зрения единичных сайтов, так и с точки зрения тематических сообществ - множеств сайтов, объединяемых единой тематикой.

К первичным характеристикам присутствия сайта в Вебе относятся такие индикаторы, как его размеры (количество /^/-страниц, количество размещенных на сайте документов в форматах doc, xls, ppt и др.) и узнаваемость (количество гиперссылок, сделанных на сайт с других сайтов). На основе этих индикаторов рассматриваются вторичные характеристики присутствия сайтов, к которым относятся WIF {Web Impact Factor - количество ссылок, сделанных на сайт, делённое на количество его страниц), функции ранжирования сайтов, тИЦ {тематический Индекс Цитирования Яндекса), PR {Google Page Rank).

В качестве моделей взаимодействия сайтов в Вебе часто используются теоретико-графовые подходы (вершины веб-графа соответствуют исследуемым сайтам, а дуги - гиперссылкам между ними); Это позволяет применить для-оценки присутствия сообществ сайтов известные теоретико-графовые характеристики (степень вершины, компонента сильной связности, диаметр, клика и т.д.).

Степень присутствия сайта в Вебе существенно влияет такие поисковые характеристики, как количество переходов на него с поисковых машин и- с других сайтов. Это делает актуальным необходимость постановки и решения задач, направленных на улучшение присутствия в. Вебе -российских регламентируемых тематических сообществ (таких, как сайты научно-исследовательских учреждений, университетов, органов государственной власти).

В первую очередь необходима разработка формальных моделей, объясняющих поведение и взаимодействие сайтов. В методологическом плане представляется интересным подход, используемый в общей теории систем, где большой системой предлагается называть такую систему, которую невозможно исследовать иначе, как по подсистемам. Используя такой подход и определяя Веб как большую систему, мы можем выделить некоторые его подсистемы -фрагменты Веба - для локальных исследований, а эта проблема очень важна, учитывая размерность Веба. На это следует обратить особое внимание, поскольку ориентация только на множество регламентируемых тематических сайтов не означает сужение исследуемого множества до нескольких сотен единиц анализа. Регламентируемый тематический фрагмент включает в себя не только официальные сайты организаций, но и все сайты, на которые имеются гиперссылки, сделанные с данного целевого множества. Это множество сайтов мы будем называть сопутствующим и количество таких «сопутствующих» сайтов измеряется десятками тысяч, а количество сделанных на них гиперссылок - миллионами.

На сегодняшний день не разработаны подходы к определению и локализации фрагментов Веба, не выявлено различий между первичными и второстепенными веб-ресурсами, что существенно влияет на затраты вычислительных ресурсов при проведении исследований. С учетом большой размерности исследуемых задач необходима разработка концептуальной модели, отражающая самые общие характеристики фрагмента Веба, поясняющей его разбиение на основные составляющие подмножества и их свойства и определяющей связи между этими подмножествами. Построение и анализ концептуальной модели позволяет в дальнейшем перейти к использованию теоретико-графовых подходов к исследованию его наиболее важных составляющих подмножеств и связей между ними, причем размерность такой задачи заведомо меньше, чем размерность задачи исследования фрагмента Веба в целом.

Теоретико-графовые подходы к исследованию Веба показывают, что, несмотря на видимое отсутствие непосредственных управляющих воздействий на процессы взаимодействия сайтов посредством гиперссылок, в тематических сообществах возникают компоненты сильной связности достаточно большой мощности и малого диаметра. При этом отсутствуют исследования, посвященные влиянию на связность тематических сообществ сайтов, выполняющих функции посредников. Такие сайты не входят в заданное тематическое сообщество, однако имеют большое число входящих и исходящих гиперссылок, связывающих их с сайтами тематического сообщества. Анализ влияния сайтов-посредников на связность тематического сообщества является актуальной задачей, очевидным образом связанной с присутствием тематических сообществ в Вебе.

Управляемость процессами в Вебе подразумевает применение математических количественных методов для обоснования решений целенаправленной деятельности. Решение таких задач дает принципиальную возможность создания механизмов самоорганизации и саморазвития сообществ сайтов. И хотя спектр таких задач применительно к Вебу представляется чрезвычайно широким, на сегодня эта тема является мало исследованной.

Как уже было сказано, к характеристикам присутствия сайтов относятся ЖЩ тИЦ, РЯ и функции ранжирования сайтов. В настоящее время такая характеристика как WIF используется редко и считается архаичной, а анализ алгоритмов вычисления тИЦ и PR практически невозможен в силу того, что они составляют коммерческую тайну. Известные на сегодняшний день зарубежные работы, посвященные ранжированию веб-ресурсов, ориентированы на использование данных, получаемых с помощью наиболее популярных в США и Европе поисковых машин (таких, как Google, YahooI и др.), в качестве индикаторов-характеристик сайтов. Вместе с тем, исследования по ранжированию сайтов с использованием российских поисковых систем и специфики организации российских сайтов позволяют не только определить наиболее низкие значения индикаторов присутствия у российских сайтов, но и предложить новые алгоритмы ранжирования сайтов и рекомендации по улучшению ситуации.

Сбором данных о Вебе занимаются так называемые «поисковые роботы», но анализ открытых источников (практически все они посвящены зарубежным разработкам), не позволил обнаружить некоммерческих российских разработок на эту тему. Отсутствуют поисковые роботы и базы данных, содержащие собранную информацию, нацеленные на изучение таких объектов исследований как регламентируемые тематические фрагменты Веба. Отсюда следует вывод о необходимости разработки программных средств и баз данных для исследования Веба, применимых к различным регламентируемым тематическим сообществам и открытым для использования российскими исследователями Веба.

Таким образом, актуальна проблема разработки общих подходов, методов и программных средств для исследования Веба, позволяющих строить формальные модели и' ставить оптимизационные задачи, исследование и решение которых направлено на улучшение присутствия в Вебе российских сайтов и тематических сообществ.

Предложенные в диссертационной работе подходы опираются на результаты исследований университетских гиперссылок (М. Thelwall, Statistical

Cybermetrics Research Group, University of Wolverhampton), теоретико-множественных и теоретико-графовых моделей Веба (A-L. Barabasi, L. Bjôrneborn, A. Broder), ранжирования университетских и научных сайтов (I.F. Aguillo, Cybermetrics Lab; Ю.И. Шокин, Институт вычислительных технологий СО РАН).

Дадим следующие определения. Целевым множеством называётся задаваемое прямым перечислением множество регламентируемых тематических сайтов. Сопутствующим множеством называется множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. Фрагментом Веба называется объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. Основными объектами исследований являются регламентируемые тематические фрагменты Веба. В качестве объектов для практической реализации разработанных математических моделей, методов и программ использовались академический фрагмент Веба (целевое множество -официальные сайты научных учреждений РАН), университетский фрагмент Веба (целевое множество - официальные сайты классических университетов Российской) и фрагмент Веба региональных органов государственной власти (целевое множество - сайты органов государственной власти Республики Карелия).

Цель работы заключается в разработке математических моделей, методов и программных средств вебометрики, направленных на улучшение характеристик присутствия в Вебе регламентируемых веб-ресурсов.

Для достижения указанной цели решается ряд взаимосвязанных задач:

1. разработка метода построения концептуальной модели фрагмента Веба для регламентируемого тематического целевого множества, обеспечивающего автоматизированную реализацию моделей для целевых множеств различной тематики;

2. применение теоретико-графовых моделей и методов для исследования характеристик связности веб-графа, построенного на основе концептуальной модели фрагмента Веба, позволяющее дать оценки связности и определить основные направления для постановки задач улучшения присутствия в Вебе тематических сообществ;

3. исследование применимости известных алгоритмов, ранжирования веб-сайтов и разработка нового алгоритма, основного на содержательной интерпретации физического смысла характеристик присутствия сайтов в Вебе;

4. постановка, исследование и решение задач, улучшающих характеристики присутствия веб-сайтов и их сообществ в Вебе,

5. разработка базовых структурных и функциональных требований, положенных в основу программного обеспечения для сбора, хранения и обработки вебометрической информации и его программная реализация.

В процессе работы применялись следующие методы исследований:

• аналитические методы с использованием аппарата теории множеств, теории графов, методов оптимизации, теории вероятностей и математической статистики,

• подходы и методы общей теории систем,

• вебометрические методы сбора данных о Вебе, анализа гиперссылок, ранжирования веб-ресурсов и исследования тематических сообществ веб-ресурсов,

• методы проектирования программного обеспечения и баз данных,

• имитационное моделирование и численные эксперименты на ЭВМ.

Практической основой исследований являются:

• созданные в процессе исследований базы данных гиперссылок академического фрагмента Веба, университетского фрагмента Веба и фрагмента Веба региональных органов государственной власти Республики Карелия; базы данных, содержащие данные об основных вебометрических индикаторах академических и университетских сайтов и сайтов органов государственной власти Республики Карелия; массив данных о гиперссылках российского Веба, предоставленный Компанией Яндекс.

Основные результаты, выносимые на защиту:

1. Концептуальная модель фрагмента Веба и основанные на ней метод и автоматизированная процедура построения модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Теоретико-графовая модель взаимосвязей веб-сайтов посредством гиперссылок, дающая оценки влияния на связность целевого множества иерархической подчиненности организаций-владельцев сайтов и веб-сайтов организаций, выполняющих коммуникационные функции для его участников.

3. Математические задачи взаимосвязей веб-сайтов посредством гиперссылок, поставленные и исследованные с использованием методов дискретной оптимизации, кооперативной теории игр и имитационного моделирования, решение которых позволяет улучшить характеристики присутствия веб-сайтов и их сообществ в Вебе.

4. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе, требующий вдвое меньше исходных данных по сравнению с известными алгоритмами.

5. Рекомендации для организаций-владельцев официальных сайтов, использование которых в административных регламентах позволяет улучшить присутствие их веб-ресурсов в Вебе. Реализация рекомендаций для сайтов органов государственной власти Республики Карелия обеспечила прирост тематического индекса цитирования от 10 до 15% в течение года.

6. Проблемно-ориентированная информационная система, включающая в себя робот-сборщик информации о сайтах российского Веба, и реляционную базу данных для хранения и обработки собираемой информации, в которой реализован набор операций, соответствующий основным задачам вебометрических исследований.

Работа выполнена в Учреждении Российской академии наук Институт прикладных математических исследований Карельского научного центра РАН.

Основные научные результаты выполненных исследований по теме диссертации опубликованы в |б печатных работах ЯВНМИ3 ИИИИработ опубликованы в журналах и сборниках включенных в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора наук Высшей аттестационной комиссии Министерства образования и науки Российской Федерации |162-171].

Разработан веб-сайт группы по вебометрическим исследованиям Института прикладных математических исследований КарНЦ РАН (ИПМИ КарНЦ РАН), на котором размещаются результаты текущих исследований [143].

Результаты исследований докладывались на конференциях и научных школах и семинарах:

• I и V научно-методическая конференция «Университеты в образовательном пространстве региона: опыт, традиции и инновации», Петрозаводск, 1999, 2010 гг.

• Всероссийская научная школа «Математические методы в экологии», Петрозаводск, 2001 г.

• Международная конференция «Северная Европа в XXI веке: природа, культура, экономика», Петрозаводск, 2006 г.

• IX и XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007 г., Петрозаводск, 2009 г.

• Седьмая международная Петрозаводская конференция «Вероятностные методы в дискретной математике», Петрозаводск, 2008 г.

• XV, XVI и XVII Всероссийская научно-методическая конференция «Телематика», Санкт-Петербург, 2008, 2009 и 2010 гг.

• Третья Всероссийская школа молодых ученых «Математические методы в экологии», Петрозаводск, 2008 г.

• II, III и IV Всероссийская научно-практическая конференция «Информационная среда вуза XXI века» Петрозаводск, 2008, 2009, 2010 гг.

• Научный семинар Хельсинкского института информационных технологий {Helsinki Institute for Information Technology>), Хельсинки, 2009 г.

• Международная научно-практическая конференция «Теория активных систем - 2009», Москва, 2009 г.

• VIII Международная конференция «Когнитивный анализ и управление развитием ситуаций», Москва, 2009 г.

• IV Международная научно-практическая конференция "Современные информационные технологии и ИТ-технологии", Москва, 2009 г.

• Семинар по теории управления организационными системами Института проблем управления им. В.А. Трапезникова РАН, 2009 г.

• VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами», Апатиты, 2010 г.

• Семинар по информационному поиску факультета прикладной математики-процессов управления СПбГУ, 2010 г.

• Научный доклад на заседании Президиума Карельского научного центра РАН, 29 июня 2010 г.

Научная новизна выполненных исследований заключается разработке и развитии теоретических и практических разделов вебометрики, направленных на улучшение присутствия в Вебе сайтов и регламентируемых тематических веб-ресурсов. Основные аспекты научной новизны:

1. Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в виде теоретико-множественных отношений. Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.

2. Метод автоматизированного построения реализации концептуальной модели реального фрагмента Веба, позволяющий дать численные оценки для каждого из составляющих подмножеств и степень их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зрения влияния на связность фрагмента.

3. Алгоритм ранжирования официальных веб-сайтов классических университетов России, основанный на содержательной интерпретации характеристик присутствия сайтов в Вебе.

4. Теоретико-графовые характеристики веб-графа для реальных фрагментов российского Веба, показывающие незначительную взаимосвязь веб-сайтов российских тематических сообществ.

5. Математические модели взаимосвязей сайтов посредством гиперссылок, применение которых позволяет улучшить характеристики присутствия вебсайтов и их сообществ в Вебе.

Практическая значимость заключается в следующем:

• Предложенные методы и реализованные на программном уровне алгоритмы позволяют строить научно обоснованные модели фрагментов Веба, которые могут быть использованы при разработке сценариев развития комплексов веб-ресурсов организационных систем, направленных на улучшение их присутствия в Вебе.

• Результаты исследований внедрены для комплекса веб-ресурсов Карельского научного центра РАН в рамках проекта «Исследование и разработка научно-методических основ создания и развития инфраструктуры информационно-телекоммуникационной системы КарНЦ РАН».

• Результаты работы получили практическое применение в рамках исследований официальных сайтов органов государственной власти РК, что подтверждено соответствующим актом.

• Результаты исследований включены в Отчет о деятельности РАН в 2006 году (том 3, Основные исследования и разработки научных учреждений РАН, готовые к практическому применению).

• По результатам исследований прочитан обязательный спецкурс «Технологии специализированных баз данных для вебометрических исследований» для магистрантов факультета прикладной математики -процессов управления Санкт-Петербургского государственного университета (2009/2010 уч.год).

• Получено Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.

Широкая применимость предложенных моделей, методов и программного обеспечения подтверждается результатами апробации для тематических фрагментов Веба различной тематики.

Достоверность и обоснованность полученных результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, применении системного подхода в исследованиях, корректности принятых при разработке математических моделей допущений. Разработанные и используемые методы и теоретические подходы находят свое подтверждение посредством их сравнения для различных фрагментов российского Веба и проверкой на множестве данных, предоставленных Компанией Яндекс. Адекватность ряда математических моделей подтверждается результатами компьютерного моделирования.

Исследования были поддержаны:

• Компанией Яндекс в рамках конкурса Интернет-математика 2007 (проект «Математические модели согласованного поведения малых Интернет-сообществ»),

• инициативным грантом РФФИ (проект «Вебометрические исследования научных интернет-ресурсов российского Интернета», №08-07-00023а, 20082010 годы);

• частично в рамках Программы фундаментальных исследований отделения математических наук РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения» (проект «Задачи оптимальной маршрутизации трафика, распределения и защиты информационных ресурсов», 2009, 2010 годы).

Краткое содержание работы

В первой главе рассматривается проблематика вебометрики как нового научного направления в рамках информатики. Даются основные понятия предметной области - определения, современные модели, основные подходы и программные средства, используемые в вебометрических исследованиях. Вводится понятие регламентируемых тематических веб-сайтов, как сайтов, относящихся к одной предметной области и имеющих нормативный документ организации-владельца, в котором изложены цели и задачи веб-сайта, основные структурные составляющие, правила добавления и изменения информации и т.д. Определяются характеристики присутствия в Вебе как отдельных вебсайтов, так и тематических регламентируемых множеств. Формулируется комплекс актуальных задач разработки математических моделей, методов и программных средств вебометрики, направленных на улучшение характеристик присутствия в Вебе регламентируемых тематических веб-сайтов.

Во второй главе представлена формализованная концептуальная модель для регламентируемого тематического целевого множества веб-сайтов и основанные на ней метод автоматизированного построения фрагментов Веба на основе задаваемого целевого множества и оценки её реализации. Реализация концептуальной модели для сайтов учреждений РАН, классических университетов России и органов государственной власти Республики Карелия позволяет сделать вывод о применимости предложенного метода для широкого класса фрагментов Веба.

В третьей главе рассмотрено применение теоретико-графовых подходов к исследованию связности регламентируемых тематических фрагментов Веба, являющейся одной из основных характеристик присутствия в Вебе целевых множеств. Показано сильное влияние на степень связности целевого множества наличие (или отсутствие) иерархической подчиненности его участников. Показано большое влияние на связность целевого множества, оказываемое сайтами, входящими во множество сайтов-коммуникаторов, являющееся существенной компонентой концептуальной модели.

В четвертой главе исследуются вопросы ранжирования сайтов тематического сообщества, тесно связанные с их индивидуальными характеристиками присутствия в Вебе.

Пятая глава посвящена математическим задачам, разработка и решение которых ведут к улучшению присутствия в Вебе сообществ сайтов в смысле некоторых заданных критериев. Дискретная оптимизационная задача позволяет найти такой способ расстановки гиперссылок в заданном множестве сайтов, который повышает их присутствие в Вебе с точки зрения поисковых машин. Задача, исследуемая методами кооперативной теории игр, позволяет дать ответ на вопрос о том, каков должен быть вклад владельцев заданного множества сайтов на создание сайта-коммуникатора, существенно улучшающего характеристики связности. В третьей задаче исследуется вопрос о том, при каких условиях сайты получают дополнительную выгоду (в смысле количества посещений пользователями) от участия во множестве сайтов, ссылающихся на один и тот же сайт-коммуникатор и имеющих обратные гиперссылки с него. Построена математическая модель, поведение которой исследовано аналитическими методами и методами имитационного моделирования.

В шестой главе описаны основные программные средства, используемые в диссертационной работе для сбора вебометрической информации. Основное внимание уделено подходам, положенным в основу Информационной системы для вебометрических исследований - специализированному комплексу программ, созданного в ИПМИ КарНЦ РАН и используемого при проведении вебометрических исследований.

В заключении изложены основные результаты работы.

Заключение диссертация на тему "Разработка математических моделей, методов и программных средств для исследования взаимосвязей регламентируемых веб-сайтов"

3.6 Результаты исследования веб-графа фрагмента Веба органов государственной власти РК

3.6.1 Исследование связности на административном каркасе и административных подмножествах органов госвласти РК

Целевое множество сайтов органов госвласти РК разделяется на четыре подмножества (законодательная власть РК, исполнительная власть РК, судебная власть РК и представительства федеральных органов власти в РК), только одно из которых имеет отношения иерархической подчиненности - это сайты, относящиеся к исполнительной власти РК. Вид такой иерархии предельно прост: 10 сайтов (сайты госкомитетов по делам молодежи, по обеспечению жизнедеятельности, по физической культуре, по энергетике и министерств здравоохранения, образования, сельского хозяйства, строительства, труда и финансов) подчинены Официальному порталу органов государственной власти РК. Обозначим Портал органов власти РК как щ, а 10 подчиненных ему сайтов — Тисп. Исследования показывают, что вершина щ имеет исходящие дуги на 9 вершин из Тисп, а из 10 вершин Тисп 9 имеют исходящие дуги на и0. Отсюда 8ЕС+(и0, Тисп)=0.9, 8РС~(и0, Тисп)=0.9 и Тисп)=0.9.

Рассмотрение административного подмножества Тисп показывает, что между его вершинами существует лишь одна связывающая их дуга (между сайтами Госкомитета РК по делам молодежи и Министерства образования), откуда СЕС(Тисп)=0,0001.

Таким образом, на подмножестве сайтов органов исполнительной власти РК почти полностью отображается иерархия между главным и остальными сайтами и практически не отражены взаимодействия между министерствами и госкомитетами.

3.6.2 Исследование компонент связности веб-графа фрагмента Веба органов госвласти РК

Вычисление полустепеней вершин целевого множества дает следующие результаты. Значения Indegree>4 имеют сайты Официального портала органов государственной власти РК (1^е2?ее7=22), Прокуратуры РК (5), Управления Федеральной налоговой службы по РК (5), Верховного суда РК (4), Министерства внутренних дел по РК (4), что говорит об их достаточно большой популярности среди других органов власти. В то же время 18 сайтов имеют Indegree= 1 и два сайта не имеют входящих дуг вообще.

Значения Outdegree>4 имеют сайты Официального портала органов государственной власти РК (Outdegree=36), Управления Судебного департамента в РК (10), Управления Роснедвижимости по РК (5), Следственного управления СК при прокуратуре РФ по РК (4). Однако 13 сайтов имеют Outdegree= 0, что косвенно свидетельствует о слабом взаимодействии многих органов госвласти.

Обнаружена зависимость между значениями Indegree и Outdegree (коэффициент корреляции Пирсона равен 0,898), что демонстрируется графиками на рис. 3.14 (значения Indegree упорядочены по убыванию).

Indegree / Outdegree

35

30

25

20

15

10 тт-r—Т' -Indegree -Outdegree саиты

Рис. 3.14. Значения Indegree и Outdegree для сайтов органов госвласти РК

Построение компонент сильной связности графа G'rqL(cT,Er) даёт следующие результаты. Обнаружена единственная КСС, содержащая 24 вершины.

Из 39 вершин целевого множества СП

• 24 вершины содержатся в максимальной КСС;

• из остальных 15 вершин:

- 2 вершины имеют исходящие, но не имеют входящих дуг;

- 13 вершины имеют входящие дуги, но не имеют исходящих.

Диаметр КСС равен 3.

На рис. 3.15 вершины, составляющие максимальную КСС графа Gr<PE(^Eq), изображены более темным цветом. Полный перечень сайтов, вошедших в КСС, приведен в Приложении 6, а его часть - в табл. 3.10.

Рис. 3.15. Граф Сг<ре((Т,Е'1) фрагмента Веба органов госвласти РК и его максимальная компонента сильной связности

ЗАКЛЮЧЕНИЕ

В диссертации сформулирована и решена важная научная? задача разработки и развития теоретических и практических разделов вебометрики, направленных на, улучшение присутствия в, Вебе, сайтов, являющихся» тематическими,регламентируемыми веб-ресурсами. Проведенные исследования-* представляют собой новый подход: к исследованию Веба, базирующийся; на разработанных формализованных методах и специализированных программных средствах: для* детального обследования^ фрагментов Веба, заключающийся в построении и- анализе описательных и формальных моделей, выявлении наиболее значимых компонент и постановке и решении математических задач рационального поведения веб-сайтов, входящих в данные компоненты. Такое полное исследование: дает возможность предлагать решения, улучшающие; основные характеристики присутствия в Вебе тематических регламентируемых сайтов; которые далее могут быть реализованы в виде управленческих решений; реализуемых посредством административных регламентов сайтов,

Основные: научные и практические результаты работы: состоят в следующем:

Г. Предложен1 метод автоматизированного построения; фрагментов Веба на; основе задаваемого целевого множества, веб-ресурсы которого относятся* к одной тематике и являются регламентируемыми, т.е. создаются и развиваются; по заранее сформулированным, правилам, утвержденным в виде нормативных документов организаций-владельцев ресурсов. Основу метода составляет формализованная концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в: виде; теоретико-множественных отношений. Формальный, характер модели, обеспечивает возможность определения в её терминах формализованной: процедуры построения концептуальной модели фрагмента Веба для заданного-регламентируемого тематического целевого множества, предполагающей" программную реализацию большинства этапов.

Реализация концептуальной модели для трех заданных целевых множеств, - официальных сайтов учреждений РАН, официальных сайтов классических университетов России и официальных сайтов органов государственной^ власти Республики Карелия, — позволяет сделать вывод о применимости предложенного метода для регламентируемых фрагментов Веба различной тематики. Анализ реализаций концептуальной модели показывает, что в каждом фрагменте Веба могут быть выявлены 9 основных подмножеств, отношения связности между ними и характеризующие их атрибуты, что позволяет сделать ряд общих выводов об организации фрагментов Веба.

Одним из важных результатов исследований является построенное множество тематических веб-коммуникаторов, входящее в состав концептуальной модели. Веб-коммуникаторы имеют высокую степень связности с целевым множеством и существенно влияют на его связность. Можно утверждать, что множество веб-коммуникаторов является расширением целевого множества, позволяющим сформировать основной объект вебометрических исследований: собственно сайты целевого множества, сайты тематических веб-коммуникаторов и связывающие их отношения.

Предложенный метод построения моделей фрагментов Веба обеспечивает автоматизированное формирование и оценки реализации концептуальной модели фрагмента Веба для задаваемого целевого множества. Построение подобных структур призвано облегчить задачу определения расширенных объектов вебометрических исследований, требуемых для решения задач улучшения присутствия в Вебе тематических сообществ.

Концептуальная модель, реализованная на примерах академического и университетского фрагментов Веба и фрагмента Веба органов государственной власти Карелии, позволила дать численные оценки для каждого из подмножеств и степени их связности, классификацию входящих в них сайтов, а также существенно уменьшить размерность самих моделей посредством исключения подмножеств, сайты которых бесперспективны с точки зрения влияния на связность фрагмента. В случае академического множества мощность множества сайтов уменьшается, в 22 раза, а количества связывающих их гиперссылок - в 17 раз; в случае университетского-Веба - в 9 и 14 раз соответственно.

2. Показано, что теоретико-графовые модели и методы служат хорошим инструментом.для исследования-целевых множеств и множеств веб-коммуникаторов тематических фрагментов Веба и позволяют дать оценки связности-и выявить основные направления для постановки задач улучшения присутствия в- Вебе тематических сообществ. Основным результатом использования теоретико-графового подхода применительно к таким фрагментам Веба, как академический и университетский фрагменты и фрагмент Веба органов госвласти РК, является установление невысокой степени связности их целевых множеств, следствием чего является их незначительное присутствие в Вебе. Вместе с тем, на примерах фрагмента академического Веба, и- фрагмента Веба органов госвласти< показано, что административная иерархия организаций-владельцев сайтов находит достаточно хорошее отражение в Вебе. Показано, что административный каркас играет системообразующую роль в организации академического Веба в целом, однако его возможности для улучшения связности использованы не более чем на 60%.

Исследованы компоненты связности фрагментов академического и университетского Веба и фрагмента Веба органов госвласти, определен объем максимальных компонент сильной связности" их целевых множеств, показывающий незначительное взаимодействие посредством гиперссылок официальных сайтов всех трех фрагментов. Установлено существенное влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для всех рассмотренных фрагментов Веба.

3. Проведено исследование задач ранжирования сайтов для ряда регламентируемых тематических множеств сайтов. Показано, что на результаты ранжирования по любому из рассмотренных, алгоритмов; в; значительной степени влияет выбор единиц анализа, а не использование тех или иных поисковых систем для измерения индикаторов. Предложен алгоритм» ранжирования? сайтов, основанный*: на. содержательною, интерпретации« содержательного^ смысла таких понятий;, как популярность поисковых систем; попадание: пользователяша* сайт через поисковую; машину и переход наг сайт по1 ссылке с другого сайта. Сопоставление результатов ранжирования по данному алгоритму с резул ьтатами;ранжирования i по известному алгоритму Cybermetrics Lab показывают сильную; положительную статистическую5 взаимосвязь результатов, при этом предложенный алгоритм менее трудозатратен, поскольку требует в два раза меньше исходных данных, чем алгоритм Cybermetrics Lab. 4. Рассмотрены и исследованы математические задачи, основанные на применении методов математического моделирования, разработка* и решение которых ведут к улучшению присутствия в Вебе сообществ^ сайтов в смысле некоторых заданных критериев; Первая; из задач; относится? к дискретным оптимизационным задачам и позволяет найти такой способ1 расстановки, гиперссылок в заданном'множестве сайтов; который повышает их присутствие, в: Вебе с точки зрения? поисковых машин. На основе предложенной модели-исследованы вопросы согласованного поведения реальных веб-сообществ. Выявлены подмножества российского Веба, поведение: которых является близким к согласованному. Во второй: задаче исследуется вопрос о том; каков должен быть вклад организаций-владельцев заданного множества сайтов; на создание сайта-коммуникатора, существенно улучшающего его связность. Построена и исследована математическая модель дележа затрат на1 создание веб-коммуникатора; основанная; на методах кооперативной теории игр. В третьей задаче исследуется вопрос о том; при каких условиях сайты получают дополнительную выгоду (в смысле количества посещений: пользователями) от участия- во множестве сайтов, ссылающихся на один и тот же сайтт коммуникатор и имеющих обратные гиперссылки с него. Получены решения; позволяющие каждому участнику сообщества оценивать полезность его участия в нем.

На практике решение указанных задач могут быть положены в основу административных регламентов, направленных на улучшение присутствия в Вебе регламентируемых тематических сообществ сайтов.

5. Создана проблемно-ориентированная информационная система для вебометрических исследований, включающая в себя робот-сборщик информации, сканирующий исследуемые сайты российского Веба, и реляционную базу данных для хранения и обработки собираемой информации, в которой реализован набор операций, соответствующий основным задачам вебометрических исследований. Проведенное сканирование сайтов академического, университетского фрагментов Веба и фрагмента Веба органов государственной власти Карелии позволило сформировать базы данных, являющихся экспериментальной основой для исследований реальных фрагментов Веба.

Библиография Печников, Андрей Анатольевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Всемирная паутина Электронный ресурс. Режим доступа: http://ru.wikipedia.org/wiki/WWW.

2. Tim Berners-Lee Электронный ресурс. Режим доступа: http://www.w3 .org/People/Berners-Lee.

3. Robert Cailliau Электронный ресурс. Режим доступа: http://www.robertcailliau.eu/Alphabetical/M/Me/Welcome.html.

4. World Wide Web@20 Электронный ресурс. Режим доступа: http://info.cern.ch/www20.

5. Berners-Lee Т. Information Management: A Proposal / Т. Berners-Lee Электронный ресурс. Режим доступа: http://www.w3 .org/History/1989/proposal.html.

6. Almind Т. Informetric analyses on the World Wide Web: Methodological approaches to «webometrics» / Т. Almind, P. Ingwersen // Journal of Documentation. 1997. -№ 53 (4). - P. 404-426.

7. Bossy M.J. The last of the litter: «Netometrics» / M.J. Bossy // Solaris 1995. -№2 Электронный ресурс. - Режим доступа: http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d02/2bossy.html.

8. Cybermetrics. Electronic journal of scientometrics, informetrics and bibliometrics Электронный ресурс. Режим доступа: http://www.cindoc.csic.es/cybermetrics.

9. Webology. Электронный ресурс. Режим доступа: http://webology.ir.

10. Björneborn L. Toward' a basic framework for webometrics / L. Björneborn, P. Ingwersen // Journal of the American Society for Information Science. 2004. -Vol. 55, Iss. 14.-P. 1216-1227.

11. Thelwall M. Bibliometrics' to Webometrics / M. Thelwall // Journal of Information Science. 2007. - 34 (4). - P. 1-18.

12. Ingwersen P. Webometrics: ten years of expansion/P. Ingwersen // International Workshop on Webometrics, Informetrics and Scientometrics & Seventh COLLNET

13. Meeting, Nancy (France), May 10-12, 2006 Электронный ресурс. Режим, доступа: http://eprints.rclis.Org/6264/l/ingwersen.pdf.

14. Berners-Lee Т. Creating a Science of the Web / T. Berners-Lee, W. Hall, J. Hendler, N. Shadbolt, D. J. Weitzner // Science. 11 August 2006. - Vol. 313, № 5788.-P. 769-771.

15. Индекс цитирования Электронный ресурс. Режим доступа: http://help.yandex.ru/catalogue/?id=873431.

16. Brin S. The Anatomy of a Large-Scale Hypertextual Web Search Engine / S. Brin, L. Page // Computer Networks and ISDN Systems. 1998. - № 30. - P. 107117.

17. Cronin B. Invoked on the web / B. Cronin, H.W. Snyder, H. Rosenbaum, A. Martinson, E. Callahan // Journal of the American Society for Information Science. -1998.-№49 (14).-P. 1319-1328.

18. Flake G. W. Self-organization and identification of web communities / G. W. Flake, S. Lawrence, C. L. Giles, F.M-. Coetzee, // IEEE Computer. 2002. - №35. -P. 66-71.

19. Thelwall M. Extracting macroscopic information from web links / M. Thelwall // Journal of the American Society for Information Science and Technology. 2001. — №52 (13).-P. 1157-1168.

20. Thelwall M. Link Analysis: An Information Science Approach / M. Thelwall. -Amsterdam: Elsevier Academic Press, 2004. 269 p.

21. Link Analysis: An Information Science Approach Электронный ресурс. -Режим доступа: http://linkanalysis.wlv.ac.uk/index.html.

22. Таненбаум Э. Компьютерные сети / Э. Таненбаум СПб.: Изд-во «Питер», 2009.-992 с.

23. Statistical Cybermetrics Research Group, University of Wolverhampton Электронный ресурс. Режим доступа: http://cybermetrics.wlv.ac.uk.

24. Bjornebom Ь. Small-world link structures across an academic web-space : a library and information-science approach / L. Bjornebom // PhD dissertation. Royal

25. School of Library and Information Science. 2004. - 399 p. Электронный ресурс. - Режим доступа: http://vip.db.dk/lb/phd/phd-thesis.pdf [6.0 MB],

26. Ajiferuke I. Delinking: An Exploratory Study /1. Ajiferuke // Webology. March 2008. - Vol. 5, Num. 1 Электронный ресурс. - Режим доступа: http://www.webology.ir/2008/v5nl/a51 .html.

27. Vaughan L. Why are hyperlinks business websites created? A content analysis / L. Vaughan, Gao Y., Kipp M. // Scientometrics. 2006. - № 67 (2). - P. 291-300.

28. Thelwall M. Graph Structure in Three National Academic Webs: Power Laws with Anomalies / M. Thelwall, D. Wilkinson // Journal of the American Society for Information Science and Technology. Jun 2003. - Vol.54, Num.8. - P. 706-712.

29. Kim H. Comparing academic hyperlink structures with journal publishing in Korea: A social network analysis/ H. Kim, H.W. Park, M. Thelwall // Science Communication. -2006. -№27(4). P. 540-564

30. InternetLab: Observatorio de Ciencia у Tecnologia en Internet Электронный ресурс. Режим доступа: http://internetlab.cindoc.csic.es.

31. Ortega J.L. Visualization of the Nordic academic web: Link analysis using social network tools / J.L. Ortega, I.F.Aguillo // Information Processing & Management. -July 2008. Vol. 44, Iss. 4. - P. 1624-1633.

32. Ortega J.L. Maps of the academic web in the European Higher Education Area -an exploration of visual web indicators / J.L. Ortega, I.F.Aguillo, V. Cothey, A. Scharnhorst // Scientometrics №74 (2). - P. 295-308.

33. Vasileiadou E. Linking shallow, linking deep. How scientific intermediaries use the Web for their network of collaborators / E. Vasileiadou, P. van den Besselaar // Cybermetrics. International Journal of Scientometrics, Informetrics and

34. Bibliometrics. 2006. - Vol.10, Iss.l Электронный ресурс. - Режим доступа: http://www.cindoc.csic.es/cybermetrics/articles/vl0ilp4.html.

35. Park H.W. Hyperlink Analyses of the World Wide Web: A Review / H.W. Park, M. Thelwall // Journal of Computer-Mediated Communication 2003. - № 8 (4) Электронный ресурс. - Режим доступа: http://jcmc.indiana.edu/vol8/issue4/park.html?ref=AJRKAD ASBUL.NET.

36. Rogers R. Landscaping climate change: A mapping technique for understanding science and technology debates on the world wide web / R. Rogers, N. Marres // Public Understanding of Science 2000. - №9. - P. 141-163.

37. Park H.W. Internet communication structure in Korean National Assembly: A network analysis / H.W. Park, G.A. Barnett, C.S. Kim // Korean Journal of Journalism & Communication Studies (Special English edition). 2001. - P. 185204.

38. Park H.W. Hyperlink-affiliation network structure of top Web sites: Examining affiliates with hyperlink in Korea / H.W. Park, G.A. Barnett, I. Y. Nam // Journal of the American Society for Information Science and Technology. 2002. - №53(7) -P. 592-601.

39. Brunn S.D. Mapping the 'Worlds' of the world wide web: (Re)Structuring global commerce through hyperlinks / S.D. Brunn, M. Dodge // American Behavioral Scientist.-2001.-№44(10).-P. 1717-1739.

40. Broder A. Graph structure in the web / A. Broder, R. Kumar, F. Maghoull, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, J. Wiener // Journal of Computer Networks. 2000: - № 33(1-6). - P. 309-320.

41. Milgram, S. The small world problem / S. Milgram // Psychology Today. 1967. -№1(1).-P. 60-67.

42. Watts D. J. Collective dynamics of 'small-world' networks / D.J .Watts, S. H; Strogatz // Nature. 1998. - №393. P. 440-442.

43. Albert R. Diameter of the World Wide Web / R. Albert, H. Jeong, A-L. Barabasi // Nature 1999. - №401 (9). P. 13 0-131.

44. Bjorneborn L. Hvor er verden dog lille ogsa pa webben It's a small world - also on the Web. / L. Bjorneborn // Bibliotekspressen. - 2004. - №17. - 494-495.

45. TouchGraph Электронный ресурс. Режим доступа: http ://www.touchgraph. com.

46. Авдеева З.К. Когнитивное моделирование для решения задач управления слабоструктурированными системами (ситуациями) / З.К. Авдеева, С.В. Коврига, Д.И. Макаренко // Управление большими-системами. -М.: ИПУ РАН. 2007. - Вып. 16. - С. 26-39.

47. Ortega J.L. Interdisciplinary relationships in the Spanish academic web space: A Webometric study through networks visualization / J.L. Ortega, I.F.Aguillo // Cybermetrics. International Journal of Scientometrics, Informetrics and

48. Bibliometrics. 2007. - Vol. 11, Iss. 1 Электронный ресурс. - Режим доступа: http://www.cindoc.csic.es/cybermetrics/articles/vl lilp4.html.

49. Payne N. Mathematical models for academic webs: linear relationship or nonlinear power law? / N. Payne, M. Thelwall // Information Processing andi

50. Management: an International Journal. December 2005. - Vol. 41 , Iss. 6. - P.* 1495-1510.

51. Rheingold H. The virtual community: homesteading on the electronic frontier / H. Rheingold. Cambridge, Mass.: MIT Press, 2000. - 447 p.

52. Flake G. W. Self-Organization and Identification of Web Communities / G. W. Flake, S. R. Lawrence, C. L. Giles, F. M. Coetzee // IEEE Computer. 2002 -№35(3). P. 66-71

53. Greco G. Web Communities: Models and Algorithms / G. Greco, S. Greco, E. Zumpano // World Wide Web. 2004. - Vol. 7, Iss. 1. - P. 59-82.

54. Jackson M.O. Meeting Strangers and Friends of Friends: How Random are Social Networks? / M.O. Jackson, B.W. Rogers // American Economic Review. June 2007.-Vol.97, Iss.3. — P. 890-915.

55. Ackland R. A Model of the Link Economy / R. Ackland // Econophysics Colloquium. Contributors & Abstracts. Canberra, Australia, 14-18 November, 2005 Электронный ресурс. - Режим доступа: http://www.rsphysse.anu.edu.au/econophysics/abstracts/Lpdf.

56. Bar-Ilan J. Data collection methods on the Web for infometric purposes A review and analysis / J. Bar-Ilan // Scientometrics. - January 2001. - Vol.50(1). - P. 7-32.

57. Vaughan L. Search engine coverage bias: evidence and possible causes / L. Vaughan and M. Thelwall // Information Processing & Management. 2004. -№40(4)-P. 693-707.

58. Bar-Ilan J. How much information do search engines disclose on the links to a web page? A longitudinal case study of the 'cybermetrics' home page / J. Bar-Ilan // Journal of Information Science. 2002. - Vol. 28, No. 6. - P. 455-466.

59. Snyder H. Can search engines be used as tools for web-link analysis? A critical view/ H. Snyder, H. Rosenbaum // Journal of documentation. 1999. - Vol. 55(4). -P. 375-384.

60. Thelwall M. Web impact factors and search engine coverage / M. Thelwall // Journal of Documentation. 2000. - Vol. 56(2). - P. 185-189.

61. LinkPopularity.com: The Free Link Popularity Service Электронный ресурс. -Режима доступа: http://www.linkpopularity.com.

62. Kelly В. WebWatch: A Survey of links to UK University Web Sites / B. Kelly // Ariadne. March 2000. - Iss.23 Электронный* ресурс. - Режим-доступа: http://www.ariadne.ac.uk/issue23/web-watch.

63. The Academic Web Link Database Project Электронный ресурс. Режим* доступа: http://cybermetrics.wlv.ac.uk/database/index.html.

64. Pant G. Crawling the Web / G. Pant, P. Srinivasan, F. Menczer // In Web Dynamics. M. Levene and A. Poulovassilis, eds. - Springer, 2004. - P. 153-178.

65. Partalas I. Focused Crawling Bibliography /1. Partalas, G. Paliouras, I. Vlahavas // 2006- Электронный ресурс. Режим доступа: http://mlkd.csd.auth.gr/fcrawling/fcrawlingbib.pdf.

66. Pant G. Link Contexts in Classifier-Guided Topical Crawlers / G. Pant, P. Srinivasan // IEEE Transactions on knowledge and data engineering. 2006. - vol. 18, No. 1,-P. 107-122.

67. SocSciBot Электронный ресурс. Режим доступа: http://socscibot.wlv.ac.uk.

68. Heydon A. Mercator: A Scalable, Extensible Web Crawler / A. Heydon, M. Najork // 1999 Электронный ресурс. Режим доступа: http://mias.uiuc.edu/files/tutorials/mercator.pdf.

69. Badia A. Focused Crawling: Experiences in a Real World Project / A. Badia, T. Muezzinoglu, O. Nasraoui // Proceedings of the 15th international conference on World Wide Web, WWW 2006, Edinburgh, Scotland, UK, May 23-26, 2006.-P. 1043-1044.

70. Thelwall M. A web crawler design for data mining / M; Thelwall // Journal of Information Science. 2001. - Vol. 27, No: 5- P. 319-325.

71. Ingwersen P. The calculation of Web Impact Factors / P. Ingwersen // Journal of Documentation March51998. — vol. 54, no* 2 - P: 236-243;

72. Hjortgaard Christensen F. Online citation analysis: a methodological approach / F. Hjortgaard Christensen, P. liigwersen // Scientometricsi- 1996: №371 P. 39-62.

73. Thelwall М: Results from a Web Impact Factor crawler / Ml Thelwall // Journal of Documentation; 2001. - № 57(2), P. 177-191.

74. Noruzi A. Web Impact Factors for Iranian Universities / A. Noruzi // Webology. April, 2005. - Vol; 2, Num. 1 Электронный ресурс. — Режим? доступа: http://www.webology.ir/2005/v2nl/all.html.

75. Humanities. Conference • on Open Access to Knowledge in the Sciences and

76. Humanities, October 20-22, 2003, Berlin. Электронный ресурс.http://oa.mpg.de/openaccess-berlin/berlindeclaration.html.90; About Exalead:http://www.exalead.com/software/company.91;. Live Search: Электронный ресурс. Режим доступа: http://www.live.com.

77. Aguillo; I.F. Indicadores: de contenidos para la web académica iberoamericana

78. Content indicators for Iberoamerican academic webs. / I.F. Aguillo // BiD:: textosuniversitaris de biblioteconomia i documentació, desembre. — 2005. — № 15

79. Электронный ресурс. Режим доступа:http://www2.ub.edu/bid/consultaarticulos.php?fichero=l 5aguil2.htm.

80. Шокин Ю.И. Рейтинг сайтов научных организаций СО РАН / Ю.И. Шокин, O.A. Клименко, Е.В. Рычкова, И.В. Шабальников // Вычислительные технологии. 2008. - Т. 13, №3.-С. 128-135.

81. Клименко O.A. О рейтинге сайтов научных организаций СО РАН / O.A. Клименко, Ю.И. Шокин // Наука в Сибири. б ноября 2008 г. - № 44 (2679) Электронный ресурс. - Режим доступа: http://www-sbras.nsc.ru/HBC/hbc.phtml?5+479+1.

82. Рейтинг сайтов научных учреждений СО РАН Электронный ресурс. -Режим доступа: http://www.ict.nsc.ru/ranking.

83. WEB аналитик: анализ известности сайтов Электронный ресурс. Режим доступа: http://www.align.ru.

84. Яндекс.Вебмастер: Советы вебмастеру. Электронный ресурс. Режим доступа: http.7/help.yandex.ru/webmaster/?id=995298.

85. Руководство для веб-мастеров. Электронный ресурс. Режим доступа: http://www.google.ru/support/webmasters/bin/answer.py?hlrm=en&answer=35769.

86. Wikipedia. Электронный ресурс. Режим доступа: http://wikipedia.org.

87. Правила участия в кольце «Законы, законодательство и право».г

88. Электронный ресурс. http://www.lawdir.ioi/rules.

89. Davison B. Recognizing Nepotistic Links on the Web / B. Davison // AAAI1 2000 workshop on Artificial Intelligence for Web Search. Boston: AAAI Press. — 2000.-P. 23-28.http://www.ras.ru/sciencestructure/informationsystems.aspx.

90. Web Dynamics. Adapting to Change in Content, Size, Topology and Use / M. Levene, A. Poulovassilis, eds., Springer, 2004. - 479 p.

91. Нильсен Я. Веб-дизайн / Я. Нильсен. СПб.: Символ-Плюс, 2001. - 512 с.

92. Глонь О.В. Оптимизация структуры сайта в условиях неполной информации / О. В. Глонь, В. М. Дубовой, А. М. Москвин // Научные труды

93. Винницкого национального технического университета. Автоматика и информационно-измерительная техника. 2008. - №1. - с. 23-28.

94. Middleton I. Presenting a model for the structure and content of a university WWW site / I. Middleton, M. McConnell, G. Davidson // Journal of Information-Science. 1999. - Vol. 25, Num. 3 - P. 219-227.

95. Гиперссылки: HSBC Bank Russia Электронный ресурс. Режим доступа: http://www.hsbc.rU/l/2/ru/about-usl/hyperlink-policy.

96. ACM Code of Ethics and Professional Conduct Электронный ресурс. -Режим доступа: http://www.acm.org/about/code-of-ethics.

97. Ethical decision-making and Internet research: Recommendations from the AoIR ethics working committee / Charles Ess and the AoIR ethics working committee. November 27, 2002 Электронный ресурс. - Режим доступа: www.aoir.org/reports/ethics.pdf.

98. Информационные системы научных Электронный ресурс.1. Режимучреждений РАНдоступа:

99. Thelwall M. Web Crawling Ethics Revisited: Cost, Privacy and Déniai of Service / M. Thelwall, D. Stuart // Journal of the American Society for Information Science and Technology. 2006. - №57. - P. 1771 -1779.

100. Стратегия развития информационного общества в Российской Федерации Электронный ресурс. Режим доступа: http://www.rg.ru/2008/02/16/informacia-strategia-dok.html.

101. Окинавская Хартия глобального информационного общества Электронный ресурс. Режим доступа: http://www.iis.ru/library/okinawa/charter.ru.html.

102. Месарович М. Общая теория систем: Математические основы / М. Месарович, Я. Такахара М.: Мир, 1987. - 312 с.

103. Черняк Ю.И. Анализ и синтез систем в экономике / Ю.И. Черняк М.: Экономика, 1970. - 151 с.

104. Советов Б.Я. Моделирование систем / Б.Я. Советов, С.А. Яковлев М.: Высшая школа, 2001. - 344 с.

105. Яндекс.Помощь: Каталог Что такое Каталог. Электронный ресурс. -Режим доступа: http://help.yandex.ru/catalogue.

106. Федеральная служба государственной статистики. Общероссийский классификатор видов экономической деятельности. Электронный ресурс. -Режим доступа: http://www.gks.ru/bgd/fi-ee/b0260/Main.htm.

107. Основной домен (в формате с префиксом www или без него) Электронный ресурс. Режим доступа: http://www.google.com/support/webmasters/bin/answer.py?answer=44231&topic=90 25.

108. Domfin names — concepts and facilities Электронный ресурс. Режим доступа: ftp://ftp.rfc-editor.org/in-notes/rfcl034.txt.

109. Яндекс.Каталог: Власть Электронный ресурс. Режим доступа: http://yaca.yandex.ru/yca/geo/Russia/Northwest/RespublikaKareliya/cat/Society/ Authorities.

110. Воронин А.А. Математические модели организаций / А.А. Воронин, М.В. Губко, С.П. Мишин, Д. А. Новиков Mi: ЛЕНАНД, 2008: - 360 с. •

111. Концепция создания ЕИС РАН. Вторая редакция Электронный ресурс. -Режим доступа: http://www.ras.ru/scientificactivity/eis/eisconception.aspx.

112. Министерство образования и науки РФ. Типовая методика оценки результативности научных организаций государственного сектора в Российской Федерации (проект). Электронный ресурс. Режим доступа: http://www.mon.gov.ru/work/nti/dok/gsn/tip-metod.doc.

113. Краткий путеводитель по Сибирскому отделению РАН: Электронный ресурс. Режим доступа: http://www.sbras.nsc.ru/consult/rus/guide.htm.

114. Структура Уральского отделения РАН: Электронный ресурс. — Режим доступа: http://www.uran.ru/structura/structura.htm.

115. Устав Российской академии наук Электронный ресурс. Режим доступа: http://www.poisknews.rU/2007/l l/29/ustavrossijj skojjakademiinauk.html.

116. Российская академия наук. Справочник 2007. Часть II Электронный ресурс. Режим доступа: http://www.ras.ru/fstorage/download.aspx?id=209736fD-13f2-4509-882f-d90161a9bl20.

117. Организационная структура Российской академии наук Электронный ресурс. Режим доступа: http://www.ras.ru/win/db/showorg.asp?P=.ln-ru.oi-50.

118. Российский семинар по Оценке Методов Информационного Поиска Электронный ресурс. Режим доступа: http://www.romip.ru.

119. Щипунов А.А Классический университет и глобальная информационная структура / A.A. Щипунов, В.З. Башкатов, Э.С. Воробейников, В .Я. Хасанов // Вестник Томского государственного университета. 2000. - № 269. - С. 126130.

120. Российское образование. Федеральный образовательный портал: учреждения, программы, стандарты. Электронный ресурс. Режим доступа: http://www.edu.ru.

121. Карелия официальная. Официальный портал органов государственной власти Республики Карелия. Электронный ресурс. Режим доступа: http://gov.karelia.ru.

122. Воронин A.A. Оптимальные иерархические структуры / A.A. Воронин, С.П. Мишин М.: ИПУ РАН, 2003. - 213 с.

123. Харари Ф. Теория графов / Ф. Харари. М.: Мир, 1973. - 300 с.

124. Харари Ф. Перечисление графов / Ф. Харари, Э. Палмер М.: Мир, 1977. -326 с.

125. Кристофидес Н. Теория графов. Алгоритмический подход / Н. Кристофидес. М.: Мир, 1978. - 429с.

126. JUNG — the Java Universal Network/Graph Framework. Электронный ресурс. Режим доступа: http://jung.sourceforge.net.

127. Вебометрика. Институт прикладных математических исследований КарНЦ РАН Электронный ресурс. Режим доступа: http://webometrics.krc.karelia.ru.

128. Яндекс. Каталог. Электронный ресурс. Режим доступа: http://yaca.yandex.ru/yca/cat/Science/Sciences/Natural/Biology/Ecolog.

129. ОРМ Opetusministeriö (Ministry of Education). Электронный ресурс. -http ://www.minedu.fi.

130. Наборы данных. Набор данных "Хостграф". Электронный ресурс. -Режим доступа: http://company.yandex.ru/academic/grant/datasetsdescription.xml.

131. Положение о конкурсе научных проектов «Интернет-математика 2007». Электронный ресурс. Режим доступа: http ://company .у andex.ru/academic/grant/regu 1 ati on. xml.

132. Айвазян C.A. Теория вероятностей и прикладная статистика / С.А. Айвазян, B.C. Мхитарян Изд. 2-е. М.: Юнити, 2001. - 656 с.

133. Федеральное агентство по образованию. Электронный ресурс. Режим доступа: http://www.ed.gov.ru.

134. Статистика сайта «Сайты Рунета» Электронный ресурс. Режим доступа: http://www.liveinternet.ru/stat/ru/searches.html.

135. Учебно-методическое объединение по классическому университетскому образованию. Электронный ресурс. Режим доступа: http://www.umo.msu.ru.

136. Институт прикладных математических исследований КарНЦ РАН. Электронный ресурс. Режим доступа: http://mathem.krc.karelia.ru.

137. Петрозаводский государственный университет. Электронный ресурс. -Режим доступа: http://petrsu.karelia.ru.

138. Вентцель Е.С. Исследование операций: задачи, принципы, методология / Е.С. Вентцель 2-е изд., стер. - М.: Наука. Гл. ред. физ.-мат. лит., 1988. - 208 с.

139. Google PageRank: What Do We Know About It? Smashing Magazine. Электронный ресурс. Режим доступа: http://www.smashingmagazine.eom/2007/06/05/google-pagerank-what-do-we-really-know-about-it.

140. Апорт. О проекте. Электронный ресурс. — Режим доступа: http://www.aport.ru/help/?p=2.

141. Трофименко Е.А. Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска / Е.А. Трофименко // Интернет-математика 2005. Яндекс, Москва. - 2005. - С.272-282.

142. Сычев А.В Идентификация веб-сообществ в глобальной сети WAP-ресурсов / A.B. Сычев, М.М. Баженов // Информационные технологии. 2006. -№6.-С. 38-44.

143. Сегалович И. Мы умеем обходить, строить и отвечать на запросы примерно по 1 миллиарду документов. Электронный ресурс. — Режим доступа: http://webplanet.rU/news/interview/2006/2/6/ilyasegalovich.html.

144. Петросян JI.A. Теория игр: Учеб. пособие для ун-тов / JI.A. Петросян, H.A. Зенкевич, Е.А. Сёмина —М.: Высш. шк., Книжный дом «Университет», 1998. -304 с.

145. Литвак Б. Г. Экспертные технологии в управлении / Б. Г. Литвак. 2-е изд., испр. и доп. - М.: Дело, 2004. - 400 с.

146. Печников A.A. Математические модели размещения ссылок в локализованной системе Интернет-ресурсов / A.A. Печников // Системы управления и информационные технологии. 2007. - №2(28). - С. 92-96.

147. Печников A.A. О некоторых подходах к моделированию клик-сообществ / A.A. Печников // Системы управления и информационные технологии. 2008. -№3(33).-С. 15-18.

148. Печников A.A. Исследование согласованного поведения малых Интернет-сообществ / A.A. Печников, Ю.В. Чуйко // Телекоммуникации. 2008. - №10. -С. 8-12.

149. Печников A.A. Вебометрические исследования Web-сайтов университетов России / A.A. Печников // Информационные технологии. 2008. - №11. - С. 7478.

150. Мазалов В.В. О рейтинге официальных сайтов научных учреждений Северо-запада России /В.В. Мазалов, A.A. Печников // Управление большими системами. М.: ИПУ РАН. - 2009. - Вып. 24. - С. 130-146.

151. Мазалов:В1В;. О построении; рейтинга научных: журналов / Мазалов В.В., Печников А.А, Фалысо И.А. // Управление большими, системами. М.: ИПУ РАН. - 2009. - № 27 - С. 47-52. .

152. Воронин A.B. Исследования сайтов органов власти Республики Карелия / A.B. Воронин^ A.A. . Печников // Век качества: Связь, сертификация,, управление, экономика. 2010. - №3. - С. 2-4.

153. Осолоткина Е.Ю; Экологический аспект в Internet-моделях муниципальных образований / Е.Ю; Осолоткина, А.А; Печников // Математические методы в экологии: Тезисы докладов Всероссийской научной школы (Петрозаводск, 10-16 июня 2001 г.). 2001. - С. 186.

154. КарНЦ' РАН (24-27 октября 2006 г.). Том 2. - Петрозаводск: КарНЦ РАН. -2006. С. 146-147.

155. Печников A.A. Математические модели согласованного поведения* малых Интернет-сообществ / A.A. Печников, Ю.В. Чуйко // Интернет-математика. — Екатеринбург: Издательство Уральского университета. 2007. - С. 164-170.

156. Печников A.A. Моделирование клик-сообществ / A.A. Печников // Обозрение прикладной и промышленной математики. 2008. - том 15, вып. 3. — С. 566-567.

157. Печников A.A. Рейтинг официальных web-сайтов университетов России и Финляндии: сравнительный анализ / A.A. Печников, О.Г. Илюкевич // Информационные ресурсы России. 2008. № 3 (103) - С. 25-28.

158. Н.Б. Луговая Измерения научных сайтов / Н.Б. Луговая, A.A. Печников // Телематика'2008. Труды XV Всероссийской научно-методической конференции, Санкт-Петербург, 23-26 июня 2008. Том 1 - С. 166.

159. Луговая Н.Б. Исследование экологических сайтов / Н.Б. Луговая, A.A. Печников // Математические методы в экологии. Тезисы докладов Третьей Всероссийской школы молодых ученых (Петрозаводск, 24-29 августа 2008 г.). 2009.-С.106.

160. Печников A.A. О некоторых результатах вебометрических исследований университетских сайтов / A.A. Печников // Информационная среда вуза XXI века: материалы II Всероссийской научно-практической конференции, Петрозаводск, 15-18 сентября 2008. С. 122-123.

161. Косинец И.Э. Об одном подходе к исследованию ресурсов российского сегмента сети Интернет / И.Э. Косинец, Н.Б.Луговая, А.А.Печников //

162. Информационная среда вуза XXI1 века: материалы II Всероссийской научно-практической конференции, Петрозаводск, 15-18 сентября 2008. С. 15-18.

163. Печников A.A. Структурные исследования научного Веба / A.A. Печников; Ы.Б. Луговая' // Телематика'2009. Труды XVI Всероссийской-; научно-методической конференции (22-25 июня 2009 г., С-Петербург), Том: 2. 2009. — G.340.»

164. Луговая Ы.Б. Разработка инструментов для вебометрических исследований? / Н.Б.Луговая; А.А.Печников ;// Телематика?2009. Труды XVI Всероссийской: научно-методической конференции (22-25 июня 2009 т., С-Петербург); Том 2. — С.341.

165. Печников A.A. О некоторых подходах к исследованию российского научного Веба / A.A. Печников // Теория активных систем 2009. Трудымеждународной научно-практической конференции (17-19 ноября 2009 г., Москва). Том II. 2009. - С. 140-144.

166. Чуйко Ю:В: Исследование связности российского научного Веба / Ю:В.\ Чуйко, A.A. Печников.// Когнитивный'анализ и управление развитием ситуаций* (CASC'2009).' Труды Международной конференции (17-19 ноября 2009 г., Москва). е.283-286:

167. Печников A.A. Исследования университетского фрагмента Веба / A.A. Печников // Телематика'2010. Труды XVII Всероссийской научно-методической конференции (21-24 июня 2010 г., С-Петербург), Том 2. 2010. -С.ЗЗЗ.

168. Косинец И.Э. Об анализе веб-ресурсов органов власти / И.Э. Косинец, A.A. Печников // Информационная среда вуза XXI века: материалы^ IV Всероссийской научно-практической конференции (20-24 сентября 2010 г.). Петрозаводск, 2010. С. 131-133.

169. Печников A.A. Концепутальная модель фрагмента Веба и примеры ее реализации / A.A. Печников // Информационная среда вуза XXI века:материалы IV Всероссийской научно-практической конференции (20-24 сентября 2010 г.). Петрозаводск, 2010. С. 172-173.

170. Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.