автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран

кандидата технических наук
Нвохири Антони Метумараибе
город
Санкт-Петербург
год
2014
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран»

Автореферат диссертации по теме "Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран"

На правах рукописи

НВОХИРИ Антони Метумараибе

Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран (на примере Нигерии)

05.13.18- Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание учёной степени кандидата технических наук

15 МАЙ1Щ

005549119

Санкт-Петербург - 2014

005549119

Работа выполнена на кафедре технологии программирования факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета.

Научный доктор технических наук, доцент

руководитель: Печников Андрей Анатольевич

Официальные доктор технических наук, профессор

оппоненты: Горохов Андрей Витальевич

профессор кафедры прикладной математики и информационных технологий ФГБОУ ВПО «Поволжский государственный технологический университет»

кандидат физико-математических наук, Пашкевич Василий Эрикович Генеральный директор ЗАО «Капитал Программ».

Ведущая ФГБОУ ВПО «Государственный университет

организация: морского и речного флота имени адмирала С.О. <

Макарова»

Защита состоится «20» июня 2014 г. в 16:00 часов на заседании диссертационного совета Д 212.190.03 на базе ФГБОУ ВПО «Петрозаводский государственный университет» по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета и на сайте petrsu.ru.

Автореферат разослан « » СЫ7р 2014 г.

Ученый секретарь диссертационного совета

Воронов Роман Владимирович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Диссертационное исследование «Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран (на примере Нигерии)» выполнено в таком относительно молодом направлении компьютерных наук, как вебометрика, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее - Веб).

Количество исследовательских работ, посвященных вебометрическим исследованиям сайтов университетов развивающих стран, очень мало. Существует проблема оценки качества (степени) присутствия в Вебе различных академических веб-ресурсов, особенно у развивающих стран. Причём для развивающихся стран наиболее характерно неэффективное использование внешних гиперссылок как одного из основных инструментов коммуникации в Вебе, низкая степень развитости сетевых научных коммуникаций ученых, слабое развитие университетского образовательного веб-пространства, в частности, из-за полного отсутствия сайтов научных конференций и семинаров, совместных проектов и региональных советов ректоров. При этом мы не утверждаем, что такие мероприятия и организации в развивающихся странах отсутствуют вовсе, а говорим о том, что они не находят отражения в Вебе.

Степень разработанности темы: Вышеупомянутые проблемы практически отсутствуют у сайтов университетов в развитых странах и поэтому они не исследуются.

В современной научной литературе описаны различные подходы и методы исследования, учитывающие общие для развитых стран, стандартные параметры. Эти методы недостаточны для анализа сайтов университетов развивающихся стран.

Для анализа университетских веб-ресурсов развивающих стран и разработки более адекватных моделей их поведения требуется выявление дополнительных признаков и параметров

исследуемых сайтов, отражающих их специфику, и модификация уже имеющихся методов.

Цель и задачи исследования: Цель исследования заключается в развитии известных и разработке новых математических методов исследования официальных сайтов университетов развивающихся стран на примере Нигерии, направленных на улучшение их присутствия и взаимосвязей в Вебе.

Для достижения указанной цели решается ряд взаимосвязанных задач:

1. Исследование набора уже существующих стандартных характеристик присутствия веб-сайтов нигерийских университетов — размер сайта (общее количество страниц сайта), цитируемость или видимость сайта (количество уникальных гипертекстовых ссылок с других веб-ресурсов), количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.рс1£ *.с!ос, и т.д., научность сайта (количество статей, размещенных на сайте и их цитирований) с использованием известных алгоритмов ранжирования. Автором выявлен набор новых показателей характеризующих эти сайты — возраст университета, исторические и географические аспекты, подчинённость (федеральные, университеты штатов и частные университеты), традиции и этно-культурные признаки региона фактического нахождения университета;

2. Создание модифицированного алгоритма ранжирования на основе расширенного набора характеристик и исследование веб-графа, построенного на множестве сайтов нигерийских университетов с применением теоретико-графовых моделей и методов;

3. Исследование качественных характеристик внешних гиперссылок, сделанных с университетских сайтов Нигерии с точки зрения мотивации создания таких гиперссылок с использованием методов математической статистики.

Объект исследования: официальные веб-сайты университетов в Нигерии и другие веб-сайты Нигерии, имеющие отношение к науке и образованию.

Методы исследований. В диссертационной работе используются вебометрические методы ранжирования, методы

сбора вебометрической информации с помощью поисковых

систем и краулеров, теоретико-графовые модели и методы

математической статистики.

Основные положения, выносимые на защиту:

1. Алгоритмы извлечения вебометрических индикаторов и ранжирования веб-сайтов, ориентированные на страны, у которых веб-пространство вузов находится в начальной стадии развития, и их программная реализация с апробацией и адаптацией на примере университетов Нигерии.

2. Новые математические методы получения теоретико-графовых характеристик веб-графа реального фрагмента университетского Веба, показывающие взаимосвязь вебсайтов как данного сообщества, так и взаимосвязь с университетскими сообществами веб-сайтов развитых стран и их содержательная интерпретация.

3. Математический метод моделирования мотиваций создания гиперссылок на университетских сайтах, представляющий собой классификационную схему и статистические методы, позволяющие получать доминирующие мотивации по географическим регионам страны.

4. Рекомендации для руководства и разработчиков веб-сайтов университетов развивающихся стран (на примере Нигерии), направленные на улучшение использования внешних гиперссылок как одного из основных инструментов коммуникации в Вебе.

Научная новизна работы заключается в следующем:

1. Впервые на примере Нигерии проведено исследование задач ранжирования и построения и анализа веб-пространства официальных веб-сайтов университетов для стран, у которых веб-пространство вузов находится в начальной стадии развития. Исследование позволило установить зависимость вебометрических рангов университетов как от их ведомственной принадлежности (федеральные, университеты штата или частные), так и от внешних ссылок на сайты, сделанных с сайтов университетов высокоразвитых стран.

2. Построенный веб-граф реального фрагмента нигерийского университетского Веба позволил установить существенную

значимость веб-коммуникаторов (в случае Нигерии - это единственный веб-сайт National Universities Commission) для связности веб-графа и незначительную взаимосвязь вебсайтов университетов между собой. 3. Разработана новая классификационная схема мотивации создания гиперссылок (на примере университетов Нигерии), позволяющая с использованием статистических методов получить разные доминирующие мотивации по различным регионам Нигерии.

Теоретическая и практическая значимость работы.

Предложенные методы позволяют дать рекомендации разработчикам веб-ресурсов университетов (особенно университетов стран, у которых веб-пространство вузов находится в начальной стадии развития) по улучшению содержания, усилению связности посредством гиперссылок и изменению мотивации создания гиперссылок, что в целом будет способствовать улучшению присутствия веб-сайтов этих университетов в Вебе.

Апробация работы. Основные результаты диссертационного исследования докладывались и обсуждались на 42-й и 43-й международных конференциях «Процессы управления и устойчивость» (2011, 2012 гг., г.Санкт-Петербург), на V Всероссийской научно-практической конференции «Информационная среда вуза XXI века» (2011 г., Петрозаводск) и на семинарах кафедры технологии программирования СПбГУ.

Личный вклад автора. Все результаты диссертационного исследования получены автором лично.

Публикации. По материалам диссертации опубликованы 6 работ, 3 из которых в журналах и сборниках, входящих в перечень изданий, рекомендованных ВАК РФ для опубликования результатов диссертаций (в том числе одна статья опубликована в журнале, входящем в базу данных Scopus), 2 - статьи материалах конференций и 1 - тезисы, опубликованные в материалах конференции. Список работ приведен в конце автореферата.

Достоверность и обоснованность полученных результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного

фактического материала, корректно применяемых математических методах и моделях.

Структура и объем диссертации. Диссертация работа состоит из введения, четырёх глав, заключения, списка использованных источников и литературы, включающего 138 наименований, списка иллюстративного материала, и 2 приложения. Общий объем диссертации 128 страниц машинописного текста, из них основная часть работы содержит 98 страниц и включает 7 рисунков и 11 таблиц; 1 приложение имеет объем 13 страниц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении обосновывается актуальность выбранной темы диссертационной работы, формулируются цель и задачи исследования, определяются объект и методы исследования и формулируются положения научной новизны исследований и основные полученные результаты.

В первой главе описывается вебометрика и основные направления исследований в этой области науки. Рассматриваются инструментальные средства сбора данных о Вебе, вебометрические методы ранжирования сайтов, модели Веба и классификации гиперссылок. Сделаны обобщающие выводы из анализа научных источников.

Вторая глава описывает университетский Веб Нигерии. Приводится краткая история развития высшего образования в Нигерии, необходимая для дальнейшего изложения. Впервые анализируется веб-пространство университетов в Нигерии, формируется множество доменных имен официальных сайтов этих университетов и создается целевое множество исследований.

Далее описывается задача ранжирования вышеуказанных сайтов, для решения которой предложен модифицированный подход известного метода Cybermetrics Lab1. В этих модификациях предлагается учесть, например, такие индикаторы как количество публикаций в печатных изданиях,

1 Ranking Web of World Universities [Электронный ресурс]. - Режим

доступа: http://www.webometrics.info.

потенциальных авторов, и другие. Данный подход использует следующие понятия:

• S - общее количество страниц сайта (от size, размер);

• V — количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми системами (от visibility, узнаваемость или видимость);

• R — количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf, , *.doc, и других (от Richfiles, насыщенные или богатые файлы);

• Sc — количество статей, размещенных на сайте, и обнаруживаемых Google Scholar (от scholar, «научность сайта»).

Для ранжирования сайтов используется формула: Rating(i)=5 *RankVav(i)+2 *RankSav(i)+l, 5 *RankRav(i)+l, 5 *RankSc(i

)

где Vav - среднее количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых известными поисковыми машинами Google, Yahoo, и Bing-, Sav — среднее количество страниц, обнаруживаемых на сайте этими поисковыми машинами; Rav — среднее количество полнотекстовых файлов; RankVov(i) - порядковый номер /-го сайта в упорядоченном по убыванию векторе Ут. RankSov(i), RankRov(i), RankSc(i) определяются аналогично. Потом тот сайт, у которого значение Rating(i) будет самым маленьким, получает значение WR (Webometrics Rating) равное 1, следующий за ним -2, и т.д.

Значения коэффициентов при RankVov(i), RankS RankRov(i), RankSc(i) определяются в соответствии с Берлинской декларацией открытого доступа2, когда наибольшая значимость придается количеству размещенных на сайте полнотекстовых файлов и количеству ссылок на научные статьи, когда Интернет рассматривается, прежде всего, как «функциональный

Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities. Conference on Open Access to Knowledge in the Sciences and Humanities, October 20-22, 2003, Berlin. [Электронный ресурс] -http://oa.mpg.de/openaccess-berlin/berlindeclaration.html.

инструмент базы глобального научного знания», свободного доступа к научным публикациям и другим учебным материалам.

В целом, сайты федеральных университетов имеют значения рейтингов больше, чем сайты университетов нигерийских штатов и частных университетов. Федеральные университеты получают большее финансирование, они привлекают более квалифицированных сотрудников, в них сложнее поступить, что и увеличивает их престижность. Можно считать, что указанные факторы нашли свое отражение в Вебе. *

Третья глава посвящена модели фрагмента университетского Веба Нигерии. В данной главе основное внимание сосредоточено на трёх вопросах:

1. Что представляет собой академический Веб Нигерии?

2. Какова структура академического Веба Нигерии?

3. Какие рекомендации могут быть сделаны по результатам исследования?

В начале главы содержится описание программных средств и методологий для сбора больших объемов информации о гиперссылках.

Затем описывается исследование университетских сайтов Нигерии. Сначала сканируются сайты посредством краулера ВееВо!3 до 5-го уровня глубины с целью сбора внешних гиперссылок, сделанных с этих сайтов. Анализ базы данных внешних гиперссылок, построенной в результате сканирования сайтов целевого множества, позволил обнаружить веб-сайты, являющихся сайтами множества веб-окрестностей (т.е. сайтов, относящихся к веб-ресурсам университетов, но не являющихся их официальными сайтами).

Переход от официальных сайтов нигерийских университетов к единицам анализа представляет собой агрегирование веб-ресурсов (официальных сайтов и веб-окрестностей) каждого университета, что привело к существенному приросту страниц и

Свидетельство о гос. регистрации программы для ЭВМ «Программа для поиска и сбора внешних гиперссылок ВееСгауу1ег» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2012619665 от 26 октября 2012 г.// Д. И. Чернобровкин, А. А. Печников.

внешних ссылок. Привязка университетов по регионам также позволила выявить ряд интересных особенностей.

В третьем параграфе данной главы исследуются веб-графы университетского фрагмента Веба Нигерии. Эти веб-графы построены на вершинах, соответствующих веб-сайтам целевого множества. Обнаруживается степень связности этих веб-графов и исследуется методы для улучшения их степени связности.

В конце главы рассматривается академический фрагмент нигерийского Веба и с помощью известных вебометрических инструментов и краулера анализируется его связность с сайтами вузов Англии, США и Австралии. Также описывается инструментарий, который был разработан специально для такого рода исследований.

Результаты анализа демонстрируют ярко выраженный географический аспект, который заключается в преобладании университетов с большим количеством связей с иностранными учебными заведениями в южной части страны.

Также проверяется, существует ли корреляция между количеством таких гиперссылок и рейтингом Webometrics ('www.webometrics.info') испанской исследовательской группы Cybermetrics Lab.

Результаты проведенных экспериментов показывают, что ссылки, сделанные с иностранных зарубежных учебных заведений важнее, чем ссылки, исходящие с сайтов нигерийских университетов, хотя в данной работе внимание уделяется и содержательной ценности исходящих ссылок.

В четвертой главе изучаются мотивации создания гиперссылок в университетском Вебе Нигерии. В начале главы содержится подробное описание ранее проведенных подобных исследований задач и методов исследования, поскольку они применяются в дальнейшем. Авторы подобных исследований, рассмотренных в данной диссертации, пришли к трем основным выводам:

• мотивации для создания ссылок на основе изучения только исходных и целевых страниц трудно классифицировать потому, что (а) существуют различные возможные мотивации,

(б) сложно правильно угадать истинные намерения авторов в некоторых случаях и

(в) потенциально существуют многократные мотивации; отсюда авторы делают вывод, что лучшая схема классификации могла бы привести к «более надежным результатам»;

• мотивация создания большинства гиперссылок между сайтами британских университетов не является подобной мотивации цитирования журнальных статей в научных публикациях;

• учебные материалы одного университета очень редко используются в других университетах напрямую, несмотря на «обширное финансирование объединенного межучережденческого обучения», и это, возможно, является показателем того, что финансирование подобных проектов объединенного межуниверситетского обучения неэффективно.

В диссертационной работе исследование мотиваций создания гиперссылок, сделанных с сайтов нигерийских университетов, подразумевает ответы на следующие два вопроса:

• какие мотивации стоят за размещением гиперссылок на нигерийских университетских сайтах?

• какие мотивации создания гиперссылок наиболее характерны для этногеографических регионов Нигерии?

В качестве инструмента для сбора гиперссылок использовался уже упоминавшийся ранее краулер ВееВог, с помощью которого было отсканировано 86 сайтов университетов Нигерии, на которых было обнаружено более 6300 исходящих гиперссылок.

В данной главе разрабатывается классификационная схема мотивации создания гиперссылок университетов Нигерии и примененные к ней статистические методы, позволяющие получить разные доминирующие мотивации по различным регионам Нигерии.

В настоящее время не существует оценки причин создания гиперссылок. Автором предлагается следующая схема.

Изначально из 33 мотиваций, предложенных в работе А.А. Печникова4 с соавторами для российских научных организаций, были выделены 24 основные мотивации, объясняющие мотивы исходящих гиперссылок, сделанных с сайтов нигерийских университетов, из которых здесь укажем только наиболее часто встречающиеся:

- учебные материалы для обучающихся;

- информация для обучающихся и поступающих;

- ресурсы поддержки научных исследований;

- организация-партнер;

- библиотеки и электронные журналы;

- подобная по виду деятельности организация;

- служебный сайт (закрытые и почтовые порталы);

- вышестоящая организация;

- нижестоящая организация;

- органы государственной власти;

- коммерческая организация;

- неклассифицированный сайт;

- неработающая ссылка.

Классификационная схема была упрощена путем объединения столбцов (все исследуемые университеты были собраны по регионам в 5 групп) и строк (количество мотиваций) классификационной схемы. Цель такого действие - сократить количество нулей и сделать объем данных более компактным для изучения.

Количество мотиваций (строк таблицы) было сокращено с 24 до 9. Это сделано, во-первых, и по такой же причине, как в случае столбцов, а во-вторых (и это главное) — чтобы минимизировать количество совпадений мотиваций. В итоге из 24 получились 9 основных мотиваций (см. таблицу 1).

Применение к классификационной схеме статистического метода проверки независимости номинальных переменных на

4 Печников, А. А. Разработка инструментов для вебометрических

исследований гиперссылок научных сайтов / А. А. Печников, Н.Б. Луговая, Ю. В. Чуйко, И.Э. Косинец // Вычислительные технологии. - 2009. - Т. 14. -№5. - С. 66-78.

основе статистики хи-квадрат позволило получить разные доминирующие мотивации по различным регионам Нигерии.

Таблица 1. Основные мотивации и наблюдаемые частоты

Мотив Север пояс Центральный Юго-Запад Юго-Восток Юг ВСЕГО

1 Учебные материалы для обучающихся 7 3 6 2 16 34

2 Информации для обучающихся и поступающих 14 20 35 129 14 212

3 Поддержка научных исследований 630 248 466 50 20 1414

4 Вышестоящая организация 6 46 4 2 28 86

5 Подобная (по деятельности) организация и нижестоящая организация 22 43 42 10 22 139

6 Служебный сайт 62 23 122 175 76 458

7 Организации сферы бизнеса 27 48 91 17 24 207

8 Неклассифицированный сайт 20 66 10 55 17 168

9 Неработающая ссылка 33 14 42 6 19 114

Общее количество исследуемых гиперссылок 821 511 818 446 236 2832

Проведенный анализ показал, что для каждого региона можно выделить доминирующую мотивацию создания внешних гиперссылок. В Северном и Юго-Западном регионах и Центральном поясе такой доминантой является поддержка научных исследований, а в Южном и Юго-Восточном регионах отсылка к служебным сайтам.

Между университетами имеется совершенно разное по регионам поведение в создание гиперссылок. На сегодняшний день невозможно дать содержательное объяснение обнаруженным различиям. Можно предположить, что на Юге вопрос с финансовой поддержкой научных исследований полностью решен, а на Севере наблюдается плохое финансирование, а может быть, наоборот, на Севере научные исследования ведутся очень интенсивно, а на Юге они полностью отсутствуют. Но при этом результаты исследования позволяют дать ряд рекомендаций разработчикам нигерийских университетских сайтов.

Проведенное; исследование позволяет высказать ряд рекомендаций руководству и ИТ-специалистам университетов развивающихся стран.

Во-первых, необходимо провести ряд мероприятий по усовершенствованию системы доменных имен веб-сайтов университетов Нигерии. При этом наблюдающий орган, такой как National Universities Commission, должен издать распоряжение о том, чтобы все университеты перешли к использованию доменных имен в зоне edu.ng и избегали использования доменных имен-синонимов, обозначающих один и тот же веб-ресурс (сравните - www.aust-abuja.org и www.aust.edu.ng).

Во-вторых, все ресурсы университета, составляющие веб-окрестность официального сайта, должны быть прямыми окрестностями официального сайта, то есть их доменные имена должны быть подцоменами официального сайта и они должны быть связаны с официальным сайтом прямыми и обратными гиперссылками.

В-третьих, следует обратить особое внимание на создание веб-коммуникаторов. К примеру, в случае проведения конференции с участием большого числа нигерийских

университетов, на сайте конференции рекомендуется сформировать ссылки на все официальные сайты университетов-участников. Та же рекомендация относится и ко всем университетам, участвующим в конференции. При этом не следует забывать об имеющемся веб-коммуникаторе, - сайте National Universities Commission, - возможности которого на сегодня используются очень слабо.

По поводу связей академического фрагмента нигерийского Веба с академическими сайтами зарубежных стран, первый вывод, который можно сделать на основе проведенных исследований, связан с географическим расположением университетов с большим количеством связей с иностранными учебными заведениями. Ярко выражено преобладание таких университетов в южной части страны. Отсюда следует обратить больше внимания на связи с зарубежными университетами северных университетов: если такие связи есть на практике, следует отобразить их в Вебе посредством гиперссылок.

Второй вывод касается значимости входящих и исходящих ссылок. В результате проведенных экспериментов оказалось, что ссылки, сделанные с сайтов иностранных зарубежных учебных заведений важнее, чем ссылки, исходящие с сайтов нигерийских университетов. Отсюда следует, что для повышения своего вебометрического рейтинга университетам нужно развивать связи с внешним миром, что, в принципе, должно всесторонне благотворно влиять на любые университеты, а не только университеты Нигерии.

Результаты исследований веб-сайтов нигерийских университетов представляют определенную ценность для государственных органов образования, руководства университетов, администраторов и разработчиков веб-сайтов. Реализация этих рекомендаций будет способствовать лучшей узнаваемости веб-ресурсов университетов Нигерии и других стран поисковыми машинами и улучшению связности фрагмента университетского Веба этих стран.

Заключение. В качестве заключения в диссертации сформулированы итоги выполненного исследования, рекомендации по использованию полученных результатов и перспективы дальнейшей разработки темы.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендуемых ВАК РФ

1. Нвохири А.М., Печников A.A. Анализ веб-сайтов нигерийских университетов // Дистанционное и виртуальное обучение. - 2012. -№6.-С. 62-75.

2. Nwohiri А.М., Pechnikov A.A. Webometric analysis of Nigerian university websites // Webology. - 2012. - VoL 9, No. 1. Article 96. -Режим доступа: http://www.webology.org/2012/v9nl/a95.htmL

3. Нвохири A.M., Печников A.A. Изучение мотиваций создания внешних гиперссылок на университетских веб-сайтах: опыт Нигерии // Информационное общество. — 2012. — №6. — С.26-34.

Публикации в других изданиях

4. Нвохири A.M. Ранжирование веб-сайтов нигерийских университетов // Процессы управления и устойчивость: Труды 42-й международной Научной конференции аспирантов и студентов / Под ред. А. С. Ерёмина, Н. В. Смирнова. - Санкт-Петербург: Издательский Дом Санкт-Петербургского государственного университета. - 2011. - С. 321-326.

5. Нвохири A.M., Печников A.A. Сравнение вебометрического и веб-независимого ранжирований университетов Нигерии // Информационная среда вуза XXI века: материалы V Всероссийской научно-практической конференции. - Петрозаводск. -2011.-С. 133.

6. Нвохири A.M., Чернобровкин Д.И.Разработка вебометрических инструментов и их апробация на веб-сайтах нигерийских университетов // Процессы управления и устойчивость: Труды 43-й международной научной конференции аспирантов и студентов / Под ред. А. С. Ерёмина, Н. В. Смирнова. - Санкт-Петербург: Издательский Дом Санкт-Петербургского государственного университета. - 2012. - С. 371-375.

Свидетельство о регистрации программы

7. Нвохири A.M., Огийко A.A., Печников A.A. Свидетельство о государственной регистрации программы для ЭВМ «Программа сбора вебометрических индикаторов по данным Google» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2014613369 от 25 марта 2014 г.

Подписано к печати 17.04.14. Формат 60x84 '/¡6. Бумага офсетная. Гарнитура Тайме. Печать цифровая. Печ. л. 1,00. _Тираж 110 экз. Заказ 6027._

Отпечатано в Отделе оперативной полиграфии химического факультета СПбГУ 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 26 Тел.: (812) 428-4043, 428-6919

Текст работы Нвохири Антони Метумараибе, диссертация по теме Математическое моделирование, численные методы и комплексы программ

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МЕТОДОВ ИССЛЕДОВАНИЯ ГИПЕРССЫЛОЧНЫХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ УНИВЕРСИТЕТОВ РАЗВИВАЮЩИХСЯ СТРАН (НА ПРИМЕРЕ НИГЕРИИ)

05.13.18 - математическое моделирование, численные методы и комплексы

программ

На правах рукописи

НВОХИРИ АНТОНИ МЕТУМАРАИБЕ

Диссертация на соискание учёной степени

кандидата технических наук

Научный руководитель

доктор технических наук, доцент А. А. Печников

Санкт-Петербург 2014

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ....................................................................................................................2

ВВЕДЕНИЕ..........................................................................................................................4

ГЛАВА 1. ОСНОВНЫЕ ПОДХОДЫ, МОДЕЛИ И МЕТОДЫ ВЕБОМЕТРИКИ...............................................................................................................16

§1 Вебометрика как научное направление...................................................................16

§2 Основные определения вебометрики.......................................................................19

§3 Инструментальные средства сбора данных о Вебе................................................21

§4 Ранжирование сайтов.................................................................................................25

§5 Модели Веба...............................................................................................................31

§6 Классификация гиперссылок....................................................................................35

§7 Основные выводы из анализа научных источников...............................................41

ГЛАВА 2. УНИВЕРСИТЕТСКИЙ ВЕБ НИГЕРИИ..................................................43

§1 Университеты Нигерии..............................................................................................43

§2 Веб-пространство университетов в Нигерии..........................................................46

§3 Задача ранжирования веб-сайтов университетов в Нигерии.................................50

ГЛАВА 3. МОДЕЛЬ ФРАГМЕНТА УНИВЕРСИТЕТСКОГО ВЕБА НИГЕРИИ..........................................................................................................................58

§1 Программные средства и методология....................................................................58

§2 Исследование университетских сайтов Нигерии....................................................61

§3 Веб-графы университетского фрагмента Веба Нигерии........................................68

§4 Связи университетского фрагмента Веба Нигерии с академическими сайтами Англии, США и Австралии.............................................................................72

ГЛАВА 4. МОТИВАЦИИ СОЗДАНИЯ ГИПЕРССЫЛОК В УНИВЕРСИТЕТСКОМ ВЕБЕ НИГЕРИИ..................................................................75

§1 Связанные исследования, задачи и методы исследования....................................75

§2 Классификационная схема........................................................................................78

§3 Статистические методы.............................................................................................85

§4 Интерпретация результатов.......................................................................................90

§5 Обсуждение и выводы...............................................................................................92

ЗАКЛЮЧЕНИЕ................................................................................................................94

ЛИТЕРАТУРА...................................................................................................................99

СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА.................................................114

ПРИЛОЖЕНИЯ..............................................................................................................115

Приложение 1. Основные мотивы для создания гиперссылок.................................115

Приложение 2. Свидетельство о регистрации электронного ресурса.....................128

ВВЕДЕНИЕ

Диссертационное исследование «Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран (на примере Нигерии)» выполнено в таком относительно молодом направлении компьютерных наук, как вебометрика, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее-Веб).

Вебометрика включает в себя четыре основных направления исследований:

• веб-индикаторы сайтов, такие как количество страниц и документов, ссылочная популярность и др. и ранжирование сайтов на их основе;

• поиск и сбор данных в Вебе (роботы, краулеры, поисковые машины, информационный поиск);

• анализ гиперссылок (в частности, связи между сайтами вузов и научных организаций, мотивация ссылок, структура фрагментов Веба);

• социальные феномены в Вебе (например, социальные сети, сообщества сайтов, форумы, самоорганизация);

Веб может рассматриваться как средство функционального объединения глобальной базы научных знаний и коммуникаций между учеными, поэтому оценки веб-ресурсов высших учебных заведений и научно-исследовательских институтов мира и их взаимосвязей в виртуальном пространстве являются весьма актуальной темой.

Актуальность темы: Количество исследовательских работ, посвященных вебометрическим исследованиям сайтов университетов развивающих стран, очень мало. Существует проблема оценки качества (степени) присутствия в Вебе различных академических веб-ресурсов, особенно у развивающих стран. Причём для

развивающихся стран наиболее характерно неэффективное использование внешних гиперссылок как одного из основных инструментов коммуникации в Вебе, низкая степень развитости сетевых научных коммуникаций ученых, слабое развитие университетского образовательного веб-пространства, в частности, из-за полного отсутствия сайтов научных конференций и семинаров, совместных проектов и региональных советов ректоров. При этом мы не утверждаем, что такие мероприятия и организации в развивающихся странах отсутствуют вовсе, а говорим о том, что они не находят отражения в Вебе.

Степень разработанности темы: Вышеупомянутые проблемы практически отсутствуют у сайтов университетов в развитых странах и поэтому они не исследуются.

В современной научной литературе описаны различные подходы и методы исследования, учитывающие общие для развитых стран, стандартные параметры. Эти методы недостаточны для анализа сайтов университетов развивающихся стран.

Для анализа университетских веб-ресурсов развивающих стран и разработки более адекватных моделей их поведения требуется выявление дополнительных признаков и параметров исследуемых сайтов, отражающих их специфику, и модификация уже имеющихся методов.

Цель и задачи исследования: Цель заключается в развитии известных и разработке новых математических методов исследования официальных сайтов университетов развивающихся стран на примере Нигерии, направленных на улучшение их присутствия и взаимосвязей в Вебе.

Для достижения указанной цели решается ряд взаимосвязанных задач:

1. Исследование набора уже существующих стандартных характеристик присутствия веб-сайтов нигерийских университетов — размер сайта (общее количество страниц сайта), цитируемость или видимость сайта (количество уникальных гипертекстовых ссылок с других веб-ресурсов), количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа

*.рс1£ *.с1ос, и т.д., научность сайта (количество статей, размещенных на сайте и их цитирований)с использованием известных алгоритмов ранжирования. Автором выявлен набор новых показателей характеризующих эти сайты — возраст университета, исторические и географические аспекты, подчинённость (федеральные, университеты штатов и частные университеты), традиции и этнокультурные признаки региона фактического нахождения университета;

2. Создание модифицированного алгоритма ранжирования на основе расширенного набора характеристик и исследование веб-графа, построенного на множестве сайтов нигерийских университетов с применение теоретико-графовых моделей и методов;

3. Исследование качественных характеристик внешних гиперссылок, сделанных с университетских сайтов Нигерии с точки зрения мотивации создания таких гиперссылок с использованием методов математической статистики.

Объект исследования: Официальные веб-сайты университетов в Нигерии и другие веб-сайты Нигерии, имеющие отношение к науке и образованию. Методы исследований.

В диссертационной работе используются вебометрические методы ранжирования, методы сбора вебометрической информации с помощью поисковых систем и краулеров, теоретико-графовые модели и методы математической статистики.

Основные положения, выносимые на защиту:

1. Алгоритм ранжирования официальных веб-сайтов университетов на основе новых характеристик качества применительно к веб-сайтам университетов Нигерии и других стран, у которых веб-пространство вузов находится в начальной стадии развития.

2. Теоретико-графовые характеристики веб-графа для реального фрагмента нигерийского университетского Веба, показывающие незначительную

взаимосвязь веб-сайтов как данного сообщества, так и взаимосвязь с университетскими сообществами веб-сайтов США, Англии и Австралии. 3. Классификационная схема мотивации создания гиперссылок университетов Нигерии и примененные к ней статистические методы, позволяющие получить разные доминирующие мотивации по различным регионам Нигерии. Рекомендации для руководства и разработчиков веб-сайтов университетов Нигерии и некоторых других стран, направленные на улучшение использования внешних гиперссылок как одного из основных инструментов коммуникации в Вебе.

Основные научные результаты выполненных исследований по теме диссертации опубликованы в 6 печатных работах [16-19,21,102]. Из них 2 работы опубликованы в журналах, включенных в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени Высшей аттестационной комиссии Министерства образования и науки Российской Федерации [16, 21].

Одна работа опубликована в журнале, включенном в библиографическую базу Scopus [102].

Результаты исследований докладывались на конференциях и научных школах и семинарах:

• 42-я международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», Санкт-Петербург, 2011 г.

43-я международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», Санкт-Петербург, 2012 г.

V Всероссийская научно-практическая конференция «Информационная среда вуза XXI века», Петрозаводск, 2011 г. Научная новизна работы заключается в следующем:

1. Впервые на примере Нигерии проведено исследование задач ранжирования и построения и анализа веб-пространства официальных веб-сайтов

университетов для стран, у которых веб-пространство вузов находится в начальной стадии развития. Исследование позволило установить зависимость вебометрических рангов университетов как от их ведомственной принадлежности (федеральные, университеты штата или частные), так и от внешних ссылок на сайты, сделанных с сайтов университетов высокоразвитых стран.

2. Построенный веб-граф реального фрагмента нигерийского университетского Веба позволил установить существенную значимость веб-коммуникаторов (в случае Нигерии - это единственный веб-сайт National Universities Commission) для связности веб-графа и незначительную взаимосвязь вебсайтов университетов между собой. Разработана новая классификационная схема мотивации создания гиперссылок (на примере университетов Нигерии), позволяющая с использованием статистических методов получить разные доминирующие мотивации по различным регионам Нигерии.

Теоретическая и практическая значимость работы. Предложенные методы позволяют дать рекомендации разработчикам веб-ресурсов университетов (особенно университетов стран, у которых веб-пространство вузов находится в начальной стадии развития) по улучшению содержания, усилению связности посредством гиперссылок и изменению мотивации создания гиперссылок, что в целом будет способствовать улучшению присутствия веб-сайтов этих университетов в Вебе.

Достоверность и обоснованность полученных результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, корректно применяемых математических методах и моделях.

Диссертация работа состоит из введения, четырёх глав, заключения, списка использованных источников и литературы, включающего 138 наименований, списка иллюстративного материала, и 2 приложения. Общий объем диссертации 128

страниц машинописного текста, из них основная часть работы содержит 98 страниц и включает 7 рисунков и 11 таблиц; 1 приложение имеет объем 13 страниц.

В первой главе описывается вебометрика и основные направления исследований в этой области науки. Рассматриваются инструментальные средства сбора данных о Вебе, вебометрические методы ранжирования сайтов, модели Веба и классификации гиперссылок. Сделаны обобщающие выводы из анализа научных источников.

Вторая глава описывает университетский Веб Нигерии. Приводится краткая история развития высшего образования в Нигерии, необходимая для дальнейшего изложения. Впервые анализируется веб-пространство университетов в Нигерии, формируется множество доменных имен официальных сайтов этих университетов и создается целевое множество исследований.

Далее описывается задача ранжирования вышеуказанных сайтов, для решения которой предложен модифицированный подход известного метода Cybermetrics Lab [105]. В этих модификациях предлагается учесть, например, такие индикаторы как количество публикаций в печатных изданиях, потенциальных авторов, и другие. Данный подход использует следующие понятия:

• S- общее количество страниц сайта (от size, размер);

• V— количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми системами (от visibility, узнаваемость или видимость);

• R - количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf,, *.doc, и других (от Rich files, насыщенные или богатые файлы);

• Sc - количество статей, размещенных на сайте, и обнаруживаемых Google Scholar (от scholar, «научность сайта»).

Для ранжирования сайтов используется формула:

Rating (i) =5 *RankVav(i)+2 *RankSav(i)+l, 5 *RankRav(i)+l, 5 *RankSc(i)

где Voy - среднее количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых известными поисковыми машинами Google, Yahoo, и Bing; Say - среднее количество страниц, обнаруживаемых на сайте этими поисковыми машинами; Rav - среднее количество полнотекстовых файлов; RankVav(i) - порядковый номер г-го сайта в упорядоченном по убыванию векторе Vav. RankSav(i), RankRov(i), RankSc(i) определяются аналогично. Потом тот сайт, у которого значение Rating(i) будет самым маленьким, получает значение WR (Webometrics Rating) равное 1, следующий за ним - 2, и т.д.

Значения коэффициентов при RankVav(i), RankSav(i), RankRav(i), RankSc(i) определяются в соответствии с Берлинской декларацией открытого доступа [56], когда наибольшая значимость придается количеству размещенных на сайте полнотекстовых файлов и количеству ссылок на научные статьи, когда Интернет рассматривается, прежде всего, как «функциональный инструмент базы глобального научного знания», свободного доступа к научным публикациям и другим учебным материалам.

В целом, сайты федеральных университетов имеют значения рейтингов больше, чем сайты университетов нигерийских штатов и частных университетов. Федеральные университеты получают большее финансирование, они привлекают более квалифицированных сотрудников, в них сложнее поступить, что и увеличивает их престижность. Можно считать, что указанные факторы нашли свое отражение в Вебе.

Третья глава посвящена модели фрагмента университетского Веба Нигерии. В данной главе основное внимание сосредоточено на трёх вопросах:

1. Что представляет собой академический Веб Нигерии?

2. Какова структура академического Веба Нигерии?

3. Какие рекомендации могут быть сделаны по результатам исследования?

В начале главы содержится описание программных средств и методологий для сбора больших объемов информации о гиперссылках.

Затем описывается исследование университетских сайтов Нигерии. Сначала сканируются сайты посредством краулера BeeBot [43] до 5-го уровня глубины с целью сбора внешних гиперссылок, сделанных с этих сайтов. Анализ базы данных внешних гиперссылок, построенной в результате сканирования сайтов целевого множества, позволил обнаружить веб-сайты, являющихся сайтами множества веб-окрестностей (т.е. сайтов, относящихся к веб-ресурсам университетов, но не являющихся их официальными сайтами).

Переход от официальных сайтов нигерийских университетов к единицам анализа представляет собой агрегирование веб-ресурсов (официальных сайтов и веб-окрестностей) каждого университета, что привело к существенному приросту страниц и внешних ссылок. Привязка университетов по регионам также позволила выявить ряд интересных особенностей.

В третьем параграфе данной главы исследуются веб-графы университетского фрагмента Веба Нигерии. Эти веб-графы построены на вершинах, соответствующих веб-сайтам целевого множества. Обнаруживается степень связности этих веб-графов и исследуется методы для улучшения их степени связности.

В конце главы рассматривается академический фрагме