автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Моделирование мониторинга информационного поля Internet
Автореферат диссертации по теме "Моделирование мониторинга информационного поля Internet"
На правах рукописи
Земсков Илья Аркадьевич
МОДЕЛИРОВАНИЕ МОНИТОРИНГА ИНФОРМАЦИОННОГО ПОЛЯ INTERNET
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Автореферат диссертации на соискание ученой степени кандидата технических наук
Омск - 2005
Работа выполнена в Омском государственном университете
Научный руководитель: доктор физико-математических наук,
профессор Гуц Александр Константинович
Официальные оппоненты: доктор технических наук,
профессор Хабаров Валерий Иванович
Защита состоится 11 мая 2005 года в 14-00 часов на заседании диссертационного совета Д 212.173.06 в Новосибирском государственном техническом университете по адресу: 630092, г. Новосибирск, пр. К.Маркса, 20.
С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.
Автореферат разослан апреля 2005 года.
Ученый секретарь
кандидат технических наук,
доцент Долозов Николай Лаврентьевич
Ведущая организация: Южно-Уральский государственный
университет, г. Челябинск
диссертационного совета
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность. Современные научные, образовательные центры имеют беспрецедентную возможность быстро и сравнительно дёшево знакомить региональное и мировое сообщество с результатами своей деятельности. Для этого достаточно создать один или несколько Web-серверов, на которых осуществлять электронную публикацию всех необходимых сведений. По такому пути пошли, например, в таком знаменитом научно-образовательном центре, как Стэнфордский университет (Stanford University), список серверов и сайтов которого содержит несколько сотен ссылок (http://www.stanford.edu/home/atoz). Но с ростом объемов опубликованной на всех Web-серверах информации посетителям становится трудно ориентироваться в получившемся сегменте информационного поля, а значит трудно находить путь к требуемым сведениям. Однако, при реализации поисковой системы (ПС), владельцы сегмента информационного поля сталкиваются с многочисленными проблемами выбора.
Если осуществляется выбор готового продукта из большого количества коммерческих и свободно распространяемых программных комплексов ПС, то основной проблемой является отсутствие объективной (отличной от рекламных «фактов») информации по каждому рассматриваемому варианту (не наблюдается практика публикации числовых данных, которые характеризуют сегменты информационного поля и эффективность внедрения какой-либо системы). Поэтому потребности практики обуславливают необходимость разработки программных средств, которые позволят относительно легко (при минимальных требованиях) получить данные для объективного сравнения вариантов поисковых систем или некоторых стандартных модулей поисковых систем.
Начиная самостоятельную разработку ПС оказывается трудно осуществить выбор наиболее эффективных внутренних алгоритмов (например, алгоритмов для подсистемы мониторинга состояния информационных ресурсов). Эта ситуация усугубляется тем, что в Internet присутствует большое количество публикаций (например, можно обратиться к материалам международных ежегодных специализированных конференций: http: //www2003.org /, http://www.iadis.org/icwi2003), в которых предлагаются методы совершенствования различных аспектов функционирования ПС. Помочь сделать выбор может использование методов имитационного моделирования для предварительного исследования эффективности каждого из альтернативных алгоритмов. Однако в проанализированных работах наблюдается явная нехватка не только готовых моделей, но и подходов к их построению и программной реализации.
Цель работы состоит в разработке моделей и программного комплекса на их основе, позволяющих получить данные для проведения исследований относительной эффективности функционирования различных вариантов системы мониторинга.
Для достижения поставленной цели решаются следующие задачи:
• разработать классификацию существующих стратегий мониторинга информационного поля Internet;
• выявить набор критериев эффективности, которые могут охарактеризовать любой вариант системы мониторинга;
• разработать математическую модель процесса мониторинга;
• разработать имитационные модели системы мониторинга;
• разработать программный комплекс, который предназначен для проведения дискретно-событийного имитационного моделирования систем мониторинга и который допускает быструю модификацию при исследовании непредусмотренных вариантов системы;
• получить экспериментальное подтверждение практической применимости разработанного программного комплекса.
Методы исследования. При решении поставленных задач в работе использованы элементы математического и имитационного моделирования, а также методы и средства объектно-ориентированного программирования, баз данных.
Научная новизна. К новым результатам диссертации можно отнести:
• предложенную математическую модель процесса мониторинга информационного поля Internet;
• предложенную сенсорную технологию осуществления мониторинга;
• разработанный программный комплекс имитационного моделирования системы мониторинга сегмента информационного поля Internet (в Отраслевом фонде алгоритмов и программ получено свидетельство о регистрации разработки №4255 от 24.01.2005);
• применение разработанного программного комплекса для имитационного исследования нескольких вариантов системы мониторинга.
Практическая ценность работы заключается в возможности использования полученных научно-технических результатов при проектировании, эксплуатации, научном исследовании систем мониторинга в задачах, требующих относительного сравнения альтернативных алгоритмов и стратегий мониторинга.
Апробация работы. Результаты работы были представлены на следующих научных конференциях:
1. X Всероссийской научно-методической конференции «Телемати-ка'2003» (Санкт-Петербург, 2003).
2. VI Всероссийской научной конференции молодых ученых и аспирантов «Новые информационные технологии. Разработка и аспекты применения» (Таганрог, 2003)
3. IV Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003)
4. Образование. Экология. Экономика. Информатика. VIII Международной конференции "Нелинейный мир" (Астрахань, 2003).
5. Всероссийской научной молодежной конференции «Под знаком «Сигма» (Омск, 2003)
6. ХЫ Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 2003).
7. VI рабочем совещании по электронным публикациям "Е1-РиЬ2001" (Новосибирск, 2001)
Также результаты работы докладывались на семинарах кафедр математического моделирования и кибернетики Омского государственного университета, на семинаре лаборатории сложных систем Омского филиала института математики им. С.Л. Соболева СО РАН, на семинаре научно-исследовательского института интеллектуальных информационных систем Тюменского государственного университета СО РАН и УрО РАН, на семинаре кафедры системного программирования Челябинского государственного университета, на семинаре кафедры системного программирования Южно-Уральского государственного университета.
По результатам выполненных исследований опубликовано 11 печатных и 2 электронных работы (одна на английском языке).
Разработанный программный комплекс 81шС08АЯ, а также полученные с его помощью данные были использованы в процессе проектирования систем мониторинга ^'еЪ-ресурсов, что подтверждено соответствующими актами о внедрении.
Основные положения, выносимые на защиту:
• модели системы мониторинга, которые принадлежат двум различным классам в классификации стратегий мониторинга;
• SimCOSAR - программный комплекс дискретно-событийного имитационного моделирования систем мониторинга;
• Результаты проведённых имитационных компьютерных экспериментов.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и семи приложений. Общий объём работы составляет 180 страниц. Библиографический список насчитывает 97 наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, изложена цель и задачи исследования, научная новизна и практическая значимость, представлены основные положения, выносимые на защиту.
В первой главе фиксируются значения используемых в работе терминов, рассматриваются основные проблемы, которые возникают перед создателями и владельцами систем мониторинга, предлагается классификация алгоритмов и стратегий мониторинга (в её основе лежат сведения о месторасположении модуля обнаружения изменений в информационных ресурсах), рассматриваются критерии эффективности систем мониторинга.
В работе под словами «информационный ресурс» (ИР) понимается файл (последовательность байт), который расположен на сервере. Внутренняя структура и тип информации (HTML, RTF, JPEG, SWF, AVI и т.п.) файла значения не имеют. Сервер обеспечивает возможность доступа к этому файлу по протоколу HTTP (т.е. используется ПО Web-сервера).
Объединение в рамках одного множества всех доступных информационных ресурсов (расположенных на некотором множестве Web-серверов) составляет информационное поле Internet. Тогда сегментом информационного поля Internet будет некоторая часть всего информационного поля Internet.
Проблемы, которые непосредственно влияют на принимаемые решения при проектировании систем мониторинга информационного поля можно разделить на два класса. В первый класс относятся проблемы связанные с «природой» ИР:
• Большой суммарный объем (байт) всех ИР.
• Распределение HP между узлами сети
• Разное время существования UP. Документы или файлы могут быть легко добавлены и также легко удалены в Web.
• Динамичность изменения содержимого ИР. В зависимости от активности владельца ресурса информация может меняться от «очень часто» (раз в 30 минут или ещё чаше) до «очень редко» (раз в год или ещё реже)
• «Доступность» ИР. Имеются в виду различные качество и стабильность функционирования коммуникационных связей между распределёнными узлами и сегментами Internet.
• Разнородность ПР. Имеются в виду, например, различные форматы файлов или применяемые естественные языки.
• Различное «качество» ИР. Имеются в виду проблемы профессионализма создателей, а также правовые и морально-этические проблемы.
• «Скрытостъ» ИР. Здесь имеются в виду ИР для доступа, к которым нужно пройти сложную процедуру регистрации или сформировать некий запрос с помощью специальной формы.
• Различная «популярность» и уровень «полезности» ИР
Во второй класс относятся проблемы нагрузки на задействованные аппаратные ресурсы:
• Минимизация нагрузки на информационный источник
• Минимизация нагрузки на каналы связи
• Оптимизация нагрузки на модули сбора и накопления информации.
Анализ публикаций показал, что исследователи-разработчики по-разному
ставят приоритеты при решении обозначенных проблем. Однако все предлагаемые и используемые алгоритмы и стратегии можно распределить по трём конкурирующим концепциям: «роботов», «сенсоров», «мобильных роботов».
Концепция «роботов». Основным признаком такой системы мониторинга является сервер или кластер серверов, на которых выполняется специальный программный код (именуемый в литературе «сетевым роботом», пауком, крау-лером, индексатором) - «робот». Причём верно то, что
• робот постоянно занят скачиванием ИР из доступного сегмента информационного поля;
• очередь ИР на скачивание организуется согласно некоторой внутренней стратегии, которую задают разработчики;
• размер доступного роботу сегмента информационного поля увеличивается за счёт ручного добавления адресов ИР или за счёт обнаружения новых адресов в уже известных ИР.
Имеется несколько наиболее популярных направлений решения проблем нагрузок:
• Разработка специализированных роботов (имеется в виду жёсткие правила отбора ИР для их добавления в обрабатываемый сегмент информационного поля, например, когда обрабатываются ИР только по музыкальной тематике).
• Вычисление «рейтинга» ресурсов (имеется в виду некоторая композиция значения частоты изменений ИР и его вероятной «полезности»).
• Более полное использование стандартных средств HTTP-протокола (запрос HEAD, поле If-Modified-Since) - далее в работе соответствующие роботы именуются «модифицированные роботы».
Концепция «сенсоров». Системы мониторинга данного типа отличает потребность в установке на все принадлежащие информационному полю Web-сервера специального программного модуля, на который ложится полная ответственность за обнаружение изменений в уже известных ИР, а также частичная ответственность за обнаружение новых ИР. Причём верно то, что сведения о новом состоянии информационного источника передаются на головной узел (или всем заинтересованным в этой информации узлам Internet) системы мониторинга, где на основе этих сведений предпринимаются действия (например, принимается решение о скачивании того или иного ИР) по актуализации представления об информационном поле.
На окончательное формирование данной концепции в качестве самостоятельной концепции послужило сделанное автором данной работы предложение о встраивании в программное обеспечение Web-сервера дополнительного модуля. Модуль должен будет каждому запросу (URL каждого GET запроса может быть обработан по алгоритму md5 или аналогичному) сопоставлять ответ
(обработанному md5) Web-сервера, а в результате будет обнаруживать изменения в состоянии информационного источника. В силу очевидной аналогии с применяемыми в технической практике различных сенсоров модуль назван «сенсором».
Концепция «мобильных роботов». Эта концепция, по своей сути, является гибридом предыдущих концепций. Её основу составляет предложение модернизировать программное обеспечение Web-сервера и оснастить его специальной средой («distributed crawler runtime environment»). В задачи среды входит «принятие» от центрального узла системы мониторинга к себе некоторого «мобильного» кода («мобильный робот») и последующее его выполнение. Используемые в мобильном роботе алгоритмы повторяют идей из концепции «роботов». Результатом работы кода является представление (или т.н. расширенная форма мета-описания) о состоянии ИР, которые найдены на данном Web-сервере. Полученное представление полностью передаётся на головной узел системы мониторинга, а мобильный робот «переходит» к обработке другого Web-сервера.
Критерии эффективности. В результате анализа публикаций, в которых как-либо затрагивалась проблема определения критериев эффективности различных элементов поисковых систем (а большинство исследователей рассматривают систему мониторинга только как часть некоторой ПС), были выбраны два наиболее общих и объективных числовых критерия эффективности для любых вариантов системы мониторинга. Во-первых, «свежесть» (freshness) накопленной информации, один из возможных вариантов вычисления которой имеет вид:
где - свежесть, измеряемая в процентах; N общее количество ИР; е-,
обозначает ИР, которые уже хранятся в базе данных системы мониторинга; 1У = {в/ ,..., е^} - база данных системы монитори^г^обозначает свежесть элемента £/ в момент времени t, которая вычисляется следующим
^ ^ ^ |0, если е. не требует обновления в момент I
Во-вторых, суммарный объём (в байтах) всех ИР, которые система мониторинга перекачала со стороны информационных источников на сторону головного узла мониторинга с начала работы до момента наблюдения 1.
Было отмечено, что объективное сравнение значений выбранных критериев эффективности возможно только в случае равенства условий, в которых получены сравниваемые значения.
Вторая глава полностью посвящена разработке математической модели процесса мониторинга и имитационных моделей системы мониторинга, которые могут служить в качестве примера удобного, достаточно строгого и единообразного подхода к описанию систем мониторинга, а также станут основой программных средств, реализуемых в данной работе.
В первом параграфе главы проведён анализ ситуации с моделированием систем мониторинга. Найденные работы, в которых с помощью имитационного моделирования исследовались различные аспекты функционирования системы мониторинга «роботов» невозможно использовать (из-за акцентов и принятых в них допущений) в качестве единообразного подхода к рассмотрению эффективности любых систем мониторинга. Также было сказано о том, что использование теории систем массового обслуживания неприемлемо в силу необходимости принятия допущений о характере потоков заявок.
Математическая модель. Информационное поле состоит из N различных информационных ресурсов. Процесс мониторинга - это меняющийся в дискретном времени набор состояний. Состояние в момент времени t - это тройка <R,R', я>, где
R = (Г|,Г2,..., Гм), г, - матрица числовых характеристик информационного ресурса с номером
- R' = (r'l.r'j,..., г'к), Г*/ - матрица числовых значений критериев эффективности Freshness и Surmize информационного ресурса с номером /';
- Я=(Я|,..., ;rN), я, - текст программы записанной на языке высокого уровня, которая преобразует согласно некоторого алгоритма матрицу в матрицу
Г Г,
или Я' = яЯ
Алгоритмы преобразования сначала описаны в имитационных моделях, а затем реализованы в виде программ на языке Python.
Имитационные модели. Были выбраны два варианта («один обычный робот» и «на сенсорах») системы мониторинга, для каждого из которых в диссертационной работе предложена своя имитационная модель. Модели представляют собой отображение причастных к мониторингу объектов (согласно варианту системы) и алгоритмов их функционирования. При этом на структуру и детальность моделей большое влияние имели следующие принятые упрощения:
• пропускная способность каналов подключения к Internet имеет максимально возможный размер, чтобы минимизировать время передачи любого, отдельно взятого ИР;
• продолжительность «посылки» любого GET-запроса можно не учитывать;
• законы распределения значений параметров в явном виде указывать не нужно;
• не рассматриваются функции поиска новых ИР.
Одинаковым для обеих моделей является, во-первых, то, что основные объекты в них - объекты типа «информационный ресурс», которые характеризуются значениями следующих свойств:
• размер содержимого (количество байт);
• идентификатор текущего состояния (рассматривается конечный набор допустимых значений, каждое из которых относится к группе «ИР доступен» или «ИР недоступен»);
• признак того, что серия последних изменений стала известна системе мониторинга (истина - ложь).
Второй одинаковой чертой моделей является наличие объектов типа источник изменений (ИИ) и источник запросов (ИЗ), каждый из которых описывается потоком изменений (ПИ) или потоком запросов (ПЗ) соответственно. В свою очередь, поток изменений характеризуется законом распределения Н{(х) времени (Т„,м) появления следующего изменения (смены состояния ИР или смены содержимого ИР) и законом распределения С^ОО) относительной частоты v появления определённого (одного из возможных вариантов) «изменения» (ИНов)> а поток запросов характеризуется законом распределения Н,|(х) времени (Тм„р) появления следующего запроса. Каждому ИР сопоставляется собственная пара ИИ и ИЗ.
Различие моделей проявляется в объектах, которые воспроизводят элементы системы мониторинга:
• В модели «робота» систему мониторинга воспроизводят два объекта: «робот» и «репозиторий». Причём в модели описан робот, который реализует стратегию последовательного скачивания всех известных ИР.
• В модели «сенсоров» систему мониторинга воспроизводят объекты типа «сенсор», «робот» и «репозиторий». Причём в модели реализуется робот, который немедленно начинает скачивание ИР сразу после поступления от соответствующего «сенсора» уведомления о найденном изменении состояния ИР или изменении содержимого ИР. Для простоты рассмотрения считалось, что каждому экземпляру объекта ИР соответствует один экземпляр объекта «сенсор».
Взаимодействие объектов моделей можно представить в виде схем (Рис. I и Рис.2). По поводу Рис. I стоит сделать два замечания. Во-первых, в модели «робота» потоки запросов никоим образом не используются и не описываются, но всё же изображаются на рисунке, чтобы отобразить наличие формально равных условий функционирования вариантов системы мониторинга. Во-вторых, литерой «№> обозначено общее количество ИР.
изменен* J
Рис. 2. Схема взаимодействия объектов модели «сенсоров»
«Репозиторий» в обоих случаях выполняет одну и ту же роль - хранит скачанную роботом информацию об информационных ресурсах.
Для моделирования процесса скачивания в обеих моделях используется закон распределения Hg(x) времени скачивания ИР, с помощью которого определяется момент завершения процесса скачивания этого ИР - Тсич. Для имитации процесса посылки уведомления сенсором определяется время когда сигнал уведомления «дойдёт» до робота (время Тукл имеет свой закон распределения Н,(х) чтобы в последствии можно было учитывать такие случаи как, например, отложенное уведомление или загруженность Web-сервера).
Отдельный параграф главы посвящен обсуждению проблемы самостоятельного (исследователем относительной эффективности систем мониторинга) задания конкретных законов распределения для
Третья глава полностью посвящена разработке и описанию программного комплекса дискретно-событийного имитационного моделирования работы вариантов системы мониторинга, которые используют роботов, модифицированных роботов, сенсоры.
Среда разработки. В процессе поиска программной платформы для реализации компьютерных моделей были опробованы несколько сред. В их числе:
1. Среда разработки программ Borland Delphi 6 (от неё отказались по причине недоступности качественной библиотеки организации модельной среды).
2. Среда GPSS World student от фирмы Minuteman (не могла справиться с большим объёмом вычислений, пределом оказалось моделирование «жизни» около 40000 ИР).
3. Язык программирования Python 2.2 + средства баз данных MySQL 4.0.13 + python-модуль SimPy 1.3 (среда удовлетворила всем сформулированным требованиям).
Python-модуль SimPy представляет собой библиотеку классов для программирования моделей, которые основаны на дискретных событиях (классы реализуют ведение календаря событий).
Программный комплекс 8ппС()8ЛК. Были выделены следующие основные операции, которые составляют процесс моделирования: создание набора
ресурсов, создание журналов изменений и запросов ресурсов, функционирование системы мониторинга. В результате были разработаны следующие модули:
• SimPages.py - задача модуля заключается в генерации (равномерный закон распределения задаёт начальный размер каждого ИР) набора ИР.
• SimChanges.py - задача модуля заключается в генерации (интервал времени между последовательными событиями определяет экспоненциальный закон распределения) истории изменений ИР определённого набора. Тип нового изменения определяется с помощью заданных относительных частот появления шести предопределённых типов изменений.
• SimQueгies.py - задача модуля заключается в генерации (интервал времени между последовательными событиями определяет экспоненциальный закон распределения) истории запросов ИР определённого набора.
• SimRobRoute.py - модуль занимается тем, что «привязывает» каждый конкретный ИР к одному из роботов. Используемый алгоритм «привязки» априори подразумевает наличие упорядоченной нумерации у ИР, которые созданы модулем SimPages.py.
• SimRobot.py - модуль позволяет осуществлять имитацию функционирования вариантов системы мониторинга, которые построены с использованием «обычных роботов».
• SimRobotM.py - имитация работы варианта системы мониторинга, которая использует «модифицированных роботов». За основу модуля был взят код модуля SimRobot.py и соответствующим образом модифицирован.
• SimSensoг.py - модуль позволяет осуществлять имитацию функционирования варианта системы мониторинга, которая использует «сенсоры».
Рис. 3. Структура комплекса 81шС08ЛЯ
Также имеются два модуля, которые предназначены для извлечения из баз данных значений статистических переменных и их последующей записи в файлы формата CSV:
• SimReport.py - извлекает из баз данных значения, которые накоплены в ходе одного опыта.
• SimMergeR.eports.py - извлекает статистику нескольких опытов (вместо нескольких CSV-файлов получаем один файл - первый столбец содержит время замера, а в остальные столбцы попадают результаты замеров одной переменной в нескольких опытах).
В работе представлено детальное описание «настроечной» информации (параметров моделирования), как всего комплекса, так и каждого модуля по отдельности. Например, для SimRobot.py описаны параметры: RobotQuantity, ModelTime, PageCount, MinPageLoadTime, MaxPageLoadTime, StepLogCycles и т.д. Также представлена подробная информация о выходной (статистические переменные, журналы функционирования) информации каждого модуля. Принципы функционирования основных модулей пояснены с помощью блок-схем обобщённых алгоритмов.
В заключении третьей главы отмечено, что программный комплекс SimCOSAR может быть легко модернизирован под цели исследования непредусмотренных вариантов системы мониторинга или для проведения исследований вариантов на основе данных о реальном (для этого достаточно в таблицы pages, changes, queries внести соответствующие данные) сегменте информационного поля.
Четвёртая глава посвящена подробному описанию эксперимента, который был реализован с использованием программного комплекса SimCOSAR. Целью эксперимента являлось получение новых знаний об относительной эффективности нескольких вариантов системы мониторинга в широком диапазоне рабочих нагрузок (т.е. получение подтверждения адекватности разработанных моделей и программ). Эксперимент проводился в условиях жёстких ограничений на объёмы доступных вычислительных мощностей и время.
Планирование эксперимента. Проведён анализ имеющихся в моделях переменных, в результате которого выделены основные, второстепенные, третьестепенные переменные отклика и основные, второстепенные, третьестепенные влияющие факторы. К основным переменным отклика отнесены переменные:
• Количество «устаревших» ресурсов (Needfresh, шт.).
• Свежесть (Freshness, %).
• Объём скачанной информации (Sumsize, байт).
Для основных влияющих факторов выбраны уровни изменения:
• Количество наблюдаемых страниц (шт.) - 100000,200000,300000.
• Продолжительность эксперимента (ед., 1 единица = 100 мсек) - 8640000 (10 дней), 17280000 (20 дней).
• Интенсивность изменений (шт./длительность периода) -1,5, 10 (для 10 дней); 2,10,20 (для 20 дней).
• Интенсивность запросов (шт./длительность периода) - 1, 50, 100 (для 10 дней); 2,100,200 (для 20 дней).
• Вариант системы мониторинга - выбрано семь вариантов, которые определяются использованием в процессе мониторинга:
о одного «обычного» робота (циклически скачивает подряд все ресурсы) - вариант № 1; о одного «модифицированного» робота (циклически посылает всем ресурсам специальный HTTP запрос и при необходимости скачивает изменившийся ресурс) - вариант №2; о трёх обычных роботов - вариант №3; о трёх модифицированных роботов - вариант №4; о пяти обычных роботов - вариант № 5; о пяти модифицированных роботов - вариант №6; о «сенсоров» - вариант №7. Уровни второстепенных и третьестепенных факторов были зафиксированы. В результате этого, например, второстепенный фактор «Закон распределения типов изменений» принял следующий вид (см. табл 1).
Таблица 1
_ Закон распределения типов изменений _
Наименование Ошибка Ошибка Ошибка Умень- Увели- Страница
состояния- 403 404 500 шение чение доступна
изменения размера размера (Нет измене-
страни- страницы ний)
цы
Номер 1 2 3 4 5 6
Относительная 0 083 0 125 0 125 0 25 0 25 0 167
частота
В качестве дополнительных условий в эксперименте считалось, что, во-первых, каждый вариант системы мониторинга работает на единственном компьютере, а во-вторых, вычислительная мощность используемых машин одинакова у всех вариантов.
В результате применения описанного на стадии стратегического планирования алгоритма получено 378 уникальных сочетания основных влияющих факторов, каждое из которых описывает ситуацию, когда мониторингом 1 из 54 уникальных «информационных полей» занимается 1 из 7 уникальных вариантов системы мониторинга.
Основным результатом тактического планирования стало предложение проводить этап создания 54 «информационных полей» только один раз вместо положенных семи (так как имеется семь вариантов системы мониторинга). Бла-
годаря этому решению мы имеем возможность снизить нежелательные флуктуации относительных значений критериев эффективности.
Реализация. Приведена информация о стадии подготовки программного комплекса SiraCOSAR к проведению эксперимента. Эти сведения могут служить в качестве наглядной иллюстрации того, как от плана эксперимента перейти к настроенному на него программному комплексу.
В работе представлены подробные сведения, которые характеризуют использованные вычислительные мощности и затраченное время на реализацию эксперимента. Эта информация позволяет оценивать ресурсы, которые могут потребоваться для проведения экспериментов по другим планам. Например, указаны следующие факты:
• Один прогон эксперимента по составленному плану моделирует 489888000 секунд или 5670 виртуальных дней (каждый из семи сравниваемых вариантов работал на 54 «информационных полях», суммарное виртуальное время которых равняется 69984000 секундам или 810 виртуальным дням).
• Благодаря распределению вычислений по нескольким машинам реализация одного прогона заняла примерно два месяца (начало расчётов датировано 18/07/2003, а завершение расчётов датировано 20/09/2003, но сюда входит время и т.н. «вынужденных простоев», например, когда эксперимент переносился из компьютерных классов на персональный компьютер).
• Если бы эксперимент осуществлялся без остановок и в каждый момент его реализации, выполнялась бы только одна операция на одной единственной машине, то продолжительность одного прогона эксперимента равнялась бы 30817758 секундам (реального времени) или примерно 357 дням.
Анализ результатов эксперимента. Было показано, что:
• получаемые значения основных (Freshness, Sumsize) критериев эффективности системы мониторинга действительно зависят (чувствительны к изменению) от значений выбранных (Changelntensity, Requestlntensity, PageCount, ModelTime) факторов. Для этого использовались финальные значения критериев эффективности (таблицы представлены в приложении 3), таблица коэффициентов корреляции (построенная в SPSS на основе данных приложения 3), а также использовалось графическое (например, Рис 4) представление числовых данных, которые замерялись с некоторой периодичностью в каждом опыте;
• получаемые значения переменных Freshness и Sumsize действительно помогают оценить относительную эффективность нескольких (даже принадлежащих разным концепциям) вариантов системы мониторинга. Для этого был построен частный рейтинг эффективности вариантов, которые принадлежат концепции роботов (в порядке убывания эффек-
тивности - №6, №4, №2, №1, №3, №5). Также было показано, в каких случаях вариант №7 занимает лидирующее положение в общем рейтинге вариантов, а в каких явно его уступает.
Рис. 4. Хроники изменений значений критериев эффективности для варианта №7
В заключении сформулированы основные результаты диссертационной работы и намечены дальнейшие пути развития исследования. В приложениях приводятся:
• основные компоненты поисковых систем (приложение 1);
• сведения о затраченном в ходе моделирования времени и обработанных объёмах данных (приложение 2);
• финальные (замеренные в последний момент модельного времени) значения критериев эффективности (приложение 3);
• значения второстепенной переменной МахРгосевв!^ (приложение 4).
• листинг модуля SimR.obot.py (приложение 5);
• листинг модуля SimSensoг ру (приложение 6);
• акты о внедрении (приложение 7).
При выполнении диссертационной работы получены следующие основные результаты.
1. Предложена новая классификация стратегий мониторинга информационных полей Internet. В качестве классифицирующего признака выбрана информация о месторасположении модуля системы мониторинга, который отвечает за обнаружение изменений в информационных ресурсах.
(a) Freshness
(b) Sumsize
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
2. Использование введённой классификации позволило предложить новый (не упоминавшийся в публикациях ранее) алгоритм мониторинга, который основан на «сенсорах» (программных модулях), которые «слушают» трафик Web-сервера.
3. Выявлены (в ходе анализа публикаций) критерии эффективности, которые пригодны для сравнения любых вариантов системы мониторинга: «свежесть» накопленной системой мониторинга информации и объём данных, которые передаются с Web-серверов на головной сервер мониторинга.
4. Предложена математическая модель процесса мониторинга.
5. Разработаны имитационные модели двух вариантов системы мониторинга. Во-первых, системы, которая использует одного обычного робота для циклического скачивания всех информационных ресурсов информационного поля. Во-вторых, системы, которая использует сенсоры для обнаружения изменений состояния информационных ресурсов и которая после поступления от сенсора «сигнала тревоги» немедленно скачивает изменившийся ИР.
6. На базе языка программирования Python, БД MySQL, библиотеки классов дискретно-событийного моделирования SimPy и имитационных моделей разработан программный комплекс SimCOSAR для компьютерного моделирования работы вариантов системы мониторинга, которые используют роботов, «модифицированных роботов», сенсоры.
7. В ходе компьютерного экспериментирования с комплексом SimCOSAR получены числовые данные, после анализа которых:
a) признано, что они адекватно отражают характеристики протекающих процессов (так как очевидно, что смоделированные ситуации можно воссоздать в практических условиях);
b) получены новые знания (например, составлен рейтинг вариантов) об относительной эффективности семи вариантов системы мониторинга в широком (54 ситуации) диапазоне рабочих нагрузок - сенсорную систему мониторинга рекомендуется внедрять для наблюдения за ИР, которые имеют интенсивность посещений большую, чем интенсивность изменений, а для наблюдения за ресурсами, у которых интенсивность изменений превышает интенсивность посещений, рекомендуется использование систем мониторинга основанных на модифицированных роботах;
c) признано, что комплекс применим (следовательно, применимы и модели, на которых он основан) для получения числовых данных, которые необходимы при сравнении различных вариантов системы мониторинга.
8. Полученные в эксперименте данные помогли принять решение о начале реализации сенсорной системы для мониторинга информационного поля Омского государственного университета.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Земсков И.А. Технологические аспекты повышения эффективности поиска информации в сети Интернет / Материалы VI рабочего совещания по электронным публикациям "Е1-РиЬ2001". Новосибирск. 2001. [Электронный ресурс]. Режим доступа: http://www-sbias.nsc.ru/ws/list doc.dhtml?ru+28+27+S.
2. Земсков ИА. О концепции индексации информационных ресурсов сети Интернет/Математические структуры и моделирование. Омск. 2001. Вып.8. С.126-131.
3. Земсков И.А. Сбор информации о доступных ресурсах Интернет // Математические структуры и моделирование. Омск. 2002. Вып.9. С. 168-178.
4. Земсков ИА. Имитационное исследование концепций сбора информации для индексов поисковых систем // Математические структуры и моделирование. Омск. 2002. Вып.Ю. С.172-191.
5. Земсков ИА. SIMCOSAR: Программный комплекс моделирования процесса мониторинга состояния информационного поля Интернет // Математические структуры и моделирование. Омск. 2003. Вып.11. С.128-157.
6. Земсков И.А. Мониторинг информационного состояния единой образовательной информационной среды / Труды X Всерос. научн.-метод. конф. Те-лематика'2003. Санкт-Петербург. 14-17 апреля 2003 г. T.I. C.198-199.
7. Земсков ИА. Использование «сенсоров» для мониторинга состояния информационного поля Интернет // Вестник Омского университета. 2003. Вып.Э.С.143-144.
8. Zemskov I. Using sensors in the web crawling process (Использование сенсоров в процессе мониторинга Web). [Electronic resource]. Mode of access: http.//arXv.org/abs/cs/0312033.
Of.fc-05.S3
Подписано в печать 04.04.05. Формат 60x84 1/16. Печ. л. 1,25. Уч.-изд.л. 1,25. Тираж 100 экз. Заказ 31
Полиграфический центр КАН 644050, 0мск-50, пр. Мира, 32, к.11, тел. (3812) 65-47-31 Лицензия ПЛД № 58-47 от 21.04.97 г.
1155
Оглавление автор диссертации — кандидата технических наук Земсков, Илья Аркадьевич
Введение.
Глава 1. Анализ систем мониторинга информационного поля Internet.
1.1. Структура информационного поля.
1.2. Условия проведения мониторинга.
1.3. Классификация стратегий осуществления мониторинга.
1.3.1. Концепция «роботов».
1.3.2. Концепция «сенсоров».
1.3.3. Концепция «мобильных роботов».
1.4. Критерии эффективности систем мониторинга.
1.5. Выводы.
Глава 2. Моделирование системы мониторинга.
2.1. Анализ ситуации с моделированием систем мониторинга.
2.2. Математическая модель процесса мониторинга.
2.3. Имитационные модели системы мониторинга.
2.3.1. Модель «робота».
2.3.2. Модель «сенсоров».
2.4. Задание используемых законов распределений.
2.5. Выводы.
Глава 3. Реализация программного комплекса имитационного моделирования систем мониторинга.
3.1. Выбор среды моделирования.
3.2. Соглашения о внутреннем устройстве комплекса.
3.3. Общая настроечная информация.
3.4. Модули комплекса.
3.4.1. Создание набора ресурсов.
3.4.2. Создание истории изменения ресурсов.
3.4.3. Создание истории запросов ресурсов.
3.4.4. Создание маршрута робота.
3.4.5. Имитация системы роботов.
3.4.6. Имитация системы модифицированных роботов.
3.4.7. Имитация системы сенсоров.
3.4.8. Извлечение накопленной статистики.
3.4.9. Объединение статистики нескольких экспериментов.
3.5. Выводы.
Глава 4. Пример использования разработанного комплекса.
4.1. План проведения эксперимента.
4.2. Реализация.
4.3. Анализ результатов эксперимента.
4.4. Выводы.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Земсков, Илья Аркадьевич
Современные научные, образовательные центры, которые построили развитые локальные («внутрикорпоративные») компьютерные сети с постоянным выходом в Internet, имеют беспрецедентную возможность быстро и сравнительно дёшево знакомить региональное и мировое сообщество с результатами своей деятельности. Для этого им достаточно создать внутри своей сети один или несколько Web-серверов, на которых осуществлять электронную публикацию всех необходимых сведений. По такому пути пошли, например, в таком знаменитом научно-образовательном центре, как Стэнфордский университет (Stanford University), список серверов и сайтов которого содержит несколько сотен ссылок (http://www.stanford.edu/home/atoz). Но со временем объём опубликованной на всех Web-cepBepax информации становиться настолько большим, что посетителям становится трудно ориентироваться в получившемся сегменте информационного поля, а значит трудно находить путь к требуемым сведениям. Однако, решая внедрить программный комплекс, который будет реализовывать функции поисковой системы (ПС), владельцы сегмента информационного поля сталкиваются с многочисленными проблемами выбора.
Если осуществляется выбор готового продукта из большого количества коммерческих и свободно распространяемых программных комплексов ПС, то основной проблемой является отсутствие объективной (отличной от рекламных «фактов») информации по каждому рассматриваемому варианту (не наблюдается практика публикации числовых данных, которые характеризуют сегменты информационного поля и эффективность внедрения какой-либо системы). Поэтому потребности практики обуславливают необходимость разработки программных средств, которые позволят относительно легко (при минимальных требованиях) получить данные для объективного сравнения вариантов поисковых систем или некоторых стандартных модулей поисковых систем.
Если же ведётся самостоятельная разработка, то основной проблемой является выбор наиболее эффективных алгоритмов, которые будут реализовывать основные модули ПС. Эта ситуация усугубляется тем, что в Internet присутствует большое количество публикаций (для начала можно обратиться к докладам на международных ежегодных специализированных конференциях: http://www2003.org/, http://www.iadis.org/icwi2003), в которых предлагаются методы (возможно очень эффективные) совершенствования различных аспектов функционирования ПС. Причём может получиться так, что после изучения описаний нескольких алгоритмов одного и того же модуля разработчики формулируют свой алгоритм (отличный от всех известных ранее или некую «компиляцию» выгодных качеств чужих алгоритмов). Чтобы окончательно убедиться в перспективности того или иного алгоритма (и тем самым осуществить выбор) логично обратиться к методам имитационного моделирования и осуществить предварительное исследование эффективности каждого из альтернативных алгоритмов. Однако в проанализированных работах наблюдается явная нехватка не только готовых моделей, но и подходов к их построению и программной реализации.
Цель работы состоит в разработке моделей и программного комплекса на их основе, позволяющих получить данные для проведения исследований относительной эффективности функционирования различных вариантов системы мониторинга.
Основные задачи работы включали:
• разработать классификацию существующих стратегий мониторинга информационного поля Internet;
• выявить набор критериев эффективности, которые могут охарактеризовать любой вариант системы мониторинга;
• разработать математическую модель процесса мониторинга;
• разработать имитационные модели системы мониторинга;
• разработать программный комплекс, который предназначен для проведения дискретно-событийного имитационного моделирования систем мониторинга и который допускает быструю модификацию при исследовании непредусмотренных вариантов системы;
• получить экспериментальное подтверждение практической применимости разработанного программного комплекса.
Методы исследования. При решении поставленных задач в работе использованы элементы математического и имитационного моделирования, а также методы и средства объектно-ориентированного программирования, баз данных.
Научная новизна. К новым результатам диссертации можно отнести:
• предложенную математическую модель процесса мониторинга информационного поля Internet;
• предложенную сенсорную технологию осуществления мониторинга;
• разработанный программный комплекс имитационного моделирования системы мониторинга сегмента информационного поля Internet (в Отраслевом фонде алгоритмов и программ получено свидетельство о регистрации разработки №4255 от 24.01.2005);
• применение разработанного программного комплекса для имитационного исследования нескольких вариантов системы мониторинга.
Практическая ценность работы заключается в возможности использования полученных научно-технических результатов при проектировании, эксплуатации, научном исследовании систем мониторинга в задачах, требующих относительного сравнения альтернативных алгоритмов и стратегий мониторинга.
Апробация работы. Результаты работы были представлены на следующих научных конференциях:
1. X Всероссийской научно-методической конференции «Телемати-ка'2003» (Санкт-Петербург, 2003).
2. VI Всероссийской научной конференции молодых ученых и аспирантов «Новые информационные технологии. Разработка и аспекты применения» (Таганрог, 2003)
3. IV Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003)
4. Образование. Экология. Экономика. Информатика. VIII Международной конференции "Нелинейный мир" (Астрахань, 2003).
5. Всероссийской научной молодежной конференции «Под знаком «Сигма» (Омск, 2003)
6. XLI Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 2003).
7. VI рабочем совещании по электронным публикациям "El-Pub2001" (Новосибирск, 2001)
Также результаты работы докладывались на семинарах кафедр математического моделирования и кибернетики Омского государственного университета, на семинаре лаборатории сложных систем Омского филиала института математики им. C.JI. Соболева СО РАН, на семинаре научно-исследовательского института интеллектуальных информационных систем Тюменского государственного университета СО РАН и УрО РАН, на семинаре кафедры системного программирования Челябинского государственного университета, на семинаре кафедры системного программирования Южно-Уральского государственного университета.
По результатам выполненных исследований опубликовано 11 печатных и 2 электронных работы (одна на английском языке).
Разработанный программный комплекс SimCOSAR, а также полученные с его помощью данные были использованы в процессе проектирования систем мониторинга Web-pecypcoB, что подтверждено соответствующими актами о внедрении.
Основные положения, выносимые на защиту:
• модели системы мониторинга, которые принадлежат двум различным классам в классификации стратегий мониторинга;
• SimCOSAR - программный комплекс дискретно-событийного имитационного моделирования систем мониторинга;
• Результаты проведённых имитационных компьютерных экспериментов.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и семи приложений. Общий объём работы составляет 180 страниц. Библиографический список насчитывает 97 наименований.
Заключение диссертация на тему "Моделирование мониторинга информационного поля Internet"
4.4. Выводы
1. Осуществлена демонстрация основных этапов (планирование и настройка) подготовки программного комплекса SimCOSAR к проведению эксперимента. Приведённая информация может служить в качестве наглядной иллюстрации того, как от плана эксперимента перейти к настроенному на него программному комплексу.
2. Представлены сведения, которые характеризуют использованные вычислительные мощности и затраченное время на реализацию эксперимента. Эта информация позволяет оценивать ресурсы, которые могут потребоваться для проведения экспериментов по другим планам.
3. Результаты моделирования были проанализированы, что позволило получить новые знания об относительной эффективности нескольких вариантов системы мониторинга в широком диапазоне рабочих нагрузок. Новые знания позволяют уверенно рекомендовать внедрение сенсорных систем мониторинга для наблюдения за ИР с высокой посещаемостью и любой интенсивностью изменений. Для наблюдения за ресурсами, у которых интенсивность изменений превышает интенсивность посещений, рекомендуется использование систем мониторинга основанных на модифицированных роботах.
4. Фактически была решена важная задача проводимого исследования, а именно, было показано, что с помощью программного комплекса можно получать данные, которые необходимы при сравнении различных вариантов системы мониторинга.
Заключение
При выполнении диссертационной работы получены следующие основные результаты.
1. Предложена новая классификация стратегий мониторинга информационных полей Internet. В качестве классифицирующего признака выбрана информация о месторасположении модуля системы мониторинга, который отвечает за обнаружение изменений в информационных ресурсах.
2. Использование введенной классификации позволило предложить новый (не упоминавшийся в публикациях ранее) алгоритм мониторинга, который основан на «сенсорах» (программных модулях), которые «слушают» трафик Web-cepBepa.
3. Выявлены (в ходе анализа публикаций) критерии эффективности, которые пригодны для сравнения любых вариантов системы мониторинга: «свежесть» накопленной системой мониторинга информации и объём данных, которые передаются с Web-серверов на головной сервер мониторинга.
4. Предложена математическая модель процесса мониторинга.
5. Разработаны имитационные модели двух вариантов системы мониторинга. Во-первых, системы, которая использует одного обычного робота для циклического скачивания всех информационных ресурсов информационного поля. Во-вторых, системы, которая использует сенсоры для обнаружения изменений состояния информационных ресурсов и которая после поступления от сенсора «сигнала тревоги» немедленно скачивает изменившийся информационный ресурс.
6. На базе языка программирования Python, БД MySQL, библиотеки классов дискретно-событийного моделирования SimPy и имитационных моделей разработан программный комплекс SimCOSAR для компьютерного моделирования работы вариантов системы мониторинга, которые используют роботов, «модифицированных роботов» (при циклическом обходе сначала посылается HEAD-запрос и только при обнаружении изменений информационный ресурс скачивается), сенсоры.
7. В ходе компьютерного экспериментирования с комплексом SimCOSAR получены числовые данные, после анализа которых: a. признано, что они адекватно отражают характеристики протекающих процессов (так как очевидно, что смоделированные ситуации можно воссоздать в практических условиях); b. получены новые знания (например, составлен рейтинг вариантов) об относительной эффективности семи вариантов системы мониторинга в широком (54 ситуации) диапазоне рабочих нагрузок - сенсорную систему мониторинга рекомендуется внедрять для наблюдения за ИР, которые имеют интенсивность посещений большую, чем интенсивность изменений, а для наблюдения за ресурсами, у которых интенсивность изменений превышает интенсивность посещений, рекомендуется использование систем мониторинга основанных на модифицированных роботах; c. признано, что комплекс применим для получения числовых данных, которые необходимы при сравнении различных вариантов системы мониторинга.
8. Полученные в эксперименте данные помогли принять решение о начале реализации сенсорной системы для мониторинга информационного поля Омского государственного университета.
Разработанные классификация, имитационные модели, программный комплекс могут быть использованы в задачах анализа производительности систем мониторинга при проектировании (для исследования новых вариантов комплекс можно легко модифицировать под условия новой задачи), эксплуатации (для этого в соответствующие таблицы базы данных комплекса необходимо внести данные о реальном информационном поле - характеристики страниц, журналы их изменений и запросов), научном исследовании, в процессе обучения.
Планируется дальнейшее развитие представляемой работы по следующим основным направлениям:
• развитие средств сбора, накопления и обработки экспериментальных данных, например, в течение одного опыта необходим сбор данных о состоянии переменных не только в «периодическом» режиме, но и в режиме сохранения истории изменения значений;
• развитие средств дистанционного управления ходом эксперимента;
• исследование такого варианта сенсорной системы мониторинга, в котором при поступлении от сенсора «сигнала тревоги» изменившийся информационный ресурс ставится в очередь на скачивание.
Библиография Земсков, Илья Аркадьевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Айвазян С. А-., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справ, изд. М.: Финансы и статистика, 1983.-471 с.
2. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале Internet): Дис. канд. техн. наук: 05.13.16 / УГТУ. -Екатеринбург, 2000. 161с.
3. Бусленко В.Н. Автоматизация имитационного моделирования сложных систем. -М.: Наука, 1977. 204с.
4. Губанов В.А., Захаров В.В., Коваленко А.Н. Введение в системный анализ: Учебное пособие. JI.: Издательство Ленинградского университета, 1988. -232 с.
5. Земсков И.А. О концепции индексации информационных ресурсов сети Интернет//Математические структуры и моделирование. Омск, 2001. Вып.8. С.126-131.
6. Земсков И.А. Сбор информации о доступных ресурсах Интернет // Математические структуры и моделирование. Омск, 2002. Вып.9. С. 168-178.
7. Земсков И.А. Имитационное исследование концепций сбора информации для индексов поисковых систем // Математические структуры и моделирование. Омск, 2002. Вып. 10. С. 172-191.
8. Земсков И.А. SIMCOSAR: Программный комплекс моделирования процесса мониторинга состояния информационного поля Интернет // Математические структуры и моделирование. Омск, 2003. Вып.11. С.128-157.
9. Ю.Земсков И.А. Мониторинг информационного состояния единой образовательной информационной среды / Труды X Всерос. научн.-метод, конф. Те-лематика'2003, 14-17 апреля 2003 г., T.l. С.198-199.
10. Zemskov I. Using sensors in the web crawling process (Использование сенсоров в роцессе мониторинга Web). Electronic resource. Mode of access: http://arXiv.org/abs/cs/0312033.
11. Иванова В.М. Случайные числа и их применение. М.: Финансы и статистика, 1984.- 111с.
12. Имитационное моделирование производственных систем/ Под общ. ред. чл.-кор. АН СССР Вавилова А.А. М.: Машиностроение; Берлин: Техника, 1983. - 416с.
13. Клейнен Дж. Статистические методы в имитационном моделировании. -Вып. 1. -М.: Статистика, 1978. -221с.
14. Марков А.А.Моделирование информационно-вычислительных процессов. Издательство МГТУ им. Н.Э. Баумана, 1999.
15. Мартин Дж. Системный анализ передачи данных. М:Мир, 1975/П.- 252с.
16. Мартин Дж. Системный анализ передачи данных. М:Мир, 1975.Т2.- 427с.
17. Мартин Ф. Моделирование на вычислительных машинах. М.: Советское радио, 1972.-228с.
18. Моделирование систем информатики. Тезисы докладов 2-й всесоюзной конференции. Новосибирск. 25-27 сентября 1990г.
19. Некрестьянов И.С., Пантелеева Н. Системы текстового поиска для Веб. Электронный ресурс. Режим доступа: http://meta.math.spbu.ru/~nadejda/pa-pers/web-ir/web-ir.html.
20. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Дис. канд. физ.-мат. наук: 05.13.11 / СПбГУ. СПб., 2000. Электронный ресурс. Режим доступа: http://meta.math.spbu.ru/~igor/thesis/-thesis.html.
21. Основы теории вычислительных систем/ Майоров С.А., Новиков Г.И., Алиев Т.И. и др.; Под редакцией Майорова С.А. М.: Высшая школа, 1978. -408с.
22. Основы моделирования сложных систем: Учебное пособие для студентов вузов / Под общ. ред. д-ра техн. Наук И.В, Кузьмина Киев: Вища школа. Головное издательство. 1981. - 360с.
23. ЗО.Пранявичюс Г. Модели и методы исследования вычислительных систем. -Вильнюс: Мокслас, 1982.-228с.31 .Родионов А.С. Разработка систем дискретного имитационного моделирования информационных сетей: Автореф. дис. док. техн. наук. Новосибирск, 2002.
24. Советов Б.Я., Яковлев С.А. Построение сетей интегрального обслуживания. JL: Машиностроение. Ленинградское отделение, 1990. - 332с.
25. Советов Б.Я., Яковлев С.А. Моделирование систем: Учебник для вузов по спец. АСУ. М.: Высш. шк., 1985. - 271с.
26. Советов Б.Я., Яковлев С.А. Моделирование систем: Курсовое проектирование: Учебное пособие для вузов по спец. АСУ.-М.: Высш. шк., 1988. 135с.
27. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996, №3(17), С.46-49.
28. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы, №6(20), С. 46-56.
29. Цвиркун А.Д., Акинфиев В.К., Филиппов В.А. Имитационное моделирование в задачах синтеза структуры сложных систем (оптимизационно-имитационный подход). М.: Наука, 1985. - 171с.
30. Шеннон Р. Имитационное моделирование систем искусство и наука. - М.: Мир, 1978.-240с.
31. Шрайбер Т. Дж. Моделирование на GPSS.-M.:ManiHHocTpoeHHe,1980 592с.
32. Ямпольский В.З., Комагоров В.П., Солдатов В.Н. Моделирование сетей передачи и обработки информации. — Новосибирск: Наука, 1986. 135с.
33. Arasu A., Cho J., Garcia-Molina Н., Paepcke A., Raghavan S. Searching the Web. Electronic resource. Mode of access: http://rose.cs.ucla.edu/~cho/papers/cho-toit01.pdf.
34. Baeza-Yates R., Castillo C. Balancing Volume, Quality and Freshness in Web Crawling. Electronic resource. Mode of access: http://citeseer.nj.nec.com/baeza-yates02balancing.html.
35. Bowman M.C., Danzig P.B., Hardy D.R., Manber U., Schwartz M.F. The Harvest Information Discovery and Access System. Electronic resource. Mode of access: http://citeseer.nj.nec.com/bowman95harvest.html.
36. Brandman O., Cho J., Garcia-Molina H., Shivakumar N. Crawler-Friendly Web Servers. Electronic resource. Mode of access: http://rose.cs.ucla.edu/~cho/-papers/cho-server.pdf.
37. Brewington B.E., Cybenko G. Keeping up with the changing Web. Electronic resource. Mode of access: http://www.ece.eng.wayne.edu/~czxu/ece7995/reading/-keep-up-change.pdf.
38. Brewington B.E. Observation of changing information sources. Phd thesis, Dartmouth College, June 2000. Electronic resource. Mode of access: http://citesee-r.nj.nec.com/brewingtonOOobservation.html.
39. Brin S., Page L. The Anatomy of a Search Engine. Electronic resource. Mode of access: http://www7.scu.edu.au/programme/fullpapers/1921/coml921.htm.
40. Broder A.Z., Najork M., Wiener J.L. Efficient URL Caching for World Wide Web Crawling. Electronic resource. Mode of access: http://www2003.org/cdro-m/papers/refereed/p096/p96-broder.html.
41. Buyukkokten O., Garcia-Molina H., Paepcke A. Focused Web Searching with PDAs. Electronic resource. Mode of access: http://www-db.stanford.edu/~or-kut/papers/pb2.pdf.
42. Castillo C. Cooperation schemes between a Web server and a Web search engine. Electronic resource. Mode of access: http://citeseer.nj.nec.com/588517.html.
43. Castillo C., Baeza-Yates R. A New Model for Web Crawling. Electronic resource. Mode of access: http://citeseer.nj.nec.com/castillo01new.html.
44. Cho J., Garcia-Molina H. Estimating Frequency of Change. Electronic resource. Mode of access: http://citeseer.nj.nec.com/choOOestimating.html.
45. Cho J., Garcia-Molina H., Page L. Efficient Crawling Through URL Ordering. Electronic resource. Mode of access: http://rose.cs.ucla.edu/~cho/papers/cho-order.pdf.
46. Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. Electronic resource. Mode of access: http://citeseer.nj.nec.c-om/choOOevolution.html.
47. Cho J., Shivakumar N., Garcia-Molina H. Finding replicated web collections. Electronic resource. Mode of access: http://citeseer.nj.nec.com/cho99findin-g.html.
48. Cho J. Crawling the Web: Discovery and maintenance of large-scale web data. PhD thesis, Department of Computer Science, Stanford University, 2001. Electronic resource. Mode of access: http://citeseer.nj.nec.com/cho01crawling.html.
49. Chakrabartiy S., Punera K., Subramanyam M. Accelerated Focused Crawling through Online Relevance Feedback. Electronic resource. Mode of access: http://citeseer.nj.nec.com/chakrabarti02accelerated.html.
50. Coffman E.G. Jr., Liu Z., Weber R.R. Optimal Robot Scheduling for Web Search Engines. Electronic resource. Mode of access: http://citeseer.nj.nec.com/coffm-an97optimal.html.
51. Cooper C., Frieze A. Crawling on web graphs. Electronic resource. Mode of access: http://citeseer.nj .nec.com/cooper02cra wling.html.
52. Diligenti M., Coetzee F.M., Lawrence S., Giles C.L., Gori M. Focused Crawling Using Context Graphs. Electronic resource. Mode of access: http://www.nec-i.nec.com/homepages/coetzee/focusCrawler.pdf.
53. Douglis F., Feldmann A., Krishnamurthy B. Rate of Change and other Metrics: a Live Study of the World Wide Web. Electronic resource. Mode of access: http://citeseer.nj.nec.com/douglis97rate.html.
54. Eichmann D. Ethical Web Agents. Electronic resource. Mode of access: http://mingo.info-science.uiowa.edu/eichmann/www-f94/ethics/ethics.ps.
55. Ester M., GroB M., Kriegel H. Focused Web Crawling: A Generic Framework for Specifying the User Interest and for Adaptive Crawling Strategies. Electronic resource. Mode of access: http://citeseer.nj.nec.com/456508.html.
56. Fiedler J., Hammer J. Mobile Web crawling. Electronic resource. Mode of access: http://www.cise.ufl.edu/tech-reports/tech-reports/tr98-abstracts.shtml.
57. Fox A., Brewer E.A. Harvest, Yield, and Scalable Tolerant Systems. Electronic resource. Mode of access: http://www.cs.ucsb.edu/~tve/cs290i-sp01/papers/fox-99harvest.pdf.
58. Gery M. Considering HyperDocuments and Context for Indexing the Web. Electronic resource. Mode of access: http://citeseer.nj.nec.com/567417.html.
59. Glover E.J. Using extra-topical user preferences to improve web-based meta-search: PhD thesis, University of Michigan, 2001. Electronic resource. Mode of access: http://www.webir.org/resources/phd/Glover2001 .pdf.
60. Green J.W. HYPERDOG Up To Date Web Monitoring Through Metacomput-ers. Electronic resource. Mode of access: http://www.cnds.jhu.edu/pub/paper-s/hyperdog.pdf.
61. Gupta V., Campbell R. Competitive algorithms for asynchronous update propagation in mobile computing and for search engine freshness. Electronic resource. Mode of access: http://www-sal.cs.uiuc.edu/~vsgupta/REPORTS/competitive-al-gos.ps.gz.
62. Gupta V., Campbell R. Internet search engine freshness by web server help. Electronic resource. Mode of access: http://citeseer.nj.nec.com/guptaOOinter-net.html.
63. Hammer J., Fiedler J. Using Mobile Crawlers to Search the Web Efficiently. Electronic resource. Mode of access: http://citeseer.nj.nec.com/hammerOOusi-ng.html.
64. Hinze A., Faensen D. A Unified Model of Internet Scale Alerting Services. Electronic resource. Mode of access: http://citeseer.nj.nec.com/hinze99unified.html.
65. Kumar R., Raghavan P., Rajagopalan S., Sivakumar D., Tomkins A.S., Upfal E. The Web as a graph. Electronic resource. Mode of access: http://citeseer.nj.ne-c.comJ290635.html
66. Lam S. The Overview of Web Search Engines. Electronic resource. Mode of access: http://citeseer.nj.nec.com/Iam01overview.html.
67. Lam W., Garcia-Molina H. Multicasting a Web Repository. Electronic resource. Mode of access: http://dbpubs.stanford.edu/pub/2001-55.
68. Leung S.A., Perl S.E., Stata R., Wiener J.L. Towards Web-scale Web Archaeology. Electronic resource. Mode of access: http://citeseer.nj.nec.com/leung01-towards.html.
69. Lim L., Wang M., Padmanabhan S., Vitter J.S., Agarwal R. Characterizing Web Document Change. Electronic resource. Mode of access: http://citeseer.nj.ne-c .com/1 imO 1 character izing.html.
70. McLearn G. L. Autonomous Cooperating Web Crawlers / Master's thesis. Electronic resource. Mode of access: http://citeseer.nj.nec.com/mclearn02autonomo-us.html.
71. Melnik S., Raghavan S., Yang В., Garcia-Molina H. Building a Distributed Full-Text Index for the Web. Electronic resource. Mode of access: http://www-db.s-tanford.edu/~rsram/pubs/wwwl 0/wwwl Opaper.pdf.
72. Menczer F., Pant G., Srinivasan P., Ruiz M.E. Evaluating Topic-Driven Web Crawlers. Electronic resource. Mode of access: http://doIlar.biz.uiowa.ed-u/~fil/Papers/sigir-01 .pdf.
73. Najork M., Heydon A. High-Performance Web Crawling. Electronic resource. Mode of access: http://citeseer.nj.nec.com/najork01highperformance.html.
74. Najork M., Wiener J.L. Breadth-First Search Crawling Yields High-Quality Pages. Electronic resource. Mode of access: http://wwwlO.org/cdrom/paper-s/pdf/p208.pdf.
75. Pant G., Bradshaw S., Menczer F. Search Engine-Crawler Symbiosis. Electronic resource. Mode of access: http://citeseer.nj.nec.com/pant03search.html.
76. Pant G., Menczer F. Topical Crawling for Business Intelligence. Electronic resource., Mode of access: http://citeseer.nj.nec.com/568289.html.
77. Pant G., Srinivasan P., Menczer F. Crawling the Web. Electronic resource. Mode of access: http://citeseer.nj.nec.com/579280.html.
78. Raghavan S., Garcia-Molina H. Crawling the Hidden Web. Electronic resource. Mode of access: http://dbpubs.stanford.edu/pub/2000-36.
79. Rennie J., McCallum A.K. Using Reinforcement Learning to Spider the Web Efficiently. Electronic resource. Mode of access: http://www.ai.mit.edu/~jrenn-ie/papers/icml99-text.pdf.
80. Selberg, E.W. Towards comprehensive Web Search. PhD thesis, University of Washington, 1999. Electronic resource. Mode of access: http://citeseer.nj.ne-c.com/selberg99towards.html.
81. Shivakumar N., Garcia-Molina H. Finding near-replicas of documents on the web. Electronic resource. Mode of access: http://www-db.stanford.edu/pub/pa-persAveb-webdb98.ps.
82. Shkapenyuk V., Suel T. Design and Implementation of a High-Performance Distributed Web Crawler. Electronic resource. Mode of access: http://cis.poly.ed-u/tr/tr-cis-200 l-03.pdf.
83. Silveira R., Filho S. The Mobile Agents Paradigm. Electronic resource. Mode of access: http://citeseer.nj.nec.com/437842.html.
84. Srinivasan P., Mitchell J., Bodenreider O., Pant G., Menczer F. Web Crawling Agents for Retrieving Biomedical Information. Electronic resource. Mode of access: http://citeseer.nj.nec.com/srinivasan02web.html.
85. Srinivasan P., Pant G., Menczer F. Target Seeking Crawlers and their Topical Performance. Electronic resource. Mode of access: http://citeseer.nj.nec.com/sri-nivasan02target.html.
86. Talim J., Liu Z., Nain P., Coffman E.G. Jr. Optimizing the Number of Robots for Web Search Engines. Electronic resource. Mode of access: http://citeseer.n-j .nec.com/talimO 1 optimizing.html.
87. Wims В., Xu С. TRAVELER: A Mobile Agent Based Infrastructure for Wide Area Parallel Computing. Electronic resource. Mode of access: http://www.pdc-l.eng. wayne.edu/-czxu/paper/asa-traveler.ps.
88. Yang Y., Rana O.F., Georgousopoulos C. Mobile Agents and the SARA Digital Library. Electronic resource. Mode of access: http://citeseer.nj.nec.com/yangOO-mobile.html.
-
Похожие работы
- Исследование влияния статистических свойств мультимедийного IP-трафика на характеристики качества обслуживания
- Модель и методы мониторинга и оценки защищенности веб-сайтов сети Интернет
- Многоагентная система для поиска и обработки тематико-ориентированной информации
- Исследование и разработка программных средств защиты ресурсов распределенной вычислительной системы
- Исследование и разработка метода расчета пропускной способности модуля абонентских линий
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность