автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях

кандидата технических наук
Свечников, Сергей Владимирович
город
Москва
год
2008
специальность ВАК РФ
05.13.13
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях»

Автореферат диссертации по теме "Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях"

На правах рукописи

„ /

Свечников Сергей Владимирович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМИЧЕСКИХ, ПРОГРАММНЫХ И АРХИТЕКТУРНЫХ РЕШЕНИЙ ДЛЯ ПРОЕКТИРОВАНИЯ СИСТЕМ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ В ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ

Специальность 05 13 13 «Телекоммуникационные системы и компьютерные сети»

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва - 2008

003166705

Работа выполнена в Федеральном государственном учреждении «Государственный научно-исследовательский институт информационных технологий и телекоммуникаций» (ФГУ ГНИИ ИТТ «Информика»)

Научный руководитель

доктор технических наук, доцент Скуратов Алексей Константинович

Официальные оппоненты доктор технических наук, профессор

Позднеев Борис Михайлович

кандидат технических наук, профессор Красовский Виктор Евгеньевич

Ведущая организация

Государственное образовательное учреждение высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)»

Защита диссертации состоится «29» апреля 2008 г. в на

заседании диссертационного совета Д 212 133 03 при Московском государственном институте электроники и математики (МИЭМ) (технический университет) по адресу 109028, Москва, Б Трехсвятительский пер , д 3, зал Ученого совета

С диссертацией можно ознакомиться в библиотеке МИЭМ

Автореферат разослан 2008 г.

Ученый секретарь

диссертационного совета Д 212 133 03 при МИЭМ (ТУ)

к т и , доцент

ЮЛ Леохин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Стремительно возрастающий объем данных и необходимость их быстрой обработки, вызывают потребность в создании специализированных систем тематической категоризации (СТК) ресурсов Интернета В настоящее время необходимость в СТК, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений Именно с этим направлением в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 миллионов человек, из них 2 миллиона детей Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью Такой бесконтрольный доступ к информации несет в себе серьезную угрозу, в первую очередь, психическому и психологическому здоровью несовершеннолетних пользователей С другой стороны, Интернет зачастую используется не только для рабочих вопросов сотрудниками, имеющими доступ к глобальной сети, что отрицательно влияет на эффективность их работы и снижает производительность корпоративной сети

В то же время на сегодняшний день в России отсутствуют как таковые методы прямого регулирования (цензуры) содержимого телекоммуникационных сетей Возможность введения цензуры интернет-контента и ее правовая регламентация встречает протест со стороны пользователей, не без основания полагающих, что это может привести к ограничению прав и свобод, предоставляемых современным демократическим государством

В связи с этим решение проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты сетей от нежелательного и (или) опасного контента, и его несанкционированного использования, в том числе по воле и усмотрению пользователя Реализация такого инструмента тесно связана с категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений, среди которых наибольший интерес для настоящего исследования представляет механизм фильтрации полезной информации от агрессивной и опасной

Поскольку на текущий момент большая часть научных учреждений, публичных библиотек и учебных заведений России выходит в глобальную

сеть посредством крупнейшей федеральной университетской сети RUNNet (Russian UNiversity Network), - пусть в некоторых случаях и через более мелких интернет-провайдеров, - наиболее актуальной была признана ориентация проводимых исследований на алгоритмические, программные и архитектурные решения российской телекоммуникационной инфраструктуры единой образовательной информационной среды

Тенденция стремительного роста информации сделала системы тематической категоризации не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей

Ряд авторитетных исследователей, таких как А Н Тихонов, А Д Иванников, А К Скуратов, И Е Поляков, В А Мордвинов, И С Некрестьянов, А Е Ермаков, В С Чернявский, М.С Агеев, В В Плешко, В Ю Добрынин, М Р Когаловский, И В Сегалович, G Saltón, R Baezo-Yates, J Cho, A Smghal, F Sebastiani, S Lawrence, P Foltz, L Gravano своими работами внесли значительный вклад в развитие информационно-поисковых систем и СТК, функционирующих в сфере компьютерных сетей

Активно ведут работы в этом направлении такие организации, как Гарант Парк Интернет, ООО «Мегаверсия», Центр Анализа Интернет Ресурсов, ФГУ ГНИИ ИТТ «Информика», Институт программных систем РАН, корпорация «Галактика», Научно-производственный инновационный центр «Микросистемы», компания «MediaLmgua», Яндекс, Рамблер, Апорт, Google, Secure computing, SurfControl, Websense, Cobion и другие

Таким образом, актуальность темы настоящей диссертации диктуется необходимостью создания алгоритмических, программных и архитектурных решений, упорядочивающих информацию, представленную в сети Интернет для управления доступом к ней в телекоммуникационной инфраструктуре единой информационной научно-образовательной среды

Цель работы заключалась в разработке и исследовании алгоритмических, программных и архитектурных решений для повышения эффективности использования телекоммуникационных сетей путем категоризации русскоязычных интернет-ресурсов

Задачи исследования. Для достижения указанной цели в работе были поставлены следующие задачи

• проведение анализа существующих средств, моделей и методов поиска и тематического анализа для определения перспектив развития систем тематической категоризации интернет-ресурсов на примере использования в российских телекоммуникационных сетях,

• выбор и модификация модели для категоризации интернет-ресурсов в

телекоммуникационных сетях на основе результатов проведенного анализа,

• разработка методики составления тематических профилей для контроля и управления исходящим и входящим трафиком сети,

• разработка оригинальной архитектуры системы тематической категоризации с использованием компонент для ограничения доступа к компьютерным сетям,

• разработка программных решений, позволяющих обеспечивать контроль и управление сетевыми ресурсами за счет формирования и поддержки в актуальном состоянии базы катетеризированных ресурсов сети Интернет,

• проведение экспериментальных исследований функционирования телекоммуникационных систем и компьютерных сетей с помощью разработанных технических решений

Объект исследования. В настоящей работе объектом исследования являлись алгоритмические и программные средства, модели поиска и тематического анализа, способствующие созданию систем тематической категоризации, определяющие принадлежность интернет-ресурсов к предопределенным тематическим категориям и обеспечивающие контроль сетевых ресурсов

Методы исследования. Для решения задач разработки алгоритмических, программных и архитектурных решений проектирования систем тематической категоризации с целью обеспечения доступа к сетевым ресурсам, управления исходящим и входящим трафиком, а также контроля сетевых ресурсов применялись теория информационного поиска, методы машинного обучения и методы объектно-ориентированного программирования

Научная новизна. В результате выполнения диссертационной работы были разработаны алгоритмические, программные и архитектурные решения для повышения эффективности функционирования телекоммуникационных сетей, а именно

• модифицирована векторная модель представления текстовых документов для обработки информации в телекоммуникационных сетях с целью улучшения ее характеристик категоризации интернет-ресурсов,

• разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая компоненты для ограничения доступа к компьютерным сетям,

• предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации,

• разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети,

• разработаны алгоритмы и решения для тематической категоризации интернет-ресурсов, обеспечивающие контроль сетевых ресурсов

Новизна подтверждена свидетельством об отраслевой регистрации разработки № 9072 в отраслевом фонде алгоритмов и программ от 24 сентября 2007 г «Разработка алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях»

Научные результаты диссертации использовались в учебно-исследовательской работе на кафедре «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)»

На защиту выносятся результаты:

1 Модифицированная векторная модель представления интернет-ресурсов, позволяющая проводить индексацию интернет-ресурсов и автоматическую категоризацию на основе обучающего множества текстовых примеров, применяемая для управления сетевыми ресурсами и предоставляющая доступ к ним

2 Методика составления тематических профилей, применяемая для контроля и управления исходящим и входящим трафиком сети, и использующая образ интернет-ресурса для описания категорий

3 Оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации

4 Оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая контентные фильтры для ограничения доступа к компьютерным сетям

5 Реализация системы тематической категоризации интернет-ресурсов в части создания компонент, обеспечивающих контроль сетевых ресурсов

Практическая значимость работы. Результаты исследований были использованы при разработке системы тематической категоризации для повышения эффективности использования телекоммуникационных сетей, контроля и управления исходящим и входящим сетевым трафиком и ограничения доступа к компьютерным сетям путем контентной фильтрации опасных ресурсов Интернета Разработанные решения обеспечивают точность категоризации интернет-ресурсов за счет применения модифицированной векторной модели представления интернет-ресурсов и

использования разработанной методики составления тематических профилей

Практическая значимость работы подтверждается актами о внедрении результатов исследования в ФГУ ГНИИ ИТТ «Информика» и Центре Анализа Интернет Ресурсов Результаты, полученные в работе, использовались в рамках выполнения следующих проектов

• государственный контракт №02 461 11 7003 от 01 июля 2005 года «Научно-методическое обеспечение создания национального информационно-аналитического центра по мониторингу приоритетных направлений развития науки, технологий и техники в области информационно-телекоммуникационных систем»,

• государственный контракт №02 447 11 1008 от 01 августа 2005 года «Разработка и реализация алгоритмических и программных средств тематической категоризации интернет-ресурсов с использованием семантического анализа текстового содержимого web-страниц»,

• государственный контракт №1211 от 29 ноября 2005 года «Создание автоматизированной системы поиска, семантического анализа и рубрикации электронных информационно-образовательных ресурсов»,

• государственный контракт №П85 от 17 июля 2006 года «Разработка автоматизированной системы обеспечения эффективного и безопасного использования сети Интернет в образовательных учреждениях различного уровня»

А также в учебном процессе на кафедре «Технических и информационных средств систем управления» государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)»

Апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на научно-практических конференциях и семинарах, в том числе семинарах аспирантов и научных сотрудников ФГУ ГНИИ ИТТ «Информика» (Москва 2005 г, Москва 2006 г), XII Всероссийской научно-методической конференции «Телематика'2005» (Санкт-Петербург, 6-9 июня 2005 г), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Анталия, 19-26 мая 2006 г), XIII Всероссийской научно-методической конференции «Телематика'2006» (Санкт-Петербург, 5-8 июня 2006 г ), Международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 26-28 февраля 2007 г), 56-й Научно-технической

конференции МИРЭА (Москва, 14-24 мая 2007 г), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Фетхие, 18-25 мая 2007 г), XIV Всероссийской научно-методической конференции «Телематика'2007» (Санкт-Петербург, 18-21 июня 2007 г)

Публикации. Основное содержание диссертационной работы было отражено автором в 14 печатных работах (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 1 публикация в сборнике научных статей, 7 публикаций в трудах научных конференций, 3 публикации в учебно-методических пособиях)

Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 84 наименований и 2 приложений Работа изложена на 157 страницах, содержит 56 рисунков и 16 таблиц

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертационной работы, формулируется цель и основные задачи исследований, показывается научная новизна и практическая значимость работы

Первая глава содержит анализ современных методов и средств тематической категоризации интернет-ресурсов в компьютерных сетях и выявление технических пробелов в этой области

Анализ показал, что открытое информационное пространство содержит большое количество ресурсов различного содержания, и наряду с полезной информацией в нем содержатся ресурсы, объективно опасные для нравственного здоровья общества, оказывающие негативное воздействие в первую очередь на подрастающее поколение Отсюда становится очевидным, что одной из актуальнейших задач безопасного использования Интернета является разработка программ, которые устанавливаются в локальных сетях организаций и работают на принципе анализа и категоризации интернет-ресурсов для ограничения доступа к сетевым ресурсам и контроля исходящим и входящим трафиком сети

В этой главе приводится обзор и классификация современных средств тематической категоризации интернет-ресурсов и средств по управлению доступом к сетевым ресурсам В работе были рассмотрены наиболее распространенные из технологий анализа и категоризации текстов в областях информационного поиска и машинного обучения Более подробно были освещены специализированные системы контроля использования сетевых ресурсов и программные средства анализа и категоризации текстов

В первой главе проведен обзор моделей поиска (теоретико-множественные модели, алгебраические модели, вероятностные модели) и методов тематического анализа текстовой информации (лингвистический анализ, статистический анализ, поиск по образцу) Показано, что из всех моделей поиска и методов тематического анализа текстовой информации, наибольшими преимуществами наделена векторная модель, относящаяся к алгебраическим моделям Использование векторной модели позволяет учитывать веса терминов, что повышает эффективность анализа информации, а также позволяет оценить степень соответствия документа запросу

В конце главы ставится задача диссертационного исследования, вытекающая из анализа научной литературы

Вторая глава посвящена разработке алгоритмических решений, обеспечивающих контроль и управление сетевыми ресурсами

На основании проведенного анализа моделей поиска и методов тематического анализа, в качестве базовой модели была выбрана векторная модель представления интернет-ресурсов В этой главе проведена ее модификация для тематической категоризации интернет-ресурсов в телекоммуникационных сетях, которая заключается во введении степени соответствия между категорией и интернет-ресурсом и сравнении ее с величиной порогового значения категории Модификация векторной модели дает возможность осуществлять контроль и управление сетевыми ресурсами

Для модификации векторной модели представления интернет-ресурсов были решены следующие задачи

• индексация интернет-ресурсов,

• автоматическая категоризация интернет-ресурсов, обучение и отнесение текстовой информации к заранее определенной категории,

• оценка качества категоризации с использованием метрик информационного поиска

Процесс индексации интернет-ресурсов, те преобразование контента страниц интернет-ресурсов к единому формату для выделения смыслового содержимого текста, включает в себя следующие этапы

• нормализация интернет-ресурсов,

• выделение терминов,

• исключение терминов, не несущих смысловой нагрузки,

• замена общих и специфичных терминов,

• присваивание терминам весовых коэффициентов

Каждый интернет-ресурс - это вектор, где номера терминов (слов) -его координаты, а веса терминов - значения координат, размерность вектора

- это количество терминов, встречающихся в интернет-ресурсе. Так как учитываются все термины, векторы получаются большого размера, что затрудняет процесс индексации, поэтому необходимо уменьшить размерность вектора. Для уменьшения размерности вектора в качестве терминов используем не слова, а устойчивые словосочетания, не учитываем редкие слова, которые не несут полезной информации, не рассматриваем часто встречающиеся слова.

Исходное представление интернет-ресурса выглядит следующим образом: интернет-ресурс = коллекция слов (терминов) Т. Каждый термин е Т имеет определенный вес по отношению к интернет-ресурсу с1] е О

(Рис. 1), т.е. встречаемость этого слова на странице интернет-ресурса. На основании этих признаков каждому слову сопоставляется его вес.

Таким образом, каждый ресурс представляется в виде вектора весов его терминов = }. Веса интернет-ресурсов нормируем так, чтобы

м>и > 0 и < 1, где г е (О, \Т\) и j е (0, \в\).

Для вычисления веса термина на странице интернет-ресурса используем классический частотный метод, этот метод относительно прост и имеет несложный алгоритм, что принципиально при обработке больших объемов документов. Вес термина оценивается исходя из того, в каких интернет-ресурсах и сколько раз этот термин встретился. Вес термина вычисляется следующим образом:

где tflJ (частота термина) - это отношение числа терминов ^ в интернет-ресурсе с1; к общему количеству терминов в этом интернет-ресурсе, таким образом, оценивается важность термина в пределах одного интернет-ресурса:

Рис. 1. Интернет-ресурсы, содержащие термины.

(1)

где j = J, ,Т, i = l, ,D,

Tt) - число терминов i, в интернет-ресурсе d],

Tt - общее число терминов в интернет-ресурсе d}

df] (частота интернет-ресурса) - это отношение количества интернет-ресурсов категории, в которых встретился термин tl к общему количеству интернет-ресурсов категории

df'=W V

где j = 1, , Г,

Dl - число интернет-ресурсов, в которых встретился термин tl, D - общее количество интернет-ресурсов категории

Частота интернет-ресурса понижает вес широкоиспользуемых терминов, она позволяет определить, насколько термин помогает отличить один интернет-ресурс категории от другого и показывает, как часто термин встречается в интернет-ресурсах категории Таким образом, чем чаще термин встречается в интернет-ресурсе, но реже встречается во всех интернет-ресурсах, тем выше будет его вес в данном интернет-ресурсе

Во второй главе решена задача, связанная с автоматической категоризацией интернет-ресурсов, обучением и отнесением текстовой информации к заранее определенной категории

Для определения принадлежности ресурса категории вводим степень соответствия (CSV) между категорией с и интернет-ресурсом dj и определяем ее как скалярное произведение между их векторными представлениями

CSV(c,d]) = c ^ (4)

i

Решение о принадлежности интернет-ресурса к категории принимается, если степень соответствия достигает величины заданного порога т Г1, CSV(c,d )>т

1 (5)

*<*•*>>-{ о, С5У(с^)<т

Искомое значение порога т' определяется из соотношения правдоподобия, которое минимизирует суммарную ошибку

где X{Ф(с,й) = 1 & С8У(с,й)-г'} - количество интернет-ресурсов обучающей выборки из категории с, степень соответствия данной категории которых равна т',

'£{Ф(с,<3) = 0& СБУ(с,с1) = т'} - количество интернет-ресурсов обучающей выборки вне категории с, степень соответствия данной категории которых равна т'

После того как вычислены степень соответствия между категорией и интернет-ресурсом, а также пороговое значение категории, проводится обучение на обучающей выборке страниц - совокупности страниц, для которых указана информация о принадлежности целевой тематической категории Обучающая выборка создается экспертами вручную, она содержит как положительные, так и отрицательные примеры Страницы из обучающей выборки, принадлежащие целевой категории, считаются положительными примерами, а страницы, не принадлежащие целевой категории - отрицательными

Цель обучения - настройка весовых коэффициентов и порогового значения таким образом, чтобы процедура классификации относила положительные примеры к категории, а отрицательные примеры - не относила, те чтобы суммы весовых коэффициентов всех положительных примеров были равны, либо превышали пороговое значение, а суммы для отрицательных примеров были ниже порога

В этой главе предложена оценка качества категоризации, в которой используются метрики информационного поиска точность, полнота и мера Для получения обобщенных характеристик категоризации используются методы макро-усреднения и микро-усреднения

Пусть ^г — множество интернет-ресурсов, катетеризированных

экспертами, а - множество интернет-ресурсов, катетеризированных автоматически

Полнота категоризации определяется как отношение количества найденных документов из категории к общему количеству документов категории

Точность категоризации определяется как отношение количества найденных документов из категории к общему количеству найденных документов

|Р.ПД,|

р—рг <8)

Для объединения метрик полноты и точности в одну метрику используем F-меру, т е сводную оценку качества категоризации, которая определяется как гармонически среднее полноты и точности ^ 2 г р

F =-(9)

r + p v '

Во второй главе разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети Для этого автором введено понятие тематического профиля (образа интернет-ресурса) Тематический профиль - это объект, состоящий из перечня троек <термин, весовой коэффициент, признак исключения> и порога, где термином может быть слово или словосочетание, весовой коэффициент - это число, характеризующее важность термина для распознавания темы в тексте, признак исключения - пометка, определяющая допустимость появления термина в тексте данной тематики, а порог — число, которое должна достигнуть сумма весовых коэффициентов терминов профиля, встретившихся в тексте с учетом словоформ русского языка, для отнесения текста к профилю

В этой главе также представлено решение задач сбора и обработки контента интернет-ресурсов в части поиска новых доменных имен сайтов и актуализации уже существующих интернет-ресурсов за счет использования внешних поисковых систем и получения списков URL от локальных систем контентной фильтрации

В третьей главе рассмотрены программные и архитектурные решения проектирования системы тематической категоризации интернет-ресурсов, обеспечивающей контроль и управление сетевыми ресурсами, на основе применения модифицированной векторной модели представления интернет-ресурсов

Система состоит из нескольких компонент, связанных друг с другом Базовая структура системы тематической категоризации интернет-ресурсов и взаимодействие ее подсистем выглядит следующим образом (Рис 2)

Ведениетользователей ! и управление правами ; доступа

_Рээграничен операций

Соответствия сайтов категориям

Рис. 2. Базовая структура системы и взаимодействие ее подсистем.

Подсистема «Поиск новых сайтов» используется для поиска новых сайтов, результатом ее деятельности является набор новых адресов интернет-ресурсов, пополняющих базу тематической категоризации. На этом этапе информация о ресурсе является базовой, т.е. не содержит данных о категориях, к которым отнесен ресурс. Подсистема обеспечивает выполнение функций приема адресов от локальных систем контентной фильтрации, анализа и утилизации адресов. Подсистема «Поиск новых сайтов» расширяет базу ресурсов за счет получения информации о некатегоризированных ресурсах от систем контентной фильтрации, анализа запросов пользователей и путем обхода каталогов ресурсов, после чего определяет новые ресурсы и передает их подсистеме «Ведение информационных ресурсов».

Информация о новых ресурсах поступает в подсистему «Ведение информационных ресурсов», где в результате классификации сайты получают соответствие категориям. Эта подсистема используется для ведения информации о категориях, сайтах и журнале аудита. Подсистема «Ведение информационных ресурсов» обеспечивает выполнение набора операций по управлению перечнем категорий и сбору статистики по каждой категории. Подсистема осуществляет ведение атрибутивной информации о сайтах, необходимой для осуществления принадлежности сайта категориям, обеспечивает сохранение записей обо всех действиях, изменяющих информационное состояние системы.

После этого в работу включается подсистема «Обход сайтов», в рамках которой осуществляется обход сайта и получение набора страниц для анализа тематики Подсистема используется для получения информации от веб-ресурсов и внесения этой информации в базу данных СТК Подсистема выполняет функции получение страницы по протоколу HTTP, выделение внешних ссылок со страницы, сохранение страницы в базе данных

Следующей является подсистема категоризации сайтов, которая анализирует тексты страниц, составляет их тематический профиль и на основании этого решает об отнесении сайта к той или иной тематической категории Подсистема используется для анализа страниц и категоризации сайтов и обеспечивает выполнение функций

• загрузки и регистрации страниц сайтов в базе данных СТК,

• очистки страницы,

• анализа контента страницы выделения ключевых терминов, слов и словосочетаний, определяющих тематический портрет страницы,

• автоматического построения профилей категорий на основе результатов анализа страниц,

• классификации страниц соотнесения контента страницы с профилями целевых категорий,

• классификации сайта соотнесения контента сайта по результатам классификации страниц с наборами правил для целевых категорий

Процессом, контролирующим качество классификации, управляет подсистема «Контроль и настройка процедуры классификации»

Дополнительно ведется специализированный журнал отслеживания изменений о сайтах и категориях, который используется подсистемой «Обмен с локальными системами контентной фильтрации (СКФ)» для обновления данных в базах СКФ и получения от них новых неизвестных адресов для анализа

Подсистема «Ведение пользователей и управление правами доступа» позволяет использовать систему в многопользовательском режиме, с разграничением прав доступа между пользователями и контролем действий, выполняемых ими

Подсистема «Отчеты и статистика» осуществляет сбор информации от всех модулей системы и предоставляет ее для анализа

В третьей главе представлен разработанный веб-интерфейс, через который осуществляется доступ к функциям и задачам системы, обеспечивающим контроль использования сетевых ресурсов, управление исходящим и входящим трафиком, мониторинг действий, осуществляемых пользователями, управление доступом к сетевым ресурсам

В четвертой главе представлены результаты экспериментальных исследований функционирования разработанных решений для оценки качества категоризации на заданной коллекции текстовых интернет-ресурсов и экспериментальные исследования оценки использования сетевого трафика.

Для оценки качества категоризации интернет-ресурсов были проведены экспериментальные исследования функционирования разработанных технических решений с помощью традиционной векторной модели, модифицированной векторной модели представления интернет-ресурсов и с помощью экспертного анализа. Экспертами анализировались категоризированные интернет-ресурсы, с помощью этих моделей, чтобы выяснить правильность соответствия интернет-ресурса категории.

Целями эксперимента являлись:

• проверка точности и корректности модифицированной векторной модели на коллекции интернет-ресурсов;

• сравнительная оценка векторной модели и модифицированной векторной модели, применяемых при категоризации интернет-ресурсов.

Из всего множества категорий случайным образом было выбрано некоторое количество интернет-ресурсов. Результаты, полученные экспертами, сравнивались с результатами, полученными с помощью традиционной векторной модели и модифицированной векторной модели представления интернет-ресурсов. Были получены оценки таких параметров, как полнота и точность, а также объединяющая эти метрики Р-мера. Результаты экспериментальных исследований представлены на графиках (Рис. 3).

1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 Категории

Рис. 3. Сравнительные результаты метрик по каждой категории.

Эксперимент показал, что использование модифицированной векторной модели представления интернет-ресурсов позволило существенно увеличить точность категоризации при незначительном уменьшении полноты.

Эксперимент по оценке трафика сети проводился на компьютерах подключенных к сети Интернет по высокоскоростному каналу с пропускной способностью 10 Мбит/с. Общее число задействованных в эксперименте компьютеров составило 10 единиц. Для обеспечения чистоты эксперимента в течение первой недели были получены оценки объема входящего трафика без применения разработанных решений, затем в течение следующей недели были получены оценки трафика с установленными средствами контентной фильтрации, данные от которых аккумулировались сервером тематической категоризации.

Целями эксперимента являлись:

• оценка использования сетевого трафика;

• оценка количества заблокированных ресурсов в общем количестве запрошенных.

Результаты исследования объема входящего трафика сети до применения разработанных решений тематической категоризации (контентной фильтрации) и после их использования представлены на графиках (Рис. 4).

600 ■

1

| 400 ■ ° 300 ■ 200 ■ 100

<1 А

1 1 1 ы —

Г 1 V § « 1 ' 1 1 1 1 II 1 1 1 1 1 щ и 11 Щ III 11 Ш

ПН 1 ВТ ср чт пт

Дни недели 13 Общий трафик □ Усредненный трафик J 1

800 700 ; 600 ю 500 5 | 400 -° 300 ■ 200 • 100

■1 1

Л <®1 т ,1 1 й йШ Г -

Ш №11111 шш 11

ПН ВТ ср Дни недели чт пт и Общий трафик □ Усредненный трафи

Рис. 4. Анализ объема входящего трафика сети.

Анализ результатов эксперимента показал, что применение разработанных решений тематической категоризации (контентной фильтрации) позволило сократить входящий трафик в среднем на 30%, за счет ограничения доступа пользователей к непрофильным и потенциально опасным ресурсам сети Интернет. Таким образом, применение разработанных решений снижает нагрузку на сетевое оборудование, что в свою очередь позволяет уменьшить расходы на модернизацию сети и установку дополнительного сетевого оборудования.

В заключении подведены основные итоги диссертационной работы и перечислены нижеприводимые тезисы, выносимые на защиту.

В приложениях 1 и 2 представлены акты об использовании результатов исследования и структура баз данных системы тематической категоризации интернет-ресурсов.

ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

Задачи исследования, обусловленные поставленной целью работы,

были успешно решены Диссертантом получены следующие результаты

1 Проведен анализ моделей поиска и тематического анализа информации, на основе результатов которого была выбрана векторная модель представления текстовых документов, учитывающая веса терминов и использующая положительные и отрицательные примеры для обучения

2 Модифицирована векторная модель для категоризации интернет-ресурсов, которая заключается во введении степени соответствия между категорией и интернет-ресурсом и сравнении ее с величиной порогового значения категории Предложенная модифицированная векторная модель может использоваться для контроля и управления сетевыми ресурсами, а также для ограничения доступа к компьютерным сетям

3 Разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети Методика использует подборки положительных и отрицательных примеров текстов для описания тематического портрета категорий

4 Предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации Для оценки качества использованы метрики точности, полноты и Р-меры, для получения обобщенных данных использованы методы макро-усреднения и микро-усреднения

5 Разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов для ограничения доступа к компьютерным сетям, использующая клиентов - системы контентной фильтрации для получения от них новых адресов сайтов для категоризации и обновления данных в базах контентных фильтров

6 Реализована система тематической категоризации интернет-ресурсов, обеспечивающая управление сетевыми ресурсами и предоставляющая доступ к ним Созданы компоненты, обеспечивающие управление трафиком сети и реализующие задачи поступления новых ресурсов для анализа, поиска новых доменных имен сайтов, ведения информации о категориях и сайтах, получения информации от интернет-ресурсов, анализа страниц и категоризации сайтов

7 Проведены экспериментальные исследования оценки качества категоризации и оценки использования сетевого трафика Эксперименты оценки качества показали увеличение точности категоризации на 27% при незначительном уменьшении полноты Эксперименты оценки

использования трафика показали уменьшение трафика сети в среднем на 30%

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Свечников С В Использование алгоритмов поиска и анализа информации для категоризации веб-сайтов // Вестник ТГТУ, 2007 - Т 13, №3 - С 703-712

2 Свечников С В Решение задач тематической категоризации интернет-ресурсов // Научно-практический журнал по информационным технологиям в образовании «Открытое образование», Москва, 2007 г, № 5, С 24-30

3. Свечников С В Тематическая категоризация интернет-ресурсов в сети Интернет // ISSN 1995-4565 Вестник РГРТУ №1 (Выпуск 23) Рязань, 2008, С 96-101

4 Матчин В Т, Мордвинов В А, Савочкин А А , Свечников С В , Трифонов Н И, Шленов А Ю Проектирование информационных систем (Учебное пособие по курсу «Проектирование информационных систем») /Под редакцией проф АН Тихонова/ МГДД(Ю)Т, МИРЭА, ГНИИ ИТТ «Информика», М, 2004 38 с (Соискателю принадлежат результаты проектирования информационных систем)

5 Мордвинов В А , Свечников С В , Силаев А В Аналитические и инженерные расчеты в проектировании ИС (в образовании) - электронное методическое пособие / Отраслевой фонд алгоритмов и программ -свидетельство о государственной и отраслевой регистрации № 3773, № 815-И от 06 08.2004 (Соискателю принадлежат результаты расчета числовых характеристик проектирования систем)

6 Svechnikov S V Application of the systems of content filtration for digital information Information Technologies and Telecommunications in Science and Education (IT&T ES'2006) Digest of the International Scientific Conference / edited by AN Tikhonov (chair) and other, SIIT&T Informika - Moscow VIZCOM, 2006 -228 pp lllustr -ISBN 5-902751-05-5, P.68-69

7 Свечников С В «Разработка методов автоматического поиска, анализа и категоризации интернет-ресурсов для построения контентных фильтров» Труды XIII Всероссийской научно-методической конференции «Телематика 2006», 5-8 июня 2006г, Издательство в СПб, том 1, С 107

8 Свечников С В Разработка методов автоматического поиска, анализа и категоризации интернет-ресурсов для оценки эффективности функционирования телекоммуникационных сетей/ Новые информационные технологии в образовании Материалы междунар науч -практ конф,

Екатеринбург, 26-28 февраля 2007 г В 2 ч // Рос гос проф -пед ун-т Екатеринбург, 2007 Ч 2 184, С 155-159

9 Svechnikov S V Development methods of automatic search, analysis and lubrication web-resources in telecommunication networks Information Technologies and Telecommunications m Science and Education (IT&T ES'2007) Materials of the International Scientific Conference / edited by AN Tikhonov (chair ) and others, SIIT&T Informika - Moscow EGRI, 2007 - 222 pp lllustr -ISBN 978-5-9901036-1-0, P 34-35

10 Свечников С В Разработка метода автоматического поиска, анализа и категоризации интернет-ресурсов в телекоммуникационных сетях 56 Научно-техническая конференция МИРЭА Сборник трудов Ч 1 Информационные технологии и системы Вычислительная техника / Государственное образовательное учреждение высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)» — M, 2007

11 Свечников С В Разработка системы тематической категоризации интернет-ресурсов Труды XIV Всероссийской научно-методической конференции «Телематика'2007», 18-21 июня 2007г, Издательство в СПб, том 2, С 326-327

12 Свечников С В Категоризация интернет-ресурсов для управления доступом к телекоммуникационным сетям // Научный вестник МИРЭА, M МИРЭА-2007

13 Свечников С В Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета Интернет-порталы содержание и технологии Сб науч ст Вып 4 / [редкол А H Тихонов (пред ) и др ], ФГУ ГНИИ ИТТ «Информика» - M Просвещение, 2007 - 606 с ил - ISBN 9785-09-017892-1, С 538-549

14 Свечников С В Разработка алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях Издание ФГНУ "Государственный координационный центр информационных технологий" Московской финансово-юридической академии, Российского университета инноваций Сентябрь 2007 №9 (32) - С 10 УДК 621 59

Подписано в печать 26 03 2008 Печать трафаретная

Заказ № 205 Тираж 100 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш, 36 (495) 975-78-56, (499) 788-78-56 www autoreferat ru

Оглавление автор диссертации — кандидата технических наук Свечников, Сергей Владимирович

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СРЕДСТВ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ РЕСУРСОВ ИНТЕРНЕТА.

1.1 Необходимость создания систем тематического анализа.

1.2 Технологии, используемые для автоматического анализа интернетресурсов и управления доступом к ним.

1.2.1 Системы контентной фильтрации.

1.2.2 Программные средства анализа и категоризации текстов.

1.3 Модели поиска и методы тематического анализа текстовой информации

1.3.1 Модели поиска.

1.3.2 Методы тематического анализа.

1.4 Выводы и постановка задачи исследования.

ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМИЧЕСКИХ РЕШЕНИЙ ДЛЯ АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.

2.1 Модификация векторной модели представления интернет-ресурсов.

2.1.1 Индексация интернет-ресурсов.

2.1.2 Автоматическая категоризация интернет-ресурсов.

2.1.3 Оценка качества категоризации.

2.2 Методика составления тематических профилей.

2.3 Сбор и обработка контента интернет-ресурсов.

2.4 Выводы по главе 2.

ГЛАВА 3. ПРОЕКТИРОВАНИЕ СИСТЕМЫ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.

3.1 Особенности архитектуры системы.

3.1.1 Требования для работы системы.

3.1.2 Структура системы.

3.2 Подсистема «Поиск новых сайтов».

3.2.1 Общее описание функционирования подсистемы.

3.2.2 Описание функций задач и связей между ними.

3.3 Подсистема «Ведение информационных ресурсов».

3.3.1 Общее описание функционирования подсистемы.

3.3.2 Описание функций задач и связей меэюду ними.

3.4 Подсистема «Обход сайтов».

3.4.1 Общее описание функционирования подсистемы.

3.4.2 Описание функций задач и связей между ними.

3.5 Подсистема «Категоризация сайтов».

3.5.1 Общее описание функционирования подсистемы.

3.5.2 Описание функций задач и связей между ними.

3.6 Подсистема «Контроль и настройка процедуры классификации».

3.6.1 Общее описание функционирования подсистемы.

3.6.2 Описание функций задач и связей между ними.

3.7 Подсистема «Обмен информацией с СКФ».

3.7.1 Общее описание функционирования подсистемы.

3.7.2 Описание функций задач и связей между ними.

3.8 Веб-интерфейс системы.

3.9 Выводы по главе 3.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ И СОПОСТАВЛЕНИЕ РЕЗУЛЬТАТОВ.

4.1 Оценка качества категоризации.

4.2 Оценка использования трафика сети.

4.3 Практическое применение результатов исследования.

4.4 Тенденции и перспективы развития разработанных решений.

4.5 Выводы по главе 4.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Свечников, Сергей Владимирович

Актуальность исследования

Стремительно возрастающий объем данных в Интернете и необходимость их быстрой обработки, вызывают потребность в создании специализированных систем тематической категоризации ресурсов Интернета. В настоящее время необходимость в СТК, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений. Именно с этим направлением в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 миллионов человек, из них 2 миллиона детей [51]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к информации несет в себе серьезную угрозу, в первую очередь, психическому и психологическому здоровью несовершеннолетних пользователей. С другой стороны, Интернет зачастую используется не только для рабочих вопросов сотрудниками, имеющими доступ к глобальной сети, что отрицательно влияет на эффективность их работы и снижает производительность корпоративной сети [1].

В то же время на сегодняшний день в России отсутствуют как таковые методы прямого регулирования (цензуры) содержимого телекоммуникационных сетей. Возможность введения цензуры интернет-контента и ее правовая регламентация встречает протест со стороны пользователей, не без основания полагающих, что это может привести к ограничению прав и свобод, предоставляемых современным демократическим государством.

В связи с этим решение проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты сетей от нежелательного и (или) опасного контента, и его несанкционированного использования, в том числе по воле и усмотрению пользователя [30]. Реализация такого инструмента тесно связана с категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений, среди которых наибольший интерес для настоящего исследования представляет механизм фильтрации полезной информации от агрессивной и опасной.

Поскольку на текущий момент большая часть научных учреждений, публичных библиотек и учебных заведений России- выходит в глобальную сеть посредством крупнейшей федеральной университетской сети RUNNet (Russian UNiversity Network), - пусть в некоторых случаях и через более мелких интернет-провайдеров, - наиболее актуальной была признана ориентация проводимых исследований на алгоритмические, программные и архитектурные решения российской телекоммуникационной инфраструктуры единой образовательной информационной среды.

Тенденция стремительного роста информации сделала системы тематической категоризации не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей.

Ряд авторитетных исследователей, таких как А.Н. Тихонов,

A.Д. Иванников, А.К. Скуратов, И.Е. Поляков, В.А. Мордвинов, И.С. Некрестьянов, А.Е. Ермаков, B.C. Чернявский, М.С. Агеев,

B.В. Плешко, B.KD. Добрынин, М.Р. Когаловский, И.В. Сегалович, G. Saltón, R. Baezo-Yates, J. Cho, A. Singhai, F. Sebastian!, S. Lawrence, P. Foltz, L. Gravano своими работами внесли значительный вклад в развитие информационно-поисковых систем и систем тематической категоризации, функционирующих в сфере компьютерных сетей.

Активно ведут работы в этом направлении такие организации, как V

Гарант Парк Интернет, ООО «Мегаверсия», Центр Анализа Интернет Ресурсов, ФГУ ГНИИ ИТТ «Информика», Институт программных систем РАН, корпорация «Галактика», Научно-производственный инновационный центр «Микросистемы», компания «MediaLingua», Яндекс, Рамблер, Апорт, Google, Secure computing, SurfControl, Websense, Cobion и другие.

Таким образом, актуальность темы настоящей диссертации диктуется необходимостью создания алгоритмических, программных и архитектурных решений, упорядочивающих информацию, представленную в сети Интернет для управления доступом к ней в телекоммуникационной инфраструктуре единой информационной научно-образовательной среды.

Цели и задачи исследования

Целью работы является разработка и исследование алгоритмических, программных и архитектурных решений для повышения эффективности использования телекоммуникационных сетей путем категоризации русскоязычных интернет-ресурсов.

В соответствии с вышесформулированной целью в диссертационной работе ставятся следующие основные задачи:

• проведение анализа существующих средств, моделей и методов поиска и тематического анализа для определения перспектив развития систем тематической категоризации интернет-ресурсов на примере использования в российских телекоммуникационных сетях;

• выбор и модификация модели для категоризации интернет-ресурсов в телекоммуникационных сетях на основе результатов проведенного анализа;

• разработка методики составления тематических профилей для контроля и управления исходящим и входящим трафиком сети;

• разработка оригинальной архитектуры системы тематической категоризации с использованием компонент для ограничения доступа к компьютерным сетям;

• разработка программных решений, позволяющих обеспечивать контроль и управление сетевыми ресурсами за счет формирования и поддержки в актуальном состоянии базы категоризированных ресурсов сети Интернет;

• проведение экспериментальных исследований функционирования телекоммуникационных систем и компьютерных сетей с помощью разработанных технических решений.

Объект исследования

В настоящей работе объектом исследования являются алгоритмические и программные средства, модели поиска и тематического анализа, способствующие созданию систем тематической категоризации, определяющие принадлежность интернет-ресурсов к предопределенным тематическим категориям и обеспечивающие контроль сетевых ресурсов.

Методы исследования

Для решения задач разработки алгоритмических, программных и архитектурных решений проектирования систем тематической категоризации с целью обеспечения доступа к сетевым ресурсам, управления исходящим и входящим трафиком, а также контроля сетевых ресурсов применялись теория информационного поиска, методы машинного обучения и методы объектно-ориентированного прогр аммиров ания.

Научная новизна исследования

В диссертационной работе разработаны алгоритмические, программные и архитектурные решения для повышения эффективности функционирования телекоммуникационных сетей, а именно:

• модифицирована векторная модель представления текстовых документов для обработки информации в телекоммуникационных сетях с целью улучшения ее характеристик категоризации интернет-ресурсов;

• разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая компоненты для ограничения доступа к компьютерным сетям;

• предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации;

• разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети;

• разработаны алгоритмы и решения для тематической категоризации интернет-ресурсов, обеспечивающие контроль сетевых ресурсов.

Новизна подтверждена свидетельством об отраслевой регистрации разработки № 9072 в отраслевом фонде алгоритмов и программ от 24 сентября 2007 г. «Разработка алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях» [37, 38].

Научные результаты диссертации используются в учебно-исследовательской работе на кафедре «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)».

На защиту выносятся результаты, сведенные в заключении работы:

1. Модифицированная векторная модель представления интернет-ресурсов, позволяющая- проводить индексацию интернет-ресурсов и автоматическую категоризацию на основе обучающего множества текстовых примеров, применяемая для управления сетевыми ресурсами и предоставляющая доступ к ним.

2. Методика составления тематических профилей, применяемая для контроля и управления исходящим и входящим трафиком сети, и использующая образ интернет-ресурса для описания категорий.

3. Оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации.

4. Оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая контентные фильтры для ограничения доступа к компьютерным сетям.

5. Реализация системы тематической категоризации интернет-ресурсов в части создания компонент, обеспечивающих контроль сетевых ресурсов.

Практическая значимость работы

Результаты исследований были использованы при разработке системы тематической категоризации для повышения эффективности использования телекоммуникационных сетей, контроля и управления исходящим и входящим сетевым трафиком и ограничения доступа к компьютерным сетям путем контентной фильтрации опасных ресурсов Интернета. Разработанные решения обеспечивают точность категоризации интернет-ресурсов за счет применения модифицированной векторной модели представления интернет-ресурсов и использования разработанной методики составления тематических профилей.

Результаты, полученные в работе, использовались в рамках выполнения следующих проектов:

• государственный контракт №02.461.11.7003 от 01 июля 2005 года «Научно-методическое обеспечение создания национального информационно-аналитического центра по мониторингу приоритетных направлений развития науки, технологий и техники в области информационно-телекоммуникационных систем»;

• государственный контракт №02.447.11.1008 от 01 августа 2005 года «Разработка и реализация алгоритмических и программных средств тематической категоризации интернет-ресурсов- с использованием семантического анализа текстового содержимого web-страниц»;

• государственный контракт №1211 от 29 ноября 2005 года «Создание автоматизированной системы поиска, семантического анализа и рубрикации1 электронных информационно-образовательных ресурсов»;

• государственный контракт №П85 от 17 июля 2006 года «Разработка автоматизированной системы обеспечения эффективного и безопасного использования сети Интернет в образовательных учреждениях различного уровня».

А также в учебном процессе на кафедре «Технических и информационных средств систем управления» государственного образовательного учреждения высшего профессионального образования «Московский государственный- институт радиотехники, электроники и автоматики^(технический университет)».

Апробация результатов исследования

Основные положения диссертационной работы докладывались и обсуждались на научно-практических конференциях и семинарах, в том числе: семинарах аспирантов и научных сотрудников ФГУ ГНИИ ИТТ «Информика» (Москва 2005 г., Москва 2006 г.), XII Всероссийской научно-методической конференции «Телематика'2005» (Санкт-Петербург, 6-9 июня 2005 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Анталия, 19-26 мая 2006 г.), XIII Всероссийской научно-методической конференции «Телематика'2006» (Санкт-Петербург, 5-8 июня 2006 г.), Международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 26-28 февраля 2007 г.), 56-й Научно-технической конференции МИРЭА (Москва, 14-24 мая 2007 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Фетхие, 18-25 мая 2007 г.), XIV Всероссийской научно-методической конференции «Телематика'2007» (Санкт-Петербург, 18-21 июня 2007 г.).

Публикации

Основное содержание диссертационной работы было отражено автором в 14 печатных работах (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 1 публикация в сборнике научных статей, 7 публикаций в трудах научных конференций, 3 публикации в учебно-методических пособиях).

Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы из 84 наименований и 2 приложений. Работа изложена на 157 страницах, содержит 56 рисунков и 16 таблиц.

Заключение диссертация на тему "Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях"

Результаты работы опубликованы в Вестнике Тамбовского государственного технического университета, Научно-практическом журнале по информационным технологиям в образовании «Открытое образование», Вестнике Рязанского государственного радиотехнического университета и в 11 печатных работах, приведенных в списке литературы.

Автор выражает искреннюю благодарность своему научному руководителю доценту Скуратову Алексею Константиновичу за постоянное внимание и полезные консультации, профессорам кафедры «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)» Раеву Вячеславу Константиновичу и Мордвинову Владимиру Александровичу за внимание и конструктивные замечания к работе, директору Центра Анализа Интернет Ресурсов Полякову Игорю Евгеньевичу за помощь в работе.

ЗАКЛЮЧЕНИЕ

Диссертация посвящена актуальной теме - разработке и исследованию алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях. Задачи исследования, обусловленные поставленной целью работы и перечисленные во введении, были успешно решены. Диссертантом получены следующие результаты:

1. Проведен анализ моделей поиска и тематического анализа информации, на основе результатов которого была выбрана векторная модель представления текстовых документов, учитывающая веса терминов и использующая положительные и отрицательные примеры для обучения.

2. Модифицирована векторная модель для категоризации интернет-ресурсов, которая заключается во введении степени соответствия между категорией и интернет-ресурсом и сравнении ее с величиной порогового значения категории. Предложенная модифицированная векторная модель может использоваться для контроля и управления сетевыми ресурсами, а также для ограничения доступа к компьютерным сетям.

3. Разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети. Методика использует подборки положительных и отрицательных примеров текстов для описания тематического портрета категорий.

4. Предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации. Для оценки качества использованы метрики точности, полноты и Р-меры, для получения обобщенных данных использованы методы макро-усреднения и микро-усреднения.

5. Разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов для ограничения доступа к компьютерным сетям, использующая клиентов - системы контентной фильтрации для получения от них новых адресов сайтов для категоризации и обновления данных в базах контентных фильтров.

6. Реализована система тематической категоризации интернет-ресурсов, обеспечивающая управление сетевыми ресурсами и предоставляющая доступ к ним. Созданы компоненты, обеспечивающие управление трафиком сети и реализующие задачи поступления новых ресурсов для анализа, поиска новых доменных имен сайтов, ведения информации о категориях и сайтах, получения информации от интернет-ресурсов, анализа страниц и категоризации сайтов.

7. Проведены экспериментальные исследования оценки качества категоризации и оценки использования сетевого трафика. Эксперименты оценки качества показали увеличение точности категоризации на 27% при незначительном уменьшении полноты. Эксперименты оценки использования трафика показали уменьшение трафика сети в среднем на 30%.

Библиография Свечников, Сергей Владимирович, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Абсалямов А. Борьба с киберслэкингом. Windows 2000 Magazine, №3 2000.

2. Агеев М.С. Методы автоматической рубрикации текстов, основанных на машинном обучении и знаниях экспертов: Диссертация на соискание ученой степени к.ф.-м.н. М.: МГУ, 2004.

3. Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП'2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004.

4. Аграновский A.B., Арутюнян Р.Э. Индексация массивов документов. Мир ПК, июнь 2003.

5. Аграновский A.B., Скуратов А.К., Тихонов А.Н., Хади P.A. Информационная безопасность в RUNNet. Труды XI Всероссийской научно-методической конференции «Телематика 2004», 7-10 июня 2004 г., СПб., том 1, С.66-68.

6. Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. 1979, 256 с.

7. Ю.Гайдамакин H.A. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368 с.

8. Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы // Русский язык: исторические судьбы и современность. 1Г Международный конгресс исследователей русского языка. Труды и материалы. Москва: МГУ - 2004.

9. Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог 2003. Москва, Наука, 2003,

10. М.Ефремов C.B., Скуратов А.К. Ограничение доступа школьников к ресурсам Интернет. AI NEWS, № 2, 2002.

11. Интернетско-русский разговорник, http://slovari.yandex.ru/dict/internet/.16;Информационно-аналитический ресурс «Ваш личный Интернет», http ://www.content-filtering.ru/.

12. Корнеев В.В., Гарев А.Ф., Васютин C.B., Райх В.В. Базы данных. Интеллектуальная обработка информации. — Москва: «Нолидж», 2000. -352 с.

13. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска. / Программирование. 28(4), 2002 - С. 226-242.

14. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002, №4.

15. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. — 80 с.

16. Некрестьянов И.С., Павлова Е.Ю. Обнаружение структурного подобия HTML-документов. // Труды четвертой всероссийской конференции RCDL'2002, 38-54, Дубна, Россия, 2002.

17. Общедоступная, свободно распространяемая энциклопедия Википедия, http://ru.wikipedia.org/.

18. Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) Пущино, 2004. - С. 43-61.

19. Поисковый портал Yahoo, http://www.yahoo.com/.

20. Поляков И.Е. Опыт создания системы фильтрации агрессивного web-контента Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005г., Издательство в СПб, том 1, с.66-67.

21. Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006 // Труды четвертого российского семинара по оценке методов информационного поиска. Санкт-Петербург: НИИ Химии СпбГУ 2003 - С. 72-79.

22. Российско-американская группа высокотехнологичных компаний «НейрОК», http://www.neurok.ru/.

23. Свечников C.B. Использование алгоритмов поиска и анализа информации для категоризации веб-сайтов. // Вестник ТГТУ, 2007. Т. 13, №3. - С. 703-712.

24. Свечников C.B. Категоризация интернет-ресурсов для управления доступом к телекоммуникационным сетям. // Научный вестник МИРЭА, М.:МИРЭА 2007.

25. Свечников C.B. Разработка системы тематической категоризации интернет-ресурсов. Труды XIV Всероссийской научно-методической конференции «Телематика'2007», 18-21 июня 2007г., Издательство в СПб, том 2, С. 326-327.

26. Свечников C.B. Решение задач тематической категоризации интернет-ресурсов. // Научно-практический журнал по информационным технологиям в образовании «Открытое образование», Москва, 2007 г., № 5, С 24-30.

27. Свечников C.B. Тематическая категоризация интернет-ресурсов в сети Интернет. // ISSN 1995-4565. Вестник РГРТУ №1 (Выпуск 23) Рязань, 2008, С. 96-101.

28. Сегалович И.В. Как работают поисковые системы. // Мир Internet. 2002. -№ 10, http://www.dialog-21 .ru/trends/?id= 15539.

29. Сервис Яндекс.ХМЬ, http://xml.yandex.ru/.

30. Системный анализ и принятие решений: Словарь-справочник: Учеб. пособие для вузов/Под ред. В.Н. Волковой, В.Н. Козлова. М.: Высш. шк., 2004-616 е.: ил.

31. Скуратов А.К. Анализ и мониторинг телекоммуникационных сетей на основе статистической системы исследования информационных потоков. Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005г., Из-во СПб, том 1, С. 59-60.

32. Слепов О., Отт А. Контроль использования интернет-ресурсов. Информационные биллютень Jet Info, №2 2005.

33. Справочно-информационный портал русского языка ГрамотаРу, http://www.gramota.ru/.

34. Фонд «Общественное мнение», http://www.fom.ru/.

35. Цветков В Л. Информация и теория информации. М.: МИИГАиК, 2006. -124 с.

36. Цветков В.Я. Модели и моделирование. М.: Государственный научно-исследовательский институт информационных образовательных технологий. «Госинформобр», 2006. - 94 с.

37. Цветков В.Я. Современные проблемы информатики и вычислительной техники. Учебное пособие. М.: Московский государственный университет путей сообщения, 2007. - 102 с.

38. Baezo-Yates R. and Ribeiro-Neto В. Modern Information Retrieval. ACM Press Addison Wesley, 1999.

39. Cullum J., Willougby R. Real rectangular matrix. In Lanczos algorithms for large symmetric eigenvalue computations. Brikhauser, Boston, 1985.

40. Dumais S. Improving the retrieval of information from external sources, 1991.

41. Dumais S. Latent semantic indexing: Trec-3 report.In Proc. of the Third Text Retrieval Conference, 1995.

42. Foltz P. W. Using latent semantic indexing for information filtering. In Proc. of the ACM Conference on Office Information Systems (COIS), p. 40-47, 1990.

43. Frakes W.B., Baeza-Yates R Information Retrieval: Data Structures and Algorithms, Englewood Cliffs, NJ, Prentice Hall, 1992.

44. Gupta S., Kaiser G., Grimm P., Chiang M., Starren J. Automating Content Extraction of HTML Documents // World Wide Web Journal, January 2005, pages: 179-224.

45. Harman D. Latent semantic indexing and trec-2. In Proc. of the Second Text Retrieval Conference, 1994.

46. Hofmann T. Probabilistic Latent Semantic Analysis. Uncertainity in Artificial Intelligence. UAI'99, Stockholm. 1999.64.1nternet Watch Foundation Half Yearly Report 2006, http://www.iwf.org.uk/.

47. Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, 1972.

48. Kleinberg J.M. «Authoritative sources in a hyperlinked environment. Journal of the АСМ» 46(5):604-632, 1999.

49. Landauer Т., Foltz P., Laham D. An introduction to latent semantic analysys. In Discourse Processes, volume 25.

50. Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 1960.

51. Papka R. Allan J. Document classification using multiword features. In Proceeding of the CIKM'98, New-York, 1998.

52. Ramaswamy Lakshmish, Iyengar Arun, Liu Ling, Douglis Fred. Automatic Detection of Fragments in Dynamically Generated Web Pages // In Proceedings of the 13th International World Wide Web Conference (WWW2004), New York City, May 2004.

53. Rijsbergen C.J. Information Retrieval. Butterworth's and Co. - London, 1979 -2nd edition.

54. Robertson S.E., Jones K.S. Relevance Weighting of Search Terms. JASIS, 1976.

55. Russian Context Optimizer. Технологии анализа и поиска текстовой информации, http://www.rco.ru/.

56. Salton G. Automatic Text Processing The Analysis Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA. 1989.

57. Salton G., McGill M.J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

58. Salton G., Allan J., Buckley C. Automatic structuring and retrieval of large text files. Communications of the ACM, 37(2), February 1994.

59. Sebastiani F. Machine Learning in Automated Text Categorization, http://nmis.isti.cnr.it/sebastiani/.

60. Singhal A., Mitra M., Buckley C. Learning routing queries in a query zone. In Proc. of SIGIR '97, pages 25-32, 1997.

61. Stata R., Bharat K., Maghoul. F. The Term Vector Database: fast access to indexing terms for Web pages. 33(l-6):247-255, June 2000.

62. TIPSTER Text Program archive, http://www.nist.gov/itl/div894/ 894.02/relatedproj ects/tipster/.

63. Yang Y. An Evaluation of Statistical Approaches to Text Categorization/ Journal of Information Retrieval, 1999.

64. Ziv Bar-Yossef, Sridhar Rajagopalan Template Detection via Data Mining and its Applications // In Proceedings of WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA, pages: 580-591.