автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров

кандидата технических наук
Кошкин, Дмитрий Евгеньевич
город
Москва
год
2014
специальность ВАК РФ
05.13.15
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров»

Автореферат диссертации по теме "Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров"

На правах рукописи

КОШКИН ДМИТРИЙ ЕВГЕНЬЕВИЧ

МЕТОДЫ И АЛГОРИТМЫ ОБРАБОТКИ ТЕКСТОВОГО КОНТЕНТА С ИСПОЛЬЗОВАНИЕМ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ КЛАСТЕРОВ

Специальность 05.13.15 Вычислительные машины, комплексы и компьютерные сети

Автореферат

Диссертации на соискание степени кандидата технических наук

1 и АПР 2014

Москва 2014 005546947

005546947

Диссертация выполнена на кафедре информатики и информационных систем (ИИС) федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный технический университет радиотехники, электроники и автоматики» (МГТУ МИРЭА)

Научный руководитель доктор технических наук, профессор Скуратов

Алексей Константинович, профессор кафедры ИИС МГТУ МИРЭА

Официальные оппоненты доктор технических наук, профессор Леохин

Юрий Львович, профессор кафедры «Информационно-коммуникационные технологии» Московского института электроники и математики Национального исследовательского университета «Высшая школа экономика»

кандидат технических наук Тихомиров Илья Александрович, ведущий научный сотрудник Федерального государственного бюджетного учреждения науки «Институт системного анализа» Российской академии наук

Ведущая организация Федеральное государственное автономное

образовательное учреждение высшего

профессионального образования «Южный федеральный университет»

Защита диссертации состоится 27 мая 2014 года в 16 часов 00 минут на заседании диссертационного совета Д212.131.05 при Московском государственном техническом университете радиотехники, электроники и автоматики (МГТУ МИРЭА) по адресу: г. Москва, проспект Вернадского, д. 78 С диссертацией можно ознакомиться в библиотеке МГТУ МИРЭА Автореферат диссертации разослан 4 апреля 2014 года Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 119454, г. Москва, проспект Вернадского, д. 78, МГТУ МИРЭА

Ученый секретарь диссертационного совета,

к.т.н., доцент Андрианова Е.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность исследования. В настоящее время зародилось и развивается новое направление в области обработки данных — Большие данные (Big Data). Т.е. данные большого объема (Volume), разных типов и меры структурированности (Variety), которые требуется быстро обработать и получить результат (Velocity). Текстовый контент, содержащийся в научных статьях, технической литературе, сети Интернет, художественных произведениях и других источниках полностью подходит под первые две характеристики. Обработка текстового контента ведется в информационно-поисковых системах, или при создании семантических сетей. С учетом существующего объема информации, часто используемые методы обработки контента: кластерный анализ, семантический анализ, контент-анализ и другие, требуют новых инструментов и алгоритмов, уменьшающих процессорное время, затрачиваемое на обработку массивов данных. Разделение текстов по тематике является первой задачей при обработке неструктурированных текстовых массивов, так как существуют термины, имеющие одинаковое написание, но разное значение в разных областях знания (например, понятие «онтология» различно трактуется в философии и в теории информации). Второй задачей является обработка полученных структурированных групп текстов и извлечение из групп информации посредством морфологического и семантического анализа. Сложность глубокого семантического анализа текстов на естественном языке приводит к необходимости искать новые методы обработки, упрощающие процесс. Для всех методов, основными инструментами становятся высокопроизводительные вычислительные кластеры, которые, работая в многопоточном режиме, могут дать многократное ускорение за счет количества установленных в кластере процессоров и разделения задачи на части. Исходя из разнообразия существующих видов кластеров, их архитектур и используемых компонентов, задача разработки кластера становится третьей в списке.

Ряд авторитетных исследователей, таких как И.Е. Поляков, А.К. Скуратов, Г.С.Осипов, И.А. Тихомиров, Ю.Л. Леохин, Д.В. Ландэ, Ю.И.Сбитнев, Ю.Д. Апресян, И.А. Мельчук, А.К.Жолковский, Г.А.Золотова, И.В. Сегалович, G.Salton, S.Guha, А. Singhai, F. Sebastiani, S. Lawrence, P. Foltz, L. Gravano, G.M.Amdahl, Вл.В. Воеводин, B.B. Воеводин своими работами внесли значительный вклад в развитие высокопроизводительных вычислительных систем, методов кластерного анализа и классификации полнотекстовых документов, методов извлечения знаний из текстов.

Активно ведут работы в этих направлениях такие организации, как Институт системного анализа РАН, Центр Анализа Интернет Ресурсов, Яндекс, Wolphram|Alpha, Google, Южный Федеральный Университет, Объединенный Институт Ядерных Исследований, Центр Высокопроизводительных Вычислительных Кластерных Технологий, Научно-Исследовательский Вычислительный Центр МГУ.

Таким образом, актуальность темы диссертации диктуется необходимостью создания методов и алгоритмов многопоточной обработки информации с использованием современных высокопроизводительных вычислительных кластеров.

Целью диссертационной работы является разработка многопоточных методов и алгоритмов обработки текстового контента, адаптированных для вычислительных кластеров, построенных на доступной элементной базе.

Для достижения этой цели в диссертации поставлены следующие основные задачи:

1. Провести анализ существующих методов и алгоритмов обработки текстового контента, моделей и средств создания высокопроизводительных вычислительных кластеров для определения перспектив и направлений развития методов многопоточной обработки текстового контента на вычислительных кластерах.

2. На основе анализа разработать метод быстрого извлечения из текстового контента информации, пригодной для дальнейшего использования при формировании семантической сети.

3. Разработать алгоритм кластеризации текстового контента, использующий преимущества гибридных вычислительных кластеров.

4. Разработать метод контроля процесса и повышения качества кластеризации.

5. Сформулировать рекомендации, для модификации и реализации алгоритмов кластеризации для работы в среде гибридных кластеров.

6. Сформировать профиль стандартов, обеспечивающий кластерам свойства расширяемости, масштабируемости и интероперабельности.

7. Разработать программные решения, позволяющие проводить процесс кластеризации в многопоточном режиме с использованием графических процессоров с целью верификации выдвигаемых в диссертации положений.

Объект исследования. Объектами исследования являются методы и алгоритмы обработки текстового контента, способные к распараллеливанию шагов и работе в среде высокопроизводительных вычислительных кластеров.

Предмет исследования. Предмет исследования определен паспортом специальности 05.13.15 (областями исследования 2,3 и 4), и состоит в многопоточных методах и алгоритмах кластеризации и извлечения информации из текстового контента и исследование высокопроизводительных кластеров, с целью улучшения их эксплуатационных характеристик.

Методы исследования. Научные положения диссертации получены с использованием методов классификации, систематизации, кластерного анализа, компьютерной лингвистики, математической статистики, теории алгоритмов, нечетких множеств.

Научная новизна. На основе правил морфологического и синтаксического анализа естественного языка разработан метод по созданию инфосетей. Для этого введено и определено понятие инфосети как «однородной однослойной сети объектов, морфологически объединенных отношениями, вытекающими из структуры синтаксической единицы

(предложения)». Формализованное^ правил языка, с дополнениями на основе предложенного метода, позволит создавать инфосети. Инфосети выступают в роли базовых строительных элементов при дальнейшем создании семантических сетей. В работе показано и доказано на примерах сходство логики объектно-ориентированной парадигмы языков программирования и особенностей частей речи и словообразования в русском языке. Выявленное сходство дополняет теорию семантических сетей и предложенные методы по созданию инфорсетей. Предложен алгоритм для переработки методов кластеризации текстового контента, требующих существенной доли сложных математических расчетов, с использованием графических процессоров и многопоточных библиотек. Создан набор рекомендаций для разработки многопоточных приложений кластеризации с использованием многопоточных библиотек и графических профессоров. Особенностью является использование вычислительной среды гибридного кластера и объединение многопоточности не только на уровне инициирования процессов, но и на уровне графических процессоров. Следуя разработанным и предложенным рекомендациям модифицирован алгоритм Нечетких С-средних. Расширены границы применения алгоритма в области кластеризации текстового контента кластеризации Нечетких С-средних. На основе анализа установлена возможность проводить анализ текста по авторскому стилю, который можно выразить математическим языком. Также установлена взаимосвязь между авторским стилем и полом автора. Как результат, показано, что кластеризация может осуществляться не только по тематике контента, но и по предполагаемому автору и/или полу автора контента. Для контроля и анализа процесса кластеризации модифицированным алгоритмом предложен метод с использованием информационной энтропии в качестве контрольного параметра. Метод позволяет получать информацию о процессе кластеризации до достижения алгоритмом финальной стадии. В результате, уже на первых шагах алгоритма, можно делать вывод о правильность заданных параметров и предполагаемом результате.

Практическая ценность работы состоит в том, что установлены ограничения, накладываемые на аппаратные и программные составляющие вычислительных кластеров, которые учтены в процессе развертывания вычислительного кластера и проанализированы платформы для развертывания вычислительного кластера. Сформирован профиль из стандартов и спецификации, значительно повышающие тиражируемость кластеров в дальнейшем, по причине обеспечения этими стандартами условий максимальной расширяемости и масштабируемости оборудования и программного обеспечения. Для модифицированного алгоритма определены шаги многопоточного вычисления на графических процессорах, исследованы и показаны два способа распределения математических вычислений на графические процессоры: на узлы вычислительного кластера с одним и несколькими графическими ускорителями. Показаны правила распределения строк и столбцов матриц по процессам и потокам, с целью повышения скорости работы алгоритма. Разработано и реализовано программное обеспечение, использующее модифицированный алгоритм с технологией Compute Unified Device Architecture (CUDA) и библиотекой Message Passing Interface, таким образом обеспечивая многопоточность и скорость работы. Реализованный алгоритм подтверждает целесообразность и общую полезность соблюдения предложенных рекомендаций. Универсальность реализованного программного обеспечения обеспечена разделением модулей, отвечающих за статистическую обработку текстов, за процесс кластеризации и передаваемую на узлы информацию. Созданы условия для кластеризации текстового контента по тематике, авторскому стилю, полу автора, а также, наборов числовых данных, не относящихся к текстовому контенту. Установлено, что рекомендации, созданные для повышения пропускной способности сетевых соединений кластеров из специализированных компонентов и для систем хранения данных, при условии соблюдения стандартов всеми узлами также применимы и для кластеров, состоящих из широко распространенных компонентов. Соблюдение

рекомендаций и стандартов позволяет повысить пропускную способность соединений на 4-5%.

Обоснованность и достоверность научных положений, рекомендаций и выводов, содержащихся в диссертации, обусловлена корректным использованием методов классификации, систематизации и кластеризации, семантического анализа, нечетких множеств и теории алгоритмов, практической реализацией предложенных методов и алгоритмов, результатами экспериментов. Спроектирован и собран вычислительный кластер, обеспечивающий работу модифицированного алгоритма Нечетких С-средних.

Апробация результатов заключается в том, что научные положения, выводы и результаты диссертационной работы опубликованы в 16 журналах и сборниках, в том числе 3 статьях в журналах из списка ВАК и докладывались и обсуждались на 8 научных и научно-практических российских и международных конференциях. На разработанное программное обеспечение получено 2 свидетельства о регистрации в Роспатенте.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность выбранной темы, сформулированы цель работы, а так же задачи для ее достижения. Изложена проблематика области, определены направления исследований, результаты которых могут восполнить пробел в существующих технических решениях.

Первая глава «Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов» посвящена анализу работ в области теории кластерного анализа, морфологического и семантического анализа и практики построения высокопроизводительных вычислительных кластеров.

В частности, проанализированы лингвистические теории, связанные с морфологией и семантикой, используемые в современной компьютерной лингвистике, алгоритмы и методы четкой и нечеткой кластеризации и классификации. Приведены оценки вычислительной сложности алгоритмов

кластеризации. Рассмотрены аппаратные и программные платформы развертывания вычислительных кластеров: анализируется применимость существующих программных платформ и средств организации вычислительных кластеров к поставленным задачам, технологии сетевого объединения вычислительных узлов, программные платформы развертывания вычислительных кластеров, гибридные кластеры с графическими процессорами. Заключает главу постановка задачи диссертационного исследования.

В Главе 2 разрабатывается метод оперативного извлечения информации из текстового контента, алгоритм переработки существующих алгоритмов кластеризации для многопоточного исполнения в кластерной среде, разрабатывается алгоритм многопоточной кластеризации и профиль стандартов для придания вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности.

Согласно исследованию главы 1, для получения более точных тезаурусов, словарей и баз данных из текстового контента, неструктурированные группы текстов требуется упорядочить. Автоматическое структурирование и упорядочивание осуществимо с помощью алгоритмов кластеризации. Однако, существующие алгоритмы кластеризации и классификации, в общем случае, будут работать медленно в условиях Больших данных. В связи с этим, в качестве примера модификации алгоритма, используется алгоритм Нечетких С-средних (англ. Fuzzy C-Means, FCM), так как в нем используется большое количество сложных математических расчетов.

Для алгоритма Нечетких С-средних исходной информацией для кластеризации является матрица координат документов коллекции.

"dn di2 • ■ dim

D = ¿21 d22 • •■ d2m

dm dni d-nm

Метод нечёткой кластеризации позволяет каждому объекту принадлежать с различной степенью нескольким или всем кластерам одновременно. Число кластеров с считается заранее известным.

Кластерная структура задаётся матрицей принадлежности:

т1Х т12 ... т1п т21 т22 ... т2п

M —

тс1 тс2 ... тсп

где ту— степень принадлежности j-ro элемента i-му кластеру.

Матрица принадлежности должна удовлетворять следующим условиям:

0) тц е [ОД], i - T7c,j = 17n

1)Ei=i т.. = l,j = 1~п

т.е. каждый объект должен быть распределён между всеми кластерами,

2)0 <2?=1т <пЛ=ТГс

т.е. ни один кластер не должен быть пустым или содержать все элементы.

Для оценки качества разбиения используется критерий разброса, показывающий сумму расстояний от объектов до центров кластеров с соответствующими степенями принадлежности:

с

; = УУ (гпцУ dist(vi, dj)

где dist(Vi, dj)- Евклидово расстояние между у-м объектом dj = (.dji, dj2,..., djm) и г-м центром кластера vt = (уп, vi2,..., vic)

we(l,oo)- экспоненциальный вес, определяющий нечёткость, размытость кластеров,

V11 v12 ■■■ V1 m

y _ V21 v22 ■•• v2m

У Ci vc2 - Vcm

— cxm матрица координат центров кластеров, элементы которой вычисляются по формуле

Задачей является нахождение матрицы М, минимизирующей критерий 1 Для этого используется алгоритм, в основе которого лежит метод множителей Лагранжа. Он позволяет найти локальный оптимум, поэтому для различных запусков могут получиться разные результаты.

На первом шаге матрица принадлежностей М, удовлетворяющая условиям 0)—2), генерируется случайным образом. Далее запускается итерационный процесс вычисления центров кластеров и пересчёта элементов матрицы степеней принадлежности:

-1---, При > 0

('Ы*-1 (2)

(1, £ = /

(0,1 ^ у-пРис^г; = 0 где = = 1, с,;' = 1 ,п}.

Вычисления продолжаются до тех пор, пока изменение матрицы М, характеризующееся величиной \\М — М*\\, где М* - матрица на предыдущей итерации алгоритма, не станет меньше заранее заданного параметра остановки е:

\\М-М*\\<£ (3)

Несмотря на проработанность алгоритма, значение -

экспоненциального веса, обычно устанавливают равное 2, так как теоретически обоснованного правила выбора веса пока не существует.

Разработанный алгоритм многопоточной кластеризации проводит расчет матриц построчно/постолбцово. Расчет строк/столбцов позволит графическим процессорам повысить скорость за счет кеширования повторяющихся математических операций при изменяющихся данных.

Разделение матриц на задания целесообразно проводить по количеству графических ускорителей кластера или по потокам, таким образом, чтобы на каждый поток рассчитывались все координаты одного центроида кластера.

На рисунке 1 представлены предлагаемые автором схемы передачи математических расчетов алгоритма нечетких С-средних на графический процессор с поддержкой технологии NVIDIA CUDA. Отражено использование алгоритма в многопоточной системе с библиотекой MPI, в случае, если данные превышают объем памяти графического процессора, или на узле есть несколько графических процессоров. На рис. 2 показана взаимосвязь переменных алгоритма и расчет переменных на одном вычислителе (с номером 1).

Начало

Матрица D

координат доку ментов

_ Задать Параметры c,w,e-шрамехры

-_2J-

Задать матрицу M

Рассчитать матрицу V

Рассчитать dist(vitdß

Нет

Пересчитать M

А

¿ri

Workl I Work... | Work N I

Ш(1-„а,)~

-ПШЕШ1

I..........H Workl 1

.......-И Wort.."!

'-H Work N |

nVIDIA

CUDA.

Рассчитать столбцы V Рассчитать tfisi<Vj,elj Передний:, строки M Рассчитать М'=Щ-М*\ |

Рис. 1 Блок-схема модифицированного соискателем алгоритма с использованием MPI

с1

Л'с2 -

Рис. 2 Схема связей между матрицами и элементами алгоритма. Рассчитывается на первом процессе. Цифрами обозначена последовательность вычислений.

Информационная энтропия в работах исследователей используется только для оценки качества кластеризации. Но этот же параметр значительно более разносторонен и может быть использован для контроля процесса кластеризации и, в будущем, для повышения качества кластеризации. Для этого введена формула расчета энтропии кластера (4).

Е) = - ^ тц 1п(тц) (4)

I

где ту - вероятность того, что текст у относится к кластеру г.

Также, во второй главе уделяется внимание обработке текстового контента с точки зрения информации, которая в нем может содержаться и, в частности, теории семантических сетей. Всем известно, что структура

семантической сети является многослойным объектом, в котором созданы все типы отношений для всех объектов. Однако, на данный момент «полного описания всего» в доступном виде не существует. Ввиду сложности самой задачи и требованиям к ее решению предлагается сначала разделить одну семантическую сеть на соответствующее количество подсетей. А каждую подсеть формировать на основе еще более мелких объектов — инфосетей. «Инфосетъ» определена в работе как «однородная однослойная сеть объектов, морфологически объединенных отношениями, вытекающими из структуры синтаксической единицы (предложения)». В свете приведенных в Главе 2 исследований, построение семантической сети за один проход экспертной программы пока не представляется возможным, ввиду сложности однозначного определения семантической составляющей синтаксической единицы с первого раза. Построение инфосетей не потребует многократного прохода, так как ищутся только определенные связи, которые могут быть выявлены путем сопоставления параметров и с первого раза. Также инфосеть отличается от семантической сети тем, что выделяется только из одного набора предложений или же текста. Объединение множества инфосетей, составленных при анализе текстов в одном тематическом классе, будет образовывать семантическую подсеть класса.

Глава 3 посвящена развертыванию вычислительного кластера и практическим шагам по реализации модифицированного алгоритма многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах, разработанных в главе 2 настоящей работы. Так как кластеры класса Beowulf строятся из широко распространенных компонентов пользовательского класса, то, в связи с высочайшим разнообразием комплектующих, могут возникать проблемы в совместимости компонентов и программного обеспечения. Исходя из существующих стандартов и спецификаций, нацеленных на обеспечение максимальной простоты в организации вычислительных кластеров, можно сформулировать профиль из 39

стандартов для подбора технических составляющих и используемого программного обеспечения.

Приведенные ниже стандарты составляют рекомендуемый автором

профиль стандартов для кластеров:

Компонент кластера / программное обеспечение кластера Организация-автор стандарта/ рекомендаций. Номер стандарта.

Сетевые интерфейсы ШЕЕ IEEE 802.3 (один из стандартов 802.3ab/802.3an)

Intel спецификация РХЕ 2.1

Сетевые соединения (патч-корды) EIA/TIA ISO ГОСТР ЕТА/ТТА 568 ISO 11801, ГОСТ Р 53246-2008, ГОСТ Р 53245-2008

DNS RFC RFC 1034, RFC 1035

DHCP RFC 2131, RFC 2132

NFS RFC 3530

TFTP RFC 1350, RFC 2347, RFC 3617, RFC 2348, RFC 2349

SSH RFC 425, RFC 4251, RFC 4252, RFC 4253, RFC 4254, RFC 4255, RFC 4256, RFC 4335, RFC 4344, RFC 4345, RFC 4419, RFC 4432, RFC 4716

Программные интерфейсы передачи сообщений MPI Forum спецификация MPI 2.0

Графические процессоры Nvidia Спецификация CUDA 2.0 и выше

ОС The Linux Foundation и ISO/IEC ISO/IEC 23360-1:2006 - TSO/IEC 233608:2006

Рис. 2 Фотография кластера «МишппНРС» В главе 4 приводятся эксперименты по практическому подтверждению многопоточной кластеризации текстового контента на естественном языке, согласно методам, приведенным в Главе 2 настоящей работы.

На Рис. 3 приведено тестирование производительности многопоточных программ обработки текстового контента.

Время обработки текстов

i ................... 153......'

.............lo.......................................S

J_ .„,_____________________I

Обработка текстов на 1 Обработка текстов на 8 Обработка текстов на 8 CPU mystem CPU pymorphy2 CPU mystem

Рис. 3 Время обработки текстов в зависимости от используемого модуля морфологического анализа и количества участвующих процессов

Тестирование производительности программ по времени исполнения проводилось для итоговой проверки гипотезы о приросте производительности. Само тестирование во многом зависит от общей загруженности компьютера, на котором производится тест.

Результаты, подтверждающие гипотезу о значительном приросте в скоростях относительно в многопоточном исполнении, приведены на Рис. 4, 5, 6. На Рис. 4 приведено время кластеризации текстовой подборки, которая была подготовлена для кластеризации разными модулями морфологического анализа. На Рис. 5 приведено время кластеризации той же подборки текстов, но с использованием модуля РуМогЬру2. Время кластеризации ниже по причине того, что с модулем туз1еш размерность пространства порядка 20800 слов, а с РуМогрЬу2 - 14000 слов.

8 потоков GPU. Стеммер "mystem"

900

о.

СО 100----------—-----_____---------

0--------------------------------------------------------------------------

2 3 4 S 6 7 8

Количество кластеров, шт.

-♦-8 потоков GPU. Стеммер mystem

Рис. 4 Время кластеризации 35 текстов с использованием «шузГет» для 3-7

кластеров.

8 потоков с GPU. Стеммер "pymorphy2"

600

U

mm

S

5

IT го 400

го

S

п 300

ш

U

го

с; X 200

к

¡2

ш о. 100

со

0

493 537.

456^

333

207

4 5 6

Количество кластеров, шт.

-8 потоков с GPU. Стеммер pymorphy2

Рис. 5 Время кластеризации 35 текстов с использованием «РуМогрИуЗ» для 3-7

кластеров.

Сравнение скорости классического алгоритма Нечетких С-средних и модифицированного соискателем

U 6000

S S 5000

d"

а 4000

(1J

о 3000

«и

S I 2000

ш

I с; 1000

о

с 0

Ъ

со

га

I

к

0J

а.

СП

5148

796

1 процесс обработки без 6Р11

8 процессов обработки с вРи Эксперименты

! 3 кластера ■ 7 кластеров

Рис. б Сравнение времени работы классического и модифицированного алгоритмов Нечетких С-средних.

Таблица 1. Результаты экспериментов с алгоритмом Нечетких С-средних

и модифицированным соискателем алгоритмом

Число кластеров Нечетких С- средних Модифицированный алгоритм

3 кластера 796 с. 207 с.

7 кластеров 5148 с. 537 с.

Для проверки прироста скорости работы алгоритма была использована простая подборка из 450 художественных текстов, которые требовалось распределить на 10 кластеров. Обработка 450 текстов заняла 144.635 е., т.е. по

0.321.с. на каждый файл.

Первичная матрица М генерировалась однократно, и потом считывалась программой. Для каждой итерации количество шагов равно 10. С учетом имеющегося оборудования (один узел кластера с 2-х ядерным процессором и 1 графическим процессором), результаты следующие: 1 процесс — 2165.9 секунд, 2 процесса - 1789.6 секунд. Следовательно, прирост производительности составил порядка 18% при работе только одного дополнительного процесса.

В Заключении диссертации обобщены основные научные и практические результаты, отмечена их научная новизна и практическая значимость, приведен перечень основных научных результатов, полученных автором лично и выносимых на защиту.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ, ВЫНОСИМЫЕ НА ЗАЩИТУ:

1. Проведен анализ методов и алгоритмов обработки текстового контента, моделей и средств создания высокопроизводительных вычислительных кластеров, в результате которого был выбран для модификации алгоритм кластеризации нечетких С-средних, и выбран класс гибридных кластеров, создаваемых из широко доступных компонентов.

2. Метод оперативного извлечения из текстового контента информации, пригодной для дальнейшего использования при формировании семантической сети. При этом скорость работы метода достаточно высока,

так как используется морфологическая информация об анализируемой синтаксической единице, получаемая при работе морфологического анализатора и простые правила объединения слов.

3. Понятие «инфосеть», введенное и определенное как «однородной однослойной сеть объектов, морфологически объединенных отношениями, вытекающими из структуры синтаксической единицы (предложения)». Построение инфосетей не потребует многократного прохода, так как ищутся только определенные связи, которые могут быть выявлены путем сопоставления параметров с первого раза. Также инфосеть отличается от семантической сети тем, что выделяется только из одного набора предложений или же текста.

4. Метод контроля процесса кластеризации и повышения качества кластеризации с использованием инорфмационной энтропии в качестве контрольного параметра. Метод позволяет на начальных шагах установить качество полученного результата, через оценку параметра энтропии, и не ждать результата кластеризации, если результат ожидается неудовлетворительным.

5. Алгоритм кластеризации текстового контента, использующий все преимущества гибридных вычислительных кластеров. Многопроцессорная структура кластера поддерживается через разделение рассчитываемых в алгоритме данных на порции, предназначенные для отдельных процессоров, графические ускорители поддерживаются тем, что на них переданы все математические расчеты с целью повышения скорости получения результата. Алгоритм реализован в коде на языке РуЙюпЗ и проведены эксперименты с целью верификации выдвинутых гипотез и положений. На исходные коды получены свидетельства о регистрации программы для ЭВМ в Роспатенте

6. Алгоритм и рекомендации по модификации алгоритмов для работы в кластерной среде. Алгоритм позволяет проводить анализ модифицируемого алгоритма, искать точки, пригодные к параллельному выполнению, анализировать их и перекладывать на многопоточные вычисления, учитывая

специфику кластеров с графическими процессорами, состоящих из доступной элементной базы и гетерогенных аппаратных узлов. Рекомендации предложены и апробированы соискателем в процессе разработки и реализации многопоточного алгоритма кластеризации.

7. Профиль из 39 стандартов и спецификаций для вычислительных кластеров класса Beowulf. При соблюдении профиля стандартов вычислительному кластеру обеспечивается открытость и свойства расширяемости, масштабируемости, интероперабельности и переносимости.

8. Разработано программное решение, использующее выдвигаемые положения и согласующееся с рекомендациями. На основании созданного профиля стандартов спроектирован и развернут вычислительный кластер для проведения экспериментальной верификации положений диссертации.

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

В журналах, рекомендованных ВАК:

1. Сигов A.C., Кошкин Д.Е., Дробнов С.Е. Кластеризация текста на основе анализа слов с применением распределенных вычислений. «Информатизация образования и науки», №2(10) апрель 2011. - М. «Информика», 2011. - 154 е., 74-80 с.

2. Новикова O.A., Кошкин Д.Е. Энтропийная оценка качества автоматического разбиения категорийных данных алгоритмом Fuzzy C-means. «Информатизация образования и науки», №1(17) январь 2013. - М. «Информика», 2013. - 180 е., с. 113-121

3. Кошкин Д.Е., Скуратов А.К. Особенности параллельной обработки русскоязычного контента с использованием базовых характеристик объектно-ориентированных языков высокого уровня // Журнал Вестник РУДН. Серия Информатизация Образования. №3, 2013 год, - 108 е., с. 22-29.

В журналах, сборниках статей и научных трудов:

4. Дробнов С.Е., Кошкин Д.Е. Кластеризация текста на основе анализа слов с применением распределенных вычислений. Искусственный интеллект:

философия, методология инновации. Материалы IV Всероссийской конференции студентов, аспирантов и молодых ученых. Часть I, г. Москва, МИРЭА, 10-12 ноября 2010 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2010. - 168 е., 85-88 с.

5. Кошкин Д.Е., Тюрин А.Г. Кластеризация текстов для последующего применения в семантическом поиске образовательных порталов. Современные информационные технологии в управлении и образовании: Сборник научных трудов. В 3-х ч. - М.: ООО «Издательство «Проспект», Ч.З.-176 е., 2011 г. 159164 с.

6. Дробнов С.Е., Кошкин Д.Е. Временная оценка распределенной кластеризации текстов с применением нейронных сетей. Материалы V Всероссийской конференции студентов, аспирантов и молодых ученых, г. Москва, МИРЭА, 9-11 ноября 2011 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2011. - 272 е., 199-201 с.

7. Кошкин Д.Е. Автоматическая кластеризация текста на основе анализа слов. // Научный вестник МИРЭА, М.:МИРЭА - 2012 - № 1(12), с. 89-93.

8. Кошкин Д.Е. Автоматическая кластеризация текста на основе анализа слов. // Материалы международной научно-практической конференции «Современные направления теоретических и прикладных исследований '2012»: Сборник научных трудов SWorld. - Выпуск 1. Том 3. - Одесса: КУПРИЕНКО, 2012.-92 с.

9. Кошкин Д.Е., Новикова O.A. Уточнение кластеризации категорийных данных через оценку энтропии результирующих кластеров. // Всероссийский конкурс научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий: сборник научных работ: в 3 т. — Белгород: ИД «Белгород», 2012. - Т. 3. - 548 с. с.167-173.

10. Кошкин Д.Е. Методы извлечения и представления знаний в форме семантических сетей из текстов на русском языке с помощью высокопроизводительных вычислительных кластеров. Материалы VI Всероссийской конференции студентов, аспирантов и молодых ученых. Часть I,

г. Москва, МИРЭА, 29-30 ноября 2012 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2012. - 184 е., 78-83 с.

11. Новикова O.A., Кошкин Д.Е. Уточнение кластеризации категорийных данных через оценку энтропии результирующих кластеров. / Итоги диссертационных исследований. Том 2. - Материалы IV Всероссийского конкурса молодых ученых. -М.: РАН, 2012. - 138 с. с.116-125

12. Кошкин Д.Е. Организация высокопроизводительного вычислительного кластера на основе дистрибутива PelicanHPC. // Современные информационные технологии в управлении и образовании: Сборник научных трудов. В 3-х ч. -М.:ФГУП НИИ «Восход» 4.1.- 164 е., 2013 г. 12-18 с

13. Кошкин Д.Е. Модификация алгоритма кластеризации категорийных данных Fuzzy C-Means. Материалы VI Всероссийской конференции студентов, аспирантов и молодых ученых «Искусственный интеллект, философия, методология, инновации». Часть I, Секции I-III, г. Москва, МИРЭА, 13-15 ноября 2013 г. Под ред. Д.И. Дубровского и Е.А. Никитиной — М.: «Радио и Связь», 2013. -154 е., 121-126 с.

14. Кошкин Д.Е. Анализ синтаксических единиц в рамках текстового контента для формализации и создания алгоритма многопоточной обработки текстового контента. / Сборник научных трудов по материалам Международной научно-практической конференции «Современные тенденции в образовании и науке». 31.10.2013. Часть 3; Мин-во обр. и науки РФ. Тамбов: Изд-во ТРОО «Бизнес-Наука-Общество». 2013. 163 с. с. 78-82.

Свидетельства о регистрации программ для ЭВМ:

15. Свидетельство о регистрации программы для ЭВМ №2012660210 «Программа кластеризации текстов по алгоритму Fuzzy C-means с подсчетом энтропии результирующих кластеров» (14 ноября 2012 г.)

16. Свидетельство о регистрации программы для ЭВМ №2013660292 «Программа многопоточной кластеризации численных данных по алгоритму Fuzzy C-Means с использованием технологий MPI, CUDA и подсчетом энтропии результирующих кластеров» (12 сентября 2013 г.)

Подписано в печать: 24.03.2014 Объем: 1,0 п.л. Тираж: 100 экз. Заказ № 226 Отпечатано в типографии «Реглет» 119526, г. Москва, пр-т Вернадского, д. 39 (495) 363-78-90; www.reglet.ru

Текст работы Кошкин, Дмитрий Евгеньевич, диссертация по теме Вычислительные машины и системы

МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Московский государственный технический университет радиотехники,

электроники и автоматики" МГТУ МИРЭА

04201457491 Коншин Дмитрий Евгеньевич

МЕТОДЫ И АЛГОРИТМЫ ОБРАБОТКИ ТЕКСТОВОГО

КОНТЕНТА С ИСПОЛЬЗОВАНИЕМ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ

КЛАСТЕРОВ

Специальность

05.13.15 Вычислительные машины, комплексы и компьютерные сети

Диссертация на соискание степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор, Скуратов Алексей Константинович.

Москва 2014

Оглавление

ГЛОССАРИЙ.

ВВЕДЕНИЕ......................................................................................................................................11

Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов.......................14

1.1 Теории, используемые при анализе текстового контента.................................................14

1.2 Методы классификации и алгоритмы кластерного анализа текстового контента.........22

1.3 Оценка алгоритмов кластеризации по критериям вычислительной сложности.............31

1.4 Аппаратные и программные платформы развертывания вычислительных кластеров. .35

1.4.1 Технологии сетевого объединения вычислительных узлов.............................38

1.4.2 Программные платформы развертывания вычислительных кластеров.........41

1.4.3 Гибридные кластеры с графическими процессорами (GPU)...........................44

1.5 Заключение. Постановка задачи..........................................................................................46

Глава 2 Развитие существующих методов и алгоритмов специальной обработки текстового

контента. Придание вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности........................................................................48

2.1 Развитие многопоточности для алгоритмов кластеризации на примере алгоритма Нечетких С-средних...............................................................................................................48

2.1.1 Метод использования энтропийной меры оценки алгоритма Нечетких С-средних для контроля процесса кластеризации и повышения ее качества......................55

2.2 Метод параллельной обработки минимальных синтаксических структур с использованием базовых характеристик объектно-ориентированных языков высокого уровня...................................................................................................................................56

2.3 Разработка вычислительного кластера со свойствами расширяемости, масштабируемости и интероперабельности........................................................................63

2.3.1 Допущения и ограничения в выборе аппаратной платформы для реализации вычислительного кластера.....................................................................................................63

2.3.2 Допущения и ограничения программной платформы для реализации вычислительного кластера.....................................................................................................66

2.3.3 Методика использования особенностей стандартов для повышения производительности сетевых соединений вычислительных кластеров на основе протокола Ethernet..................................................................................................................78

2.4 Заключение............................................................................................................................84

Глава 3 Развертывание вычислительного кластера на примере кластера в МГТУ МИРЭА.

Практическая реализация методов и алгоритмов многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах.................................85

3.1 Программная платформа для развертывания кластера MuninnHPC на основе доработанной кластерной платформы PelicanHPC.............................................................85

3.2 Реализация алгоритма кластеризации с использованием многопоточности и графических процессоров (GPU Fuzzy C-Means) на языке Python....................................91

3.2.1 Описание дополнительных модулей и способов их использования. Экспериментальная верификация.........................................................................................91

3.3 Апробация созданных кластеров в условиях конкуренции в проекте Folding@HOME.97 Глава 4 Практические исследования многопоточной кластеризации текстового контента на

естественном языке..............................................................................................................101

4.1 Сравнение вычислительной скорости центрального и графического процессоров.....101

4.2 Кластеризация тестовой подборки художественных текстов.........................................104

4.2.1 Результаты экспериментов предобработки текстов с модулем mystem.......106

4.2.2 Предобработка текстов с модулем PyMorphy2...............................................110

Заключение.....................................................................................................................................118

Библиография.................................................................................................................................123

Приложения....................................................................................................................................134

Приложение 1. Результаты экспериментов на синтетической подборке текстов с 4, 5 и 6 кластерами.............................................................................................................................135

Приложение 2. Свидетельство о регистрации программы для ЭВМ 2012660210..................141

Приложение 3. Свидетельство о регистрации программы для ЭВМ 2013660292 ..................142

Приложение 4. Акты внедрения кластеров MuninnHPC и HuginnHPC....................................143

ГЛОССАРИЙ

АРХИТЕКТУРА ИНФОРМАЦИОННОЙ СИСТЕМЫ - концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы. [1].

БАЗА ЗНАНИЙ - организованная совокупность знаний, представленная в форме, которая допускает автоматическое или автоматизированное использование этих знаний на основе реализации возможностей средств информационных технологий. [2]

БРАУЗЕР (англ. web browser) - программное обеспечение для поиска и просмотра веб-сайтов, для запроса веб-страниц (преимущественно из Интернет). Служит для их обработки, вывода и перехода от одной страницы к другой [3].

ВАЛИДНОСТЬ (англ. validity) - мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам [3].

ВЕБ-ОБОЗРЕВАТЕЛЬ см. браузер.

ВЕБ-ПОРТАЛ см. портал.

ВЕБ-САЙТ (англ. website, от web - паутина и site — «место») - одна или совокупность веб-страниц, доступных в Интернет через протоколы HTTP/HTTPS. Страницы веб-сайта объединены общим корневым адресом, а также обычно темой, логической структурой, оформлением и/или авторством [3].

ВЕБ-СЕРВЕР - сервер, принимающий HTTP-запросы от клиентов, обычно браузеров, и выдающий им HTTP-ответы, обычно вместе с HTML-страницей, изображением, файлом, медиа-потоком или другими данными. Веб-серверы - основа Всемирной паутины. Вебсервером называют как программное обеспечение, выполняющее функции веб-сервера, так и компьютер, на котором это программное обеспечение работает. Клиенты получают доступ к веб-серверу по URL адресу нужной им веб-страницы или другого ресурса [4].

ВТОРИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - описания (например уровень образования, тип материала, предмет, аннотация или ключевые слова) и адреса ресурсов, не расположенных на текущем портале, а доступных через Интернет на других порталах, сайтах по гиперссылкам [4].

ВЫЧИСЛИТЕЛЬНЫЙ КЛАСТЕР - группа компьютеров, объединенных каналами связи и представляющая с точки зрения пользователя единый аппаратный ресурс.

ГАРМОНИЗАЦИЯ КОНТЕНТА - систематизация и унификация в результате изменения состава, свойств и признаков составляющих контента [4,5].

ДАННЫЕ - качественные или количественные переменные, принадлежащие к набору элементов. Необработанные данные не были подвергнуты обработке или другим

манипуляциям. В качестве абстрактного понятия данные лежат на самом нижнем уровне абстракции из которых далее проистекают информация и знания.

ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА информационно-поисковая система, предназначенная для нахождения документов, содержащих затребованную информацию. Поисковый массив документальной ИПС состоит из поисковых образов документов или из самих документов [1].

ЗНАНИЯ - совокупность информации и правил вывода о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах использования их для принятия решений. Главное отличие знаний от данных состоит в их структурности и активности.

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ (Information extraction) - это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

ИНДЕКСИРОВАНИЕ - процедура, завершающаяся присвоением документу соответствующего поискового образа [6].

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ (Data Mining) - собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.[3]

ИНТЕРНЕТ - глобальная информационная сеть, части которой логически взаимосвязаны друг с другом посредством единого адресного пространства, основанного на протоколе TCP/IP. Интернет состоит из множества взаимосвязанных компьютерных сетей и обеспечивает удаленный доступ к компьютерам, электронной почте, доскам объявлений, базам данных и дискуссионным группам [1].

ИНТЕРФЕЙС ПРОГРАММИРОВАНИЯ ПРИЛОЖЕНИЙ (англ. Application Programming Interface, API) - набор методов (функций), который программист может использовать для доступа к функциональности программного компонента (программы, модуля, библиотеки). API является важной абстракцией, описывающей функциональность «в чистом виде» [3].

ИНТРАНЕТ — распределенная корпоративная вычислительная сеть, предназначенная для обеспечения теледоступа сотрудников к корпоративным информационным ресурсам и использующая программные продукты и технологии Интернет. Интранет позволяет контролировать доступ к корпоративной информации [1].

ИНФОРМАЦИЯ - сведения о чём-либо, независимо от формы их представления.

ИНФОРМАЦИОННЫЙ ОБРАЗОВАТЕЛЬНЫЙ ПОРТАЛ - система тематических профессиональных сайтов, выполненных по сходному замыслу и работающих в единых стандартах обмена информацией. Современное информационно-технологическое средство выхода участников непрерывного образования в единую информационно-образовательную среду в целях информационно-технологической и управленческой поддержки этим средством образовательных технологий. Цель портала — выработка новых стандартов организации и информационного обеспечения образовательного процесса на всех уровнях образования [6].

ИНФОРМАЦИОННЫЙ ПОИСК - некоторая последовательность операций, выполняемых с целью нахождения документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы [7].

ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА (сокр. ИПС) - некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенные для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявленный системе [7].

ИНФОРМАЦИОННО-ПОИСКОВЫЙ ЯЗЫК - определенная семантическая система, предназначенная для выражения основного смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые содержат требуемую информацию. Правила перевода с естественного языка на информационно-поисковый язык (и наоборот) обычно задаются в виде двуязычного словаря и соответствующего алгоритма [6].

ИНФОСЕТЬ - однородная однослойная сеть объектов, морфологически объединенных отношениями, вытекающими из структуры синтаксической единицы (предложения)

КОНТЕНТ (англ. content - содержание) - любое информационно значимое (содержательное) наполнение информационного ресурса (например, веб-сайта) - тексты, графика, мультимедиа - вся информация, которую пользователь может загрузить на диск компьютера с соблюдением соответствующих законностей, как правило, только для личного пользования [3].

КЛАСТЕР - 1. в теории кластерного анализа - группа объектов объединенных по какому-либо признаку.

2. см. Вычислительный кластер.

КЛАСТЕРИЗАЦИЯ — см. кластерный анализ

6

КЛАСТЕРНЫЙ АНАЛИЗ - многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

ЛЕММАТИЗАЦИЯ - процесс приведения словоформы к лемме - её нормальной (словарной) форме. В русском языке нормальными формами считаются следующие морфологические формы: для существительных — именительный падеж, единственное число; для прилагательных — именительный падеж, единственное число, мужской род; глаголов, причастий, деепричастий — глагол в инфинитиве. [3] МЕТАДАННЫЕ см. метаописание.

МЕТАОПИСАНИЕ - описание ресурса, включающее характеристики, которые не могут быть извлечены из его содержимого автоматически. Значительно облегчает поиск и позволяет учесть разнообразные требования и условия, выдвигаемые пользователем [8].

МЕТОД - систематизированная совокупность шагов, действий, которые необходимо предпринять, чтобы решить определённую задачу или достичь определённой цели

МЕТОДИКА - определенная, усвоенная процедура или набор процедур для достижения некоторой специфической цели. Обычно этот термин употребляется с коннотацией, что эти процедуры требуют определенной квалификации, и владение ими отражает некоторый уровень опытности. [9]

МЕТОДОЛОГИЯ - учение о структуре, логической организации, методах и средствах деятельности; учение о принципах построения, формах и способах научного познания. [10]

МИНИМАЛЬНАЯ СИНТАКСИЧЕСКАЯ СТРУКТУРА (способная нести в себе знания) - простое предложение текстового контента, состоящих из подлежащего в форме существительного, сказуемого в форме глагола (в сложном предложении добавляется прямое дополнение)

МНОГОПОТОЧНОСТЬ - независимая обработка частей данных, выполняемых группой инициированных программой процессов.

НОРМИРОВАНИЕ КОНТЕНТА - принятие мер по снижению дисперсии и математического ожидания размеров файла в пределах каждого массива контента [4].

ОНТОЛОГИЯ - это попытка всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила (теоремы, ограничения), принятые в этой области.

ОНТОЛОГИЧЕСКОЕ СОГЛАШЕНИЕ - соглашений о связях между смыслами различных терминов [11]

ПЕРТИНЕНТНОСТЬ (англ. pertinence, pertinency) - степень соответствия содержания документов информационной потребности пользователя [6].

ПЕРВИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - ресурсы, располагающиеся непосредственно на самом портале [4].

ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА - выраженное в терминах информационно-поискового языка основное смысловое содержание этого документа, которое поставлено в однозначное соответствие данному документу и предназначено для его отыскания в массиве других документов, характеристика, кратко выражающая основное смысловое содержание документа [6].

ПОИСКОВЫЙ ОБРАЗ ЗАПРОСА - поисковый образ, выражающий смысловое содержание информационного запроса [12].

ПОИСКОВОЕ ПРЕДПИСАНИЕ - текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска. Поисковые предписания формируются при поступлении запросов [12].

ПОЛНОТА (англ. recall) — это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных поисковой системой документов к общему числу документов, удовлетворяющих данному запросу [12].

ПОРТАЛ - сетевой узел или комплекс узлов, подключенных к Интернет по высокоскоростным каналам, обладающий развитым пользовательским интерфейсом и предоставляющий единый с концептуальной и содержательной точки зрения доступ к широкому спектру информационных ресурсов и услуг, ориентированных на определенную аудиторию [4].

ПРОПУСКНАЯ СПОСОБНОСТЬ КАНАЛА - или ширина полосы пропускания. Обычно для аналоговых каналов выражается в Герцах (Гц), а для цифровых каналов - в битах в секунду. Более широкая полоса пропускания позволяет передать больший объем информации за единицу времени [ 13].

РЕЛЕВАНТНОСТЬ (англ. relevance, relevancy) - степень соответствия содержания документа информационному запросу в том виде как он сформулирован. Субъективное понятие, поскольку результаты поиска, полезные для одного пользователя, могут быть бесполезными для другого [3,6].

РЕПОЗИТАРИИ - место хранения метаданных или сведений о данных [14].

САЙТ см. веб-сайт.

СЕМАНТИЧЕСКАЯ СЕТ