автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Интегрирования технология работы в WEB-пространстве INTERNET

кандидата технических наук
Адамович, Игорь Михайлович
город
Москва
год
2000
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Интегрирования технология работы в WEB-пространстве INTERNET»

Автореферат диссертации по теме "Интегрирования технология работы в WEB-пространстве INTERNET"

РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ПРОБЛЕМ ИНФОРМАТИКИ

На правах рукописи

f i О Ь' г,

i j г".;;•

АДАМОВИЧ Игорь Михайлович

ИНТЕГРИРОВАННАЯ ТЕХНОЛОГИЯ РАБОТЫ В WEB-nPOCTPAHCTBE INTERNET

Специальность 05.13.11 -"Математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей"

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2000

Работа выполнена в Институте проблем информатики Российской Академии наук.

Научный руководитель доктор технических наук В.А.Козмидиади.

Официальные оппоненты:

доктор технических наук, профессор И.И.Быстров,.

кандидат технически яаук, доцент А.В.Гиглавый.

Ведущая организация: Институт системного программирования РАН.

Защита состоится ¿А июня 2000 г. в 16 часов на заседании Диссертационного совета Д003.56.01 при Институте проблем информатики РАН по адресу: 117900, г. Москва, ГСП-1, ул. Вавилова, 30/6.

С диссертацией можно ознакомиться в библиотеке ИЛИ РАН.

Автореферат разослан мая 2000 г.

Ученый секретарь Диссертационного совета Д003.56.01 при ИЛИ РАН, доктор технических наук, профессор

С.Н.Гринченко

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. Интернет представляет собой всемирную сеть передачи данных, абонентами которой являются пользователи компьютеров. Основными свойствами этой сети являются: - доступность для потенциальных пользователей (практически каждый владелец компьютера имеет возможность подключиться к Интернет, и в настоящее время в мире насчитывается порядка 200 млн. пользователей Интернет); - возможность каждого абонента сети сделать свою информацию доступной любому другому пользователю-, -децентрализоваыность (отсутствие единого центра управления и единой адресной базы данных). Первые два обстоятельства определяют огромную роль Интернет практически во всех сферах человеческой деятельности, третье -определяет потребность в достаточно эффективных средствах навигации в Интернет.

В настоящее время по разным оценкам в Интернете находится от 800 млн. до 1 млрд. страниц, доступных любому пользователю. Очевидно, практическую ценность этот огромный объем информации может иметь для пользователя только при наличии эффективных средств поиска необходимых данных. Существуют два основных способа поиска информации в \Veb-пространстве Интернет: по ключевым словам с использованием поисковых машин (ПМ), и с использованием иерархических классификаторов (директорий). Директории предоставляют пользователям Интернет иерархические тематические рубрикаторы (выбрав подходящую рубрику, пользователь получает список страниц на заданную тему). Недостатком этого способа является большая трудоемкость наполнения директорий (производится экспертами вручную), в результате чего по количеству охваченных страниц директории на два порядка отстают от ПМ.

При поиске по ключевым словам ПМ позволяют отыскать подходящие страницы по поисковому запросу, основу которого составляют ключевые слова, отражающие тему поиска. Можно считать, что всей совокупностью существующих ПМ сегодня покрыто практически все \¥еЬ-пространстйо, однако ни одна ПМ не охватывает его целиком. Сегодня известно около двух десятков основных универсальных ПМ (работающих по всему \Veb-пространству без каких-либо ограничений) и порядка двух тысяч специализированных: тематических, региональных, корпоративных и прочих ПМ.

Существующие ПМ, имея, в основном, общие принципы построения, значительно отличаются друг от друга, как по охвату Web-пpocтpaнcтвa, так и но возможностям языка запроса. .

Попытки исправить главный недостаток существующих ПМ - неполное, покрытие Web-пpocтpaнcтвa привели к созданию так называемых мета-поисковых средств (метапоисковых машин и метапоисковых утилит). Суть этих средств заключается в том, что они позволяют один запрос пользователя адресовать нескольким ПМ и .получить обобщенный результат, вероятность содержания полезной информации в котором Золыне, чем при обращении к каждой ПМ в отдельности. Однако,эти средства сохранили и во многих случаях усугубили другие недостатки ПМ, главными из которых являются:

- различия в синтаксисе и оснащенности языков запроса;

- невысокая точность результатов; ;

- неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц);

- погрешности в ранжировании результатов по релевантности;

- потеря актуальности результатов (по наличию, по содержанию, по дате).

В данной работе рассматриваются вопросы повышения эффективности метапоиска информации по ключевым словам в ШеЬ-пространстве Интернет.

Цели и задачи работы. Целью работы является разработка интегрированной технологии решения задачи поиска информации в \УеЬ-пространстве Интернет, и реализация основных элементов этой технологии.

Для достижения поставленной цели решались следующие задачи:

1. Исследование современного состояния средств поиска информации на уровне поисковых и метапоисковых машин.

2. Структуризация пространства параметров, на основе которых осуществляется поиск.

3. Создание модели обобщенного языка запроса, охватывающего большинство параметров, по которым ведут поиск существующие поисковые машины, и расширение этого языка с целью поддержки новых поисковых технологий.

4. Создание архитектуры Интегрированной системы поддержки технологий работы в Web-пpocтpaнcтвe Интернет ^еЬ-машина), реализующей обобщенный язык запросов на трех уровнях:

- на уровне обращения к ПМ;

- на уровне обработки полученных от ПМ ответов (результатов);

- на уровне анализа содержания страниц, адресуемых элементами списков адресов.

5. Реализация макета основных элементов \\'еЬ-машины. Методы исследования. При выполнении работы использовался аппарат теории сложных систем, структурного и функционального программирования, а также компьютерное моделирование. Общей методологической основой является системный подход. Научная новизна:

1) Предложена концепция обобщенного языка запросов, интегрально описывающего различные процедуры поиска информации в \МеЬ-пространстве Интернет, и реализована модель этого языка.

2) Предложена концепция интегрированной системы поиска информации в \УеЬ-пространстве Интернет как «машины», реализующей программу поиска, представленную на специальном процедурном языке.

3) Предложена и реализована технология матричной обработки списков адресов \УЕВ-страниц

Практическая значимость. Полученные в работе результаты представляют собой методологическую основу для создания реальных интегрированных систем поиска информации в \УеЬ-пространстве Интернет. Они были использованы в ИПИ РАН при создании метапоисковой системы РО-БОНЕТ.

Апробация работы. Основные результаты диссертационной работы были изложены в докладах, представленных и обсужденных на научных конференциях и семинарах: «Социальная информатика-98» (Москва, 1998 г.), «Социальная информатика-99» (Москва, 1999 г.), на заседаниях Ученого Сонета и научных семинарах ИПИ РАН (1984-2000 гг.) и др.

Структура и объем работы. Диссертационная работа состоит из введения, 3 глав, заключения по работе и списка литературы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении рассмотрена структура Интернет-пространства и приведены его функции, в т.ч. функции информационного обеспечения пользователей системы, обоснована актуальность темы, сформулирована цель работы,

приведены задачи исследования, научная новизна диссертационной работы, выносимые на защиту научные положения и результаты.

В первой главе работы рассмотрено современное состояние проблемы, описана схема, поясняющая организацию работы типичной ПМ (рис.1).

ПМ представляет собой, с одной стороны, Web-сервер, главная страница которого обеспечивает пользователю возможность формирования запроса, а также доступ к опциям и руководству по использованию данной ПМ (помощи). С другой стороны, ПМ обеспечивает создание и ведение каталога Web-страниц, который позволяет выбрать адреса нужных страниц по данным, содержащимся в запросе.

Далее дана классификация существующих средств поиска информации в Web-пространстве Интернет (рис.2).

Проведен анализ наиболее популярных средств поиска, разбитых на категории в соответствии с приведенной выше классификацией:

- рассмотрены технические характеристики, функциональные возможности и языки пользовательского интерфейса ПМ общего назначения: AltaVista, Anzwers, AOL.COM, Direct Hit, Excite, Fast, Google, HotBot, Infoseek, Inktomi, Lycos, Magellan, msn, Northern Light, Snap, Web Crawler, Yahoo!, Апорт!, Rambler, TELA-ПОИСК, flndex, Russian AltaVista;

- рассмотрены технические характеристики, функциональные возможности и языки пользовательского интерфейса порталов: Search-It-All, Skworm, OneSeek, Proteus, Search Spaniel, PureSearch, A114one Search Machine, Crawl-It-A1I, Instantseek, One Page MultiSearch Engines;

- рассмотрены технические характеристики, функциональные возможности и языки пользовательского интерфейса "главных" МПМ: Go2Net/MetaCrawler, SavvySearch, Dogpile, Inference Find, ProFusion, Mamma, The Big ïïub, C4, SurfWax.com;

- рассмотрены технические характеристики, функциональные возможности и языки пользовательского интерфейса МПУ: BullsEye, Copernic, Infiseek Express, Mata Hari, Apple Sherlock, NetAttache Pro, Infirian Quest, Search Wolf, WebFerret, BeeLine, SearchPad, Subject Search Spider, WebStorm, X-Portal Findware, infiGist, Answerchase, WebPlanet Tools.

Обобщены и систематизированы критерии отбора страниц, используемые при поиске в языках запроса ПМ и метапоисковых средств. Полученная структура критериев отбора страниц приведена на рис. 3.

\УеЬ-станицы в Интернет

т г

иЯЬ Web-cтpaницы

Рис. 1. Схема функционирования ПМ

Рис. 2. Классификация средств поиска в Интернет

Рис. 3. Структура критериев отбора страниц

В первой главе были также определены основные недостатки существующих средств поиска:

1. Различия в синтаксисе и оснащенности языков запроса при неполном охвате \¥еЬ-пространства каждой отдельной ПМ;

2. Невысокая точность результатов;

3. Неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц);

4. Погрешности в ранжировании результатов по релевантности;

5. Потеря актуальности результатов (по наличию, по содержанию, по дате).

В результате анализа существующих средств поиска сформулированы следующие основные выводы:

1. Всей совокупностью существующих средств покрыто практически все Web-пространство

2. Языки современных ПМ и МПМ в совокупности охватывают практически весь спектр возможностей поиска по ключевым словам, в том числе и с учетом их места в структуре (топологии документа). Однако анализ конкретных ПМ показывает, что они либо обладают недостаточно мощной языковой оснащенностью (при сравнительно большом охвате Web-пространства), либо, наоборот, при относительно мощном языке запросов охватывают незначительный сегмент Web-пространства. Например, ПМ с самыми мощными индексами - Fast (300 млн. проиндексировачных страниц) и AltaVista (250 млн.) - обладают далеко не самым мощным языком, в то время как самые "интеллектуальные" ПМ - Anzwers, AOL.com, HotBot и Lycos - проиндексировали каждая не более 150 млн. страниц, т.е. не более 15% всего Web-пространства. А отечественная ПМ Япс)ех, которая обладает, по оценке автора, самым мощным набором функций, пока не проиндексировала и 20 млн. страниц.

3. Сложившаяся ситуация превращает единый (на концептуальном уровне) процесс получения необходимой информации из Web-пространства Интернет в совокупность раздробленных, плохо согласованных между собой процедур. Значительный процент ручных операций, вынужденно присутствующих в такой "технологии", отнимает большие временный ресурсы, а высокий уровень "шума" в получаемых результатах снижает их практическую ценность.

4. Наиболее эффективным путем преодоления сложившейся ситуации является интеграция технологий работы в Интернет-пространстве, поддерживаемых отдельными инструментальными средствами, в единую систему на базе обобщенного языка, обеспечивающего гибкое и эффективное управление этими технологиями.

Во второй главе приведено описание предложенного автором языка работы в Web-пространстве (WWL), предназначенного для управления работой в Web-пространстве Интернет на базе интеграции технологий (как существующих, так и предлагаемых в данной работе).

При создании были учтены результаты анализа, обобщения и

систематизации показателей, используемых в качестве критериев отбора страниц при поиске, которые используются в языках существующих поисковых машин. Полученный в результате обобщения набор критериев был расширен за счет введения новых элементов технологии поиска информации.

Морфологическая структура языка АЛН^ представлена на рис. 4.

Рис. 4. Структура WWL

В первой группе параметров поиска - критериев отбора страниц - были дополнены указатели элементов страниц. Перечень элементов топологии в естественных текстовых разделителях дополнен такими элементами, как абзац, раздел и произвольный фрагмент текста. Адресация по HTML формату систематизирована и позволяет указывать содержимое элемента - контейнера HTML и значение конкретного атрибута указанного тега.

Список операторов поискового выражения включает обычные булевы операторы AND, OR и AND NOT, а также операторы расположения, которые дополнены следующими: "в одном разделе", "в одном абзаце" и в "одном фрагменте".

Указатели области Web-пространства позволяют ограничить поиск стрг-эй, доменом, сайтом, директорией на сервере и глубиной "вложенности" в сайте.

Указатели времени создания или последнего изменения страницы позволяют ограничить поиск интервалом времени создания или последнего изменения страницы.

Указатели типов и форматов данных позволяют отбирать страницы как с заданным типом данных (например, аудио в любом формате), так и с данными, содержащимися в определенном формате, путем задания расширения файлов, адресуемых ссылками в HTML-странице.

Включение в Web-машину новых технологий: матричной обработки списков адресов страниц, эмуляции некоторых функций, которые выполняются не всеми ПМ, а также использования приемов получения от ПМ всех результатов поиска при существующем ограничении их по количеству, обусловили включение в WWL, кроме традиционных, следующих подгрупп указателей:

- указателей области поиска, включающих список ПМ, внутренний индекс, результаты поиска и список URL;

- описателей процедур обработки, предписывающих "строгое" выполнение поисковых выражений, получение от ПМ полного списка результатов, сохранение запросов и результатов, построение собственного индекса;

- описателей процедур обработки матриц списков адресов;

- повторного поиска, включающего известные функции ПМ (поиск похожих страниц, связанный поиск и поиск в найденном).

Параметры формы представления результатов практически являются обобщением принятых в большинстве ПМ.

В третьей главе приведено описание концепции интегрированной Web-технологии и архитектура Web-машины, реализующей эту технологию.

В диссертационной работе предлагается концепция интегрированной Web-технологии и, соответственно, интегрированной Web-машины, которые,

используя суммарные возможности существующих ПМ, позволяют не только избежать снижения качества результатов при метапоиске, но и в значительной степени минимизировать трудозатраты пользователя.

В основу синтеза предлагаемой архитектуры положена интеграция различных технологий, большинство из которых используются уже сегодня и в какой-то степени помогают преодолеть недостатки существующих средств поиска. Но средства эти nojca разрознены и применение их не носит системного характера, в результате чего пользователю приходится выбирать между приемлемыми трудозатратами на получение результата, весьма далекого от идеального, и вполне приличным результатом, но после весьма значительных трудозатрат.

Перечислены основные технологии, которые позволяют решить существующие проблемы:

1. Неполный охват Web-пространства каждой отдельной ПМ преодолевается средствами метапоиска путем подключения достаточного количества ПМ.

2. Невысокая точность результатов, которая может быть обусловлена различиями в синтаксисе и оснащенности языков запроса, погрешностями в ранжировании результатов по релевантности, а также потерей актуальности результатов (по наличию, по содержанию, по дате) за время периода индексации, может быть кардинально преодолена только путем получения из Web самих страниц и анализа их содержания средствами, обладающими достаточной языковой мощностью. Некоторые средства метапоиска в настоящее время уже позволяют использовать эту технологию.

3. Неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц). Для того чтобы получить полный список адресов найденных страниц, можно применять искусственные приемы "расщепления" одного запроса на несколько таких, ответы на которые укладываются в лимит по количеству результатов. О фактах реализации такой технологии нам не известно.

4. Возможность попадания в ответ страниц, не соответствующих по своему содержанию категории пользователей (например, порнография - детям). Для решения этой проблемы некоторые ПМ имеют встроенные фильтры, в некоторой степени, решающие эту задачу. Кроме того, существуют само-

стоятельные продукты - фильтры, подключаемые к браузерам, и позволяющие запретить просмотр нежелательных категорий страниц.

Ниже перечислены процедуры Web-технологий, интеграция которых в едином программном комплексе позволяет решить перечисленные выше проблемы, а также некоторые сервисные процедуры:

П1 - формирование запроса на достаточно мощном "обобщенном" языке и рассылка его поисковым машинам, указанным в запросе;

П2 - прием и расшифровка результатов от ПМ, которым был адресован запрос;

ПЗ - расщепление запроса, если требуется получение адресов всех найденных страниц, а количество найденных поисковой машиной страниц превышает максимально возможную длину списка выдаваемых этой ПМ результатов;

П4 - формирование обобщенного списка адресов (URL) найденных страниц;

П5 - сжатие списка адресов по признаку соответствия URL критериям, содержащимся в запросе;

П6 - сжатие списка адресов по признаку соответствия URL «да/нет»-спискам;

П7 - получение из Интернет Web-страниц по списку адресов;

П8 - сжатие списка адресов по признаку соответствия содержания страниц критериям запроса;

П9 - сжатие списка адресов по признаку соответствия содержания страниц заданным категориям пользователей (фильтрация по запрещенным тематикам);

П10 - вычисление показателя релевантности страниц из результирующего списка;

П11 - представление результатов поиска в виде списков адресов, отсортированных по различным критериям, и собственно страниц (визуализация на экране и печать) с возможностью изменять формы представления, включая, например, сортировку по различным критериям;

П12 - создание внутреннего индекса для последующих углубленных поисков (возможно, многими пользователями в локальной или корпоративной сети) на заданную общую тему;

П13 - создание пула страниц, отобранных в результате выполнения одного или нескольких запросов;

П14 - чистка "Индекса" и "Пула АУеЬ-страниц" после выполнения П8 и

П9;

П15 - выполнение поиска в индексе и буфере страниц;

П16 - выполнение запросов по расписанию и накопление результатов;

П17 - программирование процессов выполнения сложных запросов (заказов) на выполнение системой поисковых работ;

П18 - сохранение запросов (программ выполнения заказов) и результатов их выполнения;

П19 - сервисные процедуры, используемые при экспертной оценке содержания страниц (составление дополнительных списков, отнесение к категориям);

П20 - сервисные процедуры, снижающие трудозатраты на адаптацию к изменениям состава или интерфейсов используемых ПМ и МПМ.

На рис. 5 представлена архитектура интегрированной \^еЬ-машины, реализующей интегрированные процессы поиска и обработки их результатов, с использованием перечисленных выше технологий. На схеме сплошными линиями показаны информационные связи, а штриховыми - магистрали передачи параметров запроса.

Описанные выше процедуры, за исключением П20, автор относит к пользовательскому уровню. Опытному пользователю ПМ должен быть понятен их смысл, и ему вполне по силам, при наличии хорошего интерфейса, программировать на их основе свои поисковые задания. Поэтому данный набор процедур может быть положен как в основу построения интегрированной \\'еЬ-машины, так и в основу языка WWL.

Представленная концепция интегрированного подхода к технологиям работ в Интернет является, с точки зрения автора, тем путем, по которому в ближайшей перспективе должно пойти развитие средств поиска \УеЬ-страниц в Интернет.

Интерфейс пользователя

Рис. Архитектура интегрированной Web-мaшины.

В заключительной части третьей главы диссертации описывается разработанная под руководством автора метапоисковая система КОВОЫЕТ, при создании которой были реализованы механизмы и процессы, лежащие в русле предлагаемой интегрированной технологии работы в Интернет и в том числе механизмы обработки списков адресов, представленных в виде матрицы, а также механизмы автоматизации подключения новых поисковых машин к системе. Приводится архитектура КОВОЫЕТ, дается описание языка записи параметров тпроса и форматов входных и выходных данных поисковых машин, а также процедур обработки матриц адресов.

ОСНОВНЫЕ РЕЗУЛЬ ТА ТЫ РАБОТЫ

В процессе проведения работ по теме диссертации получены следующие основные научные и практические результаты:

1. Предложена архитектура интегрированной \УеЬ-машины. В основе архитектуры лежит концепция интеграции ныне существующих технологий работы в \УеЬ-пространстве Интернет и новых, Предложенных автором.

2. Предложен язык WWL - средство для описания процессов, реализуемых интегрированной Web-мaшинoй, обобщающий языковые средства существующих инструментов поиска и расширенный средствами поддержки новых технологий.

3. Предложены новые технологии:

- "расщепления запроса" с целью преодоления ограничений ПМ на количество выдаваемых результатов поиска;

- обработки "матриц" списков адресов с целью интеграции результатов, полученных от отдельных ПМ при реализации одного или нескольких запросов.

4. Предложены языки описания форматов входных и выходных данных поисковых и метапоисковых ПМ и МПМ обеспечивающих снижение трудозатрат при подключении новых ПМ и МПМ.

5. Создан макет метапоисковой системы, реализующей предложенные новые технологии и языки.

ПУБЛИКАЦИИ

1. Адамович И.М., Захаров В.Н. Состояние и перспективы развития программных средств ПЭВМ // Научно-техническая информация. Серия 1. Организация и методика информационной работы. Ежемесячный научно-технический сборник № п. М.: ВИНИТИ, 1989. С. 37-41.

2. Адамович И.М., Захаров В.Н. Информационная деятельность в структуре индустрии программного обеспечения // Сборник докладов всесоюзного семинара "Информационная деятельность в структуре индустрии программного обеспечения". Информатика и информационная деятельность, практика, проблемы, перспективы / СНИО ВОИВТ. М.: 1990, С. 39-42.

3. Адамович И.М. Российские средства поддержки технологий INTERNET//Социальная информатика-98. - М.: МАИ, 1998, С.116-121.

4. Адамович И.М. Российские средства поддержки технологий телефонии в INTERNET (телефонный сервер AMSD TalkServer 1.0) // Социальная инфор-матика-99. - М.: РАЕН, МАИ, 1999, С.57-62.

5. Адамович И.М. Технологии работы в WEB-пространстве Интернет. Часть I. Введение в проблему. Электронный журнал «Исследовано в России», 42, 554-559,2000

http://zhurnal.ape.relarn.ru/articles/2000/042.pdf

6. Адамович И.М., Заикин М.Ю., Пешков А.Н. Технологии работы в WEB-пространстве Интернет. Часть II. Поисковые машины и их языковые возможности. Электронный журнал «Исследовано в России», 43, 560-576, 2000

http://zhurnal.ape.relarn.ru/articles/2000/043.pdf

7. Адамович И.М., Заикин М.Ю., Заусаев О.В., Пешков А.Н. Технологии работы в WEB-пространстве Интернет. Часть III. Средства метапоиска. Электронный журнал «Исследовано в России», 44, 577-582, 2000

http://zhurnal.ape.relarn.ru/articles/2000/044.pdf

8. Адамович И.М., Пешков А.Н. Технологии работы в WEB-пространстве Интернет. Часть IV. Поисковые машины. Глоссарий. Электронный журнал «Исследовано в России», 45, 583-604, 2000

http://zhurnal.ape.relarn.ru/articles/2000/045.pdf