автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Интегрированная технология работы в Web-пространстве Internet
Оглавление автор диссертации — кандидата технических наук Адамович, Игорь Михайлович
ВВЕДЕНИЕ.
Развитие Интернет.
Структура Интернет-пространства, основные функции системы.
Функции информационного обеспечения пользователей системы
Коммуникационные функции (функции связи).
Социально-коммуникационные функции.
Функции поддержки процессов купли-продажи через Интернет. 14 Вспомогательные функции.
Поиск информации в Интернет, эволюция технологий.
Цели и задачи работы.
Глава 1. СОВРЕМЕННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ.
1.1. Классификация средств поиска.
1.2. Поисковые машины.
1.2.1. Общие принципы работы ПМ.
1.2.1.1. Пополнение и обновление индекса.
1.2.1.2. Формирование запроса на поиск информации.
1.2.1.3. Поиск и выдача результатов.
1.2.1.4. Последующая обработка результатов.
1.2.2. Язык запроса.
1.2.2.1. Критерии семантического отбора.
Поисковое выражение.
Запрос на естественном языке.
Стоп-слова.
Шаблон.
Все формы слов.
Ограничения по тематике.
Указатели элементов страниц.
1.2.2.2. Указатели области \¥еЬ-пространства.
1.2.2.3. Указатели ограничений по времени.
1.2.2.4. Указатели типов данных.
1.2.2.5. Мета-слова.
1.2.2.6. Управление параметрами расчета показателей релевантности и сортировкой.
1.2.2.7. Управление формой представления результатов.
1.2.3. Поиск.
1.2.3.1 Показатели качества результатов поиска.
1.2.3.2. Строгое и не строгое выполнение ПВ.
1.2.3.3. Вычисление показателей релевантности страниц. 46 Факторы, значение которых зависит от конкретного запроса.
Факторы, значение которых не зависит от конкретного запроса.
1.2.4. Представление результатов.
1.2.4.1. Формирование HTML-страниц с результатами поиска.
1.2.4.2. Общие сведения о результатах поиска.
1.2.4.3. Список результатов.
1.2.4.4. Разделы списков результатов.
1.2.5. Продолжение поиска.
1.3. Метапоисковые средства.
1.4. Резюме.
Глава 2. ЯЗЫК ОПИСАНИЯ ТЕХНОЛОГИЙ РАБОТЫ В WEB--ПРОСТРАНСТВЕ - WWL(WORK IN WEB LANGUAGE)
2.1. Предпосылки для создания языка.
2.2. Основные языковые сущности.
2.3. Объекты WWL.
2.3.1. Функциональные объекты.
2.3.2. Информационные объекты.
2.4. Процедуры WWL.
2.4.1. Процедуры поиска и обработки результатов.
2.4.1.1. Поиск.
Форма представления результата.
Область размещения результатов.
2.4.1.2. Сжатие списка адресов.
2.4.1.3. Объединение списков адресов.
2.4.1.4. Сортировка списка адресов.
2.4.1.5. Конвертирование форм представления документов.
2.4.1.6. Сканирование.
2.4.2. Процедуры модификации запроса.
2.4.3. Процедуры формирования области поиска.
2.4.4. Процедуры работы с индексом.
2.4.5. Процедуры представления данных.
2.4.6. Операторы управления.
Глава 3. ИНТЕГРИРОВАННАЯ СРЕДА ПОДДЕРЖКИ ТЕХНОЛОГИЙ РАБОТЫ В WEB-ПРОСТРАНСТВЕ - WWE (WORK IN WEB ENGINE).
3.1. Общие требования к WWE.
3.1.1. Позиционирование WWE.
3.1.2. Поддержка интерактивности.
3.1.3. Использование существующих поисковых инструментов.
3.1.4. Расширяемость и масштабируемость.
3.1.5. Гибкость и управляемость.
3.2. Основные задачи, решаемые пользователями WWE.
3.3. Основные принципы WWE.
3.3.1. Поддержка формирования запроса пользователя.
3.3.2. Получение первичного результата.
3.3.3. Анализ результатов поиска.
3.3.4. Вторичная, послепоисковая обработка.
3.3.4.1. Вторичный поиск.
3.3.4.2. Сжатие.
3.3.4.3. Объединение списков результатов.
3.3.4.4. Модификация запросов.
3.3.5. Хранение данных.
3.4. Основные процессы (технологии) WWE.
3.5. Архитектура WWE.
3.6. Макетирование и экспериментальная проверка предлагаемых решенй.
3.6.1. Цель экперимента.
3.6.2. Описание Robonet.
3.6.2.1. Архитектура Robonet.
3.6.2.2. Механизм адаптации системы к функциональным возможностям и синтаксису входного и выходного языков ПМ.
3.6.2.3. Механизм обработки списков адресов.
3.6.3. Тестирование Robonet.
3.6.4. Проверка технологии сканирования.
3.6.5. Результаты эксперимента.
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Адамович, Игорь Михайлович
Развитие Интернет
Сегодня, в канун 21 тысячелетия «всемирная паутина» (World Wide Web) или как ее чаще называют «Интернет» получила необычайно широкое развитие, и наряду с такими «атрибутами цивилизации», как атомная энергетика, освоение космоса, персональный компьютер, по праву претендует на роль символа уходящего века.
И хотя ни одно из перечисленных направлений нельзя назвать стагни-рующим, все они продолжают неуклонное развитие, темпы роста индустрии Интернет не только превосходят рост других «отраслей цивилизации» сегодня, но и по мнению многих специалистов, сохранят это превосходство по крайней мере в первой четверти нового столетия.
Рост сети Интернет сегодня происходит по двум основным направлениям:
- расширение числа индивидуальных и корпоративных пользователей сети;
- расширение сферы ее применения.
Первое «количественное» направление роста Интернет является более или менее предсказуемым и его темпы связаны прежде всего с социально-экономическими аспектами жизни человеческого общества.
Второе, «качественное» направление кроме того во многом определяется как уровнем развития (прежде всего уровнем компьютеризации) охватываемых Интернетом сфер человеческой деятельности, так и готовностью представителей этих сфер идти на определенные риски и потери, неизбежные на этапе становления любой новой технологии.
Все эти факторы, как социально-экономические, так и корпоративно-технологические являются «внешними» по отношению к процессу развития Интернет. Главное, объединяющее их свойство заключается в том, что по мере развития сети Интернет, ее количественного и качественного роста, сдерживающее, негативное влияние этих факторов будет уменьшаться, а положительное, позитивное - увеличиваться.
Иными словами, между процессом развития сети Интернет и процессами развития тех сфер человеческой деятельности, которые используют Интернет существует положительная обратная связь:
В то же время процесс развития сети Интернет (которую, наверное, уже пора называть не сетью, а глобальной, распределенной информационно-коммуникационной системой) содержит в себе некоторое внутреннее, объективное противоречие, которое можно сформулировать следующим образом:
По мере роста информационного пространства Интернет, практическая ценность размещенной в этом пространстве информации снижается из-за увеличивающейся сложности и трудоемкости процессов ее поиска и идентификации.
Это значит, что между процессом развития Интернет и процессом практического использования хранящейся в ней информации существует отрицательная обратная связь.
Следует отметить, что это противоречие, присущее любому информационному пространству предназначенному для практического использования содержащейся в нем информации, возникло задолго до появления Интернет. Секционированные стеллажи книго- и документохранилищ, базы данных, всевозможные каталоги, рубрикаторы и классификаторы, перфокарты с краевой перфорацией , информационные языки запросов и многие, многие другие средства облегчения доступа к информации, часть из которых известна человеку со времен античности и средневековья свидетельствуют о том, что борьба за смягчение этого противоречия (устранить его невозможно, ибо оно является абсолютно объективным) велась на всех этапах информатизации человеческого общества.
Однако именно с появлением Интернет, которая исходно, по определению создавалась, как система глобального объединения информационных ресурсов человеческого общества, эта проблема встала особенно остро.
И хотя умудренное предшествующим «доинтернетовским» опытом человечество начало решение проблемы поиска информации в Интернет практически одновременно с созданием самой глобальной сети, эта проблема в настоящее время весьма далека от своего решения.
Структура Интернет-пространства, основные функции системы.
В общем случае, рассматривая Интернет, как глобальную, распределенную информационно- коммуникационную систему все объекты этой системы, можно разбить на 2 класса:
- объекты, реализующие коммуникационную, транспортную функцию системы;
- объекты, реализующие информационную функцию Интернет.
Объекты первого класса, к которым относятся всевозможные модемы, маршрутизаторы, усилители, коммутаторы, а также проводные, оптические, радио каналы связи в контексте данной работы будем считать вспомогательными, и исключим из дальнейшего рассмотрения.
Что касается объектов второго класса, то они делятся на две основные группы:
- объекты, предоставляющие информацию ее потребителям, путем оказания тех или иных информационных услуг (объекты-доноры или серверы);
- объекты, получающие, принимающие информацию от объектов-доноров (объекты-акцепторы или клиенты).
Здесь необходимо отметить, что в общем случае, в зависимости от характера решаемой задачи или стадии ее решения, один и тот же объект системы может выполнять (как поочередно, так и одновременно) функции сервера и клиента.
Рассматривая информационное пространство Интернет (рис.1) необходимо выделить в нем следующие подпространства:
- основную информацию;
- дополнительную или метаинформацию;
- служебную информацию.
Рис 1. Структура информационного пространства Интернет
Служебная информация, несущая в себе главным образом сведения о том, как должна быть представлена клиенту основная или вспомогательная информация также в дальнейшем рассматриваться не будет.
Что касается метаинформации, то она в свою очередь подразделяется на два типа:
- адресная метаинформация, т.е. информация о том, где размещен тот или иной информационный ресурс в Интернет-пространстве;
- семантическая метаинформация, т.е. семантическая «свертка» того или иного информационного ресурса Интернет, отвечающая на вопрос что содержит информационный объект, охарактеризованный соответствующим объектом метаинформации.
Основная же информация Интернет сегодня настолько обширна и многообразна, что наиболее адекватной ее характеристикой будет утверждение:
Сегодня в Интернет есть всё!
Рассматривая структуру функционального пространства Интернет (рис.2) можно выделить в нем 4 основные группы функций (подпространства).
Функции информационного обеспечения пользователей системы.
Это наиболее мощная (с точки зрения нагрузки на трафик сети Интернет) группа функций.
В этой группе в свою очередь можно выделить три основные подгруппы.
Подгруппа «просветительных» функций обеспечивает размещение в Интернет-пространстве и предоставление пользователям системы разнообразной информации, используемой ими в своей трудовой деятельности, в быту, в учебном процессе, в процессе рекреации и т.д.
Электронные версии периодических печатных изданий, учебные курсы, электронные версии литературных и музыкальных произведений, кинофильмы и видеозаписи театральных постановок - вот далеко не полный перечень информационных ресурсов Интернет, охватываемых функциями этой подгруппы.
Основными средствами, реализующими в Интернет эти функции, являются WWW и FTP серверы, являющиеся источниками этой информации, а также Интернет-браузеры, выполняющие функции приемников этой информации на клиентских рабочих местах.
Подгруппа рекламных функций обеспечивает размещение в Интернет-пространстве и доведения до пользователей Интернет информации рекламного характера.
Сама по себе рекламная информация по чисто формальным, структурным признакам мало, чем отличается от информации «просветительской». Да и концептуально граница между этими понятиями довольно размытая. Однако «продвижение» рекламной информации к пользователю поддерживается некоторыми специальными функциями и механизмами.
Рис. 2. Структура функционального пространства Интернет
Прежде всего, это механизм взаимного обмена между \VWW-серверами специальными рекламными объявлениями «баннерами». Бан-нер представляет собой небольшую заставку рекламного характера, размещаемую на страницах одного или нескольких сайтов. Основная задача баннера - привлечь к себе внимание посетителей этих сайтов. Технически баннер выполнен в виде кнопки, кликнув которую пользователь попадает на сайт, представителем которого и является данный баннер.
Другой механизм доведения до пользователей рекламной информации опирается на так называемые «РшИ-технологии». Суть их заключается в том, что активность в распространении, т.е. пересылке информации на рабочие места пользователей, берет на себя сервер.%
С определенной периодичностью он рассылает браузерам-клиентам заранее определенную информацию, обычно носящую рекламно-справочный характер.
Подгруппа «справочных» функций является, по сути, подмножеством, разновидностью подгруппы «просветительных» функций. Основное отличие заключается в том, что сайты, содержащие информацию справочного характера, (адреса, телефоны, тарифы, цены, курсы валют, курсы акций, данные метеосводок и т.д.) имеют достаточно жестко зафиксированную по структуре форматов хранения и по содержанию информацию. «Семантика» таких информационных объектов определяется в основном значениями их атрибутов.
Коммуникационные функции (функции связи).
Эти функции обеспечивают обмен информацией между пользователями Интернет.
Наиболее «древней» из функций этой группы является электронная почта, т.е. обмен данными между пользователями сети, осуществляемый через электронный почтовый ящик, куда передающая сторона «кладёт» и откуда принимающая сторона «вынимает» предназначенные ей сообщения.
Начавшись с почтового обмена текстовыми сообщениями между двумя абонентами, электронная почта претерпела ряд существенных эволюционных преобразований.
Прежде всего, её развитие шло в направлении расширения типологии информационных объектов, пересылаемых по почте.
Сначала появилась возможность передавать наряду с текстовыми графические объекты, а затем и объекты других форматов (звуковые объекты, видеофайлы, бинарные коды программ и т.д.). Эти объекты «прикреплялись» к текстовой части письма (которая в общем случае могла и отсутствовать) и пересылались в почтовый ящик адресата. Затем появились специализированные почтовые службы (голосовая почта, факсовая почта), которые, как и классическая текстовая электронная почта работали в режиме off-line, осуществляя обмен через почтовые ящики служб Интернет.
Другим направлением развития коммуникационных функций стал переход к обмену информацией в режиме on-line, при котором этот обмен производится в реальном масштабе времени. Хорошим стимулом для прогресса в этом направлении является существующая сегодня «ценовая маржа» между стоимостью трафика в классических телефонных сетях и в Интернет.
На первом этапе были созданы программы текстового (диалогового) и речевого взаимодействия между пользователями Интернет по принципу точка-точка. Устройства, поддерживающие эти функции, получили название «Интернет-телефонов». Большинство из этих устройств, среди которых наибольшую популярность получил продукт компании Microsoft "Net Meeting", обеспечивают выполнение обеих функций, а Интернет-телефон, разработанный специалистами ИЛИ РАН, кроме того, обеспечивает в режиме on-line обмен файлами произвольного формата.
Дальнейшая эволюция этой функциональности привела к появлению Интернет-коммуникаторов, т.е. устройств, позволяющих передавать в режиме on-line любую информацию - тексты, графику, звук, факсы, видео.
Наконец, еще одним направлением развития коммуникационных функций стал переход от режима обмена «точка-точка» (один к одному) к режимам «селектор» (один ко многим) и «конференция» (много ко многим).
Социально-коммуникационные функции.
Функции этой группы обеспечивают поддержку таких важных процессов социально-бытовой активности человека, как его гражданское волеизъявление, рекреационная активность, активность, связанная с потребностью в неформальном общении с другими людьми, активность, связанная с процессами получения образования.
Поддержка процессов гражданского волеизъявления обеспечивается созданием и вводом в эксплуатацию различных систем проведения опросов, организации дискуссии и голосования по Интернет.
Следует отметить, что техническая реализация механизмов поддержки процессов гражданского волеизъявления не представляется чрезмерно сложной, так как большинство этих процессов опирается на уже сформировавшиеся и апробированные технологии Интернет (Push-технологии, News-технологии и т.д.).
Поддержка рекреационной активности населения также во многом опирается на механизмы обеспечения перечисленных выше функций, хотя и имеет определенную специфику. Эта специфика относятся прежде всего к поддержке рекреационных процессов, осуществляемых в игровой форме.
С этой целью в Интернет были внедрены и продолжают внедряться специализированные игровые серверы (Game Zone), а на клиентских станциях устанавливаются сложные агенты этих игровых серверов, осуществляющие связь с ними по специальным игровым протоколам.
Поддержка процессов неформального общения также во многом опирается на общие (неспецифические) технологии. К их числу относятся технологии текстовой и голосовой связи по Интернет, механизмы и технологии конференций (News), диалогового обмена (Chat). В то же время обеспечение такой важной функции неформального общения, как выбор партнеров, потребовал создания специализированных коммуникационных серверов (так называемых 01гес1:огу-серверов). Главной их задачей является регистрация пользователей, подключившихся к данному серверу с целью поиска партнеров для общения. Чаще всего эти пользователи подключаются к определенным группам «по интересам». Иногда эти группы являются «элитными», «замкнутыми». Тогда подключение к соответствующей директории этого сервера может осуществляться только после ввода специального пароля, который предполагает предварительную регистрацию в этой группе.
Получающие в последнее время всё большее распространение Системы Дистанционного Образования по Интернет также во многом опираются на универсальные технологии. Однако специфика поддержки функций дистанционного обучения, безусловно, требует специализированных решений. В данном случае эти решения должны обеспечивать поддержку всех этапов процесса Дистанционного образования (рассылку методических материалов, поддержку заочных консультаций, контроль за степенью усвоения учебного материала, проведение зачетных и экзаменационных сессий и т.д.).
Функции поддержки процессов купли-продажи через Интернет.
Торговля через Интернет хронологически является самой «молодой» сферой его применения. И объясняется это прежде всего особо высокими требованиями к защите информации и надежности функционирования алгоритмов, реализующих функции купли/продажи [1].
Структурно функции поддержки торговли через Интернет огут быть разбиты на три основные группы:
- функции, обеспечивающие выбор товара;
- функции, обеспечивающие покупку товара, оплату его стоимости;
- функции, обеспечивающие доставку товара покупателю.
Функции первой подгруппы чаще всего реализуются через так называемые Интернет-магазины [2.3].
Основная задача Интернет- магазина это предоставление пользователю максимально полной информации как о товарной номенклатуре, так и потребительских свойствах ( включая Design) каждого из продуктов.
Решение этих задач во многом определяется профессионализмом и художественным вкусом Web-дизайнера магазина.
Функции, обеспечивающие покупку товара, т.е. оплату его стоимости осуществляют связь между сервером магазина и сервером платежной системы, к которой подключен данный магазин [4,5].
С помощью этих функций покупателю предоставляется интерфейс для ввода в платежную систему параметров его кредитной карты и суммы платежа, если она не формируется автоматически магазином при выборе товара покупателем.
В случае получения положительного ответа из платежной системы начинают функционировать процессы обеспечения доставки товара.
Для товаров, которые могут быть пересланы по сети, формируются специальные электронные посылки-контейнеры, содержащие саму электронную версию проданного продукта, а также необходимую информацию для его установки и ввода в эксплуатацию.
В случае если объектом продажи был товар, который принципиально не может быть переслан по электрическим каналам (например, мебель) функции, обеспечивающие доставку товара, ограничиваются формированием необходимых сопроводительных и отчетных документов.
Вспомогательные функции
На рис. 2 показаны только основные «рабочие» функции Интернет.
Однако реальное и эффективное функционирование системы предполагает наличие в ней механизмов поддержки ряда «служебных», вспомогательных функций.
Помимо уже упомянутых функций обеспечения информационной безопасности системы, т.е. защиты системы от несанкционированного доступа, к числу таких функций относятся функции, обеспечивающие защиту пользователя от ненужной, избыточной (а для несовершеннолетних и вредной) информации, а также функции, обеспечивающие процесс поиска информации, необходимой пользователю.
Назовем функции первой группы функциями «информационной фильтрации», а второй - «информационного поиска».
Несмотря на различие конечных целей каждого из этих процессов между ними существует фундаментальная общность. «Найти, чтобы оградить пользователя от найденной информации» - вот лаконично изложенная сущность процесса информационной фильтрации.
Найти, чтобы предоставить пользователю найденную информацию» -вот «лозунг» процесса информационного поиска.
Нетрудно заметить, что общим в обоих предложениях является глагол «НАЙТИ». Назовем процесс, инициируемый задачей «Найти» - процессом «информационной идентификации». Этот процесс и опирающиеся на него информационный поиск и информационная фильтрация в той или иной мере присутствует во всех разделах «рабочего» функционального пространства Интернет.
Однако наибольшую значимость эти процессы приобретают в ходе выполнения самых массовых, самых «востребованных» функций» Интернет - функций информационного обеспечения пользователей сети. Рискуя повториться, еще раз подчеркнем, что от эффективности процессов информационного поиска и информационной фильтрации во многом зависит будущее всемирной паутины.
Поиск информации в Интернет, эволюция технологий
Как известно, вся информация в Интернет размещается на серверах, предоставляющих различные Интернет-услуги своим пользователям-клиентам. Внутри каждого сервера информация структурируется так, что отдельные ее фрагменты размещаются на страницах этого сервера. Каждая страница характеризуется своим адресом в Интернет, который включает в себя две компоненты: адрес сервера в сети Интернет и адрес страницы на сервере. Поскольку адреса серверов в сети Интернет являются уникальными и адрес страницы на сервере также является уникальным, то уникальным является и адрес страницы в Интернет.
В общем случае считается, что пользователь представляет себе, ЧТО его интересует, предполагает, что эта информация размещена в Интернет, но не знает ГДЕ (по какому адресу или по каким адресам) она находится. На ранних стадиях развития Интернет проблема поиска решалась традиционным путем. Владельцы сайтов давали информацию о них в редакции специальных справочников по информационным ресурсам Интернет. Эти справочники (по аналогии с телефонными называвшиеся «Желтые страницы») регулярно издавались и какое-то время служили главными источниками сведений об информационных ресурсах Интернет и единственным средством поиска информации в Web-пространстве. Однако, очень скоро темпы роста информационных ресурсов Интернет достигли таких значений, при которых «бумажный» метод хранения информации о ресурсах Интернет уже не смог справиться ни с объёмом этих ресурсов, ни с темпами их появления.
На смену бумажным хранилищам информации о ресурсах Интернет пришли электронные - так называемые машины поиска или поисковые машины (Search Engine).
С самого начала поисковые машины (ПМ) строились на базе двух различных принципов. Поисковые машины первого типа представляли собой иерархически организованный тематический каталог (дерево), к узлам которого прикреплялись списки адресов страниц, содержащих информацию соответствующего уровня и направленности. Такие ПМ называются «директориями».
ПМ второго типа строятся на базе так называемого «Индекса». В общем случае индекс можно представить себе как массив кортежей переменной длины. Первым элементом каждого кортежа является слово из словаря того языка, на котором будет вестись поиск. Последующие элементы кортежа представляют из себя адреса тех страниц Интернет-пространства, в которых данное слово встретилось хотя бы один раз.
Предполагается, что массив кортежей отсортирован по их первому элементу. Вектор-столбец, состоящий из этих элементов и являющийся по сути «расписанным в столбик» словарем, и служит индексом для поиска информации «по ключевым словам».
Отметим, что в общем случае ПМ может осуществлять поиск не только по отдельному ключевому слову, но и по логическому выражению, операндами которого являются ключевые слова.
Понятно, что ПМ «найдет» только те адреса страниц, которые на момент поиска были занесены в её «директорию» или «индекс». В первом случае в реальной практике такое занесение делается вручную одним или несколькими «экспертами», ответственными за наполнение ПМ-директории.
Во втором случае построение индекса осуществляется специальным механизмом (crawler), который входит в состав «индексной» ПМ. Crawler по определенному алгоритму сканирует некоторое множество сайтов, являющееся «зоной охвата» данной ПМ.
По мере развития сети Интернет увеличивалось число ПМ, расширялись зоны охвата наиболее мощных из них. Появились ПМ, специализирующиеся на определенных «тематических» или «географических» подпространствах общего пула Интернет-ресурсов. Однако рост Интернет-пространства, безусловно, опережал увеличение зон охвата ПМ, которые в относительном значении становились все уже.
Ликвидация этого «разрыва» явилась главной задачей появившихся вслед за поисковыми машинами средств «метапоиска» (МП).
Наиболее примитивные из них просто представляли из себя Интернет-страницу, на которой были собраны вместе адреса (ссылки) некоторого множества поисковых машин. Пользователь, «кликнув» любую из них, попадал на главную страницу ПМ, а завершив процедуру работы с данной поисковой машиной возвращался на исходную страницу, которая представляла собой некоторый «адресный мульплексор» или «портал».
Следующим шагом на пути метапоиска стало появление средств, предоставляющих пользователю не набор ссылок на группу ПМ, а непосредственные интерфейсы к этим машинам. На этих интерфейсах пользователю давалась возможность сформулировать запрос (для каждого интерфейса на языке той ПМ, агентом которой он является) и обратиться с ним к соответствующей ПМ.
В обоих случаях после обращения к каждой ПМ пользователь получал результат в виде нескольких HTML страниц с перечнем ссылок на найденные Интернет-ресурсы. Объединять же результаты, полученные от каждой ПМ, дабы добиться увеличения «охвата», пользователь должен был вручную.
Дальнейшая эволюция средств метапоиска привела к появлению так называемых метапоисковых машин (МПМ). МПМ автоматизировала два основных процесса многомашинного поиска - обращение с запросом к набору ПМ и объединение полученных результатов.
Следует отметить, что некоторые МПМ по сути являются метапоиско-выми машинами «второго порядка», так как включают в число поисковых средств, к которым они обращаются, не только ПМ, но и МПМ.
Однако проблемы, связанные с удовлетворением информационных потребностей пользователей Интернет не сводятся только к первичному поиску, осуществляемому на базе поисковых и метапоисковых машин. Технологии, применяемые при работе в WWW, значительно шире.
Во-первых, каким бы точным не оказалось логическое выражение на ключевых словах, лежащее в основе поискового запроса, полученный список адресов обязательно будет в той или иной степени содержать «мусор», «шум».
Какие-то страницы содержат информацию уже не актуальную, т.к. их содержание подменили уже после того, как эта страница была последний раз обработана поисковой машиной.
Некоторые страницы за этот период могут быть просто удалены.
Поэтому уже сегодня в качестве одной из технологий начинает находить применение процесс удаления из результатов работы ПМ (или МПМ) «мусора неактуальности».
Иногда пользователь заранее знает, какие ограничения на поиск необходимо наложить изначально, но у конкретной поисковой машины нет средств для задания (ну и, разумеется, реализации при поиске) этих ограничений.
Например, пользователь хотел бы получить информацию только из Web-pecypcoB Австралии (расширение ".аи" в адресах страниц). Или пользователь не хотел бы получать список, в который включено множество адресов страниц, относящихся к одному сайту. Ему было бы достаточно адреса Home page этого сайта. Поскольку сегодня далеко не всем ПМ (МПМ) можно предписать выполнение таких процедур усечения и сжатия, то технология такой «послепоисковой» обработки также имеет полное право на существование.
Борьба за выживание в океане WWW-информации постоянно побуждает создателей инструментария для работы в Интернет к поиску новых решений.
К ним можно отнести и построение собственных (корпоративных) индексов для повышения эффективности работы сотрудников корпорации. В таком вторичном корпоративном подпространстве Интернет-информации существенно снижается уровень шума при реализации запросов. Кроме того, уменьшается время доступа, т.к. для большинства пользователей этого ресурса доступ к нему предоставляется по локальной сети.
Однако не следует заблуждаться в том, что рост числа различных Web-технологий и инструментов, их реализующих, вызывает адекватный эффект от их применения.
Во-первых, большое число разрозненных, зачастую полностью дублирующих друг друга по функциям и при этом существенно различающихся по интерфейсам устройств, вносят известную сумятицу в головы пользователей, приводя иногда к парадоксальному «не выбрал ничего из-за обилия предложений».
Во-вторых, отсутствие каких-либо стандартов на большинство WWW-технологий, их разобщенность приводит к тому, что даже выбрав наиболее удачные из WWW-инструментов, пользователь при их совместном использовании будет вынужден вручную выполнять множество операций, призванных состыковать изначально несогласованные информационные интерфейсы.
Сегодня достаточно очевидно, что унификации Web-инструментов, интеграция Web-технологий - вот та ключевая задача, без решения которой к.п.д. от увеличения информационных ресурсов в Интернет-пространстве будет постоянно снижаться, парадоксально контрастируя с ростом их объема.
Проблеме унификации и интеграции Web-технологий, как важнейшему средству, обеспечивающему развитие Интернет с точки зрения повышения эффективности его использования, посвящается настоящая работа.
Цели и задачи работы
Целью работы является разработка интегрированной технологии решения задачи поиска информации в Web-пространстве Интернет, и реализация основных элементов этой технологии.
Для достижения поставленной цели решались следующие задачи:
1. Исследование современного состояния средств поиска информации на уровне поисковых и метапоисковых машин.
2. Структуризация пространства параметров, на основе которых осуществляется поиск.
3. Создание модели процедурного языка, описывающего все основные технологии работы в Web-пространстве и позволяющего гибко управлять процессами интеграции этих технологий. (Язык работы в Web-пространстве, Work in Web Language - WWL).
4. Создание архитектуры Интегрированной системы поддержки технологий работы в Web-пространстве Интернет (Web-машина), реализующей функцию интерпретатора программ на WWL и обеспечивающей интеграцию процессов на трех уровнях:
- на уровне обращения к ПМ;
- на уровне обработки полученных от ПМ ответов (результатов);
- на уровне анализа содержания страниц с текстами документов.
5. Реализация макета основных элементов \¥еЬ-машины и экспериментальная проверка отдельных технологий.
Заключение диссертация на тему "Интегрированная технология работы в Web-пространстве Internet"
- выводы о принципиальной не реализуемости концепции.
Результаты эксперимента, относящиеся к первой группе, не являются предметом рассмотрения в данной работе.
Отрицательных результатов, которые можно было бы отнести к 3-й и 4-й группам, не получено.
Результаты, относящиеся ко второй группе, позволили сформулировать определенное количество замечаний по описанию процедур и языку ЯоЬозсг1р1. С учетом этих замечаний КоЬоэспр! был существенно переработан, после чего лег в основу в части описания процедур обработки списков адресов.
ЗАКЛЮЧЕНИЕ
В процессе исследования по теме диссертационной работы получены следующие основные научные и практические результаты.
1. Предложена архитектура интегрированной \\геЬ-машины. В основе архитектуры лежит концепция интеграции ныне существующих технологий работы в Web-пpocтpaнcтвe Интернет и новых, предложенных автором.
2. Предложен язык - средство для описания процессов, реализуемых интегрированной \УеЬ-машиной, обобщающий языковые средства существующих инструментов поиска и расширенный средствами поддержки новых технологий.
3. Предложены новые технологии:
- "сканирование" с целью преодоления ограничений ПМ на количество выдаваемых результатов поиска;
- обработки "матриц" списков адресов с целью интеграции результатов, полученных от отдельных ПМ при реализации одного или нескольких запросов.
4. Предложены язык описания форматов входных и выходных данных поисковых и метапоисковых ПМ и МПМ, обеспечивающий снижение трудозатрат при подключении новых поисковых инструментов.
5. Создан макет метапоисковой системы, реализующей предложенные новые технологии и языки.
6. Проведена экспериментальная проверка предложенных технологий, подтвердившая их практическую реализуемость и потенциальную эффективность.
Библиография Адамович, Игорь Михайлович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Ф. Котлер. Прямой маркетинг и маркетинг в компьютерных сетях. Мир Интернет №7-8,1999, стр. 36-39.
2. А. Грунуев. Клуб русских виртуальных магазинов. Мир Интернет №2. 1999, стр. 52-55.
3. В. Анисимов. Электронная коммерция. Русские ресурсы. Мир Интернет №2, 1999, стр. 26-29.
4. С. Волков, В. Достов. Платежные механизмы современного Интернета. Мир Интернет №5, 2000, стр. 22-28.
5. А. Хайтин. Пространство решений для он-лайновой торговли. Мир Интернет №2, 1999, стр. 40-43.
6. AltaVista Support. SEARCH ENGINE Vs DIRECTORY SYSTEM. 2000. http://northernwebs.com/set/
7. Мир Internet /№9 1998. В. Капустин. Поиск информации в Интернет. Стр. 54.
8. V.N.Gudivada. Поиск информации в World Wide Web. Компьютерный еженедельник Computer Weekly Выпуск 35. Internet и интрасе-ти. 1997 С. 19-21,26,27.
9. Danny Sullivan. Search Engine Sizes. 2000. http://www.searchenginewatch.com/reports/sizes.html
10. Мир Internet /№10 1999. С. Жарков. Поиск в Интернете не просто, а очень просто. Стр. 70-73.
11. Эд Крол. Все об Internet. Руководство и каталог. Перевод с английского. Торгово-издательское бюро BHV/ Киев 1997. 591 стр.
12. How Search Engine Rank Web Pages. Search Engine Watch. 2000. http ://www. searchenginewatch.com/webmaster/rank.html
13. Планета Интернет. №2(4) 1997. B.K. Степанов. Русскоязычные поисковые системы в Интернет. Стр. 14.
14. Мир Internet /№11 1999.Новиков. О вреде и пользе метатегов. Стр.88-90.
15. Мир Internet /№11 1999. А. Крупник. Мысли о поиске. О. Стр. 70-73.
16. Ч. Мидоу. Анализ информационно-поисковых систем. Пер. с англ. -М.: "МИР", 1970. -368 с.
17. Soumen Chakrabarti, Byron Dom, S. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan and Andrew Tomkins. Hypersearching the Web. http://www.sciam.c0m/l999/0699issue/0699raghavan.html.
18. Randolph Hock, Paula Berinstein. The Extreme Searcher's Guide to Web Search Engines : A Handbook for the Serious Searcher. 1999. 240 стр.
19. Guide to Effective Searching of the Internet http ://www.thewebtools.com/tutorial/part2 .htm#topic2
20. Marshall Simmonds. SETerms. http://www.cadenza.org/searchengineterms/index.htm
21. Search IQ. 2000. http://www.searchiq.com/directory/general.htm
22. Danny Sullivan. Search Engine Watch. One big problem after another Everyday. 2000.http://www.searchenginewatch.com/links/Metacrawlers.html.
23. Alfred Glossbrenner, Emily Glossbrenner. Search Engines : For the World Wide Web (Visual Quickstart Guide Series) 2nd edition. Addison-Wesley Pub Co. 1998. 244 стр.
24. Разделы "Помощь" поисковых машин:43. http://www.rambler.ru/new/help.shtml44. http://www.aport.ru/WINP/help.htm (Раздел "Справка").45. http://www.aport.ru/WINP/help.htm46. http://tela.dux.ru/telahelp.html
25. В. Степанов. InfoSeek в Ultra-тонах. Планета Интернет. №5(7) 1997. Стр. 18.
-
Похожие работы
- Интегрирования технология работы в WEB-пространстве INTERNET
- Моделирование процессов динамического связывания Web-сервисов
- Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов
- Повышение уровня информационного сервиса в распределенных производственных системах на основе применения сервера приложений
- Методы построения инвариантных серверов web-приложений
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность