автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Инструментальные средства интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия
Автореферат диссертации по теме "Инструментальные средства интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия"
На правах рукописи
Чеснавский Александр Александрович
ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ИНТЕГРАЦИИ КОНТЕНТА УНАСЛЕДОВАННЫХ ВЕБ-ПРИЛОЖЕНИЙ В ЕДИНОЕ ИНФОРМАЦИОННОЕ ПРОСТРАНСТВО ПРЕДПРИЯТИЯ
05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Автор: //Ч^ - 0 ? АПР 2089
I/ ••:•• ;
Москва-2009
003466266
Работа выполнена в Московском инженерно-физическом институте (государственном университете)
Научный руководитель: кандидат технических наук, доцент
Скворцов Владимир Иванович
Официальные оппоненты: доктор технических наук, профессор
Шелупанов Александр Александрович
кандидат технических наук Сироткж Олег Владимирович
Ведущая организация: Всероссийский институт научной и
технической информации РАН (ВИНИТИ РАН)
Защита диссертации состоится 29 апреля 2009 г. в 15 часов 00 минут на заседании диссертационного совета Д 212.130.03 в Московском инженерно-физическом институте (государственном университете) по адресу: 115409, г. Москва, Каширское шоссе, 31.
С диссертацией можно ознакомиться в библиотеке института.
Автореферат разослан " " марта 2009 г. Ученый секретарь
диссертационного совета д.т.н.. профессор
Шумилов Ю.Ю.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследований
В последние десятилетия одной из основных характеристик бизнеса, вне зависимости от отрасли, географической или культурной принадлежности, стала глобализация. Уже не является удивительным, что для создания определенного продукта (например, автомобиля) комплектующие поставляются сотнями компаний из десятков стран. Интернет и веб-технологии, активно развивающиеся в последнее время, являются одним из катализаторов глобализации. Более того, интернет всего десять лет назад открыл новые возможности для ведения бизнеса и способствовал существенному росту экономики за счет организации коммуникаций между предприятиями, государственными учреждениями, населением. Более того, интернет активно используется конечными пользователями. Так, по данным Internet World Stats, доля проникновения интернета от общей численности населения в 2008 г. в США составила 73,6%, в Европе 48,1%, в России 23,2%. Количество пользователей интернета в России выросло в 10 раз за последние 8 лет и составляет порядка 33 млн.
Объем данных в сети интернет растет высокими темпами, и все чаще необходимая информация доступна в виде веб-страниц.. Это могут быть биржевые котировки, информация о публичных тендерах, курсы валют, новинки и изменения цен на продукцию конкурентов и т.п. Соответственно возникает задача получения данных с внешних веб-сайтов и использования полученных данных в бизнес-процессах. Однако HTML - язык разметки гипертекста - изначально не предназначался для автоматизированной обработки, это лишь средство для представления данных в браузере конечному пользователю. Таким образом, задача интеграции данных унаследованных веб-приложений в единое информационное пространство предприятия является нетривиальной.
В настоящее время задача веб-интеграции, создания унифицированного информационного пространства предприятия на основе веб-технологий, решается с помощью так называемых портальных платформ. Однако, даже самые развитые и функциональные портальные платформы предлагают ограниченный набор инструментов для интеграции унаследованных веб-приложений в единое информационное пространство. Ключевое ограничение связано с тем, что существующие портальные платформы ориентированы, в основном, на статичное отображение отдельных частей веб-страниц в виде портлетов, оставляя задачу обработки и интерпретации данных конечному пользователю. Такой подход, конечно, укладывается в классическую трактовку портала как интеграционного решения, в котором публикуются данные из различных источников, и большая часть их обработки возлагается на самого пользователя, но налагает существенные ограничения на построение единого интеграционного решения. Между тем, на практике
3
необходимо не только отображать данные из внешних веб-ресурсов, но и использовать их в различных бизнес-процессах. А для решения этой задачи уже недостаточно традиционного отображения HTML-данных унаследованного веб-приложения. Необходим анализ структуры исходной веб-страницы, отделение данных от элементов форматирования, составление иерархии данных на основе структуры тегов и предоставление полученной иерархии в унифицированном виде, удобном для дальнейшей автоматизированной обработки.
Целью диссертационной работы является построение методов, моделей и программных средств интеграции данных произвольных вебстраниц в единое информационное пространство. Использование результатов диссертационного исследования должно сократить временные и ресурсные затраты на реализацию задачи интеграции данных, предоставив разработчикам портальных решений адаптивное инструментальное программное средство для получения и представления в унифицированном формате данных внешних веб-страниц с целью их дальнейшей обработки. Для достижения этой цели в работе необходимо решить следующие задачи:
• исследовать современные модели и методы получения значимых данных с произвольных веб-сайтов, современные подходы к интеграции приложений для выявления основных проблем в области интеграции унаследованных веб-приложений;
• разработать модель унифицированного представления значимых данных веб-страниц;
• разработать алгоритм преобразования произвольной веб-страницы в унифицированное представление;
• разработать алгоритм анализа изменений иерархии значимых данных веб-страниц;
• разработать адаптивное инструментальное программное средство интеграции контента унаследованных веб-приложений;
• экспериментально проверить работоспособность разработанных методов и программных средств.
Методы исследования. При разработке математического аппарата в диссертационной работе используются методы теории графов, теории алгоритмов, методы обработки текстовой информации. При разработке программного обеспечения используются методы объектно-ориентированного, Web-ориентированного и клиент-серверного программирования, в т.ч. с использованием XML, XSLT, XPath-технологий.
Научная новизна работы заключается в следующем:
• разработана модель унифицированного представления иерархии значимых данных веб-сайтов;
• разработан алгоритм получения иерархии значимых данных произвольной веб-страницы и метод идентификации узлов полученной иерархии значимых данных;
• разработан алгоритм анализа изменений иерархии значимых данных на основе дистанции редактирования между двумя иерархиями значимых данных веб-сайтов;
• разработано адаптивное инструментальное программное средство для интеграции контента унаследованных веб-приложений.
Практическая значимость. Разработанные модели и методы извлечения значимых данных и анализа изменений в иерархии значимых данных вебстраниц могут быть использованы в следующих областях:
• интеграция унаследованных веб-приложений;
• создание композитных приложений;
• создание в среде Веб 2.0 новых сервисов на основе существующих веб-ресурсов;
• мониторинг изменений данных на веб-сайтах (например, мониторинг котировок акций, курсов валют, информации о продукции конкурентов, аукционах и т.п.);
• эффективное кэширование веб-страниц.
Реализация результатов. Предложенные в диссертации модели и методы получения и представления иерархии значимых данных веб-сайтов реализованы в виде адаптивного инструментального программного средства для интеграции контента унаследованных веб-приложений в среде портальной платформы. Разработанное инструментальное программное средство было использовано в проектах «Автоматизация процесса поставок» в компании ООО «Хайтиан» (российское представительство HAITIAN INTERNATIONAL Hlds., Ltd) и «Организация процесса продаж» в компании ООО «Умный софт», что подтверждается актами о внедрении.
На защиту выносятся:
• модель представления иерархии значимых данных веб-страницы;
• метод индексации элементов иерархии значимых данных;
• алгоритм получения иерархии значимых данных с произвольной вебстраницы;
• алгоритм анализа изменений иерархии значимых данных веб-сайтов;
• адаптивное инструментальное программное средство интеграции контента унаследованных веб-приложений в среде портальной платформы.
Апробация работы. Теоретические положения и практические результаты были доложены на следующих конференциях и семинарах:
• Научные сессии МИФИ 2003, 2004, 2006 - 2008 (г. Москва, 2003, 2004, 2006-2008 гг.);
• XVII Международный научно-технический семинар «Современные технологии в задачах управления, автоматизации и обработки информации» (г. Алушта, 2008 г.);
• Семинар «Современные ИТ-решения для повышения эффективности работы предприятия» (г. Санкт-Петербург, 2005 г.).
Публикации. Результаты диссертации опубликованы в 14 печатных трудах, в том числе в шести статьях в журналах, которые включены ВАК РФ в перечень ведущих рецензируемых научных журналов и изданий, в статье в журнале и тезисах докладов в сборниках трудов конференций.
Структура работы. Диссертация содержит четыре главы, раздел терминологии, введение и заключение, 65 рисунков, 6 таблиц, 2 приложения. Общий объем без приложений: 138 с. (с приложениями 144 е.). Список использованных источников литературы содержит 53 наименования.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, определяются
цели и задачи работы.
В первой главе проводится анализ современных методов и средств интеграции унаследованных приложений и, в частности, унаследованных веб-приложений, существующих алгоритмов анализа изменений в текстовых документах.
В настоящее время все сложнее найти предприятие, не использующее информационные технологии. Автоматизация проникает все глубже в бизнес-процессы компаний во всех отраслях экономики. Однако зачастую процесс автоматизации является неупорядоченным, что приводит к так называемой «лоскутной автоматизации», когда на предприятии нет единых автоматизированных бизнес-процессов, а есть обособленные информационные системы, в ряде случаев дублирующие друг друга. В результате возникает задача интеграции унаследованных приложений. Особо следует отметить, что в последнее время в связи с активным ростом Интернета и веб-технологий все более актуальной становится интеграция унаследованных веб-приложений.
В ходе анализа существующих подходов и технологий интеграции унаследованных приложений была предложена классификация систем, предназначенных для интеграции унаследованных приложений. На основе
данной классификации показано, что в контексте интеграции унаследованных всб-приложений наиболее подходящим способом интеграции является интеграция на уровне пользовательских интерфейсов. Однако использование традиционных технологий и методов интеграции веб-приложений в единое информационное пространство предприятия на базе портальной платформы не является результативным, т.к. обладает существенными ограничениями.
Во-первых, активно продвигаемая OASIS и Java Community Process концепция интероперабельных портлетов на базе таких стандартов, как Web Services for Remote Portlets (WSRP) и Java Specification Request 168 (JSR-168), подходит исключительно для интеграции веб-контента между порталами, поддерживающими эти стандарты. Учитывая крайне низкую распространенность таких решений (особенно вне корпоративных сетей), не представляется возможным использование данного подхода для интеграции абсолютного большинства унаследованных веб-приложений.
Во-вторых, использование механизма Web-clipping, который представлен в таких программных продуктах, как IBM WebSphere Portal, Oracle Portal, Microsoft SharePoint Server, также является затруднительным на практике, т.к. не учитывается такая специфика языка HTML, как совмещение в одном документе непосредственно данных и элементов форматирования, что, в конечном итоге, позволяет корректно работать лишь со статичными HTML-страницами. Это ограничение является существенным ввиду того, что большинство современных веб-ресурсов (представленных в среде интернет или интранет) являются динамическими. Это, соответственно, накладывает требования по интеграции значимых данных веб-сайтов, которые не могут быть решены с помощью традиционных механизмов портальных платформ.
В-третьих, в работе показано, что, несмотря на популярность использования в последнее время микроформатов как инструмента выделения семантики на веб-страницах, их применение как части языка разметки неизбежно приводит к внесению изменений в интегрируемый HTML-документ, что зачастую недопустимо.
Таким образом, для интеграции произвольных унаследованных веб-приложений необходимо получить с веб-страницы иерархию значимых данных, свободную от несущественных элементов форматирования и устойчивую к изменению на самой веб-странице, иметь возможности манипулирования полученными данными и анализа изменений в иерархии. В работе показано, что одной из ключевых сложностей является то, что существует довольно ограниченное число алгоритмов, подходящих для анализа изменений в иерархических документах. Если же рассматривать класс алгоритмов для анализа изменений в HTML-документах, то все известные автору алгоритмы ориентированы на синтаксический анализ изменений, что имеет невысокую применимость в более общей задаче
7
интеграции унаследованных веб-приложений в силу того, что необходимо, прежде всего, анализировать значимые изменения на веб-страницах. Под синтаксическим анализом изменений понимается анализ изменений в HTML-документах, не . делающий различия между значимыми данными и элементами форматирования этих данных, а также не учитывающий структуру значимых данных.
В работе показано, что наибольшую сложность в теоретических исследованиях и практических реализациях интеграции унаследованных веб-приложений представляют вопросы, связанные с задачами получения иерархии значимых данных с произвольной веб-страницы и анализа изменений в полученной иерархической структуре. Последняя задача не может быть решена с помощью существующих алгоритмов анализа изменений в текстовых документах на основе расстояния Левенштейна, Хэмминга и т.п. в виду необходимости учитывать иерархию данных. Однако показано, что эти алгоритмы могут применяться как часть общей задачи анализа изменения в иерархии значимых данных веб-сайтов.
В данной части работы сформулированы ключевые проблемы интеграции контента унаследованных веб-приложений и поставлены детальные задачи диссертационного исследования.
Во второй главе даются формальные описания алгоритма построения иерархии значимых данных, модели представления иерархии значимых данных веб-сайтов, метода идентификации узлов иерархии значимых данных, алгоритма анализа изменений иерархии значимых данных веб-сайта.
Структурно HTML-документ состоит из одной или более секций, которые:
• находятся друг относительно друга на одном уровне иерархии, например, Section 1, Section 2, и т.д.;
• одна секция структурно включает другую, например, Section 1 и Section 12\
• две секции находятся на разных уровнях и одна из них не включает другую, например Section 1.3 и Section 4.
Основная задача - определить иерархию секций в HTML-документе, используя HTML-теги. Поскольку язык HTML был создан не столько для структурирования данных, сколько для их отображения конечному пользователю посредством веб-браузера, данные и элементы форматирования на веб-странице смешаны, отсутствуют требования к обязательному наличию закрывающих тегов и т.п. Таким образом, более детально задача заключается в идентификации того, какие HTML-теги могут быть использованы для конструирования иерархической структуры данных
HTML документа (Тип 1), а какие служат для представления данных конечному пользователю (Тип 2). Список тегов с разделением по типам представлен на рис. 1.
Рис. 1 Группы HTML тегов
С точки зрения построения иерархии значимых данных веб-сайтов можно выделить два основных типа данных на веб-страницах: табличные, т.е. данные, которые заключены в тег TABLE, и нетабличные. Конструирование иерархии для нетабличных данных состоит из двух шагов. На первом шаге все теги типа 2 удаляются из исходного HTML документа. На втором шаге иерархия значимых данных конструируется на основе отношения предшествования нетабличных HTML гегов так, как это изображено на рис. 2. Предшествование между двумя HTML элементами А и В, обозначаемое А»В, показывает, что данные, содержащиеся в А, находятся выше в соответствующей иерархии, чем данные, содержащиеся в В.
TITLE, МЕТА, ADDRESS Hl H2 H3 a H4
P,IMG * U,DT,DD Ii UL, OL, DIR, MENAU, DL, CENTER, PRE, BLOCKQOUTE - H6 m HS
Рис. 2 Порядок предшествования нетабличных элементов (тип 1)
После определения порядка предшествования среди тегов типа 1 (за исключением тегов, предназначенных для создания таблиц) в HTML документе Н применяются соответствующие правила к Н для конструирования иерархии S.
Обработка табличных данных принципиально отличается от процедуры построения иерархии значимых нетабличных данных. Типовая HTML-таблица имеет как минимум один столбец-заголовок в верхней части таблицы и как минимум одну строку-заголовок в левой части. Такой тип таблиц в работе называется строчно-столбцовым. Другой тип таблицы содержит как минимум один столбец-заголовок (одну строку-заголовок) и называется в этом случае столбцовым (строчным соответственно) типом таблицы. Заголовки в строчных и столбцовых таблицах задают схему таблицы. Для любых таблиц, которые не имеют элементов ТН, в ходе анализа было выявлено, что первая строка или столбец обычно используется как заголовок. Кроме того, такие атрибуты табличных элементов, как ROWSPAN и COLSPAN, играют существенную роль при построении иерархии значимых данных, т.к. объединяют соответствующие строки и столбцы конечной HTML-таблицы.
Для представления иерархии значимых табличных данных в работе вводится понятие псевдотаблицы, которая может рассматриваться как особый тип HTML-таблицы и может быть использована для выражения строчно-столбцовых, строчных и столбцовых таблиц. Общая схема построения иерархии значимых табличных данных - это, в первую очередь, отображение таблицы Т на псевдотаблицу и, затем, получение из нее иерархии значимых данных. HTML-грамматика определяет иерархию HTML-документа отношением контейнер-содержимое между тегами и данными, что отлично от иерархии в псевдотаблице, поскольку в псевдотаблице нет тегов. Рис.3 иллюстрирует псевдотаблицу и соответствующую иерархию значимых данных. Основная задача в конструировании псевдотаблицы - это определить каждую строку, т.е.
из
о-п ...aln(l<i<7Ti),
столбец, т.е. а.у ... ату (1 < j < n),
соответствующей HTML-таблицы.
Ci Cv
ali <hn
...
ami amn
Рис. 3 Псевдотаблица T и соответствующая иерархия значимых данных
Разработана модель унифицированного представления иерархии значимых данных в XML- и RDF-формате, которая повышает интероперабельность результатов работы адаптивного инструментального программного средства интеграции контента унаследованных веб-приложений. Одной из основных задач, связанных с обработкой полученной иерархии, является корректная идентификация узлов. В работе показано, что традиционные техники обхода дерева (например, префиксный, суффиксный) возможны как способ нумерации узлов дерева, но обладают существенными недостатками в контексте изменения структуры иерархии значимых данных. В качестве решения предлагается использовать ХРаШ-нотацию для идентификации узлов. Данный подход позволяет обеспечить навигацию и манипулирование отдельными элементами иерархии значимых данных, а также повышает устойчивость индексации элементов к изменениям в структуре иерархии значимых данных.
Еще одной немаловажной задачей, связанной с обработкой полученной иерархии, является анализ изменений в иерархии значимых данных. Другими словами, возникает задача определения степени соответствия между двумя HTML-страницами или отдельными их частями. В работе показано, что в данном случае можно применить аппарат анализа дистанции редактирования между двумя помеченными упорядоченными ориентированными деревьями. На основе данного математического аппарата разработан алгоритм анализа изменений иерархии значимых данных веб-сайтов, который может применяться для мониторинга изменений данных на веб-сайтах, эффективного кэширования веб-страниц за счет анализа степени отличия исходной и текущей иерархии веб-сайта.
Операции редактирования образуют т.н. отображение, которое является графическим представлением операций редактирования, применяемым к обоим деревьям. Рассмотрим преобразование, представленное на рис. 4.
Это преобразование соответствует последовательности операций редактирования (с!е1е1е(узел с), change(gf -» К), insert (узел с)). Каждый узел дерева представляет собой строку символов из алфавита 2. Пусть A g 2 -уникальный null-символ. Операция редактирования представляется в виде а -» Ъ, а,Ъ £ X U Я. Определяется три вида операций а -» Ь: редактирование (а Я и b Я), удаление (а ^ Ди b - Я) и вставка (а = Я и b Ф Я).
Пусть S — это последовательность slf...,st операций редактирования. Тогда S-выводом дерева В из дерева А называется последовательность деревьев Аг,...,Ак, такая что А — А0,В = А/^А^ -> А( с помощью операции s; для 1 < i < к.
В работе показано, что мера стоимости дистанции редактирования у(М) отображения из Тг в Г2может быть выражена следующей формулой:
£ /(tiM^tzWH ^ y(tiW^A)
07)ем {i |a/,(i,/)6M}
+ у(я t2[i])
{;|3i,0V)eM}
Мера / определяется либо как стандартная операция редактирования узла дерева, либо на основе дистанции редактирования Левенштейна между строками значений узлов tj[i] и t2[i], что позволяет в случае динамически изменяющихся значений узлов иерархии значимых данных определять изменения в самой структуре и определять меру схожести исходного и целевого дерева, а также в ряде задач производить поиск части дерева по шаблону.
В третьей главе рассмотрены подходы к проектированию и разработке адаптивного инструментального средства интеграции контента унаследованных веб-приложений. Приведены основные результаты и особенности разработки системы, функционирующей в рамках Microsoft SharePoint Server 2007 в среде .NET.
Объектная модель данных разработана с использованием шаблонов (паттернов) проектирования. Основная особенность разработанной модели -модульность, возможность замены отдельных компонентов системы в зависимости от требований к конкретному интеграционному решению.
Разработана архитектура системы интеграции контента унаследованных веб-приложений, включающая в себя компонент построения иерархии значимых данных, идентификации и анализа изменений узлов, визуализации и пользовательской настройки результирующих данных. Система реализована как Web-приложение, разработанное в среде ASP.NET, в качестве репрезентационного компонента используется портальный сервер Microsoft SharePoint Server 2007. Выбор репрезентационного компонента
12
обоснован сравнительным анализом таких программных продуктов, как IBM WebSphere Portal , Oracle Application Server lOg, Microsoft SharePoint Server 2007, SunOne Portal, SAP Enterprise Portal на основе методики Refined Hierarchical Analysis, разработанной компанией Gartner.
Архитектура разработанного адаптивного инструментального программного средства для интеграции унаследованных веб-приложений представлена на рис. 5.
Пспьэоегпепь
HTTP 3anpocwfoT«i<;ru
-----i-
Внешний вебсайт
КИР-Загросо^опеть!
•• Intwnrt Information Setvw >
-ж-
Генерал* Страниц *
Каталог внешних санных
Управление правами доступ«
БоЗоеые сервисы SharePotnt --
Обреботка иерархии
MwrcBoft Office Shar*PtMf« Swvtr 2CC7
? Обработка HTML- ( | страниц 1 Построение иерархий
Визуализации Анализ изменении
Рис. 5 Архитектура адаптивного инструментального программного средства
Общую схему интеграции унаследованных веб-приложений с помощью разработанного инструментального средства можно разделить на три основных блока:
• внешние информационные ресурсы (всб-сайты), на которых находится необходимый для интеграции контент;
• компонент построения иерархии значимых данных, который на вход получает веб-страницу, а в качестве выхода формирует уницированное XML- или RDF-представление иерархии значимых данных веб-страницы с возможностью адресации и отслеживания изменений отдельных элементов;
• компонент обработки иерархии значимых данных. В работе показано, что в качестве данного компонента может быть не только портальный сервер, как это указано на рис. 5, но и любая информационная система, например, сервер приложений,
13
позволяющий публиковать веб-страницы в виде XML-иерархий, компонент трансформации иерархии в другие форматы ее представления (например, RDF и т.п.), сервер интеграции бизнес-процессов (например, на основе WSBPEL - Web Services Business Process Execution Language) для интеграции унаследованных приложений (в т.ч. и веб-приложений), создания композитных приложений или создания в среде Веб 2.0 новых сервисов на основе существующих веб-ресурсов.
В четвертой главе приводятся результаты экспериментальной проверки работоспособности инструментального программного средства, выделены ключевые особенности функционирования решения, а также предложены перспективы дальнейшего развития.
Для экспериментальной проверки работоспособности инструментального программного средства были сформированы две выборки тестовых данных: выборка существующих сайтов различной тематики и структуры представленных на них данных и выборка специально сгенерированных HTML-документов, содержащих табличные данные. В результате были получены фактические данные и проведен анализ зависимости времени выполнения основных этапов работы инструментального программного средства (получение HTML-страницы, первичная обработка полученной веб-страницы, построение иерархии значимых данных, индексация иерархии значимых данных) от таких факторов, как размер исходной страницы, наличие табличных данных, количество узлов иерархии значимых данных (рис. 6).
2000 t 1500
О. II т
V т i I л ■ ■
с looo -I--- —•—0 Im-r- Ift——
i о UliiliJ !1У ti
I & ^VVVVVVV * V „
a. Ш
Количества строк в HTML-странице
■ Получение HTTP □ Обработка HTML В Создание иерархии О Индексация иерархии
Рис. 6 Распределение времени выполнения основных операций
Для апробации адаптивного инструментального программного средства было проведено моделирование на основе разработанного
прототипа программного комплекса для интеграции контента унаследованных веб-приложений. В работе подробно рассматриваются все этапы получения и визуализации данных с внешних сайтов в среду портальной платформы Microsoft SharePoint Server 2007 с помощью разработанного инструментального программного средства.
С точки зрения дальнейших перспектив развития разработанного адаптивного инструментального программного средства показано, что можно не только проводить визуализацию данных унаследованных веб-приложений, но использовать такие механизмы портальной платформы, как списковые типы данных и Business Data Catalog для реализации логики обработки данных с нескольких веб-сайтов и публикации на портале агрегированной информации.
Следует отметить, что алгоритм построения иерархии значимых данных может быть использован не только в задаче создания единого унифицированного информационного пространства пользователя, но и в более общей задаче интеграции унаследованных веб-приложений с помощью систем класса Enterprise Application Entegration (EAI). В этом случае результаты работы инструментального программного средства могут рассматриваться как сервис (в терминологии систем EAI - адаптер) получения значимых данных произвольной веб-страницы в унифицированном XML- или RDF-представлении. Иерархия значимых данных (или отдельные узлы иерархии) может быть использована при автоматизации бизнес-процессов благодаря тому, что и сама иерархия, и язык интеграции бизнес-процессов WSBPEL (Web Services Business Process Execution Language, язык для интеграции бизнес-процессов) основаны на XML и в своей работе используют соответствующие специализированные технологии (например, XPath, XSLT и т.п.).
Результаты диссертационного исследования использованы в проектах «Автоматизация процесса поставок» в компании ООО «Хайтиан» (российское представительство HAITIAN INTERNATIONAL Hlds., Ltd) и «Организация процесса продаж» в компании ООО «Умный софт». В соответствии с актом о внедрении инструментального программного средства в ООО «Хайтиан» использование указанных результатов позволяет: сократить срок поставок продукции заказчикам за счет своевременного информирования сотрудников об изменении состояния заказа, уменьшить количество ошибок за счет интеграции разрозненных информационных систем, повысить удовлетворенность и лояльность клиентов благодаря предоставлению полной и актуальной информации о заказе. По результатам опытной эксплуатации разработанного интеграционного решения для ООО «Умный софт» были достигнуты следующие результаты: увеличилось число поступивших первичных заявок на продажу и внедрение программных решений компании ООО «Умный софт» (в среднем на 142%), увеличилось
число первичных встреч с клиентами (на 38%), повысилась эффективность работы менеджеров по продажам.
В заключении отражены основные результаты, полученные в данной работе.
В приложениях содержатся таблицы с информацией о выборке вебсайтов для экспериментальной проверки разработанного адаптивного инструментального программного средства, копии актов о внедрении системы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Основные результаты, полученные автором диссертационного исследования, состоят в следующем:
• Проанализированы существующие подходы к интеграции приложений для выявления основных современных проблем в области интеграции унаследованных приложений. В результате анализа предложена классификация систем интеграции приложений.
• Проведено исследование современных моделей и методов получения значимых данных с произвольных веб-сайтов, выявлены ключевые особенности и требования к разработанному алгоритму получения иерархии значимых данных унаследованных веб-приложений.
• Разработан алгоритм получения иерархии значимых данных произвольной веб-страницы с учетом структуры тегов и степени их влияния на иерархию данных.
• Разработана модель унифицированного представления иерархии значимых данных в XML- и RDF-формате, которая повышает интероперабельность результатов работы адаптивного инструментального программного средства интеграции контента унаследованных веб-приложений. Разработанный метод индексации элементов иерархии с помощь XPath-нотации предоставляет возможности получения и манипулирования отдельными элементами иерархии данных, а также повышает устойчивость индексации элементов к изменениям в структуре иерархии значимых данных.
• Разработан алгоритм анализа изменений и сопоставления иерархий значимых данных на основе дистанции редактирования в упорядоченных помеченных деревьях.
• На основе портальной платформы Microsoft SharePoint Server 2007 и технологии .NET разработано инструментальное программное средство для интеграции контента унаследованных веб-приложений, позволяющее получить унифицированное представление значимых данных с произвольной веб-страницы, выделить отдельные элементы и отобразить их в специализированном портлете на странице портала.
• Проведена экспериментальная проверка работы предложенных алгоритмов, моделей и методов на базе прототипа интеграционного решения, созданного с помощью адаптивного инструментального программного средства.
• Результаты диссертационного исследования использованы в проектах «Автоматизация процесса поставок» в компании ООО «Хайтиан» (российское представительство HAITIAN INTERNATIONAL Hlds., Ltd) и «Организация процесса продаж» в компании ООО «Умный софт», что подтверждается соответствующими актами о внедрении.
Результаты работы показывают, что поставленные цели построения, анализа и программной реализации интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия можно считать достигнутыми. Практическое внедрение разработанного адаптивного инструментального программного средства подтвердило теоретические разработки, предложенные в данной работе и показало возможность практического использования в задаче интеграции унаследованных веб-приложений.
Основные положения диссертационной работы опубликованы в печатных работах [1-14].
Основные публикации по теме диссертации
1. Чеснавский, A.A. Семантическое отслеживание изменений на вебсайтах [Текст] / A.A. Чеснавский // Вести. НГУ. Сер. Информационные технологии. Т.5. — Новосибирск, 2008. - Вып. 5. - С. 87-94.
2. Чеснавский, A.A. Интеграция унаследованных веб-приложений [Текст] / А.А.Чеснавский // Вестн. компьютерных и информационных технологий. - М., 2009. - №3. - С. 31 -36.
3. Чеснавский, A.A. Анализ изменений данных в html-документах [Текст] / А.А.Чеснавский // Вестн. компьютерных и информационных технологий. - М., 2008. - №4. - С. 37-44.
4. Чеснавский, A.A. Практическое применение алгоритма семантического анализа изменений в HTML-документах [Текст] / А.А.Чеснавский // Информационные Технологии. - М., 2009. - №1 - С.51-58.
5. Чеснавский, A.A. Семантическое отслеживание изменений на вебсайтах [Текст] / А.А.Чеснавский // Информационные Технологии. - М., 2008. -№5 - С.16-22.
6. Чеснавский, A.A. Практическое применение алгоритма семантического анализа изменений в html-документах [Текст] / A.A. Чеснавский И Вестн. НГУ. Сер. Информационные технологии. Т.6. - Новосибирск, 2008.-Вып. 1.-С. 89-99.
7. Информационная система CACHE DOWNLOAD PAGE (CDP) / Визгалов Е.И., Кравцова А.Ю., Макаров П.А., Микушкин Д.И., Свеженцев Д.К., Чеснавский A.A. // Научная сессия МИФИ-2003. Сборник научных трудов. Т.13 Технологии разработки программных систем. Информационные технологии. - М.: МИФИ, 2003. - С. 25 -26.
8. Чеснавский, A.A.. Интеграция унаследованных веб-приложений [Текст] / A.A. Чеснавский II Современные технологии в задачах управления, автоматики и обработки информации: Труды XVII Международного научно-технического семинара. - СПб: ГУАП, 2008. -С. 237.
9. Чеснавский, A.A. Семантическое отслеживание изменений на вебсайтах [Текст] / А.А.Чеснавский // Управление большими системами. -Вып. 19.-М., 2008.-С. 134-153.
Ю.Чеснавский, A.A. Унифицированный подход к интеграции унаследованных приложений [Текст] / А.А.Чеснавский // Научная сессия МИФИ-2006. Сборник научных трудов. Т.2 Технологии разработки программных систем. Информационные технологии. - М.: МИФИ, 2006.-С. 104-105.
П.Соловьев, Н.Г., Чеснавский, A.A. Механизм обмена данными в гетерогенных системах [Текст] / Н.Г. Соловьев, А.А.Чеснавский // Научная сессия МИФИ-2004. Сборник научных трудов. Т.2 Технологии разработки программных систем. Информационные технологии. - М.: МИФИ, 2006.-С. 97-98.
12.Чеснавский, A.A.. Анализ семантических изменений на веб-сайтах [Текст] / A.A. Чеснавский // Современные технологии в задачах управления, автоматики и обработки информации: Труды XVII Международного научно-технического семинара. — СПб: ГУАП, 2008. -С. 238.
13.Чеснавский, A.A. Интеграция унаследованных веб-приложений [Текст] / А.А.Чеснавский // Научная сессия МИФИ-2007. Сборник научных трудов. Т.2 Технологии разработки программных систем. Информационные технологии. -М.: МИФИ, 2007. — С. 90-91.
М.Чеснавский, A.A. Семантическое отслеживание изменений на вебсайтах [Текст] / А.А.Чеснавский II Научная сессия МИФИ-2008. Сборник научных трудов. Т. 11 Технологии разработки программных систем. Информационные технологии. - М.: МИФИ, 2008. - С. 89-91.
Подписано в печать:
24.03.2009
Заказ № 1778 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru
Оглавление автор диссертации — кандидата технических наук Чеснавский, Александр Александрович
Введение.
1 Анализ современных способов интеграции унаследованных веб-приложений
1.1 Классификация существующих подходов к интеграции информационных систем.
1.2 Анализ моделей и методов интеграции пользовательских интерфейсов
1.3 Интеграция веб-приложений на основе веб-клиппинга.
1.4 Анализ существующих алгоритмов поиска изменений.
1.5 Описание семантики данных с помощью Resource Description Framework
1.6 Постановка задачи создания алгоритма построения иерархии значимых данных.
1.7 Выводы по главе.
2 Разработка моделей и методов построения и анализа изменений иерархии значимых данных.
2.1 Разработка алгоритма построения иерархии значимых данных вебстраницы.
2.2 Разработка алгоритма анализа изменений иерархии значимых данных
2.3 Разработка модели унифицированного представления иерархии значимых данных.
2.4 Разработка метода идентификации элементов иерархии значимых данных.
2.5 Выводы по главе.
3 Реализация инструментального программного средства для интеграции унаследованных веб-приложений.
3.1 Разработка архитектуры инструментального программного средства интеграции унаследованных веб-приложений.
3.2 Обоснование выбора технологии реализации АПИ.
3.3 Разработка диаграммы классов АПИ.
3.4 Соглашения о внутреннем устройстве АПИ.
3.5 Разработка преобразования иерархии значимых данных в формат 1ШР
3.6 Проведение настройки и отладки АПИ.
3.7 Выводы по главе.
4 Апробация инструментального программного средства для интеграции унаследованных приложений.
4.1 Экспериментальная проверка работы инструментария для интеграции унаследованных приложений на основе АПИ.
4.2 Интеграция данных внешнего веб-ресурса в программный комплекс на базе инструментального программного средства.
4.3 Определение границ применимости инструментария для интеграции унаследованных веб-приложений на основе АПИ.
4.4 Описание внедрений инструментального программного средства.
4.5 Перспективы развития инструментария для интеграции унаследованных веб-приложений на основе АПИ.
4.6 Выводы по главе.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Чеснавский, Александр Александрович
Актуальность темы исследований
В последние десятилетия одной из основных характеристик бизнеса как такового, вне зависимости от отрасли, географической или культурной принадлежности, стала глобализация. Уже не является удивительным, что для создания определенного продукта (например, автомобиля) комплектующие поставляются сотнями компаний из десятков стран мира. Интернет и веб-технологии, активно развивающиеся в последнее время, являются одним из катализаторов динамичной глобализации. Более того, интернет всего десять лет назад открыл новые возможности для ведения бизнеса и способствовал существенному росту экономики за счет организации коммуникаций на уровне В2В (business to business), В2С (business to customer), B2G (business to government) и т.п. Более того, интернет стал не только неотъемлемой частью в ведении бизнеса, но и активно используется конечными пользователями. Так, по данным Internet World Stats [1], доля проникновения интернета от общей численности населения в 2008 г. в США составляет 73,6%, в Европе 48,1%, в России 23,2%. Только для России количество пользователей интернета составляет порядка 33 млн. Если говорить про рост использования интернета, то в период 2000-2008 число пользователей интернета в России выросло в 10 раз. Аналогичным образом растет и объем данных в интернете. По оценкам WorldWideWebSize.com сеть интернет по состоянию на март 2008 года содержит 46.5 миллиардов проиндексированных страниц. Это в совокупности дает петабайты данных.
Следует отметить, что существенную часть данных составляют данные, значимые для пользователей и бизнес-процессов предприятия. Это могут быть биржевые котировки, информация о публичных тендерах, курсы валют, новинки и изменения цен на продукцию конкурентов и т.п. В настоящее время все эти данные зачастую публикуются в виде HTML-страниц (далее вебстраниц) и возникает задача получения данных с внешних веб-сайтов и использование полученных данных в бизнес-процессах. Однако, HTML - язык разметки гипертекста - изначально не предназначался для автоматизированной обработки, это лишь средство для представления данных в браузере конечному пользователю. Таким образом, задача интеграции данных с унаследованных веб-приложений в единое информационное пространство предприятия является нетривиальной.
В настоящее время для интеграции веб-приложений в единое информационное пространство используются портальные платформы (например, Microsoft SharePoint Server, IBM WebSphere Portal, Oracle Portal и т.п.). Однако портальные платформы предлагают ограниченный набор инструментов для интеграции унаследованных веб-приложений. Основной недостаток этих инструментов заключается в том, что они предназначены исключительно для статичного отображения отдельных частей веб-страниц в виде портлетов и не обрабатывают данные веб-страниц, возлагая это на конечного пользователя. Такой подход укладывается в классическую трактовку портала, как интеграционного решения, в котором публикуются данные из различных источников и большая часть их обработки возлагается на самого пользователя, но на практике необходимо не только отображать данные внешних веб-ресурсов, но и использовать их в различных бизнес-процессах. Необходим анализ структуры исходной веб-страницы, отделение данных и элементов форматирования, создание иерархии данных на основе структуры тегов и предоставление полученной иерархии в унифицированном виде, удобном для дальнейшей автоматизированной обработки.
Кроме того, если говорить про актуальность работы, то иллюстративным является один из последних отчетов компании Gartner, посвященный анализу жизненного цикла технологий, связанных с интернетом и построением пользовательских интерфейсов [2] (рис. 1). visibility illj RIA Rich Client
WO A: Enterprise REST \ /' and POX ~\0 J Mashup Applications —sX) Social Software Suites V Second-Generation V) Poriiet Standaros —O (JSR 286 and WSRP v.2) O
Cloud/Web Platforms i t Private Virtual Worlds •
Social Applications 0 | Web 3.0 jj
Social Mining and »Cloud Computing Social Intelligence
Portal Fabric -^M
RIA Platforms О Composite Applications
I Federated Portals Across Vendor Families
Portlets jy—(Public Virtual W( Q—Web 2.0
0"" SOA t*Qr
Web Analytics '— i-nterpnse Portals О
Basic Web Services
Enterprise-Class RSS 4
Service-Oriented Business Applications
I Context Delivery Architecture
RSS in the Enterprise Federated Portals Within Vendor Families -Corporate Blogging
Semantic Web Advanced Web Services
As of July 2008
Technology Trigger
Peak of Inflated
Expectations
Trough of Disillusionment
Slope of Enlightenment
Plateau of Productivity
Years to mainstream adoption:
O less than 2 years O 2 to 5 years
Source: Gartner (July 2008) time obsolete i 5 to 10 years A more than 10 years ® before plateau
Рис. 1 Анализ жизненного цикла веб-технологий и средств создания пользовательского интерфейса (Нуре Cycle for Web and User Interaction Technologies, 2008 [2])
Если рассматривать технологии, упоминаемые в этом отчете, то предложенные' в работе модели и методы интеграции унаследованных приложений могут быть рассмотрены в контексте следующих областей отчета компании Gartner:
1. приложения, комбинирующие в себе информацию из различных источников (Mashup applications). Такие приложения представляют собой сервисы, которые для своей работы используют функциональность других сервисов, формируя, таким образом, новые композитные сервисы и становясь в свою очередь источником информации для других сервисов. Таким образом, образуется совокупность взаимосвязанных сервисов, интегрированных друг с другом [3].
2. корпоративные RSS-источники (Enterprise-Class RSS). Really Simple Syndication (RSS) - открытый формат для представления информационного наполнения веб-сайтов в стандартизированном виде для использования в других приложениях. [4];
3. композитные приложения (composite applications). Композитное приложение представляет собой составное решение, реализующее новую функциональность с использование уже существующих гетерогенных источников данных и приложений [5].
4. веб 2.0 — концепция создания веб-приложений с интерактивным участием пользователей в создании информационного наполнения. В результате совместной работы контент таких веб-приложений активно пополняется и выверяется множеством людей [6]. Следует отметить, что значение этого термина до сих пор является предметом многочисленных споров, и нет устоявшегося единого определения.
5. семантическая паутина (семантический веб) предназначена для машинной обработки информации, доступной в среде интернет. Основное внимание уделяется метаданным для определения свойств и содержания веб-ресурсов [7].
Все эти технологии с одной стороны являются востребованными, однако, с другой стороны еще далеки от детальной проработанности и выхода на массовое использование (т.н. «плато продуктивности»), что подтверждает актуальность темы исследований.
Целью диссертационной работы является построение методов, моделей и программных средств интеграции данных произвольных веб-страниц в единое информационное пространство предприятия. Использование результатов диссертационного исследования должно сократить временные и ресурсные затраты на реализацию задачи интеграции данных, предоставив разработчикам портальных решений адаптивный инструментарий для получения и представления в унифицированном формате данных внешних вебстраниц с целью их дальнейшей обработки. Для достижения этой цели в работе необходимо решить следующие задачи:
• исследовать современные модели и методы получения значимых данных с произвольных веб-сайтов, современные подходы к интеграции приложений для выявления основных проблем в области интеграции унаследованных веб-приложений;
• разработать модель унифицированного представления значимых данных веб-страниц;
• разработать алгоритм преобразования произвольной веб-страницы в унифицированное представление;
• разработать алгоритм анализа изменений иерархии значимых данных веб-страниц;
• разработать адаптивное инструментальное программное средство интеграции унаследованных веб-приложений, позволяющее: о получить унифицированное представление значимых данных произвольной веб-страницы; о выделить атомарные элементы иерархии значимых данных; о отобразить значения выделенных элементы в отдельном портлете на странице портала; о обеспечить обновление значений выделенных элементов иерархии значимых данных при изменении соответствующих данных исходной веб-страницы.
• экспериментально проверить работоспособность разработанных методов и программных средств.
Методы исследования. При разработке математического аппарата в диссертационной работе используются методы теории графов, теории алгоритмов, методы обработки текстовой информации. При разработке программного обеспечения используются методы объектно-ориентированного,
Web-ориентированного и клиент-серверного программирования, в т.ч. с использованием XML, XSLT, XPath-технологий.
Научная новизна работы заключается в следующем:
• разработана модель представления иерархии значимых данных вебсайтов;
• разработан алгоритм получения иерархии значимых данных произвольной веб-страницы и метод идентификации узлов полученной иерархии значимых данных;
• разработан алгоритм анализа изменений структуры иерархии значимых данных на основе дистанции редактирования между двумя иерархиями значимых данных веб-сайтов;
• разработано адаптивное инструментальное программное средство для интеграции унаследованных веб-приложений.
Практическая значимость. Разработанные модели и методы получения значимых данных и анализа изменений в иерархии значимых данных вебстраниц могут быть использованы в следующих областях:
• интеграция унаследованных веб-приложений;
• создание композитных приложений;
• создание в среде Веб 2.0 новых сервисов на основе существующих веб-ресурсов;
• мониторинг изменений данных на веб-сайтах (например, мониторинг котировок акций, курсов валют, информации о продукции конкурентов, аукционах и т.п.);
• эффективное кэширование веб-страниц.
Реализация результатов. Предложенные в диссертации модели и методы получения и представления иерархии значимых данных веб-сайтов реализованы в виде адаптивного инструментального программного средства для интеграции унаследованных веб-приложений в среде портальной платформы. Разработанное инструментальное программное средство было использовано в проектах «Автоматизация процесса поставок» в компании ООО «Хайтиан» (российское представительство HAITIAN INTERNATIONAL Hlds., Ltd) и «Организация процесса продаж» в компании ООО «Умный софт».
Апробация работы. Теоретические положения и практические результаты были доложены на следующих конференциях и семинарах:
• Научные сессии МИФИ 2003,2004, 2006-2008 (г. Москва, 2003, 2004, 2006 - 2008 гг.);
• XVII Международный научно-технический семинар «Современные технологии в задачах управления, автоматизации и обработки информации» (г. Алушта, 2008 г.);
• Семинар «Современные ИТ-решения для повышения эффективности работы предприятия» (г. Санкт-Петербург, 2005 г.).
Публикации. Результаты диссертации опубликованы в 14 печатных трудах, в том числе в шести статьях в журналах, которые включены ВАК РФ в перечень ведущих рецензируемых научных журналов и изданий, в статье в журнале и тезисах докладов в сборниках трудов конференций.
Структура работы. Диссертация содержит четыре главы, раздел терминологии, введение и заключение, 65 рисунков, 6 таблиц, 2 приложения. Общий объем без приложений: 138 с. (с приложениями 144 е.). Список использованных источников литературы содержит 53 наименования.
Заключение диссертация на тему "Инструментальные средства интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия"
Результаты работы показывают, что поставленные цели построения, анализа и программной реализации интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия можно считать достигнутыми. Практическое внедрение разработанного адаптивного инструментального программного средства подтвердило теоретические разработки, предложенные в данной работе и показало возможность практического использования в задаче интеграции унаследованных веб-приложений.
Терминология
Значимые данные . Этот термин рассматривается в данной работе в контексте HTML-документов. Структурно HTML-документ состоит из набора предопределенных тегов и текста, который форматируется с помощью этих тегов для визуального представления пользователю (аббревиатура HTML расшифровывается как Hypertext Markup Language — «язык разметки гипертекста» и сам зык HTML изначально разрабатывался не для машинной обработки, а для отображения гипертекста конечного пользователю). Значимыми данными в HTML-документе назовем совокупность элементов (узлов) данных, отделенных от элементов форматирования (см. также иерархия значимых данных).
Элемент форматирования. Элементом форматирования HTML-документа называется любой HTML-тег (элемент разметки страницы). После преобразования произвольной веб-страницы в XTITML-формат все элементы форматирования могут быть разделены на два основных типа:
1. Тип 1 - фиксированный набор тегов, которые формируют иерархию элементов данных;
2. Тип 2 - фиксированный набор тегов, не влияющих на иерархию значимых данных. Согласно алгоритма построения иерархии значимых данных теги данного типа могут не рассматриваться при построении значимых данных.
Отношение (порядок) предшествования элементов форматирования. Все элементы форматирования типа 1 могут быть разделены в группы, определяющие порядок предшествования узлов данных в иерархии значимых данных веб-страницы (а именно отношения предок-потомок между узлами в иерархии значимых данных).
Элемент (узел) данных. Элемент (узел) данных - это значимые данные, заключенные в листьевой тег форматирования Типа 1. Условие, что тег является листьевым (т.е. не содержит вложенных тегов) обеспечивает атомарность узла данных. В противном случае формируется иерархия значимых данных.
Иерархия значимых данных. Иерархия значимых данных в контексте HTML-страницы представляет собой упорядоченное дерево Т, обладающее следующими свойствами:
1. корневым элементом дерева Т является содержимое тега TITLE (или просто корень HTML-документа, если TITLE отсутствует);
2. узлами дерева Т являются узлы данных HTML-документа;
3. узел t[i] является потомком t\j] согласно алгоритма построения иерархии значимых данных.
Заключение
Объем данных в сети интернет и распространенность веб-технологий растут высокими темпами, и все чаще необходимая информация доступна в виде веб-страниц. Это могут быть биржевые котировки, информация о публичных тендерах, курсы валют, новинки и изменения цен на продукцию конкурентов и т.п. Соответственно возникает задача получения данных с внешних веб-сайтов и использования полученных данных в бизнес-процессах. Однако HTML - язык разметки гипертекста - изначально не предназначался для автоматизированной обработки, это лишь средство для представления данных в браузере конечному пользователю. Таким образом, задача интеграции контента унаследованных веб-приложений в единое информационное пространство предприятия является актуальной и нетривиальной.
В настоящее время для создания унифицированного информационного пространства предприятия на основе веб-технологий используются так называемые портальные платформы. Однако даже самые развитые и функциональные портальные платформы предлагают ограниченный набор инструментов для интеграции контента унаследованных веб-приложений в единое информационное пространство. Ключевое ограничение связано с тем, что существующие портальные платформы ориентированы, в основном, на статичное отображение отдельных частей веб-страниц в виде портлетов, оставляя задачу обработки и интерпретации данных конечному пользователю. Такой подход, конечно, укладывается в классическую трактовку портала, как интеграционного решения, в котором публикуются данные из различных источников и большая часть их обработки возлагается на самого пользователя, но налагает существенные ограничения на построение единого интеграционного решения. Между тем, необходимо не только отображать данные из внешних веб-ресурсов, но и использовать их в различных бизнес-процессах. А для решения этой задачи уже недостаточно традиционного отображения HTML-данных унаследованного веб-приложения. Необходим анализ структуры исходной веб-страницы, отделение данных от элементов форматирования, составление иерархии данных на основе структуры тегов и предоставление полученной иерархии в унифицированном виде, удобном для дальнейшей автоматизированной обработки.
В рамках данной работы рассматривались вопросы построения методов, моделей и программных средств интеграции контента произвольных вебстраниц в единое унифицированное информационное пространство предприятия. Основные результаты, полученные автором диссертационного исследования, состоят в следующем.
• Проанализированы существующие подходы к интеграции приложений для выявления основных современных проблем в области интеграции унаследованных приложений. В результате анализа предложена классификация систем интеграции приложений.
• Проведено исследование современных моделей и методов получения значимых данных с произвольных веб-сайтов, выявлены ключевые особенности и требования к разработанному алгоритму получения иерархии значимых данных унаследованных веб-приложений.
• Разработан алгоритм получения иерархии значимых данных произвольной веб-страницы с учетом структуры тегов и степени их влияния на иерархию данных.
• Разработана модель унифицированного представления иерархии значимых данных в XML- и RDF-формате, которая повышает интероперабельность результатов работы адаптивного инструментального программного средства интеграции контента унаследованных веб-приложений. Разработанный метод индексации элементов иерархии с помощь XPath-нотации предоставляет возможности получения и манипулирования отдельными элементами иерархии данных, а также повышает устойчивость индексации элементов к изменениям в структуре иерархии значимых данных.
• Разработан алгоритм анализа изменений и сопоставления иерархий значимых данных на основе дистанции редактирования в упорядоченных помеченных деревьях.
• На основе портальной платформы Microsoft SharePoint Server 2007 и технологии .NET разработано инструментальное программное средство для интеграции контента унаследованных веб-приложений, позволяющее получить унифицированное представление значимых данных с произвольной веб-страницы, выделить отдельные элементы и отобразить их в специализированном портлете на странице портала;
• Проведена экспериментальная проверка работы предложенных алгоритмов, моделей и методов на базе прототипа интеграционного решения, созданного с помощью адаптивного инструментального программного средства.
• Результаты диссертационного исследования использованы в проектах «Автоматизация процесса поставок» в компании ООО «Хайтиан» (российское представительство HAITIAN INTERNATIONAL Hlds., Ltd) и «Организация процесса продаж» в компании ООО «Умный софт», что подтверждается соответствующими актами о внедрении.
Библиография Чеснавский, Александр Александрович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Internet User Statistics & Population for 52 European countries and regions Электронный ресурс. / / Internet World Stats. 2008. URL:http://www.internetworldstats.com/stats4.htm (дата обращения 29.01.2009).
2. Hype Cycle for Web and User Interaction Technologies, 2008 Электронный ресурс. / / Gartner. 2008. URL: http://www.near-time.org/pdiyhypecycle.pdf (дата обращения 29.01.2009).
3. Веб 2.0 Электронный ресурс. / / Википедия. 2006. URL: http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1 2.0 (дата обращения 29.01.2009).
4. Семантическая паутина Электронный ресурс. / / Википедия. 2005. URL:http://ru.wikipedia.org/wiki/%D0%A1 %D0%B5%D0%BC%D0%B0%D0%B132
5. D%D 1 %82%D0%B8%D 1 %87%D0%B5%D 1 %81 %DO%B A%DO%BO%D 1 % 8F%D0%BF%D0%B0%D 1 %83 %D 1 %82%D0%B 8%D0%BD%D0%B0 (дата обращения 29.01.2009).
6. Gartner Identifies the Top 10 Strategic Technologies for 2009 Электронный ресурс. / / Gartner. 2008. URL:http://www.gartner.com/it/page.isp?id:=777212 (дата обращения 29.01.2009).
7. Schulte, R., Predicts 2005: Application Integration, ESBs and B2B Evolve Электронный ресурс. / / Gartner. 2004. URL:http://www.gartner.com/DisplayDocument?ref=g search&id=459013 (дата обращения 29.01.2009).
8. Business Process Management (BPM) Market Opportunities, Strategies, and Forecasts 2004-2009 Электронный ресурс. / / Wintergreen research, inc. 2003. URL:http://www.wintergreenresearch.com/reports/pdf/BPMBrochure.pdf (дата обращения 29.01.2009).
9. Hype Cycle for Application Integration and Platform Middleware Электронный ресурс. / / Gartner. 2005. URL:http://www.gartner.com/DisplavDocument?doccd=127756&ref=gfromdoc (дата обращения 29.01.2009).
10. OASIS Web Services Business Process Execution Language (WSBPEL) TC Электронный ресурс. / / OASIS. 2007. URL: http://www.oasis-open.org/committees/tchome.php?wgabbrev=wsbpel (дата обращения 29.01.2009).
11. Виже, К., Технология сервера порталов Электронный ресурс. // CITFORUM. 2002. URL: http://www.citforum.ru/consulting/portal/server/ (дата обращения 29.01.2009).
12. OASIS Web Services for Remote Portlets (WSRP) ТС Электронный ресурс. / / OASIS. 2007. URL: http://www.oasis-open.org/committees/tehome.php7wg abbrev=wsrp (дата обращения 29.01.2009).
13. Web Services Description Language (WSDL) 1.1 Электронный ресурс. // W3C. 2001. URL: http://www.w3.org/TRAvsdl (дата обращения 29.01.2009).
14. JSR 168: Portlet Specification Электронный ресурс. / / Java Community Process. 2003. URL: http://jcp.org/en/jsr/detail?id= 168 (дата обращения 29.01.2009).
15. DeWitt, S., Basic Web Clipping Using WebSphere Portal Version 4.1 Электронный ресурс. / / IBM developerWorks. 2002. URL: http://www.ibm.com/developerworks/websphere/librarv/techarticles/0206dew itt/dewitt.html (дата обращения 29.01.2009).
16. Бондаренко, С., Бондаренко, M., Internet Explorer 8 Beta 1: первые впечатления Электронный ресурс. / / 3DNEWS. 2008. URL: http://www.3dnews.ru/software/explorer8betal/print/ (дата обращения 29.01.2009).
17. Internet Explorer 8 Beta 1 Whitepapers Электронный ресурс. / / MSDN. 2008. URL:http://code.msdn.microsoft.com/ie8whitepapers/Release/ProiectReleases.aspx? Releaseld=567 (дата обращения 29.01.2009).
18. Микроформаты Электронный ресурс. / / Википедия. 2007. URL: http://ru.wikipedia.org/wiki/%D0%9C%D0%B8%D0%BA%D1%80%D0%BE %D 1 %84%D0%BE%D 1 %80%D0%BC%D0%B0%D 1 %82%D 1 %8B (дата обращения 29.01.2009).
19. Микроформаты: Что это и как ими пользоваться? Электронный ресурс. / / Smashing Magazine. 2007. URL:http://designformasters.info/posts/micro formats-what-they-are-and-howr-to-use-them/ (дата обращения 29.01.2009).
20. Расстояние Левенштейна Электронный ресурс. / / Википедия. 2007. URL:http://ru. wikipedia.org/wiki/%D0%A0%D0%B0%D 1 %81 %D 1 %81 %D 1 %82 %D0%BE%D 1 %8F%D0%BD%D0%B8%D0%B5 %D0%9B%D0%B5%D0
21. B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD% DO%BO (дата обращения 29.01.2009).
22. Расстояние Хэмминга Электронный ресурс. / / Википедия. 2006. URL: http ://ru. wikipedia.org/wiki/%D0%A0%D0%B0%D 1 %81 %D 1 %81 %D 1 %82 %D0%BE%D1%8F%D0%BD%D0%B8%D0%B5%D0%A5%D1%8D%D0 %BC%DO%BC%DO%B8%DO%BD%DO%B3%DO%BO (дата обращения 29.01.2009).
23. Метод динамического программирования Вагнера и Фишера Электронный ресурс. / / ALGOLIST.MANUAL.RU. 1999. URL: http://algolist.manual.ru/search/lcs/vagner.php (дата обращения 29.01.2009).
24. Stephen G. Анализ строк Электронный ресурс. / / InfoScope Web Site / пер. М.С.Галкиной; под ред. П.Н.Дубнера. 1999. URL: http://infoscope.ws/stringsearch/Stephen-92/index.html (дата обращения 29.01.2009).
25. Алгоритм Хиршберга Электронный ресурс. / / ALGOLIST.MANUAL.RU. 1999. URL:http://algolist.manual.ru/search/lcs/hirshberg.php (дата обращения 29.01.2009).
26. Алгоритм Ханта-Шиманского Электронный ресурс. / / ALGOLIST.MANUAL.RU. 1999. URL:http://algolist.manual.ru/search/lcs/hant.php (дата обращения 29.01.2009).
27. Bergroth, L., Hakonen Н. A Survey of Longest Common Subsequence Algorithms Текст. / L. Bergroth, H. Hakonen // Proceedings of the Seventh International Symposium on String Processing Information Retrieval (SPIRE'OO). 2005. - C. 39
28. Tai, K., The tree-to-tree correction problem Текст. / Kuo-Chung Tai // Journal of the ACM. 1979. - №26(3). - C. 422-433
29. Selkow, S., The tree-to-tree editing problem Текст. / Stanley M. Selkow // Information Processing Letters. 1977, C. 184-186
30. Chawathe, S., Comparing Hierarchical Data in External Memory Текст. / Sudarshan S. Chawathe// Proceedings of the 25th International Conference on Very Large Data Bases. 1999. - C. 90-101
31. Chawathe, S., Abiteboul, S., Widom, J., Representing and querying changes in semistructured data Текст. / Sudarshan S. Chawathe, Serge Abiteboul, Jennifer Widom // Proceedings of the International Conference on Data Engineering. 1998. - C.4-13
32. Chawathe, S., Garcia-Molina, H., Meaningful Change Detection in Structured Data Текст. / Sudarshan S. Chawathe , Hector Garcia-Molina// Proceedings of the ACM SIGMOD International Conference on Management of Data SIGMOD. 1997. - C.26-37
33. Zhang, K., A Constrained Edit Distance Between Unordered Labeled Trees Текст. / Kaizhong Zhang // Algorithmica. 1996. - №15(3). - C.205-222
34. Wang, Y., Dewitt, D., Cai, J., X-Diff: An Effective Change Detection Algorithm for XML Documents Текст. / Yuan Wang, David J. DeWitt, Jin-Yi Cai // Proceedings of the 19th International Conference on Data Engineering. 2003. - C.519-530
35. Hinze, A., Evans, R., Keeping Track of the Semantic Web: Personalized Event Notification Текст. / Annika Hinze, Reuben Evans // On the Move to Meaningful Internet Systems 2006: CoopIS, DOA, GAD A, and ODBASE. -2006. №4275. -C.661-678
36. XML Электронный ресурс. / / Википедия. 2004. URL: http://ru.wikipedia.org/wiki/XML (дата обращения 29.01.2009).
37. Шрайбман, В., Выражение семантики данных. RDF против XML Электронный ресурс. / / CITFORUM. 2003. URL: http://www.citforum.ru/internet/xml/rdfxml/ (дата обращения 29.01.2009).
38. Resource Description Framework Электронный ресурс. / / Википедия. 2006. URL: http://ru.wikipedia.org/wiki/RDF (дата обращения 29.01.2009).
39. Рабчевский, Е., Среда Описания Ресурса (1ШР):Понятия и Абстрактный Синтаксис Электронный ресурс. / / КПП Ранат. 2004. URL: http://www.w3.org/2007/03/rdfconceptsru/Qverview.html#section-Introduction (дата обращения 29.01.2009).
40. Декер, С., и др, Semantic Web: роли XML и RDF Электронный ресурс. / / Открытые системы. 2001. URL:http://osp.admin.tomsk.ru/os/2001 /09/041 .htm (дата обращения 29.01.2009).
41. Raggett, D., Le Hors, A., Jacobs, I., HTML 4.0 Specification Электронный ресурс. / / W3C. 1998. URL: http://www.w3.org/TR/1998/REC-html40-19980424/ (дата обращения 29.01.2009).
42. Atzeni, P., Mecca, G., Cut and Paste Текст. / Paolo Atzeni, Giansalvatore Mecca // Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems.- 1997. C.144-153.
43. Кормен, Т. Часть VI. Алгоритмы для работы с графами // Алгоритмы: построение и анализ. — 2-е изд. — М.: «Вильяме», 2006. — С. 1296.
44. Дехтярь, М., Основы дискретной математики. Лекция 10: Деревья Электронный ресурс. / / Интернет университет информационных технологий. 2007. URL: http://www.intuit.ru/department/ds/discrmath/10/ (дата обращения 29.01.2009).
45. Bille, P., A survey on tree edit distance and related problems Текст. / Philip Bille// Theoretical Computer Science. 2005. - №337. - C. 217-239.
46. Phifer, G., Magic Quadrant for Horizontal Portal Products Электронный ресурс. / / Gartner. 2005. URL:http://www.gartner.com/DisplayDocument?ref=gsearch&id=:480972 (дата обращения 29.01.2009).
47. IBM WebSphere Portal for Multiplatforms V5.1 Handbook Электронный ресурс. / / International Business Machines Corporation. 2005. IJRL: http://www.redbooks.ibm.com/redbooks/pdfs/sg246689.pdf (дата обращения 29.01.2009).
48. Ben-Natan, R., Gornitsky, R., Hanis,T., Sasson, O., Mastering IBM WebSphere Portal: Expert Guidance to Build and Deploy Portal Applications Текст. / Ron Ben-Natan, Richard Gornitsky, Tim Hanis, Ori Sasson. -Indianapolis: Wiley. 2004. - C.552.
49. Develop Best Practices for Technology Selection, 2005 Электронный ресурс. // Gartner. 2005. URL:http://www.gartner.com/resources/127200/127233/developbestjpr.pdf (дата обращения 29.01.2009).
50. Legacy system Электронный ресурс. / / Wikipedia. 2007. URL: http://en.wikipedia.org/wiki/Legacvsystem (дата обращения 29.01.2009).
-
Похожие работы
- Методы и средства организации взаимодействия корпоративных информационных систем на основе сервис-ориентированной архитектуры
- Технология интеграции данных в гетерогенных корпоративных программных комплексах
- Веб-сайт кафедры в структуре единой информационной образовательной среды
- Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах
- Инструментальные средства разработки бизнес-приложений на базе интранет-технологий
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность