Метод и технологии семантической обработки информации для государственного и муниципального управления

Ломов, Павел Андреевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Метод и технологии семантической обработки информации для государственного и муниципального управления

кандидата технических наук: Ломов, Павел Андреевич
город: Москва
год: 2011
специальность ВАК РФ: 05.13.10

Диссертация по информатике, вычислительной технике и управлению на тему «Метод и технологии семантической обработки информации для государственного и муниципального управления»

Автореферат диссертации по теме "Метод и технологии семантической обработки информации для государственного и муниципального управления"

На правахр^кописи

ЛОМОВ Павел Андреевич

МЕТОД И ТЕХНОЛОГИИ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО

УПРАВЛЕНИЯ

Специальность 05.13.10 - «Управление в социальных и экономических системах» (технические науки)

- 1 ДЕК 2011

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

005004362

На правах рукописи

ЛОМОВ Павел Андреевич

МЕТОД И ТЕХНОЛОГИИ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО

УПРАВЛЕНИЯ

Специальность 05.13.10 - «Управление в социальных и экономических системах» (технические науки)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Работа выполнена в Учреждении Российской академии наук Институте информатики и математического моделирования технологических процессов Кольского научного центра РАН (г, Апатиты), лаборатория «Региональных информационных систем».

Защита состоится «19» декабря 2011 г. в 11 часов, аудитория 1506 на заседании диссертационного совета Д 002.086.02 при ИСА РАН по адресу: 117312, Москва, проспект 60-летия Октября, 9.

С диссертацией можно ознакомиться в библиотеке ИСА РАН по адресу: 117312, Москва, проспект 60-летия Октября, 9.

Научный руководитель:

доктор технических наук, профессор Шишаев Максим Геннадьевич

Официальные оппоненты:

доктор технических наук, профессор Хорошевский Владимир Федорович, кандидат технических наук Тихомиров Илья Александрович

Ведущая организация:

Учреждение Российской академии наук Институт проблем передачи информации им. А.А. Харкевича РАН (ИППИ РАН)

2011 г.

Ученый секретарь Диссертационного совета: д.м.н., профессор

Пропой А.И.

Введение

Функционирование органов государственного и муниципального управления (ГиМУ) в основном связанно с выработкой и исполнением решений и оказанием государственных услуг населению. При этом базовой компонентой этих процессов всегда являлась информация, значение которой все более возрастало. На сегодняшний день уровень информационного обеспечения органов ГиМУ является одной из важнейших характеристик, от которой существенно зависит результативность их управленческой деятельности и в конечном итоге социально-экономическое развитие общества. Поэтому совершенствование информационного обеспечения следует рассматривать как одно из стратегических направлений повышения эффективности деятельности на государственном, отраслевом, региональном, международном уровнях.

Среди основных факторов, оказывающих негативное влияние на информационное обеспечение органов ГиМУ Российской Федерации (РФ) можно выделить: огромные объемы данных, хранящиеся в гетерогенных и распределенных информационных ресурсах, большое количество государственных учреждений, а также наличие слабого информационного взаимодействия между ними. Данные обстоятельства затрудняют или делают невозможным оперативное получение набора необходимых данных для принятия решений или оказания государственных услуг.

Вышеизложенное обуславливает актуальность разработки методов, технологий и средств интеграции информационных ресурсов с целью образования единого информационного пространства и предоставления на его основе необходимого информационного обеспечения ГиМУ.

На сегодняшний день существуют подходы к интеграции путем консолидации или распределения данных, применяемые в коммерческом секторе и промышленности. Они ориентированы, как правило, на интеграцию данных для решения узкого круга задач, что подразумевает приведение различных фрагментов данных под некоторых общий шаблон. Тем самым происходит потеря части семантики данных в процессе интеграции, что приводит к сильному снижению выразительности полученного в итоге единого информационного пространства. В сфере ГиМУ, где действует множество субъектов, рассматривающих сходные информационные фрагменты с различных точек зрения, данное обстоятельство существенно ограничивает возможности использования единого информационного пространства. Особенно это существенно в отношении информационного обеспечения задач управления, так как сложно предсказать какая информация и в каком контексте потребуется для решения социальных и экономических проблем. Также утрата части семантики фрагментов данных приводит к появлению смысловых конфликтов и ошибок в программных продуктах, вызванных произвольными трактовками смысла интегрированной информации. Другими недостатками данных подходов являются: отсутствие ответственности за информацию, переданную во время интеграции, ее дублирование, а также потеря контроля доступа к ней. Перечисленные обстоятельства определяют необходимость

применения иных подходов к интеграции информации в сфере ГиМУ, ориентированных в первую очередь на оперирование семантикой данных в процессе их интеграции.

Большое влияние на развитие средств и методов семантической интеграции оказывает инициатива Semantic Web, направленная на явное представление машинопонимаемой информации в сети Интернет. Для этого в рамках данной инициативы применяются онтологии, являющиеся формальным преставлениями понятийных систем предметных областей (ПО) и задач. Онтологии определяют разделяемую машинопонимаемую метаинформацию, которой аннотируются фрагменты данных информационного ресурса. Это позволяет оперировать данными, с точки зрения семантики, определенной в онтологии, и тем самым получать в результате интеграции информационное пространство с явно выраженным смысловым представлением включенной в него информации. Его использование позволит повысить эффективность информационного обеспечения ГиМУ, предоставлять широкий спектр государственных услуг, требующих рассмотрения информационных фрагментов как описаний различных понятий ПО, а также создаст предпосылки для разработки и широкого применения интеллектуальных системы для решения задач в данной сфере.

Целью работы совершенствование информационного обеспечения ГиМУ за счет формирования и использования интегрированного семантического представления разнородных информационных ресурсов на основе современных методов инженерии знаний; В ходе исследования были поставлены и решены следующие задачи исследования:

1. Определены основные этапы метода формирования и использования интегрированного семантического представления разнородных информационных ресурсов ГиМУ в условиях их семантической, структурной и организационной разнородности;

2. Создана интегрирующая онтологическая модель ПО ГиМУ - расширяемый тезаурус, которая используется в качестве основы для разработки и последующего единого унифицированного представления онтологий исходных информационных ресурсов;

3. Разработана технология регулирования доступа к информационным ресурсам с разноподчиненными владельцами, основанная на применении логического вывода над специализированной онтологией процедур доступа;

4. Разработана технология автоматизированной интеграции онтологий информационных ресурсов ГиМУ, основанная на проведении комплексной оценки семантической близости понятий, а также ее последующей корректировки;

5. Разработана технология реализации высокоуровневого интерфейса для обеспечения интерактивного взаимодействия с пользователем на основе метаинформации, хранящейся в тезаурусе;

6. Создан программный комплекс, ориентированный на формирование и использование интегрированного семантического представления разнородных

информационных ресурсов для осуществления информационного обеспечения ГиМУ.

Объектом исследования являются онтологии, языки их представления, а также информационные процессы и ресурсы ГиМУ.

Предметом исследования являются методы семантической интеграции и обработки информации.

Используемые методы

Для решения поставленных в работе задач использованы методы, разработанные в области интеграции данных, онтологического моделирования, информационного поиска, машинного обучения и математической логики, описанные в работах отечественных и зарубежных ученых: Д. А. Поспелова, Т. А. Гавриловой, Л. А. Калиниченко, М. Р. Когаловского, В. А. Серебрякова, Г. С. Осипова, И. А. Тихомирова, Б. В. Доброва, В.Ф. Хорошевского, Н. В. Лукашевич, С. Д. Кузнецова, А. В. Смирнова, Н. А Скворцова, Н. Гуарино, Н. Ной, Т. Грубера, Т. Бернерса-Ли, Д. МакГиннесс, Ф. Баадера, и других.

Научная новизна исследования

1. Создана интегрирующая онтологическая модель предметной области ГиМУ - расширяемый тезаурус. Использование тезауруса, наряду с разработанным для него инструментальным программным обеспечением, позволяет разрабатывать онтологии с необходимой выразительностью, сообразной целям и предполагаемым затратам на интеграцию описываемого ими ресурса, дает возможность отразить важные для последующей интеграции свойства понятий исходных онтологий, а также позволяет повторно использовать понятия из онтологий других учреждений;

2. Создана технология регулирования доступа к информационным песупсам на. г»тта>тт*аттиотллг\с>аи11т'* г,игппппл! ппттрпмгятттры ПП111V т

понятийную систему для описания процедур доступа. Отличительной особенностью данной технологии является использование онтологии как для задания правил доступа, так и в процессе его регулирования. Это достигается благодаря сведению задачи регулирования доступа к проведению классификации экземпляров онтологии с помощью типовой машины логического вывода. Использование данной технологии позволяет владельцам ресурсов самостоятельно определять в терминах предметной области ГиМУ и использовать правила доступа к интегрируемым ресурсам;

3. Разработана технология интеграции семантически разнородных онтологий на основе расширяемого тезауруса. Основным отличием технологии является отсутствие необходимости привлечения эксперта как на этапе отображения понятий онтологий в тезаурусе, так и на этапе корректировки данного отображения. Это достигается за счет выполнения комплексной оценки семантической близости понятий с возможным установлением между ними взвешенных отношений и последующей корректировкой весов на основе статистики работы пользователя;

4. Разработана технология реализации высокоуровневого пользовательского интерфейса. Она позволяет облегчить поиск информации пользователем в интегрированных информационных ресурсах ГиМУ. Это достигается за счет интерактивного формирования поисковых запросов на основе правил, учитывающих помимо иерархических, синонимичных и ассоциативных отношений между понятиями, также отношения из онтологий верхнего уровня и метасвойства, содержащихся в тезаурусе.

Положения, выносимые на защиту:

1. Онтологическая интегрирующая модель ПО ГиМУ - расширяемый тезаурус;

2. Технология регулирования доступа на основе специализированной онтологии процедур доступа;

3. Технология интеграции онтологий информационных ресурсов в тезаурусе;

4. Технология реализации интеллектуализированного интерфейса для обеспечения интерактивного взаимодействия с пользователем.

Практическая значимость.

Разработанные онтологические модели и технологии могут быть в дальнейшем использованы в области онтологического моделирования, Semantic Web, а также для решения практических задач интеграции данных и информационного обеспечения в сфере ГиМУ.

Основу диссертационной работы составляют результаты, полученные автором в ходе исследований, проводимых по планам научно-исследовательских работ Института информатики и математического моделирования технологических процессов Кольского научного центра РАН в

ттогмтт г» ОЛПС ттг» 0П1 П tv^ttt.t* то »о /Д^тл птл w rpvuo-!г\гпи ыиЯлппмяттипнНОГО

обеспечения жизненного цикла инноваций» (№ гос. регистрации 0120.0 850592). Отдельные направления исследований поддержаны грантами РФФИ (проекты РФФИ № 08-07-00301, № 09-07-98800 р_север, № 09-07-98800-р_север_а).

Апробация работы

Основные результаты и положения диссертационной работы докладывались на следующих конференциях:

- VII, VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами». Апатиты, 2008,2010 г.;

- IV Всероссийская научно-практическая конференция «Теория и практика системной динамики», Апатиты. 2011 г.;

- XI Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Петрозаводск, 2009 г.;

- Всероссийская молодежная конференция «Управление знаниями и технологии семантического веба», Санкт-Петербург, 2010 г.;

- IV школа молодых ученых «Сбалансированное природопользование». Апатиты, 2007 г.

Публикации

По теме диссертации опубликовано 14 работ, в том числе 6 из списка ВАК. Личный вклад автора состоит в разработке интегрирующей онтологической модели ГиМУ, инструментального программного обеспечения для работы с ней, создании онтологии управления доступом и определения способов ее применения, разработки алгоритма интеграции онтологий, формализации оценок семантической близости понятий и правил расширения пользовательских запросов.

Структура и объем диссертации.

Диссертация состоит из введения, четырех глав, заключения, списка литературы (92 наименования), имеет общий объем 178 машинописных страниц, содержит 39 рисунков и 2 таблицы.

Во введении обоснована актуальность работы, обозначены объект и предмет исследования. Представлена формулировка цели и задач исследования, описание научной новизны и практической ценности результатов. Излагаются краткое содержание и основные результаты диссертационной работы.

В первой главе предлагается общая характеристика решаемой в работе проблемы. Представлены особенности предметной области ГиМУ, существенные в контексте решения проблемы интеграции. Проанализированы подходы к интеграции информации, применяемые в корпоративной среде. В ходе анализа выявлена необходимость явного представления семантики данных и ее использования в процессе интеграции информации в сфере ГиМУ.

Далее рассматривается использование онтологий для проведения CvMuiiTH'iscKoil "ктсграЦии данных а также общая классификация подходов к интеграции с их использованием.

В главе также рассмотрены технологии и стандарты Semantic Web и их роль в семантической интеграции информации. Отмечается, что их использование позволяет преодолеть синтаксическую и структурную гетерогенность данных за счет повсеместного использования языка XML и хранения данных в виде наборов триплетов RDF и создает предпосылки для успешного осуществления семантической интеграции в виду наличия модели и языка OWL, позволяющего формально представит семантику ресурса в машинопонимаемом виде.

В заключении в качестве примеров используемых подходов к интеграции информации в сфере ГиМУ были рассмотрена система персонального учета населения (СПУН) и система управления регионом (СУПРЕМА), одной из основных задач которых является интеграция распределенных гетерогенных информационных ресурсов. В результате был сделан вывод о том, что данные системы обеспечивают лишь структурную интеграцию или используют простые онтологические модели, не позволяющие в полной мере представлять и оперировать формальной семантикой. Вследствие чего для осуществления

полноценной семантической интеграции информации в сфере ГиМУ следует использовать онтологические подходы.

В заключении предложен метод формирования и использования интегрированного семантического представления разнородных информационных ресурсов ГиМУ. Его основными этапами стали:

1. Разработка онтологий исходных информационных ресурсов на основе общего основания - интегрирующей модели. Это позволит облегчить их разработку, а также обеспечит их некоторое взаимное соответствие;

2. Определение правил и способов регулирования доступа к интегрированным ресурсам. Что вызвано их организационной разнородностью и требует обеспечения возможности самостоятельного задания владельцами правил доступа к ним;

3. Формирование единого семантического представления путем интеграции онтологий исходных информационных ресурсов на основе интегрирующей модели. При этом необходимо учесть, что набор интегрируемых ресурсов, а также их онтологии могут пополняться, что влечет постоянное расширение интегрирующей модели новыми понятиями;

Представленные далее в диссертации модель и технологии позволяют выполнить рассмотренные этапы.

Вторая глава посвящена разработке онтологической модели ПО ГиМУ в виде расширяемого тезауруса, ориентированного на использование в процессе семантической интеграции данных. Для учета специфики предметной области, были сформулированы основные требования к составу элементов тезауруса, а также принципы его разработки. Приведен анализ и представление в тезаурусе элементов онтологий верхнего уровня DOLCE, DnS, методологии Ontoclean. Также представлена технология семантического регулирования доступа на основе онтологии, обеспечивающая учет организационной разнородности информационных ресурсов в сфере ГиМУ.

Расширяемый тезаурус определяется как совокупность множеств элементов типа «Объект» - {О¡}, представляющих понятия исходных онтологий и связанных между собой отношениями синонимии, антонимии, гипонимии, ассоциации. С объектами сопоставляются элементы множеств тезауруса «Свойства» - {Pj}, «Значения свойств» - {RJ и «Атомарных значений» - {VJ, представляющие соответствующие атрибуты - {С,} понятий - {А,} онтологий и их значения. Для каждого элемента тезауруса также определено множество использующих его онтологий - А. На множествах различных элементов тезауруса заданы различные отношения, среди которых основными являются: ЯРс(ОхО)и(ЯхР) u(FxF) - отношение гипонимии, PRqOxP- отношение принадлежности свойства объекту тезауруса, FDç(OxO)iu(PxP) - отношение различия понятий свойств, VL е (Рх V)\j(P* О) и (Р xi)- отношение принадлежности свойству множества значений, Шс(ОхО)и(РхР) отношение синонимии, ASC с (Ох О) и {Р х Р) - отношение ассоциации.

Основными задачами тезауруса являются обеспечения общего основания для разработки онтологий исходных ресурсов, а также интегрированное

представление метаинформации. Для решения данных задач были рассмотрены и включены в тезаурус понятия и отношения онтологий: Descriptive Ortlology for Linguistic and Cognitive Engineering (DOLCE), Descriptions and Situations (DnS). Также были рассмотрены и включены в тезаурус в виде функций и дополнительных отношений метасвойства методологии Ontoclean: UN :С и О{"un" "non-unity"} - функция «Единство» (Unity), ID:CvOuAuP->{"id","non-id"} - функция «Идентифицируемость» (Identity), IDFe(PxO) - отношение между объектом и идентифицирующим его свойство, DP:CuOvAvP->{"dep","non-dep"} - функция «Зависимость» (Dependence), DPF е(РхО) - отношение, устанавливаемое между объектом и характеризующим его свойством, через которое проявляется зависимость от другого объекта тезауруса, ESFe(PxO) - отношение между объектом и его существенным свойством, PRC ç {Endurant х Perdurant) - отношение партисипации (participateln), PRT ç(OxO)u(Px.P)- отношение меронимии (partOf), TPRTс (Ох Endurant)- отношение временной принадлежности, TDPN с (Ох О)- отношение зависимости во временном аспекте (temporal dependence), SDPNç(OxO) - отношение зависимости в пространственном аспекте (spatial dependence), CSTc(OxO) - отношение составления (to constitute).

Использование элементов онтологии DOLCE и Ontoclean позволило задать в тезаурусе семантический базис, инвариантный по отношению к предметным областям и поэтому пригодный для определения любых понятий в онтологиях исходных ресурсов. Его наличие также помогает оценивать семантическую близость понятий в процессе дальнейшей интеграции онтологий в тезаурусе.

Использование понятий DnS, таких как «Ситуация» (Situation) ^ «Описание» (Description) и связанных с ними, позволяеть определять на основе тезауруса понятия, являющиеся по-сути многочисленными точками зрения различных субъектов в сфере ГиМУ на фрагменты информации. К таковым можно отнести, различные социальные роли («Студент», «Пенсионер» и др.), ограничения («Трудоспособный возраст», «Прожиточный минимум» и др.), события («Рождение ребенка», «Банкротство» и др.). Отличительной чертой таких понятий является то, что они существуют посредством подразумевающих их агентных сущностей - граждан страны, сотрудников учреждения. Некоторая комбинация данных понятий образует так называемое описание (Description). Для описания задается ее интерпретация, называемая ситуацией (Situation), в виде комбинации понятий, представляющих реально существующие субъекты и объекты ПО, которые определенны в базисной онтологии (ground ontology). В данном случае ее роль играет онтология DOLCE. Например - некоторый государственный закон может быть задан в виде описания, а действие по данному закону - удовлетворяющее данному описанию ситуацией.

В тезаурусе были также формализованы в виде атомарных атрибутов и значений фасеты общероссийских классификаторов, таких как ОКИН и ОКЭД.

Информационные ресурсы в предметной области ГиМУ, как правило, содержат значения атрибутов перечисленных в подобных классификаторах. Включение таких атрибутов, обладающих свойством общезначимости и, в ряде случаев, уникальности в тезаурус позволит разрабатывать на его основе онтологии для согласованных систем учета информации различных ведомств. Наличие в тезаурусе метасвойств Ontoclean позволяет произвести необходимую аннотацию атрибутов и соответственно дополнительно подчеркнуть их семантическую значимость для определенной сущности. Например, для любого документа являются существенными и идентифицирующими атрибуты - серия номер, дата выдачи, выдавшая организация.

На основе рассмотренных элементов в тезаурусе были определены общие понятия ПО. Они представляют абстракции различных субъектов и объектов, описываемых в большинстве информационных ресурсов ГиМУ. Среди них можно выделить следующие понятия:

- физическое лицо (Natural person), выступающее как инициатор и участник многих процессов в сфере ГиМУ;

- свойство - наборов атрибутов (Qualityset) отражает различные характеристики сущности, отличается от атомарных атрибутов наличием некоторого метасвойста по отношению к характеризуемому объекту;

- физический носитель (Physical data carrier) определяет основу существования атрибутов;

- роль - документ (Document) выполняется физическим носителем имеющий некоторый набор существенных атрибутов и обладающий свойствами единства и идентификации;

- роль - идентифицированная личность (Ident person) выполняется физическим лицом, имеющим физический носитель, играющий роль удостоверения личности.

Таким образом, разработка тезауруса, содержащего перечисленные типы элементов позволило определить в нем как общие принципы определения понятий ПО ГиМУ так и их атомарные составляющие. Использование тезауруса в качестве базиса при разработке онтологий исходных ресурсов позволяет не только облегчить данных процесс, но и получить в итоге онтологию с необходимой выразительностью. Она зависит от целей интеграции и предполагаемого объема затрат на разработку онтологии ресурса. Так, например, необходимость согласованной обработки фрагментов информации, хранящихся в источниках различных ведомств, требует использования не только общих атомарных атрибутов, но и соблюдения принципов определения понятий, заданных в тезаурусе. Данные условия усложняют онтологию и требуют дополнительных усилий в процессе ее разработки. Однако для интеграции ресурса, содержащего справочную информацию, с целью выполнения по нему последующего семантического поиска, создание выразительной онтологии не требуется. В этом случае можно ограничиться использованием необходимых элементов тезауруса, что при интеграции повлечет установления смысловых связей с новыми фрагментами информации

ресурса и тем самым обеспечит их включение в единое информационное пространство.

При разработке тезауруса была также учтена организационная разнородность ресурсов, предполагающая подчинение их владельцев различным руководящим инстанциям. Организационная разнородность требует сохранения контроля владельцев над обращениями к их данным, подверженным интеграции. Однако в тоже время является необходимым предоставить к ним санкционированный доступ посредством единого интерфейса системы интеграции. Соблюдение этих условий требует наличия некоторого общего языка для описания правил доступа и общего способа регулирования доступа на их основе.

Для этого в тезаурус была включена понятийная система регулирования доступа к данным. С помощью нее владелец может формулировать собственные правила доступа в знакомых ему терминах ПО ГиМУ. Для задания общего взгляда на процедуру регулирования доступа была использована онтология DnS. В ее контексте некоторую политику доступа можно рассматривать как совокупность правил оперирования объектами, представленными в некоторой специализированной онтологии процедур доступа. Причем данные правила не составляют суть самих объектов или процессов с их участием, а являются лишь ментальными представлениями «корректных» действий субъекта по отношению к объекту доступа, определяемых некоторыми агентивными сущностями. Отсюда можно сделать вывод о том, что политику доступа можно представить в виде описания в смысле онтологии DnS некоторой ситуации доступа, составленной из объектов, определенных в онтологии ПО.

Для разработки базовой онтологии процедур доступа была повторно использована онтология General Privacy Ontology (GPO), представляющая различные аспекты регулирования доступа. Ее основные понятия были определены в тезаурусе в качестве компонентов ситуаций и описаний онтологии DnS. Единый взгляд с позиции онтологии DnS на понятийную систему предметной области и аспекты регулирования доступа позволяет разработчику использовать при определении политик доступа в онтологиях исходных ресурсов те же принципы, что и при определении понятий.

Технология семантического регулирования доступа на основе разработанной онтологии основывается проведении над ней логического вывода с помощью машины логического вывода при выработке решения о разрешении или запрете доступа. В этом случае в онтологии в виде классов определяются политика, удовлетворяющая ей ситуация, а также набор их компонентов: объект, субъект доступа, действие и др. Далее в случае обращения к ресурсу в его онтологии процедур доступа создаются экземпляры ситуации доступа ее описания и их компонентов. Если в результате логического вывода установлен факт принадлежность экземпляра-описания ситуации к некоторому классу-политике, то это значит, что ситуация удовлетворяет условиям политики и доступ может быть разрешен (рис. 1).

Запрос данных о регистрации

Объект запроса: справка о регистрации фЭ Запрашивающий: Сидоров А. А., сотрудник ФМС

Разрешение: Разрешение на доступ к персональным данным №381

м ж

¥

Поиск и получение данных а виде экземпляров из рнтологии ^ ресурса ^I

Формирование из полученных экземпляров ситуации доступа в онтологии процедур доступа

Проведение пог-го вывода -проверка принадлежности экземпляра описания к классу политики

Описание политики получения

свед-и

о регистрации - ■

ЗиЬС1з5$0*: Ассе 55-Р0Г1Су

»Ц'ЭбЬубиг-е |

^АзктаеЯ * |

ЙЛ^ЙКВОГ; ]

!

Рисунок 1. Процесс регулирования на основе онтологии.

Таким образом, использование тезауруса при разработке онтологий исходных ресурсов и предложенной технологии позволяет реализовать семантическое регулирование доступа к ним, дает возможность владельцу информационного ресурса формулировать правила доступа требуемой сложности в терминах ПО и обеспечивает создание интероперабельных систем регулирования доступа, благодаря использованию единой системы понятий. Перечисленные свойства технологии позволяют применять ее в процессе осуществления семантической интеграции в условиях организационной разнородности информационных ресурсов ГиМУ.

Третья глава посвящена решению задачи интеграции в тезаурусе онтологий ресурсов, включаемых в единое информационное пространство. Рассмотрены основные трудности сравнения понятий различных онтологий. Для их преодоления предлагается технология интеграции разнородных онтологий в тезаурусе, обладающая высокой степенью автоматизации за счет отсутствия необходимости участия эксперта как в процессе отображения понятий интегрируемой онтологии в тезаурусе, так и корректировки его результатов. Также предложена технология реализации высокоуровневого интерфейса, позволяющего облегчить работу пользователя с понятийной системой тезауруса.

Предлагаемый в диссертации подход к семантической интеграции информационных ресурсов предполагает наличие для каждого из них онтологии, представляющей описываемые в нем понятия предметной области ГиМУ. Для формирования единого семантического представления ресурсов необходимо произвести интеграцию их онтологий в тезаурусе. При этом необходимо учитывать, что несмотря на то, что онтологии предлагается разрабатывать на общей основе, они могут содержать новые понятия, заданные их авторами. Для обеспечения возможности оперирования такими понятиями в процессе функционирования системы необходимо не только представить их в тезаурусе в процессе интеграции, но и установить семантические отношения между ними и уже содержащимися в нем.

Это, в свою очередь, требует определения смысловой близости понятий разных онтологий, которое производиться программой-интегратором путем вычисления составной семантической метрики:

1¥и:(ОхО)и(РхР)^[ 0,1]

Ее компонентами являются оценки сходства имен и определений понятий их структурного положения, множеств атрибутов, наборов метасвойств.

Оценка сходства имен и определений понятий. Выполнение данной оценки производиться путем определения сходства контекстов понятий. При этом используется предположение, что контексты употребления одних и тех же терминов в текстовых источниках, описывающих общую предметную область одинаковы. Сравнивая эти контексты, можно судить о семантической близости соответствующих данным терминам понятий в онтологиях.

Формирование контекстов производиться на последней стадии разработки онтологии ресурса. Оно заключается в проведении комплексного языкового анализа набора текстов, относящихся к ПО, и соотнесении некоторых лексем с понятиями онтологии. В результате с понятиями сопрягается их контекст, представляющий собой набор следующих множеств:

(¿А =(К1,К2,Кг,К^К5)- контекст понятия А, где множества К,- включают лексемы, определенные как семантически связанные понятием. Например, в К) попадают лексемы из тех предложений, в которых кроме лексемы-названия понятия, нет других лексем, соответствующих названиям других понятий. При этом рассматриваемая лексема-понятие употреблено не в значимой роли, например, она не является подлежащим или дополнением. В К5 попадают лексемы из предложений, в котором искомая лексема-название имеет значимую роль, а в качестве лексемы-сказуемого используется отношение онтологии.

Оценка сходства контекстов производиться по формуле Джаккарда, взвешенной по схожести различных множеств контекста:

К* и К*

Syneq(A, В) = —----(1)

где А, В- контексты понятий двух онтологий, К* ,К" - п-ое множество контекста,

О < í„ < 1 - коэффициенты значимости множеств.

Для данной оценки определены следующие пороговые значения:

WS— верхнее предельное значение означает, что термины-аргументы расцениваются как эквивалентные по вербальным определениям.

WS - нижнее предельное значение, термины-аргументы не расцениваются как ассоциации.

Основные преимущества предлагаемого подхода вытекают из автоматического формирования и сравнения контекстов. Они заключаются в устранении влияния авторской субъективности неформальных описаний элементов онтологии, отсутствии необходимости использования тезаурусов при сравнении понятий, а также применимости подхода для онтологий, описывающих практически любую предметную область или задачу.

Оценка сходства структурных положений понятий. Данная оценка определяется долей одинаковых понятий среди объектов-гиперонимов объекта тезауруса и суперклассов понятия:

| {s, I Í, е SP(c) л Зи б HR{t ) л ф,)} | Poséate, t ) ---(2)

|ЯЧс)| + |Я»(<)1

где с - объект тезауруса, t - понятие онтологии, SI'(c) - множество всех суперклассов понятия с, HR(t) - множество всех гиперонимов объекта тезауруса г, n(s) - означает, что понятие 5 представляет заимствованный в тезаурусе объект п.

Оценка сходства понятий но наличию метасвойств. Оценка имеющихся у понятий метасвойств производиться в дополнение к остальным оценкам и позволяет выявить ошибочные отождествления понятий. Предлагаются следующие правила использования метасвойств для сравнения понятий:

Ve б C,\/t б О: (RG(c) ="rigid"aRG(í) ="antirigid"-+ cFDt) Ve 6C',VíeO: (10(c) ="idnAlD(t) ="non - cFDt) Ve e C, Vi e O: (UN(c) =" non-unity" aUN(¡) ="un"-+ cFDt)

Данные правила позволяют определить отношение различия (FD) между некоторыми понятиями и объектами тезауруса. Факт наличия данного отношения учитывается при формулировке пользователем запросов на основе тезауруса.

Оценка сходства понятий по сходству наборов их атрибутов. Оценка сходства по наборам атрибутов состоит в определении доли сходных атрибутов среди общего количества атрибутов. Также учитывается наличие метасвойств у одинаковых атрибутов, что говорит о большем сходстве обладающих ими понятий.

где ам - коэффициент значимости метасвойств при сравнении атрибутов. Определяется долей свойств с метасвойствами в онтологии;

ап, aF , а, - коэффициент значимости сходства понятий с отдельными метасвойствами;

N - общее число атрибутов у понятия и объекта о, и о,,

Nl)rf, N/:sl., Nuw - общее число атрибутов с метасвойствами зависимости, существенности и идентификации.

Множество EQa формируется различными способами в зависимости от заимствования (4) или не заимствования (5) разработчиком онтологии атрибутов из тезауруса: Щ, ={b^={P,}\3g^{P,}-Syneq(bn,gm )>WS,bn е atr(c),gm satrit)) (4)

EQa ={b,e{Pl}\3bMe{Pl}Ab„{b.),b,eatr(c),gmeatr(i)) (5)

где atr(t), atr(c) - множество атрибутов элемента t и с тезауруса или онтологии.

Оставшиеся множества EQDPF,EQhSl.,EQmF определяются сходным с ЕОл образом.

WA- верхнее предельное значение означает, что аргументы расцениваются как эквивалентные по составу атрибутов;

IVA - нижнее предельное значение, термины-аргументы не расцениваются как ассоциации.

Итоговый расчет метрики, определяющей семантическую близость понятий, производиться по формуле: цу(с ^ = q,Syneq(c,l) + a2Poseq(c,l) + a2Atreq(c,t) ^

at,a2,a} < 1 - коэффициенты значимости оценок. Задаются разработчиком в зависимости от типа и количества заимствованных элементов тезауруса при разработке онтологии.

Исходя из результатов оценки близости, между понятием, включаемым и имеющимся в тезаурусе, может быть установлено взвешенное отношение синонимии или ассоциации. Вес связи определяет возможность представления при обращении пользователя к некоторому понятию его партнера по отношению. В зависимости от дальнейшего использования или не использования данных понятий пользователем в паре в одном запросе вес отношения увеличивается или уменьшается. Впоследствии это приводит к подтверждению отношения или его удалению по достижении весом порогового значения.

Корректировка весов связей производиться после завершения формирования пользователем запроса. Во множество связей, веса которых будут корректироваться, попадают те, что имеют отношения ассоциации и синонимии с выбранными пользователем объектом поиска:

СШ = {< п, >| Г, п, е О Л (МЯС'и, V 18УМп,)}

Среди всех отношений выбираются те, что связывают выбранные пользователем объекты с первичным:

= >|/,л, - объекты, присутствующие в поисковом

запросе}

Расчет изменений весов производиться по следующим формулам: ('.«; ))

дГГи' (/, п,) = -* (1 - (Ш{1, и,) + дШЦ,п)))

- изменение весов для связей между выбранными объектами, где - предыдущее значение изменения.

ЕСИ/ДМ.,)) дт\1,п,) = -'| *т«,п,) + о1Ги (г,я))

- изменение весов для связей между невыбранными объектами, где дШ1(!,п) - предыдущее значение изменения.

Изменение весов связей приводит постепенной подстройки тезауруса под представление пользователя и устранению ошибочных отношений, образованных в процессе интеграции в него онтологий.

Сформированный в итоге тезаурус может содержать в себе большое количество терминов и отношений из многочисленных онтологий ресурсов, что усложнит работу пользователя. Для решения данной проблемы была разработана технология реализации высокоуровневого интерфейса. Одной из его основных задач в этом случае является обеспечение поддержки пользователя в процессе формирования и исполнения запросов на поиск информации в едином информационном пространстве.

Применение разработанной технологии позволяет формировать запрос в интерактивном режиме в терминах предметной области ГиМУ. При этом пользователю представляются варианты расширения запроса, основанные не только на иерархических отношениях и отношениях синонимии и ассоциации, но и на основе отношений из онтологий верхнего уровня, определенных между понятиями, а также наличия у них определенных метасвойств ОгИос1еап.

Процедура формулировки запроса начинается с определения предполагаемого объекта поиска путем его выбора из множества объектов тезауруса. Далее в процессе расширения запроса пользователю будут представлены как объекты, связанные с начальным непосредственно, так и те, что имеют с ним опосредованные отношения. Это позволит, отобразить различные контексты, а также условия проведения поиска.

Технология включает следующие основные правила расширения запроса: Правило транзитивной идентификации. В случае наличия у некоторого объекта í идентифицирующего свойства (ЮР) или свойства зависимости (ИРР) - р, значением которого является другой объект - Ь, также имеющий идентифицирующее свойство или свойство зависимости - рь, то между свойством рь и объектом / формируется динамическое отношение принадлежности свойства объекту. Таким образом, пользователь имеет возможность сразу задать ограничение на свойство рь без перехода к обзору свойств объекта Ь. В случае же наличия более длинной цепочки объектов, идентифицирующих друг друга, все их идентифицирующие свойства также представляются пользователю.

Формально правило транзитивной идентификации имеет вид: (1РЯр') л (р'УЩ л (ЬРИрь) л (р'ЮР! V р'ДР/-7)л(р*Я)Л>у р"БРРЬ) -> ¡РЯр" Правило транзитивности свойств синонима. В случае наличия у объекта I отношения с объектом Ь, имеющим в свою очередь синоним - объект / между ? и свойствами /, обладающими метасвойствами, устанавливаются динамические отношения принадлежности. Формально правило транзитивности свойств синонима можно записать в виде:

(/рдр;) л (р'УЩ л (ш^о л (/РЯр'т) л (р!т1Щ v р1ПРР/ v р'тЕ5Р/) -> 1РЯр! ,

где для объектов г и/выполняется условие связности запросов. Правило партисипативной/партономической идентификации. Данное правило может быть использовано в следующих случаях:

1. Объект, имеющий метасвойство единства, может быть идентифицирован посредством указания значений идентификационных свойств его объектов-частей или объектов-участников.

Правило партономической/партисипативной идентификации объекта Г

через его часть/участника_объект Ь\

оШ{Ь) ="ип") л фРКТЬ) v (1РЯСЬ)) л (ЬРКр) л (рЮРЬ) л (ЬРШ) л (/ЯЗЯ>) л (Ак глА,п Ан 1РКр

2. Объект-часть или объект-участник может быть идентифицирован через объект, имеющий метасвойство единства, частью которого он является или в котором участвует, посредством указания значений идентификационных свойств других частей или участников.

Формально данное правило можно записать следующим образом: (МУ(6) ="ш") л ((ЬРКП) v (ЬРЯО)) л ((ЬРИТ/) V (ЬРКСЛ)) л (/Г'Рр) л (рЮР/) л (ЬРЯк) л (кЮРЬ) л (Ак п А, п * 0) -> ¡РКр

Правило ситуативного поиска. Использование онтологии Бп8 дает возможность использовать при расширении запроса факт вхождения объекта поиска в некоторую ситуацию, включающую также другие объекты. В этом случае их можно использовать для нахождения ситуации, а уже по последней определять объект поиска.

Так если объект г является составляющей ситуации 5, наряду с объектом/, то можно осуществлять поиск I с определением значений на свойство / - р, обладающее метасвойствами.

Формально данное правило можно представить следующим образом:

(/Ж?) Л ОЖу) л (/РЯр) Л (р/Дру V рПЕРУ V рЯЯР/) л (А, пА„пА/*0)-> 1РКр ЯТ г- (Я у Ж - птншпрняр (гелпвпетпппяртп (япНяЯех) уп ОНТОЛОГИИ Оп8

определяемое между ситуациями и описаниями.

Перечисленные правила приводят к неявному расширению запроса путем использования метаинформации для представления наиболее важных свойств объекта поиска, а также вариантов запроса по связанным с ним объектам.

В четвертой главе описывается практическая реализации разработанных моделей, метода и технологий виде компонентов системы интеграции распределенных информационных ресурсов, а также их применения для информационного обеспечения ГиМУ.

Главным элементом системы семантической интеграции (рис. 2) является семантическое хранилище, содержащее информационное и программное наполнение, необходимое для выполнения задач интегрирования метаинформации и предоставления на ее основе доступа к данным в исходных источниках. Основными компонентами семантического хранилища являются:

модуль поддержи интерфейса пользователя. Данный модуль осуществляет поддержку взаимодействия пользователя с тезаурусом. В его задачи входит представление вариантов расширения пользовательского запроса, а также корректировка весов связей между понятиями в соответствии с предпочтениями пользователя;

- интегратор исходных онтологических моделей. Задачей данного модуля является отображение понятий онтологии ресурса, включаемого в интегрированное информационное пространство;

- обработчик запросов. Его основной функцией является декомпозиция запроса пользователя на атомарные подзапросы, определение плана их выполнения и его осуществление;

Пользователь

Ведомственная информационная система

* Программный ' агент

ВОР хранилище

: Инс^рмационный А ьШ^1

... уШтщ ;

.... _в£

Ведомственная информационная система

I. гг^т. ....

Ведомственная информационная система

Рисунок. 2. Обобщенная структура системы интеграции.

18

- менеджер агентных запросов. Выполняет функции по взаимодействию семантического хранилища с агентами, представляющими исходные

I M J 1Q Г Т Т Ю 11 IГ LT.* Q Г'1 l'-J.'n Оt\;4' Ï TV U ТЛ и'11/*11ГТf J \ f »/РУГЯГ^РТНПР

— ~ vvvw.v --------- ----

взаимодействие;

расширяемый тезаурус. Он является источником хранения интегрированной метаинформации, которая включает системы понятий, используемых в онтологиях исходных информационных ресурсов. Тезаурус необходим для функционирования других компонентов семантического хранилища.

Одним из важнейший компонентов системы интеграции является разделяемый тезаурус. Он представляет собой модульную онтологию, описанную с применением языков моделей OWL и SKOS.

Взаимодействие с ведомственными информационными системами осуществляется посредством их агентов. Основной функцией агента является представление в семантическом хранилище исходного информационного ресурса. Агент осуществляет поиск и модификацию информации в RDF хранилище в соответствии с онтологией информационного ресурса, а также осуществляет формирование и отправку запросов менеджеру семантического хранилища.

Разработка агентов выполнялась на основе платформы JADE, реализующей основные механизмы работы мультиагентной системы. Для обеспечения возможности агентов работать с онтологиями использовалась библиотека AgentOWL. Она обеспечивает использование RDF/OWL онтологии в качестве описания модели знаний агента. Межагентная передача сообщений осуществляется с помощью транспортного компонента платформы JADE.

Разработанный программный комплекс был внедрен в информационную систему Апатитского филиала ОАО «Мурмалоблгаз». Это позволило качественно изменить выполняемые в рамках информационного обеспечения операции, что привело к уменьшению количества и повышения автоматизации составляющих их этапов. Из таблицы 1 видно, что примерное время выполнения операций в модифицированной ИС сократилось примерно вдвое.

Операции с данными ис Этапы операции Временная диаграмма операции Примечание

Предоставление информации о состоянии счета и др информационно справочные-документы клиентам и roc учреждениям х X s 1. Личный визит I_| Кол-во визитов; 1 - 2 (в случае запроса из дочернего подразделения -выполняется в течении суток)

2. Импортирование данных из БД подразделений ¡шшжшш ;

3. Запрос информации сотрудником Щ5

4. Выдача док-та

Ш- X сг о - s 1 Гичмимеизит'мпроечеррцзев ■ портал ыу ' || ■ . Запрос сотруншка осуществляется в случав личного

2. Запрос сотр-ком инф-ии, содержащейся в ИС : ЕШ ЁЩ ' ■

3. Выдача док-та - " — . . ш □ л

Предоставление доступа органам соцзащиты к актуальной информации о гражданах, получающих льготы исх. ИС I Выгрузка данных из БД организации шшш^шц Нельзя получить данные в произвольный момент времени

2. Приведение данных к формату отправки сгц

3. Отправка данных ежз

о X . п . ш о" 1 Подготовка потенциального ответа н-кга Отбор данных осуществляется автоматически путей. определения Ь -. экземпляров класса

2 Запрос и > и о Льготниках щ

Получение служебные данных сотрудниками из подразделений организаций Q X >: s 1. Импортирование данных из БД подразделений тшштщ Импортирование производилось 1 раз в сутки

2. Запрос информации сотрудником цщ

3. Получение данных Е53

к 1 Формирование запроса сз Служащий осуществляет запрос посредством ИС

ш 5- 2, Получения ответа ' - - ЕЗ

Е£Э - этап выполняется автоматически ЕШ - аетоматгшродакный этап [ 1 - неавто?латтаирова'г)ньм этап

Таблица 1. Сравнительное время выполнения операций информационного обеспечения в исходной и модифицированной информационной системе.

Необходимо заметить, что, несмотря на принадлежность данной организации к коммерческим, а не государственным или муниципальным, процессы информационного обеспечения, оперативность выполнения которых была существенно повышена, характерны для большинства организаций в ГиМУ. Вследствие чего можно сделать вывод о том, что внедрение и использование данного программного комплекса по аналогичному сценарию в их информационных системах приведет к схожим результатам. Наряду с этим, предоставленная возможность органам социальной защиты в любое время получать актуальные данные о гражданах, имеющим льготы тариф, уже дает возможность контролировать в определенной мере исполнение решений о предоставлении экономической поддержки населения, и тем самым подтверждает совершенствования информационного обеспечения ГиМУ.

Таким образом, представленные в работе метод и технологии позволяют создать единое информационное пространство с выраженной семантикой данных и регулируемым доступом к входящим в него ресурсам и использовать его для предоставления качественного и оперативного информационного обеспечения ГиМУ.

Заключение

В диссертационной работе получены следующие основные результаты:

1. Создана онтологическая модель ПО ГиМУ - расширяемый тезаурус, являющаяся основой для разработки и интегрированного представления онтологий исходных информационных ресурсов. В модель включены понятия и отношения онтологий верхнего уровня, концепты, представляющие обобщенные модели понятий, процессов и явлений, описываемых в информационных ресурсах предметной области, а также общезначимые атомарные атрибуты, источниками, для определения которых явились общероссийские классификаторы. Данный набор элементов позволяет производить на его основе разработку онтологий ресурсов с различной выразительностью, адекватной целями и затратами на интеграцию конкретного ресурса, представить важные при последующей интеграции свойства понятий и повторно использовать понятия из онтологий, разработанных в других учреждениях;

2. Создана технология для решения задачи регулирования доступа, основанная на применении типовой машины вывода над специализированной онтологией процедур доступа. Это позволяет свести данную задачу к выполнению классификации экземпляров онтологии. Применение данной технологии дает возможность владельцу формулировать в терминах предметной области гибкие правила доступа к принадлежащему ему ресурсу и тем самым обеспечить функционирование системы интеграции в условиях организационной разнородности информационных ресурсов;

3. Разработана технология интеграции онтологий информационных ресурсов в тезаурусе. Она предполагает выполнение отображения понятий онтологии интегрируемого ресурса в тезаурусе с образованием взвешенных отношений синонимии и ассоциации с понятиями, находящимися в нем. Вес и тип отношения определяется в результате вычисления составной семантической метрики, отражающей смысловую близость понятий. Впоследствии вес отношения может корректироваться на основании статистики использования связанных понятий пользователем. Это приводит к подстройке тезауруса под представление пользователя и устраняет ошибочные отношения, созданные на этапе интеграции онтологии в тезаурус. Таким образом, технология снижает затраты на интеграцию многочисленных онтологий за счет отсутствия необходимости привлечения экспертов, позволяет избежать существенных семантических конфликтов за счет использование комплексной оценки семантической близости и предоставить возможность пользователю разрешить их в процессе работы;

4. Разработана технология реализации высокоуровневого интерфейса для обеспечения интерактивного взаимодействия с пользователем в процессе поиска им информации в интегрированных ресурсах. Основу технологии составляют правила расширения запроса на базе таких компонентов тезауруса как: отношения гипонимии, синонимии и ассоциации, метасвойства методологии ОпЮс1еап, и отношения онтологии БпЗ. Использование данной технологии позволяет облегчить работу пользователя благодаря представлению ему вариантов запроса, включающих наиболее значимые свойства понятия, а также понятия, непосредственно не связанные с объектом поиска.

5. Разработан программный комплекс, позволяющий сформировать интегрированное семантическое представление разнородных информационных ресурсов и обеспечить на его качественное и оперативное информационное обеспечение ГиМУ. Применение данного программного комплекса позволяет повысить эффективность информационного обеспечения ГиМУ за счет предоставления санкционированного доступа к актуальным данным из интегрированных информационных источников с минимальным затратами их владельцев.

Список публикаций по теме диссертации

Публикации в рецензируемых журналах, рекомендованных ВАК:

1. Ломов П.А., Шишаев М. Г. Интеграция данных на основе онтологий для обеспечения информационной поддержки управленческих решений / П.А. Ломов, М.Г. Шишаев// Прикладные проблемы управления макросистемами. Под ред. Ю.С.Попкова, В.АЛутилова. Т.39. - М.: Книжный дом «ЛИБРОКОМ», 2008. С.159-173. Вклад диссертанта - 80%

2. Ломов П.А., Шишаев М.Г. Интеграция онтологий с использованием тезауруса для осуществления семантического поиска. // Информационные технологии и вычислительные системы. - №3,- 2009. - С. 49-59. Вклад диссертанта - 80%

3. Маслобоев A.B., Ломов П.А. Использование общесистемного тезауруса как

основы интеллектуального пользовательского интерфейса системы распределенного семантического поиска // Интеллектуальные системы. Т. 14, вып. 1 -4.2010. С. 53-70. Вклад диссертанта - 70%

4. Ломов П.А., Путилов В.А., Маслобоев A.B. Поддержка интеллектуальности пользовательского интерфейса системы распределенного семантическош поиска: проблемы и решения /' П.А. Ломов, В.А. Путилов, A.B. Маслобоев // Вестник МГТУ: Труды Мурманского государственного технического университета - 2010. - Т. 13, №3. - Мурманск: МГТУ, 2010. - С. 574-586. Вклад диссертанта - 50%

5. Ломов П.А., Шишаев М.Г., Диковицкий В.В. Онтологическая модель государственного и муниципального управления для проведения семантической интеграции информации в области государственного и муниципального управления / VIII-я Всероссийская школа-семинар «Прикладные проблемы управления макросистемами, 29 марта-2 апреля 2010 г., г. Апатиты / Труды Института системного анализа РАН // Под ред. Попкова Ю.С., Путилова В.А. - М: Книжный дом «ЛИБРОКОМ», 2010. -Т.59. - С. 118132. Вклад диссертанта - 70%

6. Маслобоев A.B., Ломов П.А., Подходы к интеграции разнородных онтологий на основе формальных и неформальных методов оценки их семантической близости / A.B. Маслобоев, П.А. Ломов // Вести высших учебных заведений Черноземья - 2010. - №4(22).- Липецк: Изд-во ЛГТУ, 2011.-С. 42 - 46. Вклад диссертанта - 60%

Прочие публикации

7. Ломов П. А., Шишаев М. Г. Разработка метода семантической интеграции

инАопмяпии П rrtlfnp mrVnnnrTR^f-rrínrn И МУНРШИПЯпинпт VnnannPHHB // Тпулы -----г -X-------•----- -т -г- * ~ -J ^-í-----~ " -'J------------------•/ i------------- ' - Г^

XI Всероссийской научной конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции. - Петрозаводск: КарНЦ РАН, 2009. - С. 78 - 86. Вклад диссертанта - 90%

8. Ломов П.А., Шишаев М.Г. Интеграция семантически связанных информационных ресурсов на основе онтологии для эффективного информационного обеспечения рационального природопользования. //Сборник материалов IV научной школы РАН для молодых ученых и специалистов «Сбалансированное природопользование» - Апатиты: Изд-во КНЦ РАН. 2008. -С. 243-247. Вклад диссертанта - 70%

9. Ломов П. А., Шишаев М. Г. Разработка онтологии для семантического управления доступом // Сборник трудов конференции «Управление знаниями и технологии семантического веба - 2010», СПб: СПбГУ ИТМО, 2010. - 82 - 91 с. - ISBN 978-5-7577-0369-5. Вклад диссертанта - 90%

Ю.Ломов П. А., Шишаев М.Г. Интеграция семантически связанных информационных ресурсов на основе онтологий. // Информационные технологии в региональном развитии: Сборник научных трудов ИИММ КНЦ РАН, вып. VII. Под ред. В.А. Путилова - Апатиты: Изд-во КНЦ РАН, 2007. - С. 61-68. Вклад диссертанта — 70%

11. Ломов П.А., Шишаев М.Г. Использование базовых классов для установления смысловой эквивалентности в семантически гетерогенных информационных ресурсах // Информационные технологии в региональном развитии: Сборник научных трудов ИИММ КНЦ РАН, вып. VIII. Под ред. В.А. Путилова - Апатиты: Изд-во КНЦ РАН, 2008. - С. 62-68. Вклад диссертанта -70%

12. Ломов П.А., Шишаев М.Г. Онтология верхнего уровня DOLCE и ее использование для задания прикладных онтологических моделей // Информационные технологии в региональном развитии: Сборник научных трудов ИИММ КНЦ РАН, вып. IX. Под ред. В.А. Путилова - Апатиты: Изд-во КНЦ РАН, 2009. - С. 51-55. Вклад диссертанта - 80%

13. Шишаев М.Г., Ломов П.А., Фильчакова Т.А. Технология автоматизированной трансляции разнородных описаний бизнес-предложений в структурированное представление // Информационные технологии в региональном развитии. - Апатиты, 2009.- Вып. IX,- С. 76-79. Вклад диссертанта - 20%

14. Маслобоев А. В., Ломов П. А., Мавренков Н. М. Метод автоматического построения и сравнения контекстов понятий онтологий для оценки их семантической близости // Труды Кольского научного центра РАН. Серия: Информационные технологии. - Апатиты, 2010. - Вып. 1.-41 - 46 с. Вклад диссертанта - 50%

Автореферат

Ломов Павел Андреевич

МЕТОД И ТЕХНОЛОГИИ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО УПРАВЛЕНИЯ

Технический редактор: Каржавина С.И.

Подписано к печати 08.11.11

Формат 60*84 1/16. Бумага типографская. Печать офсетная. Уч.-изд.л. 1. Усл. Краско-отт. Заказ № КФ-21. Тираж 100 экз.

Издательство Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Петрозаводский государственный университет» (ПетрГУ) г. Петрозаводск, пр. Ленина, 33

Отпечатано подразделением оперативной полиграфии Кольского филиала ПетрГУ 184200, г. Апатиты, ул. Космонавтов, 3

24

Текст работы Ломов, Павел Андреевич, диссертация по теме Управление в социальных и экономических системах

61 12-5/1636

РОССИЙСКАЯ АКАДЕМИЯ НАУК КОЛЬСКИЙ НАУЧНЫЙ ЦЕНТР Институт информатики и математического моделирования технологических процессов

На правахрут^описи

Ломов Павел Андреевич

МЕТОД И ТЕХНОЛОГИИ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО

УПРАВЛЕНИЯ

Специальность 05.13.10 - «Управление в социальных и экономических

системах» (технические науки).

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель:

д. т. н, проф. Шишаев Максим

Геннадьевич

Москва - 2011

Оглавление

Введение.............................................................................................4

1 Теоретические и практические основы проведения информационной интеграции в сфере ГиМУ.......................................12

1.1 Специфика проблемы интеграции информации в сфере ГиМУ..........12

1.2 Основные методы информационной интеграции..................................14

1.3 Примеры систем интеграции данных в сфере ГиМУ...........................37

1.4 Описание предлагаемого метода создания и использования единого информационного пространства в сфере ГиМУ....................................................42

Выводы.............................................................................................................46

2 Онтологическая модель для проведения семантической интеграции информации в области ГиМУ............................................47

2.1 Проблематика разработки интегрирующей модели..............................47

2.2 Определение расширяемого тезауруса...................................................48

2.3 Отображение понятий онтологии верхнего уровня DOLCE в тезаурусе .....................................................................................................................................52

2.4 Представление в тезаурусе онтологии DnS...........................................63

2.5 Представление обобщенных понятий предметной области ГиМУ в тезаурусе....................................................................................................................73

2.6 Разработка технологии семантического регулирования доступа к информационным ресурсам на основе онтологии.................................................85

2.7 Выводы.....................................................................................................103

3 Технология семантической интеграции информации предметной области ГиМУ...................................................................105

3.1 Интеграция онтологий в контексте семантической интеграции информации.............................................................................................................105

3.2 Использование различного вида семантики при сравнении понятий 106

3.3 Технология интеграции онтологий разнородных информационных ресурсов на базе расширяемого тезауруса...........................................................110

2

3.4 Технология реализации высокоуровневого пользовательского интерфейса пользователя на основе тезауруса....................................................131

3.5 Корректировка весов отношений в процессе работы пользователя.. 143

3.6 Выводы.....................................................................................................145

4. Программная реализация системы семантической интеграции распределенных информационных ресурсов ГиМУ..........................147

4.1 Назначение и функциональные возможности разработанной системы ...................................................................................................................................147

4.2 Структура системы и назначение функциональных модулей...........148

4.3 Инструментальные средства и принципы разработки системы........152

4.4 Пример внедрения программного комплекса......................................161

4.5 Выводы.....................................................................................................164

Заключение.....................................................................................165

Список использованных источников..........................................168

Введение

Функционирование органов государственного и муниципального управления (ГиМУ) в основном связанно с выработкой и исполнением решений и оказанием государственных услуг населению. При этом базовой компонентой этих процессов всегда являлась информация, значение которой все более возрастало. На сегодняшний день уровень информационного обеспечения органов ГиМУ является одной из важнейших характеристик, от которой существенно зависит результативность их управленческой деятельности и в конечном итоге социально-экономическое развитие общества. Поэтому совершенствование информационного обеспечения следует рассматривать как одно из стратегических направлений повышения эффективности деятельности на государственном, отраслевом, региональном, международном уровнях.

Среди основных факторов, оказывающих негативное влияние на информационное обеспечение органов ГиМУ Российской Федерации (РФ) можно выделить: огромные объемы данных, хранящиеся в гетерогенных и распределенных информационных ресурсах, большое количество государственных учреждений, а также наличие слабого информационного взаимодействия между ними. Данные обстоятельства затрудняют или делают невозможным оперативное получение набора необходимых данных для принятия решений или оказания государственных услуг.

Вышеизложенное обуславливает актуальность разработки методов, технологий и средств интеграции информационных ресурсов с целью образования единого информационного пространства и предоставления на его основе необходимого информационного обеспечения ГиМУ.

На сегодняшний день существуют подходы к интеграции путем консолидации или распределения данных, применяемые в коммерческом секторе и промышленности. Они ориентированы, как правило, на интеграцию данных для решения узкого круга задач, что подразумевает приведение различных фрагментов данных под некоторых общий шаблон. Тем самым происходит потеря части семантики данных в процессе интеграции, что

4

приводит к сильному снижению выразительности полученного в итоге единого информационного пространства. В сфере ГиМУ, где действует множество субъектов, рассматривающих сходные информационные фрагменты с различных точек зрения, данное обстоятельство существенно ограничивает возможности использования единого информационного пространства. Особенно это существенно в отношении информационного обеспечения задач управления, так как сложно предсказать какая информация и в каком контексте потребуется для решения социальных и экономических проблем. Также утрата части семантики фрагментов данных приводит к появлению смысловых конфликтов и ошибок в программных продуктах, вызванных произвольными трактовками смысла интегрированной информации. Другими недостатками данных подходов являются: отсутствие ответственности за информацию, переданную во время интеграции, ее дублирование, а также потеря контроля доступа к ней. Перечисленные обстоятельства определяют необходимость применения иных подходов к интеграции информации в сфере ГиМУ, ориентированных в первую очередь на оперирование семантикой данных в процессе их интеграции.

Большое влияние на развитие средств и методов семантической интеграции оказывает инициатива Semantic Web, направленная на явное представление машинопонимаемой информации в сети Интернет. Для этого в рамках данной инициативы применяются онтологии, являющиеся формальным преставлениями понятийных систем предметных областей (ПО) и задач. Онтологии определяют разделяемую машинопонимаемую метаинформацию, которой аннотируются фрагменты данных информационного ресурса. Это позволяет оперировать данными, с точки зрения семантики, определенной в онтологии, и тем самым получать в результате интеграции информационное пространство с явно выраженным смысловым представлением включенной в него информации. Его использование позволит повысить эффективность информационного обеспечения ГиМУ, предоставлять широкий спектр государственных услуг, требующих рассмотрения информационных

5

фрагментов как описаний различных понятий ПО, а также создаст предпосылки для разработки и широкого применения интеллектуальных системы для решения задач в данной сфере.

Целью работы является совершенствование информационного обеспечения ГиМУ за счет формирования и использования интегрированного семантического представления разнородных информационных ресурсов на основе современных методов инженерии знаний; В ходе исследования были поставлены и решены следующие задачи исследования:

1. Определены основные этапы метода формирования и использования интегрированного семантического представления разнородных информационных ресурсов ГиМУ в условиях их семантической, структурной и организационной разнородности;

2. Создана интегрирующая онтологическая модель ПО ГиМУ - расширяемый тезаурус, которая используется в качестве основы для разработки и последующего единого унифицированного представления онтологий исходных информационных ресурсов;

3. Разработана технология регулирования доступа к информационным ресурсам с разноподчиненными владельцами, основанная на применении логического вывода над специализированной онтологией процедур доступа;

4. Разработана технология автоматизированной интеграции онтологий информационных ресурсов ГиМУ, основанная на проведении комплексной оценки семантической близости понятий, а также ее последующей корректировки;

5. Разработана технология реализации высокоуровневого интерфейса для обеспечения интерактивного взаимодействия с пользователем на основе метаинформации, хранящейся в тезаурусе;

6. Создан программный комплекс, ориентированный на формирование и использование интегрированного семантического представления разнородных информационных ресурсов для осуществления информационного обеспечения ГиМУ.

Объектом исследования являются онтологии, языки их представления, а также информационные процессы и ресурсы ГиМУ.

Предметом исследования являются методы семантической интеграции и обработки информации.

Используемые методы

Для решения поставленных в работе задач использованы методы, разработанные в области интеграции данных, онтологического моделирования, информационного поиска, машинного обучения и математической логики, описанные в работах отечественных и зарубежных ученых: Д. А. Поспелова, Т. А. Гавриловой, Л. А. Калиниченко, М. Р. Когаловского, В. А. Серебрякова, Г. С. Осипова, И. А. Тихомирова, Б. В. Доброва, В.Ф. Хорошевского, Н. В. Лукашевич, С. Д. Кузнецова, А. В. Смирнова, Н. А Скворцова, Н. Гуарино, Н. Ной, Т. Грубера, Т. Бернерса-Ли, Д. МакГиннесс, Ф. Баадера, и других.

Научная новизна исследования

1. Создана интегрирующая онтологическая модель предметной области ГиМУ - расширяемый тезаурус. Использование тезауруса, наряду с разработанным для него инструментальным программным обеспечением, позволяет разрабатывать онтологии с необходимой выразительностью, сообразной целям и предполагаемым затратам на интеграцию описываемого ими ресурса, дает возможность отразить важные для последующей интеграции свойства понятий исходных онтологий, а также позволяет повторно использовать понятия из онтологий других учреждений;

2. Создана технология регулирования доступа к информационным ресурсам на основе специализированной онтологии, содержащей общую понятийную систему для описания процедур доступа. Отличительной особенностью данной технологии является использование онтологии как для задания правил доступа, так и в процессе его регулирования. Это достигается благодаря сведению задачи регулирования доступа к проведению классификации экземпляров онтологии с помощью типовой машины

логического вывода. Использование данной технологии позволяет владельцам ресурсов самостоятельно определять в терминах предметной области ГиМУ и использовать правила доступа к интегрируемым ресурсам;

3. Разработана технология интеграции семантически разнородных онтологии на основе расширяемого тезауруса. Основным отличием технологии является отсутствие необходимости привлечения эксперта как на этапе отображения понятий онтологий в тезаурусе, так и на этапе корректировки данного отображения. Это достигается за счет выполнения комплексной оценки семантической близости понятий с возможным установлением между ними взвешенных отношений и последующей корректировкой весов на основе статистики работы пользователя;

4. Разработана технология реализации высокоуровневого пользовательского интерфейса. Она позволяет облегчить поиск информации пользователем в интегрированных информационных ресурсах ГиМУ. Это достигается за счет интерактивного формирования поисковых запросов на основе правил, учитывающих помимо иерархических, синонимичных и ассоциативных отношений между понятиями, также отношения из онтологий верхнего уровня и метасвойства, содержащихся в тезаурусе.

Положения, выносимые на защиту:

1. Онтологическая интегрирующая модель ПО ГиМУ - расширяемый тезаурус;

2. Технология регулирования доступа на основе специализированной онтологии процедур доступа;

3. Технология интеграции онтологий информационных ресурсов в тезаурусе;

4. Технология реализации высокоуровневого интерфейса для обеспечения интерактивного взаимодействия с пользователем.

Практическая значимость

Разработанные онтологические модели и технологии могут быть в дальнейшем использованы в области онтологического моделирования, Semantic Web, а также для решения практических задач интеграции данных и информационного обеспечения в сфере ГиМУ.

Основу диссертационной работы составляют результаты, полученные автором в ходе исследований, проводимых по планам научно-исследовательских работ Института информатики и математического моделирования технологических процессов Кольского научного центра РАН в период с 2008 по 2010 годы: тема «Методы и технологии информационного обеспечения жизненного цикла инноваций» (№ гос. регистрации 0120.0 850592). Отдельные направления исследований поддержаны грантами РФФИ (проекты РФФИ № 08-07-00301, № 09-07-98800 р_север, № 09-07-98800-р_север_а).

Апробация работы

Основные результаты и положения диссертационной работы докладывались на следующих конференциях:

- VII, VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами». Апатиты, 2008, 2010 г.;

- IV Всероссийская научно-практическая конференция «Теория и практика системной динамики», Апатиты. 2011 г.;

- XI Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Петрозаводск, 2009 г.;

- Всероссийская молодежная конференция «Управление знаниями и технологии семантического веба», Санкт-Петербург, 2010 г.;

- IV школа молодых ученых «Сбалансированное природопользование». Апатиты, 2007 г.

Публикации

По теме диссертации опубликовано 14 работ, в том числе 6 из списка ВАК. Личный вклад автора состоит в разработке интегрирующей онтологической модели ГиМУ, инструментального программного обеспечения для работы с ней, создании онтологии управления доступом и определения способов ее применения, разработки алгоритма интеграции онтологий, формализации оценок семантической близости понятий и правил расширения пользовательских запросов.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка литературы (92 наименования), имеет общий объем 178 страницу, содержит 39 рисунков и 2 таблицы.

В введении обоснована актуальность работы, обозначены объект и предмет исследования. Представлена формулировка целей и задач исследования, описание научной новизны и практической ценности результатов. Излагаются краткое содержание и основные результаты диссертационной работы.

В первой главе предлагается общая характеристика решаемой в работе проблемы. Рассматриваются особенности предметной области ГиМУ, существенные в контексте решения проблемы семантической интеграции.

Представлены общие методы структурной интеграции корпоративной информации и их недостатки. Описаны основные подходы к семантической интеграция на основе онтологий. Отдельное внимание уделено проблематике использования онтологий в информационных системах. Рассмотрены технологии и стандарты Semantic Web и их роль в семантической интеграции информации, а также кратко рассмотрены существующие в Российской Федерации информационные системы, одной из основных задач которых является интеграция распределенных гетерогенных информационных ресурсов.

В заключении сформулированы выводы о применимости общих подходов

к семантической интеграции на основе онтологий.

10

Во второй главе представлена онтологическая интегрирующая модель ПО ГиМУ в виде расширяемого тезауруса.

Сформулированы основные требования к составу ее элементов, а также принципы ее разработки для учета специфики предметной области. Приведен анализ онтологий верхнего уровня DOLCE, DnS, методологии Ontoclean, рассмотрено отображение их элементов в тезаурусе. Рассмотрено определение обобщенных понятий ПО, а также принципы их конкретизации в онтологиях исходных ресурсов. Представлена разработка технологии регулирования доступа на основе онтологии.

В третьей главе рассматривается процесс интеграции онтологий �