автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методы и средства управления научной информацией с использованием онтологий

кандидата физико-математических наук
Голомазов, Денис Дмитриевич
город
Москва
год
2012
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и средства управления научной информацией с использованием онтологий»

Автореферат диссертации по теме "Методы и средства управления научной информацией с использованием онтологий"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М. В. ЛОМОНОСОВА

005011574

Голомазов Денис Дмитриевич

Методы и средства управления научной информацией с использованием онтологий

Специальность 05.13.17 — теоретические основы информатики

АВТОРЕФЕРАТ диссертации иа соискаиие ученой степени кандидата физико-математических наук

1 6 ОЕЗ Ш

Москва - 2012

005011574

Работа выполнена на Механико-математическом факультете и в Научно-исследовательском институте механики Московского государственного университета имени М. В. Ломоносова.

Научный руководитель: доктор физико-математических наук, профессор

Васенин Валерий Александрович.

Официальные оппоненты: доктор физико-математических наук, профессор

Кузнецов Сергей Олегович',

кандидат физико-математических наук, доцент Бездушный Анатолий Николаевич.

Ведущая организация: Институт математики имени С.Л. Соболева СО РАН.

Защита состоится 29 февраля 2012 г. в 16 час. 45 мин. на заседании диссертационного совета Д 501.002.16 при Московском государственном университете имени М. В. Ломоносова по адресу: Российская Федерация, 119991, Москва, ГСП-1, Ленинские горы, д. 1, Московский государственный университет имени М. В. Ломоносова, Механико-математический факультет, ауд. 14-08.

С диссертацией можно ознакомиться в библиотеке Механико-математического факультета (14 этаж) Московского государственного университета имени М. В. Ломоносова.

Автореферат разослан 27 января 2012 г.

Ученый секретарь

диссертационного совета Д 501.002.16

при Московском государственном университете

имени М. В. Ломоносова

доктор физико-математических наук, профессор

Корпев А. А.

Общая характеристика работы

Актуальность работы. Для улучшения работы научных организаций и, как следствие, повышения эффективности развития науки в масштабах государства необходимо перманентно анализировать информацию о результатах деятельности отдельных ученых и коллективов исследователей. Основными результатами деятельности организаций, входящих в научное сообщество, как правило, считаются публикации сотрудников, результаты патентных исследований, участие в конференциях, руководство курсовыми, дипломными и диссертационными работами, чтение лекций и ряд других. При этом, как показывает практика, далеко не все результаты такой деятельности представлены в открытом доступе в Интернет. Зачастую единственным источником подобной информации могут служить лишь годовые отчеты сотрудников научных организаций, представленные с той или иной степенью подробности. Естественным образом возникает необходимость автоматизированной (с участием человека) обработки данных из подобных научных отчетов в целях количественного и качественного анализа эффективности научной деятельности отдельного коллектива, вклада каждого его участника и возможной корректировки планов, мер и мероприятий на основе такого анализа. Целями проведения анализа могут быть следующие.

• Сравнение данных о работе подразделения с данными других подразделений, в том числе - зарубежных, которые работают на рассматриваемом направлении.

• Интеграция данных о работе подразделения с данными других подразделений в целях анализа развития науки в рамках структур корпоративного масштаба и по стране в целом.

• Корректировка финансирования подразделений, поощрения отдельных их членов на основе результатов научных достижений.

• Публикация обзорных аналитических статей, посвященных научным достижениям организации.

• Получение интегрированной информации о направлении исследований в отдельной области знания, например, список основных публикаций, задач, методов, уровень активности ученых, ключевые персоны и конференции на этом направлении.

Такая информация может представлять интерес для исследователя, которому необходимо получить первое, общее представление о еще недостаточно знакомом научном направлении.

Инструментом аналитика, целью которого является получение адекватного представления о деятельности организации или объединения нескольких организаций, могут служить результаты выполнения аналитических запросов к системе, занимающейся загрузкой, обработкой и хранением информации о научной деятельности работающих в них сотрудников. Примером такого запроса может служить «найти все публикации сотрудников интересующего учреждения за последний год, посвященные вопросам выделения данных из неструктурированных текстов и включенные в материалы международных конференций».

В качестве предмета исследования и анализа в диссертации выступает научная информация, которая определяется как совокупность данных, характеризующих результаты деятельности отдельных научных сотрудников. К такой информации относятся данные о научных статьях, которые включают их названия, списки авторов, места публикации и другие сведения, книгах, патентах, докладах на конференции и других видах научной деятельности.

Побудительным мотивом и конечной целью исследований, результаты которых представлены в настоящей диссертации, является создание интеллектуальной программной системы для поиска, систематизации и анализа научной информации. Актуальность поставленной задачи определяется острой необходимостью контролировать и анализировать информацию, характеризующую деятельность научных организаций, а также большими объемами такой информации и низкой степенью автоматизации процессов ее сбора и анализа.

Целью диссертационной работы является исследование и разработка математических моделей, алгоритмов и программных средств поиска и систематизации, хранения и анализа информации, характеризующей деятельность научных организаций, с использованием онтологий. Такая деятельность соответствует областям исследований, отмеченным в пп. 2, 5, 9 Паспорта специальности 05.13.17 - теоретические основы информатики.

Научная новизна. Автором разработан новый алгоритм построения онтологии отдельной области научного знания на основе выделения терминов из анонсов научных конференций, а также путем использования информации из поисковых систем в Интернет. Математически доказана оценка вычислительной сложности его реализации. Отличительными особенностями разработанного алгоритма являются: мягкие требования к исходным данным; автоматическое выделение терминов области знания; возможность использования алгоритма для построения онтологий других областей научного знания без его модификации; отсутствие необходимости в большом объеме ручного труда экспертов. Автором разработан также новый, удовлетворяющий предъявляемым к нему требованиям алгоритм выделения терминов-пар слов из коллекций текстов с заданным тематическим делением, эффективность которого в сравнении с классическими алгоритмами продемонстрирована на задачах классификации и кластеризации текстов. Математически доказана оценка вычислительной сложности его реализации и тот факт, что базовая функция веса термина в рубрике удовлетворяет предъявляемым к ней требованиям.

Практическая значимость. Рассматриваемый в диссертации программный комплекс учета и анализа научной информации ИСТИНА, реализующий архитектуру и разработанные автором алгоритмы построения онтологии предметной области и выделения терминов представляет собой самостоятельный инновационно перспективный продукт. Вместе с тем, его математическое, алгоритмическое и программное обеспечение может найти эффективное применение при построении других информационно-аналитических систем, в том числе - систем подготовки принятия решений в организациях научно-технического профиля и высших учебных заведениях.

На защиту выносятся:

• разработанные на основе результатов исследования предметной области математические модели и алгоритмы, архитектурные и технологические решения, опирающиеся на онтологии, для создания системы пополнения и хранения, анализа и выдачи по запросу информации, характеризующей результаты деятельности научной организации;

• формальное описание запросов к системе с использованием онтологий и языка 8РА11(ЗЬ, создающее гарантии вычисления запросов и дополнительные возможности для эффективной верификации кода системы на всех этапах ее жизненного цикла;

• алгоритмы построения онтологии отдельной области научного знания и выделения терминов-пар слов из коллекции текстов с заданным тематическим делением, удовлетворяющие предъявляемым к ним требованиям; аналитические оценки сложности их программной реализации, полученные с использованием математических моделей;

• прототип программного комплекса для учета и анализа научной информации, именуемый Интеллектуальной Системой Тематического Исследования НАучно-технической информации (ИСТИНА), тестовые испытания которого подтвердили справедливость аналитических оценок сложности реализации основных алгоритмов, а также тот факт, что комплекс в целом удовлетворяет предъявляемым к нему требованиям.

Апробация работы. Основные результаты диссертации докладывались на всероссийской конференции с международным участием «Знания-Онтологии-Теории (ЗОНТ-2011)»,

на научно-практической конференции «Актуальные проблемы системной и программной инженерии (АПСПИ-2011)», на международных конференциях «3rd International Conference on Language and Automata Theory and Applications (LATA 2009)» и «Ломоносовские чтения» (2008-2010), на научном семинаре РАН «Виртуальные научные сообщества и технологии нечетких распределенных вычислений (Cloud Computing)» (2010), на механико-математическом факультете МГУ имени М.В. Ломоносова на семинаре «Проблемы современных информационно-вычислительных систем» под руководством д.ф.-м.н., проф. В.А. Васенина (2008, 2010, 2011), на факультете бизнес-информатики НИУ ВШЭ на семинаре под руководством д.ф.-м.н., проф. С.О. Кузнецова (2011).

Публикации. По теме диссертации опубликовано 9 научных работ, в том числе - две в зарубежных изданиях. Три статьи [1-3] опубликованы в изданиях из перечня ВАК ведущих рецензируемых журналов.

Личный вклад автора. Результаты диссертации, которые выносятся на защиту, получены лично автором. Даны соответствующие ссылки на публикации, используемые в диссертации. В совместных работах отмечен вклад автора.

Структура и объем диссертации. Работа состоит из введения, пяти глав, заключения, списка литературы. Объем диссертации — 154 страницы, Приложений - 34 страницы. Список литературы включает 83 наименования. В текст диссертации входят 39 рисунков и 33 таблицы.

Содержание работы

Во введении описываются цели работы, обосновывается ее актуальность и практическая значимость, перечисляются основные результаты.

Первая глава является вводной и посвящена исследованию и систематизации подходов к учету и анализу научной информации. В разделе 1.1 ставится задача разработки системы управления научной информацией, которая включает перечень требований к качеству разработанного программного средства.

Исходными для решения рассматриваемой далее задачи являются представленные в виде электронной коллекции результаты деятельности отдельных научных сотрудников. Такая информация может храниться в различном виде, например, в форме годового отчета или списка публикаций. Примером такой информации могут служить данные о научной статье, которые включают ее название, список авторов, место публикации и другие сведения. Кроме статей, в рамках настоящей работы анализу подлежат такие объекты, как книги, патенты, доклады на конференциях, тезисы докладов, научные проекты, научные отчеты, свидетельства о регистрации прав на программное обеспечение, диссертации, членство ученого в редколлегиях журналов, сборников, программных комитетах конференций и диссертационных советах, руководства диссертациями и дипломными работами, а также учебные курсы. Конечной целью исследований, результаты которых представлены в настоящей диссертации, является создание системы (программного комплекса), способной на основе анализа данных из коллекции отвечать на различные аналитические запросы. Результатами выполнения таких запросов могут быть: перечень направлений, которые активно исследуются в рамках интересующей области знания (в запросе направление исследования может задаваться набором ключевых слов); перечень задач, в которых используются методы интересующего направления; перечень направлений научных интересов отдельного ученого; список исследователей, работающих на интересующем направлении; список публикаций, похожих на заданную и другие, аналогичные им.

В соответствии со стандартом ГОСТ Р ИСО/МЭК 9126-93 к качеству системы управления научной информацией предъявляются следующие требования: функциональность; надежность; практичность; эффективность; сопровождаемость; мобильность. Каждое из этих требований детализировано в Приложении А к диссертации. В качестве детализированных требований к функциональности системы, например, рассматриваются: автоматизированный ввод данных, которые описывают результаты научной и учебной деятельности сотрудников; полуавтоматическое (с участием пользователя) разрешение неоднозначностей имен объектов при вводе данных; вычисление типовых запросов, примеры которых представлены ранее; задание поискового запроса на естественном языке без использования терминов онтологии; реализация логического вывода новых данных из существующих; возможность интеграции информации, которая содержится в системе, с другими хранилищами.

В разделе 1.2 приводится описание существующих подходов к учету и анализу научной информации, включающих следующие методы: количественный анализ результатов научной деятельности по информации из отчетов; экспертный анализ материалов конференций и журналов; анализ обзорных статей; поиск по ключевым словам; системы управления научной информацией.

В разделе 1.3 представлен краткий обзор трех основных классов существующих систем управления научной информацией, условно разделенных по назначению и способу обработки данных, а именно - крупные веб-сервисы, зарубежные исследовательские проекты и российские семантические системы, включающие платформу ИСИР1 и комплекс, разработанный сотрудниками Института систем информатики имени А.П. Ершова Сибирского отделения РАН2. В обзоре отмечаются отличия решения, предлагаемого автором диссертации, от рассмотренных разработок, и обосновывается необходимость создания новой системы.

В заключение первой главы перечисляются основные недостатки известных на настоящее время систем обработки и анализа научных данных, которые могли бы рассматриваться как возможные решения основной задачи. К числу таких недостатков относятся: сложность ввода данных; сложность и малые возможности поиска информации; использование жестких и малоинформативных моделей области знания, нехватка гибкости систем; направленность на обработку информации из Интернет, а не на полуавтоматический ввод пользователем; недостаточное внимание к интеллектуализации алгоритмов загрузки, обработки и поиска информации. Отмечается, что программный комплекс, выступающий в качестве целевого в настоящей работе, с успехом может применяться во взаимодействии с другими системами, которые представлены выше, использовать отдельные их компоненты или информационные активы.

Во второй главе представлены разработанные автором архитектурно-технологические решения, которые используются в автоматизированной системе управления научной информацией. В разделе 2.1 описаны основы используемого онтологического подхода, включающие формальные положения онтологий, которые определяются на языке дескриптивной логики. Согласно классическому определению Т. Грубера3, онтология - это «формальная, явная спецификация общей концептуализации». Другими словами, это способ формального представления знаний с помощью конечного множества понятий и отношений между ними. Понятие, или сущность - это

бездушный A.A., Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Серебряков В.А. Возможности технологий ИСИР в поддержке Единого Научного Информационного Пространства РАН // Электронные библиотеки. - 2004. - Т. 7, ,\>6.

2Боровикова, О.И. Онтологический подход к построению систем информационной поддержки научной и производственной деятельности / О.И. Боровикова, Ю.А. Загорулько, Е.А. Сидорова // Материалы Всероссийской конференции с международным участием «Знания - Онтологии - Теории» (30HT-09). — Т. 2. — Новосибирск: Институт математики им. С.Л. Соболева СО РАН, 2009. — С. 93-102.

3 Gruber, Thomas R. A translation approach to portable ontology specifications / Thomas R Grubcr // Knowledge Acquisition. - 1993. — Vol. 5, №2. — Pp. 199-220.

класс индивидуальных объектов, или экземпляров. Связи между понятиями бывают следующих типов: иерархические (собаки являются животными); свойства (учитель обучает ученика); ограничения значений (только человек может быть родителем человека); определяющие непересекаемость понятий (кошка или собака); конкретизирующие логические отношения (в статье должен быть как минимум один автор).

В разделе 2.1 даны определения основных сущностей, которые используются в базовой дескриптивной логике АСС*. Далее перечислены некоторые из них (с нумерацией по тексту диссертации).

Определение 2.1. Пусть Nc - множество имен понятий И Nr - множество имен отношений. Множеством АСС-понятий называется такое наименьшее по мощности множество, что

• Т (универсальное понятие), J. (пустое понятие) и все имена понятий А € Nc являются ■Д£С-ионятиями;

• если С и D - ЛСС-иоиятчя и г € Nu, то выражения С'ПО, CUD, -<С, Уг.С, 3г.С являются АСС-понятиями.

Семантика дескриптивных логик задается с помощью интерпретации, определяемой для логики АСС следующим образом.

Определение 2.2. Интерпретацией называется параХ = (Д2, 2), состоящая из непустого множества Д2, называемого доменом интерпретации и функции -1, которая отображает каждое ,Д£С-понятие в подмножество домена Д2, а каждое имя отношения из Nr - в подмножество декартова произведения Д2 X Д2 так, что для любых ,Д£С-понятий C,D и произвольного имени отношения г справедливо:

Т2 = Д2, I1 = 0,

(С П D)1 = С1 п D1, (С U D)1 = С1 U D1, ^СХ = АХ\С1, (3г.С)1 = {х 6 Д1 I Зу € Д2 : (х,у) 6 г1 Л у 6 С2}, (Vr.C)1 = {х 6 Д1 | Vy е Д1 : если (х, у) е г1, то у е С2}.

Определение 2.3. Аксиомой вложенности понятий называется утверждение вида ССД где C,D - произвольные АСС-понятия.

Определение 2.4. Конечное множество аксиом вложенности понятий называется ТВох, или терминологической частью онтологии.

Определение 2.7. Пусть Nx - множество имен экземпляров. Тогда утверждениями об экземплярах называются выражения вида х : С и (х, у) : г, где С — произвольное АСС-понятие, Т - произвольное ИМЯ отношения, 8 1,1/6 Nx.

Определение 2.8. Конечное множество утверждений об экземплярах называется АВох, или фактологической частью онтологии.

Определение 2.11. Базой знаний (онтологией) называется пара (Т, А), где Т является ТВох, а А - АВох.

Далее в разделе отмечаются преимущества использования онтологий для представления знаний, включающие общее видение области знания, возможность логического вывода, выполнение сложных структурированных запросов, сравнительная легкость объединения баз знаний, гибкость модели данных и возможность повторного использования существующих онтологий.

В разделе 2.2 представлена математическая модель разработанной системы. Пусть задана область научного знания D (например, «информатика»). Пусть I - множество описаний единиц (атомарных гранул) научно-технической информации в рамках этой области знания. К таким единицам относятся: научные статьи; патенты; отчеты; доклады на конференциях;

4Sclmiidt-Schauß, Manfred. Attributive concept descriptions with complements / Manfred Schmidt-Schauß, Gert Smolka // Artificial Intelligence. — 1991. — Vol. 48, №1. — Pp. 1-26.

тезисы докладов; монографии; учебные пособия и иные авторские разработки (рефераты, переводы). Каждый элемент множества I представляет собой некоторое текстовое описание соответствующего объекта. Основной целью системы является выполнение поисково-аналитических запросов, примеры которых представлены выше. Обозначим множество типовых запросов символом ф. Задача состоит в построении отображения 77 : ф —» 21, которое сопоставляет запросу д е (3 подмножество описаний единиц научно-технической информации /, С I. В диссертации предлагаются методы и средства решения поставленной задачи, которое включает следующие пять этапов:

• выделение терминов, которые характеризуют область научного знания £>, из текстовых описаний научно-технических конференций, посвященных этой области знания;

• построение онтологии рассматриваемой области научного знания £>;

• загрузка данных о результатах научной деятельности сотрудников;

• установление связей между загруженной информацией о результатах научной деятельности и экземплярами построенной онтологии области знания;

• выполнение аналитических запросов к полученной информации.

Общая архитектура разработанной системы представлена на рис. 1. Далее в разделах 2.3-2.7 каждый из пяти этапов рассматривается подробнее.

Рис. 1. Общая архитектура разрабатываемой сгютемы управления, научной информацией.

Раздел 2.3 посвящен задаче выделения из текстовых документов терминов, которые характеризуют заданную область научного знания. В разделе представлены лингвистический и статистистический подходы к ее решению. В диссертации выделение терминов используется как этап построения онтологии области знания, однако, и это следует отметить, задача выделения терминов имеет и самостоятельную ценность.

В диссертации предлагается новый алгоритм выделения терминов, получивший название Brainsterm [1]. Алгоритм решает задачу извлечения терминов, содержащих пары слов, из текстовых документов, разделенных на рубрики. Подробное описание алгоритма приведено в разделе 3.1.

Определение 2.13. Под термином в настоящей диссертации понимается пара слов, характеризующая документ, в котором она встречается, с точки зрения его принадлежности к одной или нескольким рубрикам.

Раздел 2.4 посвящен задаче построения онтологии области научного знания. Формально задача построения онтологии на основе коллекции текстов определяется следующим образом.

Определение 2.14. Задача построения онтологии О = (Т, Л) состоит в выборе экспертом (или группой экспертов) коллекции текстов Doc, которая адекватно характеризует интересую-

Онгаямяи научной деятельности (SWRC)

щую разработчика онтологии предметную область и в формировании на основе ее формального (автоматизированного) анализа: множества имен понятий Ne', множества имен отношений ЛГд; множества имен экземпляров Nx\ конечного множества Т = ТВох аксиом вложенности понятий (терминологической части онтологии); конечного множества Л = АВох утверждений об экземплярах (фактологической части онтологии).

В разделе 2.4 дано описание близкой по постановке задачи заполнения онтологии и пример, иллюстрирующий отличие этих двух задач. Перечисляются причины, по которым построение онтологии является в настоящее время очень актуальной задачей. Для учета и анализа научной информации необходимо построить онтологию О о = (То, Ао) заданной области научного знания D. В разделе дается краткая характеристика метода построения онтологии Sonmake (Science Ontology Maker), разработанного автором. Подробное описание алгоритма Sonmake представлено в разделе 3.2.

Раздел 2.5 посвящен задаче загрузки данных в систему. Предложен метод загрузки данных, который используется в целевой системе. Процесс загрузки данных включает первичную обработку вводимых пользователем данных и выделение из них необходимой информации, например, списка публикаций сотрудника с указанием даты, места, названия публикации, информации о конференциях и проектах, в которых участвовал сотрудник, а также некоторых других сведений. Для описания научной деятельности используется онтология Semantic Web for Research Communities (SWRC)5, включающая такие концепты, как «человек», «организация», «публикация», «конференция», «проект», а также связи между ними. Отметим, что доя использования в разрабатываемой системе онтология SWRC была расширена путем добавления понятий и отношений, которые характеризуют ранее не предусмотренные ею типы результатов научной деятельности. К их числу относятся патенты, свидетельства о регистрации прав на программное обеспечение, членство в редколлегиях журналов и другие, аналогичные им. В соответствии с требованиями к системе в разработанном автором ее прототипе предполагается следующие четыре возможных способа ввода данных:

• разбор библиографических ссылок;

• разбор BíbTeX-записей;

• импорт страницы автора или страницы публикации в системе eLibrary.ru;

• заполнение полей вручную.

Разбор библиографических ссылок производится с помощью программного комплекса FreeCite0, разработанного в университете Брауна, США. Этот комплекс использует библиотеку CRF++7, реализующую алгоритм классификации Conditional Random Fields8. Авторами комплекса FreeCite было проведено обучение программы на размеченных библиографических ссылках. Однако со ссылками на русском языке комплекс не работал. В ходе работ по подготовке настоящей диссертации код программы FreeCite был модифицирован в целях поддержки русского языка. Было проведено также ее дополнительное обучение на размеченных библиографических ссылках на русском языке. В результате работы алгоритма из входной строки выделяются необходимые поля. Отметим, что в разработанном автором диссертации прототипе системы пользователь может редактировать извлеченные ею данные.

5The swrc ontology - semantic web for research communities / York Sure, Stephan Bloehdorn, Peter Haase et al. // Proceedings of the 12th Portuguese Conference on Artificial Intelligence - Progress in Artificial Intelligence (EPIA 2005), volume 3803 of LNCS. - Covilha: Springer, 2005. - Pp. 218-231.

ehttp://freecite.library.brown.edu

7http://cr fpp.sourceforge.net

8Lafferty, J. Conditional random fields: Probabilistic models for segmenting and labeling sequence data / J. Lafferty, A. McCaJlum, F.C.N. Pereira // Proc. 18th International Conf. on Machine Learning. — Morgan Kaufmann, 2001. — Pp. 282 - 289.

Разбор BibTeX-записей9 осуществляется с помощью библиотеки pybtex10, написанной на языке Python. Для нее автором создана небольшая обертка^ которая позволяет использовать ее в общем интерфейсе системы. Благодаря тому, что BibTeX является структурированным форматом, эта процедура не требует использования интеллектуальных алгоритмов.

Импорт информации из eLibrary.ru11 выполняется следующим образом. Входящими данными при этом способе ввода являются URL-адрес страницы автора или URL-адрес страницы публикации на портале eLibrary.ru. Автором разработан модуль, который копирует необходимые данные с сайта eLibrary.ru и предоставляет пользователю заполненные поля для проверки и редактирования, как и в случае использования других способов ввода. Отмстим, что при вводе адреса страницы автора система сама копирует информацию о всех публикациях автора на портале eLibrary.ru, сводя объем необходимой ручной работы к минимуму.

Ручной ввод данных необходим в том случае, когда пользователь добавляет в систему данные не о публикациях, а о других результатах научной деятельности, например, о докладах на конференциях, патентах, об участии в редколлегиях журналов и отчетах. Ему необходимо вручную заполнить поля формы (такие как «название», «авторы» и подобные им). Вместе с тем, система облегчает пользователю «ручную» работу, подсказывая по мере набора фамилии авторов и имена сущностей, содержащихся в ней, например, названия конференций, журналов, организаций и других объектов.

Раздел 2.6 посвящен задаче установления связей между загруженными данными, содержащими результаты научной деятельности сотрудников, и построенной онтологией области научного знания. До этого этапа из исходных документов выделяется лишь общая информация о научной деятельности сотрудника, например, в каких конференциях он участвовал и какие работы опубликовал. Этап связи необходим для получения информации о содержательной стороне деятельности сотрудника, например, каким областям знания посвящены его работы, какие задачи в этих областях он решал, какие методы и средства применял для решения поставленных задач.

В диссертации для определения степени семантической близости Sim между экземпляром е 6 JVf онтологии Os (например, статьей) и экземпляром t € N° онтологии Od (термином области знания) используется следующая формула:

Sim(e,t) = simcdu(title(e),t),

где title(e) - название публикации е, a simeju(si,s2) = 1+e<titD|5t^3i - функция похожести строк12 на основе расстояния Левенштейна editDist(si, S2)13, равного количеству правок (вставок, удалений и замен), необходимых для превращения строки si в строку s2. Если значение функции Sim(e, t) превышает значение константы Csim t то между научной публикацией и экземпляром онтологии ставится связь isAbout.

Раздел 2.7 посвящен задаче выполнения запросов к информации в онтологии. Выполнение аналитических запросов к данным обеспечивается в процессе взаимодействия конечного пользователя системы с программной реализацией модели, описывающей область знания. Такая модель, построенная автором, включает как общую информацию об области знания, так и данные о результатах научных исследований сотрудников организации в этой области. При

9Lamport, Leslie. Latex: a document preparation system / Leslie Lamport. — Boston, MA, USA: Addison-Wesley Longman Publishing Co., Inc., 1986.

10 http://pybtex.sourceforge.net

11 http://elibrary.ru

12Lin, Dckang. An Information-Thcorctic Definition of Similarity / Dekang Lin // Quality / Ed. by Judo W Shavlik; Citeseer. — Vol. 1. — Citeseer, 1998. — Pp. 296-304.

13ЛевенштеЙн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В.И. Ле-венштейн // Доклады Академий Наук СССР. — 1965.

этом появляется необходимость реализовать автоматическую перезапись запроса. Например, если пользователь ищет все публикации за последний год, посвященные группам Ли, то в случае, если их найдено мало, система должна предложить пользователю выдать все публикации по более широким направлениям, например, теории групп или алгебре в целом. И наоборот, при поиске публикаций или конференций, посвященных математическому анализу, система может предложить пользователю уточнить запрос, предоставив возможность выбора конкретного направления в рамках этой области знания.

Онтологический подход к представлению знаний позволяет применять существующие и прошедшие апробацию алгоритмы выполнения аналитических запросов. В частности, перезапись запроса при использовании онтологий может выполняться автоматически с помощью механизмов логического вывода. В качестве языка запросов к онтологиям в разрабатываемой системе используется язык SPARQL14, получивший в 2008 году статус рекомендации консорциума W3C15. Автором показано, что с помощью описанных в главе 2 архитектуры системы управления научной информацией и технологических решений можно получать ответы на все принятые в системе типы запросов. Представленная в разделе 2.7 связь между запросами, формальной моделью разрабатываемой системы и кодом запросов на языке SPARQL создает дополнительные возможности для верификации программной системы на всех этапах ее жизненного цикла.

Третья глава посвящена разработанным автором алгоритмам построения онтологии области научного знания и выделения терминов из коллекции текстов с заданным тематическим делением. В разделе 3.1 приводится описание алгоритма Brainsterm выделения терминов, состоящего из четырех критериев.

Алгоритм выделения терминов Brainsterm опирается на следующую математическую модель. Пусть W - множество всех слов, которые встречаются во всех документах заданной коллекции Doc, включая е - пустое слово, a PW - множество всех упорядоченных пар слов, то есть PW = W х W. Определим документ d как отображение d: N —> IV, которое сопоставляет каждому натуральному числу п слово, стоящее на n-той позиции в данном документе коллекции. Номера позиций, на которых нет слов (после конца документа), отображаются в пустое слово. Аналогично определим абзац р как отображение р: N —» W, которое сопоставляет каждому натуральному числу п слово, стоящее на n-той позиции в данном абзаце. Номера позиций, на которых нет слов, отображаются в пустое слово. Обозначим множество всех абзацев в коллекции через Р. Определим рубрику г как произвольное подмножество множества документов, а именно - г 6 2Doc. Мощность рубрики, как количество документов в ней, будем обозначать через |г|. Обозначим множество всех заданных рубрик через R.

Определим еще несколько вспомогательных отображений:

• Ti: PW -» W, Тг: PW W - проекции пары на множество слов, которые сопоставляют паре первое (соответственно, второе) слово пары;

• Freq: PW х Вое —> N U {0} - функция, которая определяет число вхождений пары pw € PW в документ d £ Doc,

• Freq: W х Doc -> N U {0} - функция, которая определяет число вхождений слова w 6 W в документ d 6 Doc\

• L(d) = | {n 6 N | d(n) / e}| - длина документа d\

• id(a) = a - тождественное отображение;

E /(»)

• Av(f, A) = — - среднее значение функции f на конечном множестве А. Например, Ли(| • |, R) - среднее количество документов в рубрике, Av(L,Doc) - средняя длина доку-

l4http://www .w3.org/TR/rdf-sparql-query

15http://www. w3.org

мента, Av(id, А) - среднее арифметическое чисел из множества А = {ai,..., ак].

Исходные данные для алгоритма Brainstem представляют собой таблицу, в которой строки соответствуют словам, встречающимся в документах коллекции. Отметим, что перед применением алгоритма рекомендуется провести первоначальную лингвистическую обработку документов - лемматизацию, то есть преобразование словоформ в нормальную (словарную) форму. Например, для существительных в русском языке такой формой является именительный падеж, единственное число. В каждой строке исходной таблицы записано четыре числа: номер рубрики; номер документа; номер абзаца; номер слова. Если слово А встречается в абзаце раньше слова Б, то и в таблице строка слова А будет выше строки слова Б. Таблица отсортирована по первым трем колонкам. Таким образом, о конкретном слове известно только то, в каких документах, сколько раз и на каких позициях оно встречается.

Алгоритм Brainsterm включает четыре этапа. На каждом из них с помощью некоторого правила выбирается подмножество М; множества A/;_i, полученного на предыдущем шаге. На первом этапе выбор производится из множества PW (всех пар слов), то есть Мц = PW. Множество Mi и есть термины - пары, которые удовлетворяют всем четырем критериям.

Пространственный критерий основан на предположении о том, что слова, образующие термин, расположены в тексте достаточно близко (хотя и не обязательно рядом):

Мх = {pw е М0 | Эр 6 Р : |p'^inipw)) -p'l{T2(pw))\ s? HAX.DIST}.

Пару образуют два слова, находящиеся в одном абзаце, между которыми в тексте стоят не более MAX_DIST-1 других слов.

Критерий частотности обеспечивает более высокую информативность базиса векторного пространства текстов путем исключения из множества Mi пар, которые встретились во всей коллекции меньше, чем MIN_FREQ раз:

М2 = {¡от 6 М, I ■Fre?(P«'id) > MIN.FREQ}.

re/г d6r

Критерий характерности - основной критерий алгоритма. Его суть заключается в определении термина, «пара должна быть характерной для некоторых рубрик». Каждой паре сопоставляется набор чисел - весов пары в каждой из рубрик. Вес Weightr пары pw в рубрике г вычисляется по формуле, подробное обоснование выбора которой приведено в разделе 3.1.4. Пусть рубрика г состоит из к документов d\,.. .,dk- Будем считать, что к > 1. К параметрам, от которых должна зависеть функция веса, относятся: число вхождений пары в документы рубрики Freq(pw, di), г € 1, к; относительные длины документов рубрики ■Щ/^о^)' • € 1, fc; относительное количество документов в рубрике ¿„Ij^fi). В итоге получаем, что функция Weightr должна зависеть от 2к + 1 параметров:

Weight^) = Weight, (Vre9(№ dt).....Freg(pW, dk), ^^y Av^ocy

|r| \

_ | щJ = Weightr{xu...,xk,y......yk,z) = Weightr(x,y,z).

Индекс г у функции Weight подчеркивает тот факт, что для рубрик, содержащих различное количество документов, функции Weightr зависят от разного числа аргументов. Отметим область определения функции Weightr:

D[Weightr) : х{ е Zn[0,+oo), у{ € (0,+оо), г е (0, +оо), г 6 TJc.

Пользуясь введенными обозначениями, формализуем требования к функции Weightr:

1. неотрицательное значение - Weightr(pw) ^ 0;

2. прямая зависимость от частоты - Vi 6 l,fc при х\ > Xi

WeightT(x\,... ,xi-\,x\,xw,... ,xk,y,z) > Weightr(xi,... ■ •. ,xk,y,z);

3. обратная зависимость от длины документа - Vi 6 1,fc при у[ > у{

Weight? (x,'yi,...,yi-ity'ityi+i......., z) < Weightr (х, yi,..., 1, гл, yi+i,..., ук, z);

4. обратная зависимость от мощности рубрики - при г' > г

Weightr(x,y,z') < Weightr(x,y,z)\

5. прямая зависимость от числа документов, в которых встречается пара, а именно - при Vi = Уг = ■ ■ ■ = Vn € N, VI е 1, к выполняется

I

WeightT(n, у, z) > Weightr{ 0,..., 0, кп, 0,..., 0, у, z). к к

Для облегчения подбора функций, которые удовлетворяют сформулированным требованиям, выбран следующий общий вид функции Weightт:

Weightr{x, у, z) = f(g(f(xu Vi ),-.., »))> z).

Внутренние функции f(x,y) определяют веса пары в документах и зависят от числа вхождений пары в документы и относительных длин документов. После этого к вычисленным весам пары в документах применяется функция д(хi,... которая обеспечивает выполнение требования 5 (прямую зависимость веса от числа документов, в которых встречается пара). После этого снова применяется функция f(x,y), которая выражает зависимость веса пары в рубрике от относительной мощности рубрики. Функции / ид должны иметь следующие области определения и значений:

£>(/) : х € [0, +оо), у е (0, +оо), £(/) = [0, +оо), D{g) : Xi е [0, +оо), i = Tjc, Е(д) = [0,+оо).

Следующая лемма позволяет проверять выполнение требований 1-4 к функции Weight,, используя функции fug.

Лемма 1. Пусть функции / = f(x, у) и д = g(xi,.. -,хк), к > 1 имеют области определения и значений, указанные выше. Пусть выполнены следующие условия на всей области определения этих функций:

• при х' > х f{x',y) > J(x,y)\

• Vi е I, к при x'j > Xj g(x1,...,xi-i,x'i,xi+1,...,xk) > g(x ......zi+b... ,xt);

• приу'>у f{x,j/)<f{x,y)-;

Тогда требования 1-4 к функции WeightT(x,y, z) = f(g(f(xi,yx), ■ ■ ■ ,f(zk,yk)),z) выполнены.

Для окончательного выбора функции веса пары слов в рубрике было проведено выборочное поэтапное тестирование комбинаций семи вариантов функции J(x,y) и трех вариантов функции д(хI,... ,xt). Для наглядности были протестированы еще 3 функции веса более простого вида, зависящие от меньшего числа аргументов. Тестирование показало, что самый высокий уровень точности классификации достигается при использовании следующей комбинации функций: /(х,у) = ¡^j; g(xi,-..,Zfc) = £*=i41 + Zi).

С учетом изложенного выше, в качестве функции веса пары в рубрике была выбрана следующая функция: ......

P't

y/Freq(pui,d) ■ ' ^ 1

Weightr(pw) =

In

(мгЬ) + 1)'

Аналогично определяется вес слова в рубрике 1УегдМт{ю), а именно - в представленной выше формуле ¿ггед(рги, й) заменяется на (¿). Автором сформулирована и доказана следую-

щая теорема, позволяющая использовать определенную таким образом функцию Weigh.tr для вычисления веса пары в рубрике.

Теорема 1. Выбранная функция \Уе1д1йт(ри)} удовлетворяет требованиям 1-5.

К вычисленному набору весов пары в рубриках применяется функция характерности Discr, которая сопоставляет набору неотрицательных действительных чисел А = {а;,... ,ап}, не равных одновременно нулю, число - «показатель характерности набора»:

г,- г ^ , Ак(»й,Л)

игзсг(а1, а2,..., а„) = 1 ■-----— — - -

таха€да • (1 + 1п(1 + тах^да))'

Эта функция принимает значения из отрезка [0,1], и чем более характерным является набор с точки зрения определения термина, тем ближе значение этой функции к 1.

Пусть R = {ri,..., г„}. Тогда М3 = {pw £ М2 |

Discr(Weightri(pw),..., W eightrn(pw)) J: MIN.DISCR}.

Таким образом отбираются пары, значение функции Discr на которых не меньше константы MIN_DISCR, принадлежащей отрезку [0,1].

Критерий значимых рубрик основан на идее о том, что слова, образующие термин, должны встречаться достаточно часто в паре и сравнительно редко по отдельности. В частности, её учет позволяет исключить следующую возможную ошибку. Пусть в документах рубрики некоторое число раз встретилось слово, уникальное для данной рубрики (например, «гидрофосфат» в рубрике «химия»). Тогда все слова, находящиеся на небольшом расстоянии от этого слова, вероятнее всего будут удовлетворять критерию характерности, так как в других рубриках эти пары не встречаются вообще. Вместе с тем, многие из них, очевидно, не являются терминами (например, «гидрофосфат считается» или «имея гидрофосфат»).

Определение 3.1. Рубрика г называется значимой для пары слов pw, если

Weightr(pu>) > Av{W eight.(pw),R).

Пусть 2й = {Л | А С Л}. Определим отображение imp: Мз 2л, сопоставляющее каждой паре слов множество значимых для нее рубрик:

imp{pw) = {г е R | Weightr{pw) ^ Av(Weight.(pw),R)}.

Тогда

Mi = {pw € М3 | min (^З^Ыри,)) + Wei9htr{r2{pw))\

reimp(pw) \ WeightT(pw) WeightT(pw) /

$ HAX.FREQ.RATIO}.

Таким образом отбираются пары, у которых среди значимых для них рубрик найдется рубрика, в которой сумма весов каждого из слов пары превышает вес пары не более чем в МАХ_Р11Е(}_-ЯШО раз.

Автором сформулирована и доказана следующая теорема, позволяющая оценить вычислительную сложность представленного алгоритма.

Теорема 2. Пусть дано множество документов Doc, разделенных на рубрики из множества R. Пусть W - множество всех различных слов, которые встречаются в этих документах, а т — \W\ - количество таких слов. Пусть L(d), d 6 Doc - функция, выражающая длину документа (количество слов в нем). Обозначим п = L(d) - количество всех слов во множестве

de Doc

документов. Тогда для алгоритма Brainslerm справедливы следующие оценки:

• временная сложность алгоритма (в худшем случае) равна 0(|ñ||0oc|min(m2,n) +п);

• пространственная сложность алгоритма (в худшем случае) равна 0(\Doc \ min(m2,n));

• количество терминов, извлеченных в результате работы алгоритма, равно 0(min(m2,n)).

Под временной сложностью алгоритма понимается максимальное количество элементарных

операций (арифметических и операций сравнения), которые необходимо выполнить для решения задачи. Под пространственной сложностью понимается максимальное количество ячеек памяти, которые необходимо выделить для работы алгоритма.

В разделе 3.2 представлен разработанный автором алгоритм Sonmake построения онтологии области научного знания на основе коллекции анонсов научных конференций, разделенных на рубрики, а также информации из поисковых систем в Интернет. В качестве основного источника данных для построения онтологии используются анонсы конференций, называемые в научной среде call for papers (CFP). Этот подход обладает важными достоинствами. В частности, он позволяет получить достаточно надежную, актуальную и полную информацию об области научного знания. Документы CFP содержат основные сведения о конференциях, в том числе - название, место и даты проведения, состав программного комитета, описание конференции, список направлений области знания, работы по которым принимаются на рассмотрение. Вторым инструментарием, который используется в алгоритме для получения информации, является поисковая система в Интернет. Алгоритм Sonmake построения онтологии области знания состоит из следующих семи этапов:

• построение множества имен понятий Nq ;

• выделение терминов, которые характеризуют заданную область научного знания D;

• фильтрация терминов;

• выделение ассоциативных связей между терминами;

• построение иерархии терминов;

• перевод терминов на русский язык;

• классификация терминов по понятиям онтологии.

Список имен понятий онтологии Nq, содержащий 60 элементов, фиксирован и является общим для всех областей научного знания. В него входят такие слова, как направление, понятие, алгоритм, парадигма, метод и другие, аналогичные им, а также их эквиваленты на английском языке.

На этапе выделения терминов из коллекции анонсов конференций извлекаются ключевые слова. Исходя из требований алгоритма Brainsterm, документы должны быть разделены на рубрики. В случае анонсов конференций это требование легко выполняется, например, при использовании списков рассылок анонсов конференций, посвященных различных областям знания. Каждый список рассылки будет представлять одну рубрику. Отметим, что одна из рубрик должна соответствовать области знания D, онтология которой строится. Назовем эту рубрику «целевой». Применим к документам, разделенным на рубрики, алгоритм Brainsterm выделения терминов. Результатом работы алгоритма является множество терминов Terms. Выделим из него подмножество Termsi С Terms, состоящее из терминов, которые встречаются в документах целевой рубрики гр хотя бы один раз, и отсортируем его элементы по убыванию веса термина в этой рубрике. Веса терминов в рубриках вычисляются в процессе работы алгорит-

ма Brainsterm. Полученное множество Terms\ содержит ключевые слова, которые описывают тематики конференций в рамках области знания D. .......

Следующим шагом алгоритма Sonmake является фильтрация полученных терминов Terms 1, состоящая из двух этапов. На первом этапе фильтрации исключаются пары слов, которые не соответствуют критериям термина. Для этого используются перечисленные далее четыре критерия. Пусть А € Terms - термин-кандидат, состоящий из двух слов - Ai и А2, тогда эти критерии формулируются следующим образом: - ■

• в онлайн-энциклопедии Википедия16 есть статья с названием А\

hits("\ is а tHi-ш") ^ /->

• ыЩ)— >

^ hits("A is a concent") ■ •

• - Lit,(А)- 21

hits["At AND Да") (-, min(hits(Ai), Ьйа(Аз)) >

Функция hits(x) обозначает количество страниц, найденных поисковой системой в Интернет в ответ на запрос х. Термин-кандидат считается прошедшим первый этап фильтрации, если он удовлетворяет хотя бы одному из перечисленных четырех критериев. Числа С\,С2,Сз 6 [0,1] являются параметрами алгоритма.

Целью второго этапа фильтрации является исключение пар слов, которые не связаны с заданной областью знания D. Для этого используется критерий

hits("A AND D")

hits(A) 4'

где А - термин-кандидат, D - название заданной области знания, а С\ - параметр алгоритма. Обозначим через Termsi множество всех терминов из Termsj, успешно прошедших оба этапа фильтрации. Полученная совокупность терминов образует множество имен экземпляров N° онтологии Op: Nj? = Terms2-

Целью следующего этапа является выделение пар связанных терминов, то есть выбор из всех возможных пар терминов, отобранных на предыдущих этапах, тех пар, которые являются семантически близкими. Для определения степени семантической близости между двумя терминами используется широко распространенная мера Normalized Google Distance (NGD)17. Пусть А и В - термины, а N - общее число страниц, индексируемых поисковой системой. Тогда степень семантической близости NGD между А а В определяется по формуле:

NCnlA m max{loS^¿¿^(Л),logfetf)} -loghitsÇ'A AND В") IogAT — min {log/»i£s(4), log hits(B)}

После этого из всех пар терминов во множество Terms, отбираются те, степень близости между которыми превышает пороговое значение.

Следующим этапом алгоритма является построение иерархии терминов. Классический алгоритм построения иерархии понятий с помощью лингвистических шаблонов, разработанный Херст18, оказывается неэффективным для построения иерархии научных направлений. В рамках настоящей работы специально для решения этой задачи были разработаны лингвистические шаблоны. Основной шаблон выглядит как

A is * keyword * prep ( aux)? В,

I0http://www.wikipedia.org

"Cilibrasi, R L. The Google Similarity Distance / R L Cilibrasi, P M B Vitanyi // IEEE Transactions on Knowledge and Data Engineering. — 2007. — Vol. 10, №3. - Pp. 370- 3S3.

18Hearst, M.A. Automatic acquisition of hyponyms from large text corpora / M.A. Hearst // Proceedings of the 14th conference on Computational linguistics-Volume 2. — Association for Computational Linguistics, 1992. — Pp. 539-545.

где А, В - термины, между которыми происходит поиск иерархической связи, keyword - КЛ10-чевое слово из построенного словаря keywords связей между научными терминами, ргср -предлог, содержащийся в построенном словаре предлогов, a aux - артикль или квантор из созданного словаря вспомогательных слов. Словарь ключевых слов keywords содержит 40 слов, например, field, component, discipline, step, domain, method и другие. Шаблон применяется к рсзультатам-сниппстам (небольшим фрагментам текстов найденных документов), которые возвратила поисковая система в ответ па запрос "A AND В". Следует подчеркнуть, что яти запросы выполняются только для тех пар терминов, которые вошли в множество Terms,. Использование данных о семантической близости, полученных на предыдущем этапе, позволяет существенно сократить количество запросов к поисковой системе. Примером фразы, найденной по шаблону, служит "text categorization is a fundamental task in document processing". Здесь A = "text categorization", В = "document processing", keyword = "task", prep = "in", а элемент aux не используется.

Описанные выше этапы используются для построения онтологии на английском языке. Для того, чтобы добавить в онтологию термины на русском языке, применяется следующий метод перевода терминов на русский язык. Его идея заключается в использовании ручного труда людей, составляющих энциклопедию Википедия. Во многих статьях Википсдии сеть ссылки на версии этой же статьи на других языках. Используя эти ссылки, можно найти термины на русском языке, которые соответствуют термину на английском. Для каждого выделенного термина выполняется автоматическая проверка на существование статьи в Википедии с таким же названием, а потом проверяется факт наличия у этой статьи ссылки на русскую версию. Если такая ссылка есть, то название соответствующей статьи на русском языке добавляется в онтологию.

Для получения дополнительной информации об экземплярах онтологии, используется алгоритм классификации терминов по классам онтологии. Для определения подмножества классов, к которым относится термин А £ Terms2, рассчитывается степень его принадлежности к каждому классу С е Ng по формуле

Если scare(A,C) > С$, то между термином А и классом С строится отношение rdf : type, которое означает, что экземпляр принадлежит классу. Число С5 является параметром алгоритма. Отметим, что термин может принадлежать нескольким классам одновременно.

Автором сформулирована и доказана следующая теорема, позволяющая оценить вычислительную сложность представленного алгоритма.

Теорема 3. Пусть дано множество документов Doc, разделенных на рубрики из множества Л. Пусть W - множество всех различных слов, которые встречаются в этих документах, a m = \W\ - количество таких слов. Пусть L(d), d 6 Doc - функция, выражающая длину документа (количество слов в нем). Обозначим п = L(d) - количество всех слов во множестве

de Doc

документов. Тогда для алгоритма Sonmake справедливы следующие оценки:

• временная сложность алгоритма (в худшем случае) равна

0(min(m4, п2) + | R\\Doc | min(m2, п) + п);

• пространственная сложность алгоритма (в худшем случае) равна

0(min(m4,n5) + \Doc\ min(m2,n)).

Под временной сложностью алгоритма понимается максимальное количество элементарных операций (арифметических, операций сравнения и операций разового обращения к поисковой системе), которые необходимо выполнить для решения задачи. Под пространственной сложностью понимается максимальное количество ячеек памяти, которые необходимо выделить для работы алгоритма. . .. •

Разработанные алгоритмы составляют основу соответствующих модулей системы учета и анализа научной информации, описанию которой посвящена настоящая диссертация. Следует подчеркнуть, что эти алгоритмы могут быть использованы и в других системах, в которых возникает необходимость извлекать термины и строить онтологии областей научного знания.

В четвертой главе представлены результаты исследования эффективности (тестирования) программных реализаций разработанных автором алгоритмов выделения терминов и построения онтологии. Далее для краткости изложения будем под алгоритмом понимать его программную реализацию. В разделе 4.1 рассматривается эффективность алгоритма выделения терминов Brainsterm.

Алгоритм Brainsterm реализован на языке С++. Программа составляет около 1200 строк.

Программный код алгоритма находится в открытом доступе19.....

Эффективность алгоритма Brainsterm оценивается с использованием полученных терминов как базиса векторного пространства в задачах классификации и кластеризации текстов. Проведено сравнение алгоритма Brainsterm с двумя широко распространенными в области обработки данных алгоритмами, основацными на векторной модели, а именно - метода TF-IDF (terra frequency - inversed document frequency) и алгоритма LSI (latent semantic indexing) в трех модификациях (с булевой матрицей, с матрицей частот и матрицей из весов tf-idf), которые не учитывают разделения документов на рубрики. Каждый из алгоритмов может быть использован для отображения документов в точки векторного пространства заданной размерности, при котором исходные рубрики переходят в кластеры точек. После этого конфигурация кластеров формально оценивается с помощью алгоритмов классификации и кластеризации. Классификация показывает, насколько алгоритм сохраняет исходное разделение на рубрики, а кластеризация - насколько компактными получились кластеры. Оценка с помощью классификации проводится следующим образом. Выполняется классификация точек тестовой выборки с помощью метода «К ближайших соседей», для этого используется разбиение на кластеры точек обучающей выборки. Каждая точка тестовой выборки, представляющая документ одной из рубрик, попадает в один из кластеров - образов исходных рубрик. Вычисляется процентное отношение количества документов тестовой выборки, попавших после классификации в образ той же рубрики, к которой они принадлежали изначально, к общему числу документов выборки. Чем больше полученное число, тем эффективнее рассматриваемый алгоритм. Оценка с помощью метода кластеризации производится следующим образом. К кластерам, образованным точками тестовой выборки, применяется один из стандартных методов оценки кластеризации точек, оценивающий относительный разброс точек внутри кластеров. Чем меньше относительный разброс, тем выше качество кластеризации.

В целях сравнения алгоритмов была использована выборка, содержащая около 1.4 миллиона слов в примерно 7 тысячах документов. Обучающая выборка содержала 3591 документ, остальные документы составили тестовую выборку. Заметим, что алгоритм LSI не допускает размерности выше, чем количество документов в обучающей выборке. Именно поэтому на иллюстрациях графики показателей модификаций алгоритма LSI обрываются на точке 3591.

Общее представление о сравнительной производительности алгоритмов можно получить из результатов тестирования, оценивающих время их работы. Параметры используемой вычислительной установки: CPU AMD Opteron 2 Ghz, 8 Gb RAM. На рис. 2 представлены показатели

19https://bitbucket.org/goldan/brainsterm

времени работы алгоритмов Brainstemг, LSI и TF-IDF. Каждый алгоритм был запущен с параметром размерности целевого пространства, имеющим оптимальное значение, при котором данный алгоритм достигает максимальных результатов точности классификации. Для алгоритма Brainsterm это значение равно 10000, для алгоритма LSI - 250. Алгоритм TF-IDF не позволяет выбрать размерность целевого пространства. Фактически она равна общему количеству уникальных слов в коллекции, то есть в данном случае около 21000.

Brainstorm I 70 с TF-IDF 168 с

LSI ¡¡И!

Рис. 2. Сравнение времени работы алгоритмов.

Как видно из графика, алгоритмы Brainsterm. и TF-1DF работают гораздо быстрее алгоритма LSI. Отметим, что при тестировании на имеющейся выборке алгоритму Brainsterm. потребовалось около 1 Gb оперативной памяти, алгоритму TF-IDF - около 550 Mb, а алгоритму LSI -около 2.2 Gb. Показатели времени работы программы, реализующей алгоритм Brainsterm., и используемой ею памяти подтверждают справедливость полученных ранее (теорема 2) аналитических оценок вычислительной сложности алгоритма и свидетельствуют о его практической применимости.

На рис. За и ЗЬ приведены результаты сравнения точности классификации и качества кластеризации. Большее значение точности классификации и меньшее значение относительного разброса кластеров соответствуют более высокой эффективности алгоритма. Качество кластеризации у всех алгоритмов получилось примерно одинаковым (при этом у алгоритма Brainsterm. нет таких скачков ухудшения качества, как у алгоритма LSI), а самые высокие показатели точности классификации (85.8%) продемонстрировал алгоритм Brainsterm.. Следует отметить, что этот результат был достигнут на достаточно высокой размерности - 10000. Алгоритм LSI показал результат 83.6% на размерности 250, а алгоритм TF-IDF, не зависящий от размерности, позволил добиться точности 73.5%.

(а) Точность классификации (Ъ) Качество кластеризации

Рис. 3. Сравнение показателей эффективности алгоритмов Brainsterm, LSI и TF-IDF. Как показали результаты анализа, алгоритм Brainsterm. сочетает в себе высокую скорость

работы, значительно превышающую скорость работы алгоритма LSI и высокую эффективность, сравнимую с эффективностью алгоритма LSI и превышающую показатели TF-IDF. Изложенные факты подтверждают хорошие перспективы применения алгоритма Brainstem на практике.

В разделе 4.2 представлены результаты тестирования алгоритма Sonmake построения онтологии области научного знания на основе информации из анонсов научных конференций и Интернет, разработанного автором. Программный код алгоритма Sonmake находится в открытом доступе20. В качестве исходной коллекции анонсов конференций использовалась база портала WikiCFP21, содержащая 13098 документов. Разделение документов на рубрики производилось на основе меток, присвоенных им пользователями сайта. В результате применения алгоритма выделения терминов Brainsterm было получено 1793 термина, из которых на этапах фильтрации было выбрано 874. В таблице 2 приведены первые 15 терминов, полученных алгоритмом Brainsterm, отсортированные по весу в целевой рубрике.

№ термин № термин № термин

1 data raining 6 signal processing 11 intelligent systems

2 software engineering 7 data management 12 software development

3 machine learning 8 computational intelligence 13 communication systems

4 artificial intelligence 9 network security 14 access control

5 knowledge discovery 10 wireless networks 15 formal methods

Таблица 2. Первые 15 терминов, выделенных с помощью алгоритма Brainsterm в области «Computer Science».

В таблице 3 представлены результаты анализа эффективности выделения и фильтрации терминов. Отметим, что при вычислении точности и локальной полноты22 термином считалась пара слов, характерная для области «информатика» с точки зрения эксперта. В таблице 4 приведены результаты анализа эффективности выявления отношений между терминами.

№ шаг алгоритма терминов выделено точность локальная полнота F-мера

1 Brainsterm 1793 70.5% - -

2 фильтрация-1 1403 73.5% 81% 77.1%

3 фильтрация-2 874 77% 63.6% 69.6%

2-3 фильтрация в целом 874 77% 51.7% 61.9%

Таблица 3. Оценки эффективности этапов выделения и фильтрации терминов.

№ тип отношений отношений выделено точность

4 ассоциативные 3771 -

5 иерархические 85 89.4%

6 категориальные 135 85.2%

Таблица Оценки эффективности этапов выделения отношений между терминами. 20https://bitbucket.org/goldan/sonmake 21 littp://wikicfp.com

22Sanchez, D. Domain ontology learning from the web / D. Sanchez 11 The Knowledge Engineering Review, — 2009. - Vol. 24, №4. — Pp. 413-413.

На этапе перевода терминов на русский язык для 401 из 874 терминов (45.9%) в Википедии была найдена статья. Из них дли 212 терминов (24.2%) были найдены русские эквиваленты, которые были добавлены в онтологию. В результате работы алгоритма Балтике была построена онтология, содержащая 61 класс, 1086 экземпляров и 4203 отношения. Ее фрагмент изображен на рис. 4.

^ # Technique J

_• '.'-•<'

Г ш Algorithm Т2' ( # Process г ч /

? Thing

# Area

s,

t /

/

/

I ♦ Texynlning I

........................^.......................,

4 Анализ„текста

^ Мь

\ 1

V i чч. t Network anaiysi s

N t Сетевой анализ

г ф Feature_sefect( I on 1

\ 1

i | ф Dataj-ed uction J

4 Associaöon_Ru( es

Рис. 4- Фрагмент построенной с помощью алгоритма Sonmake онтологии области «Computer Science».

Алгоритм Sonmuke построения онтологии области знания обладает следующими недостатками: ограничение на вид термина (два слова); при определении связей между терминами не учитывается расширенный контекст; недостаточная полнота выделения именованных отношений; малое количество типов выделения именованных отношений; высокая вычислительная сложность. Результаты тестовых испытаний алгоритма Sonmuke согласуются с аналитическими оценками его вычислительной сложности, доказанными в теореме 3. В связи с тем, что для каждого термина необходимо выполнять большое число запросов к поисковой системе, алгоритм построения онтологии обладает высокой вычислительной сложностью. При этом операции, выполняемые на локальном вычислительном узле, работают на порядок быстрее. Отметим, что обычно в информационных системах онтология строится и перестраивается сравнительно редко, что позволяет применять предложенный алгоритм на практике.

Перечислим достоинства алгоритма Sonm.ake: мягкие требования к исходным данным; автоматическое выделение терминов области знания; высокая точность выделения именованных отношений; применимость к любым областям научного знания; отсутствие необходимости в большом объеме ручного труда экспертов.

В целях реализации подхода к задаче управления научной информацией, предлагаемого автором, в настоящее время разрабатывается программный комплекс ИСТИНА (Интеллектуальная Система Тематического Исследования НАучно-технической информации)23. Описанию созданного автором прототипа этого комплекса посвящена пятая глава. Целью системы является учет и анализ информации о результатах научной деятельности в научных организациях с целью подготовки и принятия решений. Основными задачами системы ИСТИНА являются, во-первых, предоставление возможности сотрудникам структурных подразделений организа-

23http://istina.iraec.rasu.ru

ции перманентно вести учет результатов своей иаучной деятельности и в автоматизированном режиме формировать годовые научные отчеты, а во-вторых, предоставление руководителям отдельных структурных подразделений и организации в целом автоматизированного средства проведения количественного и тематического анализа научной деятельности каждого из сотрудников, отдельных подразделений и учреждения в целом. В настоящее время система ИСТИНА позволяет в удобном для конечного пользователя режиме вводить данные о публикациях путем автоматизированного разбора информации из библиографических ссылок, ВШТеХ-записей и импорта из портала eLibrary.ru. На основе введенных в хранилище системы данных о публикациях для каждого сотрудника автоматически создается отдельная «домашняя» страница, содержащая список его публикаций. В тестовом режиме применяется автоматическое определение научных интересов пользователей на основе введенных данных и онтологии. В разделе 5.1 перечислены особенности программной реализации системы. Раздел 5.2 посвящен описанию результатов практической апробации ее прототипа в НИИ механики МГУ имени М.В. Ломоносова24. В разделе 5.3 приводится анализ разработанного прототипа системы на предмет ее соответствия предъявляемым к системе требованиям. Делается вывод, что прототип соответствует основным требованиям, а предложенная архитектура позволяет построить целевую систему, которая при ее реализации в полном объеме будет удовлетворять всем предъявляемым к ней требованиям. В разделе 5.4 перечисляются направления дальнейшего развития системы.

В заключении представлены основные результаты диссертационной работы.

1. На основе исследования предметной области построены математические модели и алгоритмы, разработаны опирающиеся на онтологии архитектурные и технологические решения для создания системы пополнения и хранения, анализа и выдачи по запросу информации, характеризующей результаты деятельности научной организации. С использованием онтологий и языка ЭРАЯС^ предложено формальное описание запросов к системе, создающее гарантии их вычисления и дополнительные возможности для эффективной верификации кода системы на всех этапах ее жизненного цикла.

2. Разработан алгоритм построения онтологии отдельной области научного знания, основанный на выделении терминов из анонсов научных конференций, а также на использовании информации из поисковых систем в Интернет. Получены аналитические оценки, характеризующие вычислительную сложность его программной реализации.

3. Разработан алгоритм выделения терминов-пар слов из коллекции текстов с заданным тематическим делением. Доказано, что предложенная автором в составе алгоритма базовая функция веса термина в рубрике удовлетворяет предъявляемым к ней требованиям. Получены аналитические оценки, характеризующие вычислительную сложность программной реализации алгоритма.

4. Создан прототип программного комплекса для учета и анализа научной информации, именуемый Интеллектуальной Системой Тематического Исследования НАучно-технической информации (ИСТИНА), тестовые испытания которого подтвердили справедливость аналитических оценок сложности реализации основных алгоритмов, а также тот факт, что комплекс в целом удовлетворяет предъявляемым к нему требованиям.

Благодарности. Автор выражает глубокую благодарность своему научному руководителю доктору физико-математических наук, профессору Валерию Александровичу Васенину за постановку задачи и постоянное внимание к работе. Автор благодарит кандидатов физико-математических наук С. А. Афонина и А. С. Козицына за ценные замечания с их стороны по ходу выполнения работы.

2,1Следует отметить, что система может использоваться не только в МГУ имени М.В. Ломоносова, но и в других научных центрах Российской Федерации. ,

Список литературы

|1] Голомазов Д. Д: Выделение терминов из коллекции текстов с заданным тематическим делением // Информационные технологии. — № 2, 2010. — С. 8-13.

[2] Afonía S., Goloiriazov ,D. Minimal Union-Free Decompositions of Regular Languages /,/ Language and Automata Theory and Applications. Lecture Notes in Computer Science, volume 5457. — Springer, 2009. — pp. 83-92. (Д. Д. Голоыазоиу принадлежат результаты по построению математической модели и доказательствам основных утверждений).

[3) Васенкл В. А., Афонин С. А., Голомазов Д. Д. Использование семантических технологий для обнаружения грид-ресурсов /,/ Программная инженерия. — № 7, 2011. — С. 2-8. (Д. Д. Голомазову принадлежат результаты исследования и анализа существующих подходов к обнаружению грид-ресурсов, а также их практического применения).

|4| Васенин В. А., Афонии С. А., Голомазов Д. Д. К созданию системы управления научной информацией на основе семантических технологий // Материалы Всероссийской конференции с международным участием «Знания - Онтологии - Теории» (30HT-2011), 3-5 октября 2011 г., г. Новосибирск, том 1. — Новосибирск, Институт математики им. С.Л. Соболева СО РАН, 2011. — С. 78-87. (Д. Д. Голомазову принадлежат результаты исследования и анализа существующих методов и средств управления научной информацией, описание архитектуры и программной реализации разработанных им системы ИСТИНА и алгоритма построения онтологии области научного знания).

[5] Afonin S., Golomazov D. Calculating Semantic Similarity Between Facts // Proe. of the Int. Conf. on Knowledge Discovery and Information Retrieval (KDIR 2010), Valencia, 2010. — pp. 514-517. (Д. Д. Голомазову принадлежат результаты, посвященные разработанному им алгоритму определения семантической близости между временными и пространственными частями фактов, а также исследованию эффективности предложенного алгоритма).

[6] Афонин С. А., Голомазов Д. Д. Использование семантических технологий для решения задачи обнаружения Grid-ресурсов // Материалы II Научно-практической конференции «Актуальные проблемы системной и программной инженерии». — М.: Издательство МЭ-СИ, 2011. — С. 108-116. (Д. Д. Голомазову принадлежат результаты исследования и анализа существующих подходов к обнаружению грид-ресурсов, а также их практического применения).

[7| Афонин С. А., Голомазов Д. Д. Выделение терминов из коллекции текстов с заданным тематическим делением // Тезисы докладов научной конференции «Ломоносовские чтения». Секция механики. — М.: Издательство Московского университета, 2008. — С. 27-28. (Д. Д. Голомазову принадлежат результаты по построению математической модели и разработке алгоритма выделения терминов).

[8] Голомазов Д. Д. Перспективы применения семантических технологий при построении информационных систем // Тезисы докладов научной конференции «Ломоносовские чтения ». Секция механики. — М.: Издательство Московского университета, 2010. — С. 61.

[9| Афонин С. А., Голомазов Д. Д. Минимальные разлозкения регулярных языков на языки без объединения // Тезисы докладов научной конференции «Ломоносовские чтения». Секция механики. — М.: Издательство Московского университета, 2009. — С. 22. (Д. Д. Голомазову принадлежат результаты но построению математической модели и доказательствам основных утверждений).

Подписано в печать: 27.01.12

Объем: 1,5 усл.п.л. Тираж: 100 экз. Заказ № 7033 Отпечатано в типографии «Реглет» 119526, г. Москва, Проспект Вернадского д.39 (495) 363-78-90; www.reglet.ru

Оглавление автор диссертации — кандидата физико-математических наук Голомазов, Денис Дмитриевич

Введение

1 Учет и анализ научной информации

1.1 Постановка задачи.Ю

1.2 Методы и средства управления научной информацией.

1.3 Системы управления научной информацией.

1.3.1 Крупные веб-сервисы.

1.3.2 Зарубежные исследовательские проекты.

1.3.3 Российские семантические системы.

1.4 Выводы.

2 Архитектура системы учета и анализа научной информации

2.1 Онтологический подход к представлению знаний.

2.2 Модель и архитектура системы учета и анализа научной информации.

2.3 Выделение терминов, характеризующих область знания.

2.4 Построение онтологии области научного знания.

2.5 Загрузка данных в систему.

2.6 Установление связей между загруженными данными и онтологией области научного знания.

2.7 Выполнение аналитических запросов к данным.

2.8 Выводы.

3 Алгоритмы выделения терминов и построения онтологии области знания

3.1 Алгоритм ВгатвЬегт выделения терминов из коллекции текстов с заданным тематическим делением.

3.1.1 Математическая модель.

3.1.2 Пространственный критерий.

3.1.3 Критерий частотности

3.1.4 Критерий характерности.

3.1.5 Критерий значимых рубрик.

3.2 Алгоритм Боптаке построения онтологии области научного знания.

3.2.1 Построение множества имен понятий.

3.2.2 Выделение терминов

3.2.3 Фильтрация терминов.

3.2.4 Выявление ассоциативных отношений

3.2.5 Построение иерархии терминов.

3.2.6 Перевод терминов на русский язык.

3.2.7 Разбиение терминов на категории.

3.3 Выводы.

4 Программная реализация и анализ эффективности базовых алгоритмов

4.1 Программная реализация и исследование эффективности алгоритма выделения терминов Brainsterm.

4.1.1 Методика оценки эффективности.

4.1.2 Результаты тестирования.

4.1.3 Выводы.

4.2 Программная реализация и исследование эффективности алгоритма построения онтологии Sonmake

4.2.1 Выводы.

4.3 Выводы.

5 Программная система учета и анализа научной информации ИСТИНА

5.1 Особенности программной реализации.

5.2 Результаты практической апробации.

5.3 Соответствие прототипа системы предъявляемым требованиям.

5.4 Дальнейшее развитие.

5.5 Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Голомазов, Денис Дмитриевич

Актуальность

Для улучшения работы научных организаций и, как следствие, повышения эффективности развития науки в масштабах государства необходимо перманентно анализировать информацию о результатах деятельности отдельных ученых и коллективов исследователей. Основными результатами деятельности организаций, входящих в научное сообщество, как правило, считаются публикации сотрудников, результаты патентных исследований, участие в конференциях, руководство курсовыми, дипломными и диссертационными работами, чтение лекций и ряд других. При этом, как показывает практика, далеко не все результаты такой деятельности представлены в открытом доступе в Интернет. Зачастую единственным источником подобной информации могут служить лишь годовые отчеты сотрудников научных организаций, представленные с той или иной степенью подробности. Естественным образом возникает необходимость автоматизированной (с участием человека) обработки данных из подобных научных отчетов в целях количественного и качественного анализа эффективности научной деятельности отдельного коллектива, вклада каждого его участника и возможной корректировки планов, мер и мероприятий на основе такого анализа. Целями проведения анализа могут быть следующие.

• Сравнение данных о работе подразделения с данными других подразделений, в том числе - зарубежных, которые работают на рассматриваемом направлении.

• Интеграция данных о работе подразделения с данными других подразделений в целях анализа развития науки в рамках структур корпоративного масштаба и по стране в целом.

• Корректировка финансирования подразделений, поощрения отдельных их членов на основе результатов научных достижений.

• Публикация обзорных аналитических статей, посвященных научным достижениям организации.

• Получение интегрированной информации о направлении исследований в отдельной области знания, например, список основных публикаций, задач, методов, уровень активности ученых, ключевые персоны и конференции на этом направлении.

Такая информация может представлять интерес для исследователя, которому необходимо получить первое, общее представление о еще недостаточно знакомом научном направлении.

Инструментом аналитика, целью которого является получение адекватного представления о деятельности организации или объединения нескольких организаций, могут служить результаты выполнения аналитических запросов к системе, занимающейся загрузкой, обработкой и хранением информации о научной деятельности работающих в них сотрудников. Примером такого запроса может служить «найти все публикации сотрудников интересующего учреждения за последний год, посвященные вопросам выделения данных из неструктурированных текстов и включенные в материалы международных конференций».

В качестве предмета исследования и анализа в диссертации выступает научная информация, которая определяется как совокупность данных, характеризующих результаты деятельности отдельных научных сотрудников. К такой информации относятся данные о научных статьях, которые включают их названия, списки авторов, места публикации и другие сведения, книгах, патентах, докладах на конференции и других видах научной деятельности.

Побудительным мотивом и конечной целью исследований, результаты которых представлены в настоящей диссертации, является создание интеллектуальной программной системы для поиска, систематизации и анализа научной информации. Отметим еще одну проблему, решению которой способствует создание такой системы. По состоянию на июль 2011 года среди первых 800 позиций авторитетного рейтинга Webometrics1, который оценивает информативность веб-сайтов университетов мира, из российских вузов был лишь МГУ имени М.В. Ломоносова, занявший 304 место. Как указано в работе [1], этот факт связан с тем обстоятельством, что по разным причинам в России в значительно меньшей степени, чем за рубежом, распространена практика публикации в Интернет работ сотрудников научных организаций. Информация, содержащаяся в системе учета и анализа результатов научной деятельности, описанию одной из которых посвящена настоящая диссертация, может быть полностью или частично доступна для просмотра в Интернет и индексации поисковыми системами. Этот факт будет способствовать повышению рейтинга российских научных учреждений в мировом сообществе.

Актуальность поставленной задачи определяется острой необходимостью контролировать и анализировать информацию, характеризующую деятельность научных организаций, а также большими объемами такой информации и низкой степенью автоматизации процессов ее сбора и анализа.

Цель работы

Целью диссертационной работы является исследование и разработка математических моделей, алгоритмов и программных средств поиска и систематизации, хранения и анализа информации, характеризующей деятельность научных организаций, с использованием онтологий. Такая деятельность соответствует областям исследований, отмеченным в пп. 2, 5, 9 Паспорта специальности 05.13.17 - теоретические основы информатики. http://www.web oinetrics .info

На защиту выносятся:

• разработанные на основе результатов исследования предметной области математические модели и алгоритмы, архитектурные и технологические решения, опирающиеся на онтологии, для создания системы пополнения и хранения, анализа и выдачи по запросу информации, характеризующей результаты деятельности научной организации;

• формальное описание запросов к системе с использованием онтологий и языка ЭРАКС^Ь, создающее гарантии вычисления запросов и дополнительные возможности для эффективной верификации кода системы на всех этапах ее жизненного цикла;

• алгоритмы построения онтологии отдельной области научного знания и выделения терминов-пар слов из коллекции текстов с заданным тематическим делением, удовлетворяющие предъявляемым к ним требованиям; аналитические оценки сложности их программной реализации, полученные с использованием математических моделей;

• прототип программного комплекса для учета и анализа научной информации, именуемый Интеллектуальной Системой Тематического Исследования НАучно-технической информации (ИСТИНА), тестовые испытания которого подтвердили справедливость аналитических оценок сложности реализации основных алгоритмов, а также тот факт, что комплекс в целом удовлетворяет предъявляемым к нему требованиям.

Методы исследования

В работе применяются методы анализа текстов на естественном языке, методы классификации и методы программной инженерии. При изложении результатов диссертационной работы используется аппарат математической логики и математической статистики.

Научная новизна

Автором разработан новый алгоритм построения онтологии отдельной области научного знания на основе выделения терминов из анонсов научных конференций, а также путем использования информации из поисковых систем в Интернет. Математически доказана оценка вычислительной сложности его реализации. Отличительными особенностями разработанного алгоритма являются: мягкие требования к исходным данным; автоматическое выделение терминов области знания; возможность использования алгоритма для построения онтологий других областей научного знания без его модификации; отсутствие необходимости в большом объеме ручного труда экспертов. Автором разработан также новый, удовлетворяющий предъявляемым к нему требованиям алгоритм выделения терминов-пар слов из коллекций текстов с заданным тематическим делением, эффективность которого в сравнении с классическими алгоритмами продемонстрирована на задачах классификации и кластеризации текстов. Математически доказана оценка вычислительной сложности его реализации и тот факт, что базовая функция веса термина в рубрике удовлетворяет предъявляемым к ней требованиям.

Практическая значимость

Рассматриваемый в диссертации программный комплекс учета и анализа научной информации ИСТИНА, реализующий архитектуру и разработанные автором алгоритмы построения онтологии предметной области и выделения терминов представляет собой самостоятельный инновационно перспективный продукт. Вместе с тем, его математическое, алгоритмическое и программное обеспечение может найти эффективное применение при построении других информационно-аналитических систем, в том числе - систем подготовки принятия решений в организациях научно-технического профиля и высших учебных заведениях.

Апробация работы

Основные результаты диссертации докладывались на всероссийской конференции с международным участием «Знания-Онтологии-Теории (30HT-2011)», на научно-практической конференции «Актуальные проблемы системной и программной инженерии (АПСПИ-2011)», на международных конференциях «3rd International Conference on Language and Automata Theory and Applications (LATA 2009)» и «Ломоносовские чтения» (2008-2010), на научном семинаре РАН «Виртуальные научные сообщества и технологии нечетких распределенных вычислений (Cloud Computing)» (2010), на механико-математическом факультете МГУ имени М.В. Ломоносова на семинаре «Проблемы современных информационно-вычислительных систем» под руководством д.ф.-м.н., проф. В.А. Васенина (2008, 2010, 2011), на факультете бизнес-информатики НИУ ВШЭ на семинаре под руководством д.ф.-м.н., проф. С.О. Кузнецова (2011).

Публикации

По теме диссертации опубликовано 9 научных работ, в том числе - две в зарубежных изданиях. Три статьи [2-4] опубликованы в изданиях из перечня ВАК ведущих рецензируемых журналов.

Структура и объем диссертации

Работа состоит из введения, пяти глав, заключения, списка литературы. Объем диссертации — 154 страницы, Приложений - 34 страницы. Список литературы включает 83 наименования. В текст диссертации входят 39 рисунков и 33 таблицы.