Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний

Минаков, Игорь Александрович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний

доктора технических наук: Минаков, Игорь Александрович
город: Самара
год: 2007
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний»

Автореферат диссертации по теме "Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний"

На правах рукописи \\

МИНАКОВ Игорь Александрович ) (\

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний

Специальность 05 13 01 - Системный анализ, управление и обработка информации (промышленность)

Автореферат диссертации на соискание ученой степени доктора технических наук

11111111111111!!1111

003174056

Самара-2007

Работа выполнена в лаборатории анализа и моделирования сложных систем Института проблем управления сложными системами РАН, г Самара

Научный консультант доктор технических наук, профессор

Виттих Владимир Андреевич

Официальные оппоненты

Заслуженный деятель науки РФ, доктор технических наук, профессор, ГОУ ВПО «Самарский государственный технический университет»

Лауреат Ленинской премии, Заслуженный деятель науки и техники РФ, доктор-технических наук, профессор, ГНП РКЦ «ЦСКБ-ПРОГРЕСС», г Самара

Заслуженный деятель науки и техники РФ, член-корреспондент АН РБ, доктор технических наук, профессор, Уфимский государственный авиационный технический университет, г Уфа

Ведущая организация

Санкт-Петербургский институт информатики и автоматизации РАН, г Санкт-Петербург

Защита состоится 3 декабря 2007 г в 10 часов на заседании диссертационного совета Д 212 217 03 ГОУ ВПО «Самарский государственный технический университет» по адресу г Самара, ул Галактионовская, 141, корпус № 6, аудитория 28

Дилигенский Николай Владимирович

Соллогуб

Анатолий Владимирович

Ильясов Барый Галеевич

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «Самарский государственный технический университет» по адресу ул Первомайская, 18

Отзывы на автореферат в 2 экземплярах просим высылать по адресу 443100, г Самара-100, ул. Молодогвардейская, 244, ГОУ ВПО «Самарский государственный технический университет», главный корпус на имя ученого секретаря диссертационного совета

Автореферат разослан «/£* » О я 2007 г

Ученый секретарь

диссертационного совета Д212217 03 Р4——Губанов Н Г

ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИ

Актуальность темы. В современном информационном обществе возникает острая необходимость в методах и средствах, ориентированных на обработку и анализ семантики доступных информационных материалов, для решения таких задач, как поддержка принятия решений при промышленном проектировании (например, образцов новой техники), классификация научно-технической документации, интеграция информационных служб промышленных компаний-партнеров

В процессе решения подобных задач эксперт - лицо, принимающее решение, осуществляет интеграцию знаний, в рамках которой анализируются и систематизируются разнородные информационные материалы, произведенные другими исследователями, с целью получения знаний об изучаемом объекте, для чего обрабатываются различные электронные ресурсы проектно-конструкторская документация, статьи научно-технических библиотек, промышленные и бизнес новости, страницы профессионально-ориентированных Интернет-порталов, онлайн-кокференции, форумы, блоги

К сожалению, существующие инструментальные средства обладают рядом ограничений, которые существенно уменьшают область и эффективность их практического применения Это связано с тем, что имеющиеся поисковые системы и системы документооборота, при наличии множества методов для работы с текстом документов (анализ ключевых слов, морфология, грамматика, шаблоны, таксономия и пр ), практически не способны работать со смыслом текста, не анализируя знания, представленные в текстовой форме, что и является главной неразрешенной проблемой анализа

В то же время в практических задачах все чаще экспертов не устраивает единый стандартизованный механизм поиска и анализа, доступный на сегодняшний день для обработки электронных документов Возникает необходимость индивидуализировать процесс анализа, сделав его субъектно-ориентированным, принимая во внимание знания и цели самого эксперта

Особенно востребована подобного рода задача в научно-промышленных исследованиях при работе с профессиональными знаниями, которые отличает целевая направленность документа, узкоспециализированная предметная область, сжатость и информативность текста

Для решения задачи интеграции профессиональных знаний необходимы возможность представлять имеющуюся текстовую информацию в формализованном виде, механизмы поиска и сравнения семантики документов, возможность классификации согласно содержащимся в них знаниях, интерактивное взаимодействие с экспертом при построении модели предметной области, и даже механизмы автоматизированного уточнения модели на основе результатов анализа

В области теории и практики работы со знаниями с помощью вычислительной техники накоплен значительный положительный опыт Вопросы построения содержательных онтологии для моделирования реальности отражены в трудах

отечественных ученых Т А Гавриловой, В В Девяткова, Г Б Евгенева, Г С Поспелова, Д А Поспелова, В Ш Рубашкина, В А Виттиха, А В Смирнова, С В Смирнова, В Ф Хорошевского, Г П Щедровицкого, а также многих зарубежных специалистов Т R Gruber, N Guanno, J F Sowa, M Uschold, В J Wielinga и др

К работам, характеризующим предысторию развития, современное состояние и тенденции в области обработки естественно-языковых текстов можно отнести фундаментальные исследования Т Винограда, H Хомского, Р Шенка, В Гумбгольдта, Ч Филлмора и др

Среди российских работ можно выделить труды Ю Д Апресяна, Б Ю Городецкого, Ю А Загорулько, H H Леонтьевой, H В Лукашевич, M Г Мальковского, И А Мельчука, А С Нариньяни, Г С Осипова, Э В Попова, В А Тузова, С Д Шелова и др

В области кластеризации данных - труды И 3 Батыршина, Ж Бола, В H Вагина, Б Дюрана, В И Городецкого, H Г Загоруйко, Дж Вэн Райзина, R Agrawal, A Maedche и др

Необходимо также отметить, что данная диссертационная работа базируете на работах В А Виттиха, сформулировавшего принципы онтологического анализ и синтеза, применяемые в процессе познания, и П О Скобелева, выработавшег принципы создания открытых мультиагентных систем для поддержки процессе принятия решения в сложных системах

Но, несмотря на актуальность методов по работе со знаниями и обработк текстов на естественном языке, нужно отметить, что известные публикации большинстве своем носят либо концептуальный характер и не предлагают конст руктивных подходов, либо относятся к частным методам (например, построен® тезаурусов, работа с шаблонами, кластеризация числовых полей и др )

В то же время с точки зрения инструментальных средств ситуация значи тельно хуже Не только не существует единой инструментальной среды, обеспе чивающей все шаги процесса интеграции и приобретения знаний, но и имеющиеся системы, ориентированные на решение подзадач, обладают целым рядом ограничений, существенно уменьшающих эффективность их практического использования

Рассматривались такие алгоритмы и системы, как ASUIM, Chameleon, ConExt, DOE, KEA, LTG, OntoLearn, Promethee, SIMER+MIR, SOAT, SubWordNet, SVETLAN, TFIDF, TERMINAE, Welkm для задач автоматизированного построения/поддержки онтологий, HPSG, SFG, LFG, SAM, ПОЭТ, ИВОС, InterBase, KRITON, ТАКТ, DocMmer, Enkata, Intellexer, Inxight, Ontos, Text Analyst, SAS Text Miner, Clearforest, dtSearch, TEMIS, VantagePoint - для анализа текстов на естественном языке, LSA/LSI, STC, Bayesian classifiers, Single Link, Complete Link, Group Average, Scatter/Gather, K-means, CI, Concept vector-based clustering, SOM, Clusty, Quintura, Nigma, Vivísimo Search Platform, lBoogie, CarrotSearch - для кластеризации документов

К сожалению, для каждой группы программных систем можно выделить ряд принципиальных недостатков, включая необходимость существенной ручной предобработки данных человеком-экспертом, невозможность анализа всего набора текстов с точки зрения семантики предметной области, зависимость качества результатов от языка документов, отсутствие открытой модели предметной области, позволяющей в полной мере использовать знания эксперта и пополнять ее в процессе работы, ограниченность работы с семантическими сетями, непрозрачность и неинтерактивность алгоритмов, критичность к наличию «мусорной информации», зависимость качества результатов от изначальной предпосылки - догадки о «правильной структуре», нетерпимость к наличию неполной или противоречивой информации

Поэтому задача интеграции знаний по-прежнему является актуальной, и разработка инструментальной системы для интеграции профессиональных научно-технических знаний, представленных на естественном языке, представляется важной задачей для данной диссертационной работы

Предмет исследования составляют процессы обработки информации, направленные на интеграцию научно-технических знаний

Цель исследования состоит в разработке теоретических основ и инструментальных программных средств для решения проблемы интеграции научно-технических профессиональных знаний, представленных в виде текстов на естественном языке, в сфере промышленного проектирования и производства

Для достижения поставленной цели в работе решаются следующие задачи

1 Построить обобщенную логическую модель приобретения научно-технических знаний, позволяющую формализовать и применять знания эксперта с учетом промышленной и производственной специфики, разработать принципы онтологического подхода, позволяющего реализовать все этапы процесса приобретения и интеграции знаний в рамках единой методологии и концептуальной модели (онтологии)

2 Разработать метод автоматизированного конструирования начальной онтологии предметной области

3 Разработать метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области с целью представления семантики документа

4 Разработать методы получения, анализа и обработки научно-технической информации, представленной в виде семантической сети, в том числе механизмы сравнения, поиска, структурирования и классификации с помощью кластерного анализа

5 Разработать метод самокоррекции и саморегуляции системы путем автоматизированного уточнения и пополнения знаний, представленных в терминах онтологии

6 Разработать архитектуру системы и программно-инструментальную среду для работы со знанием, реализующую предложенные методы

7 Выработать критерии оценки и провести исследование параметров и качественных характеристик разработанных методов и средств работы со знаниями, выработать рекомендаций по их применению

8 Оценить эффективность предложенных методов и средств при решении ряда практических задач в сфере промышленного проектирования и производства, и других применениях

Методы исследования. Использованы теория и методы системного анализа, компьютерной лингвистики, эпистемологии, теории кластерного анализа, методы конструирования онтологий, теории графов, математической статистики, проектирования систем баз данных и знаний, структурного и объектно-ориентированного проектирования и программирования

Научная новизна выполненных исследований заключается в развитии теоретических основ построения систем извлечения знаний и обработки неструктурированной информации на естественном языке

1 Новизна предложенного онтологического подхода к решению задачи интеграции профессиональных научно-технических знаний состоит в использовании единой методологии, основанной на концептуальной модели эксперта, для реализации всех шагов цикла приобретения и интеграции знаний, что обеспечивает индивидуализацию процесса и учет целей эксперта

2 Новизна предложенного метода автоматизированного построения онтологии предметной области заключается в итеративном анализе строящейся онтологии с помощью предложенного мультиагентного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов, что обеспечивает механизмы самокоррекции и саморегуляции в процессе построения начальной онтологии предметной области,

3 Новизна предложенного метода преобразования неструктурированной информации на естественном языке в семантическую сеть в терминах онтологии предметной области заключается в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения и всего документа, что дает возможность представлять смысл научно-технического текста в виде семантических сетей, обеспечивает механизмы уточнения семантики в режиме реального времени по мере поступления новой информации и предоставляет механизмы сравнения семантики связных профессиональных текстов

4 Новизна предложенного метода кластерного анализа состоит в реализации его на основе агентных механизмов переговоров, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пакетном режиме так и в режиме реального времени, а также дает возможность

работы с неструктурированными квантами информации, представленными в виде семантических сетей

5 Новизна метода автоматизированного пополнения онтологии состоит в использовании мультиагентного кластерного анализа групп семантически схожих документов для выявления закономерностей, позволяющих уточнять онтологию предметной области, улучшая качество представления, поиска и анализа документов

6 Новым является предложенная архитектура инструментальной среды онтологического анализа и синтеза, основанная на субъектно-ориентированной модели приобретения знания с применением агентных взаимодействий, и заключающаяся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, что обеспечивает полный цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации

Практическая значимость. Научные результаты работы явились основой создания инструментальной среды онтологического анализа и синтеза, включающей подсистемы формирования, накопления, использования, анализа и пополнения разнородных знаний, необходимые для решения прикладных задач в сфере промышленного производства, предложены адекватные этим целям инструментальные программные средства

Созданные программные инструментальные средства для реализации методов автоматизированного конструирования онтологии, обработки и представления информации, анализа результатов и пополнения знаний применяются в задачах мониторинга проектно-конструкторской информации в Интернет, логистики, поисковых и метапоисковых системах, системах классификации документооборота, онлайн-анализа и других применениях, поскольку использование созданного инструментария повышает скорость анализа и обработки информации, сокращает стоимость и сроки работ, увеличивает производительность и функциональность используемых систем

Разработанные инструментальные средства имеют открытую архитектуру, гибкие механизмы импорта\экспорта, прозрачную процедуру настройки на любую предметную область посредством адаптации онтологии без необходимости изменения программного кода, что делает систему доступной экспертам предметных областей и открывает широкие перспективы как интеграции разработанных программных средств с имеющимся инструментарием, так и использования системы в тех научно-технических задачах, где актуальна проблема эффективного и оперативного анализа и приобретения научно-технических знаний, представленных в виде текстов на естественном языке

Реализация работы. Результаты диссертационной работы нашли применение при выполнении научно-исследовательских работ

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2004-2006 гг (раздел VI, тема «Онтологический анализ и синтез в процессах принятия решений», roc per № 0120 0403300),

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2000-2003 гг (раздел III «Управление и автоматизация», тема «Разработка основ теории управления сложными открытыми системами с применением компьютерного представления и обработки знаний», roc per №0120 0110152),

по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 1996-2000 гг (п 3 1 2 «Разработка моделей управляемых процессов, методов прогнозирования экономической эффективности и социальных последствий», тема «Разработка методов и средств построения теорий артефактов для компьютерной интеграции знаний и автоматической генерации моделей объектов управления», гос per № 01 9 60002398)

Прикладные разработки, связанные с проведением онтологического анализа и онтологического синтеза систем и созданием предметно-ориентированных пакетов прикладных программ выполнялись как в рамках перечисленных научных программ, так и по договорам с предприятиями на проведение НИОКР'

- с ФГУП ГНПРКЦ «ЦСКБ-ПРОГРЕСС» по созданию системы интеллектуального метапоиска в сети Интернет для оперативного нахождения и мониторинга релевантной информации в области малых космических аппаратов (2007г );

- с ООО «Научно-производственная компания «Маджента Девелопмент», г Самара (1999-2007 гг), при разработке систем извлечения знаний и понимания текстов на естественном языке,

По результатам разработок подготовлен учебный курс «Мультиагентные системы», включающий цикл методических пособий и лабораторных работ, внедренный в учебный процесс в Самарском государственном аэрокосмическом университете и Поволжской государственной академии информатики и телекоммуникаций

Апробация. Основные положения и результаты работы докладывались и обсуждались на международных и национальных конференциях и семинарах, в том числе. I-IX-ой Международных конференциях по проблемам управления и моделирования сложных систем (Самара, 1999 - 2007), 2-м Международном семинаре «Автономные интеллектуальные системы извлечение знаний из данных и интеллектуальные агенты» (AIS-ADM 07, Санкт-Петербург), 6-й Международной конференции по телекоммуникациям и информатике (WSEAS TELE INFO '07 Даллас, США), 5-й Международной объединенной конференции по автономным агентам и мультиагентным системам (AAMAS-06, Хакодате, Япония), 1-й Международной конференции «Бизнес информация, организация и менеджмент» (ВЮРоМ 2006, Лондон, Великобритания), Международной научной конференции

«Интеллектуальные системы принятия решений и прикладные аспекты информационных технологий» (ISDMIT'2005, Херсон), Международной конференции «ИТ в бизнесе» (ITIB2005, Санкт-Петербург), Международной конференции по развитию инфраструктуры электронного бизнеса, науки, образования и медицины в Интернет (Аквила, Италия, 2002), 3-м Международном семинаре по новым информационным технологиям (CSIT'2001, Уфа), VII Национальной конференции по искусственному интеллекту (Переславль-Залесский, 2000)

Публикации. По теме диссертации опубликовано самостоятельно и в соавторстве свыше 50 работ, в том числе в перечне, рекомендованном ВАК - 13, а также 3 авторских свидетельства об официальной регистрации программ для ЭВМ Опубликованные материалы отражают основное содержание диссертации

Структура и объем работы Диссертация состоит из введения, пяти разделов, заключения, приложений и списка использованных источников, содержащего 256 наименований Основная часть работы содержит 332 страницы, включая 111 рисунков и 13 таблиц

На защиту выносятся следующие положения:

1 Онтологический подход в процессах обработки информации в сфере промышленного проектирования и производства, направленный на интеграцию научно-технических знаний, представленных в виде текстов на естественном языке, и использующий субъектно-ориентированную модель приобретения знаний

2 Метод автоматизированного построения начальной онтологии, основанный на ее итеративном анализе с помощью предложенного мультиагент-ного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов

3 Метод понимания научно-технических текстов на естественном языке, заключающийся в преобразовании электронных текстовых документов в семантическую сеть с помощью агентных переговоров на основе построенных онтологий предметных областей

4 Метод кластеризации информационных объектов на основе агентных механизмов переговоров

5 Метод машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров

6 Архитектура инструментальной среды онтологического анализа и синтеза

7 Результаты практического применения предлагаемых методов и средств в сфере промышленного проектирования и производства

СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во Введении показана актуальность темы диссертации, дан анализ исследуемой проблемы и обоснован применяемый подход к ее решению, определены цели и задачи исследования, охарактеризована научная новизна и практическая значимость результатов, проведен краткий обзор структуры и содержания диссертации, выделены основные положения, выносимые на защиту

В первом разделе формулируется задача получения знаний об объекте путем анализа существующих информационных материалов, предлагается онтологический подход к решению задачи интеграции знаний, использующий субъект-но-ориентированную модель приобретения знаний, что позволяет индивидуализировать процесс получения и анализа научно-технических знаний

В теории и практике научного познания задаче анализа информационных материалов с целью предоставления эксперту знаний об объекте исследования, к сожалению, посвящено крайне мало работ Кроме того, до последнего времени не существовало возможностей автоматизировать процесс анализа подобных документов, в первую очередь за неимением подходящих технических средств поддержки

Особенностью подобного рода исследований является то, что результат ориентирован на конкретного эксперта, и процесс поиска и анализа материалов в общем случае должен им управляться Результатом анализа становится проекция имеющейся информации на субъективные нужды и интересы, т е из одного и того же набора информационных материалов каждый эксперт извлекает свой индивидуальный набор знаний, преломляя имеющиеся материалы через призму собственной модели мира и знаний о предметной области (Рисунок 1)

Знания, исследуемые в данной модели, являются совокупностью проекций моделей \ знаний других исследователей, и по определению будут неформализованными, неполными и противоречивыми Тем не менее, эти знания необходимо донести до эксперта, т.к для анализа ему могут потребоваться работы, совпадающие или противоречащие его концепции, что позволит ему лучше осуществить собственное исследование

При этом специфика таких знаний состоит, если следовать традиционной терминологии эпистемологии, в том, что работа происходит со знаниями, основанными на понимании Основное отличие их от более распространенных в научных трудах знаний, основанных на объяснении, в том, что, если объяснение сводится к логическому выводу факта из закона или теории, то понимание связано с раскрытием смысла факта, его интерпретации Этим и объясняется отсутствие формального аппарата для работы с подобным, неформализованным знанием, и данная работа является одним из первых шагов на пути разработки методов и инструментов для работы с подобным знанием

Попытки формализовать макроструктуру познавательной деятельности предпринимались многими выдающимися учеными и философами, в том числе

Рисунок 1 - Субъектно-ориентированная модель приобретения знаний

Онтологический синтез

Онтологический

Общее знание + начальная информация о предметной области

Осмысление ! Абстрагирование

Восцтягне I

Верификация

^ Л

Рисунок 2 - Логическая модель цикла приобретения и интеграции знаний

можно отметить работы И Канта, Г В Ф Гегеля, Р Декарта, К Поппера, С Н и Е Н Трубецких, В И Вернадского, Т Куна, Г П Щедровицкого

Из множества имеющихся схем процесса приобретения знаний была выбрана и обобщена схема познавательной деятельности, ориентированная на процесс приобретения знаний, основанных на понимании (Рисунок 2) Эта схема и легла в основу разрабатываемого инструмента

Таким образом, в цикле приобретения и интеграции знаний можно выделить четыре основных этапа

1 Осмысление/Абстрагирование - на основе общих знаний о мире и некоторых начальных неформализованных знаний о предмете исследования эксперт пытается построить некоторую структурированную (формализованную) модель знаний (этап абстрагирования), описывающих предмет, используя при этом ряд информационных материалов Эта модель знаний называется онтологией В работе сформулированы требования, которые к ней предъявляются (в том числе возможность представления неточной и неполной информации, прозрачность, расширяемость и др ), и выбрана т н «модель Аристотеля», которая отвечает всем требованиям и используется как базис для работы со знанием

2 Восприятие/Отражение - построенная модель знаний используется для представления всех имеющихся информационных материалов в терминах данной модели На основе предварительно понятой модели знания реконструируется реальный мир путем проекции его на субъектное восприятие мира в терминах модели знания Здесь каждому информационному ресурсу ставится в соответствие его образ, формализованный в терминах модели знаний

3 Применение/Верификация — осуществляется проверка качества проведенной проекции - насколько полно описаны имеющиеся информационные ресурсы, насколько точно модель позволяет искать, сравнивать и структурировать материалы, является ли представление тождественным в том смысле, что семантически близкие образы документов отображают реальную семантическую схожесть самих документов

4 Переосмысление/Пополнение - на данном этапе происходит анализ возможных ошибок и неточностей предыдущего этапа и изменение модели знаний на основе найденных неточностей этапов восприятия и применения Итогом данного этапа будет перестроенная или пополненная модель знаний, которая позволит точнее сформулировать знания о мире, тем самым полнее понимать его и взаимодействовать с ним

Для решения задачи интеграции профессиональных научно-технических знаний с целью индивидуализации процесса приобретения знаний в данной работе предлагается инструментальная среда онтологического анализа и синтеза, ориентированная на решение задачи эффективного и оперативного получения и обработки знаний об изучаемом объекте Данная среда получила название СИНТЕЗ (Система ИНТеграции Знаний)

В ней, согласно схеме приобретения знаний, каждому блоку цикла познания ставится в соответствие программный модуль, реализующий познавательные функции данного блока.

Второй раздел является центральным в диссертации и посвящен разработке основных механизмов работы со знанием, реализуя цикл приобретения и использования знаний. В каждом из подразделов исследуются текущие методы и средства, ориентированные на решение аналогичных задач, выявляются недостатки, описывается и анализируется предлагаемый метод.

1. Осмысление/Абстрагирование - Начальное построение онтологии предметной области - метод автоматизированного построения онтологии предметной области, реализующийся путем итеративного анализа строящейся онтологии с помощью предложенных методов понимания научно-технических текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов на основе алгоритмов мультиагентного взаимодействия и разрешения конфликтов между квантами знаний. Результатом данного этапа становится начальная онтология предметной области.

Набор документов на ЕЯ

—ч

Выявление групп документов,

ОТНОСЯЩИХСЯ К ОДНОЙ

предметной области

Частотный анализ ►^ючевых слое

Нечеткое распознавание слов (напр. Бои^Ех)

Данные о частях речи

Словообразовательные правила (напр. !5ре11)

Выделение терминов предметной области

Частотный анализ связи слое Словари отсечений

Определение типа концепта онтологии для данного термина - деление терминов на объекты, отношения, свойства и атрибуты

ТИПОЛОГИЯ

сочетаний концептов

Анапиз зависимостей между терминами (выявление свойств объектов, участников отношений и т п )

Морфология, Синонимы

Словарь

собственных имен

Типология связей терминов

Правила образования и использования собственных имен

Дзнные о синтаксисе

| Выделение атрибутов и их значений

ТИПОЛОГИЯ собственных имен и значение

Кластеризация неструктурированно й— информации

с г ~ ШШШш.

Понимание ЕЯ текста - построение семантических дескрипторов

Проверка онтологии путем построения семантических дескрипторов документов и анализа противоречий

Построение иерархической модели объектов

Эвристики наследований

Уточнение онтологии, при наличии неполноты и противоречий

Построение отношений в онтологии

эвристики

взаимозависимостей концептов

Этап очистки онтологии от незначимых терминов

Эвристики „использования терминов -

Эвристические правила анализа связности

дублирование и несвязные термины

Рисунок 3 - Логическая схема построения начальной онтологии предметной области

В разделе описываются алгоритмы, применяемые на каждом шаге построения, в том числе как лингвистические шаблоны должны преобразовываться в онтологические конструкции, механизмы распознавания значений атрибутов в тексте, эвристические правила, позволяющие реконструировать зависимость между концептами в онтологии и отношения между объектами Общая схема метода приведена на рисунке 3

В таблице 1 приведены типовые лингвистические шаблоны, встречающиеся в тексте, и возможные способы их онтологического представления

Таблица 1 - Автоматизированное построение онтологии - типовые шаблоны

Лингвистический шаблон Возможные онтологические трактовки Пример

(о"» »А«*) а) 3s,y/sea\3s{y/s) б) 3s,д, eПЗy/s 3e{y/s) л gt e y/s Satellite launched

(PsyVact'Vo) a) 3s,if/s,y/0&Q\3£(if/s,iif0) University designed spectrometer

Cs'Mpas а) 3 s,y/s e O 3i0//S.) б) 3e,^€dB£(^0) в) 3s,д, e Ц3ц/а 3£(<у0)лд1 e ц/0 Batterv was broken

1) (&s>M„Moj) 2) {o-s,fi0j,ju,) 3) (A)J,M,,(TO) а) 3£,if/s 6C&3s{y/S) б) 3sl,sJ,\j/s edj3sl(yrs)A3eJ(t//s) в) 3s,д, e Q|3 y/s 3e{ij/s )Agtey/s Rocket attempted to stabilize

(as,nl,a0\/Jl e Serv а) б) 3y/l,gJ£Q\gJ<=y/l Microsatellite was cubical in shape

а) 3S,\jf0 e 0|3s{y/Q) б) 3s,g, e d\3y0 3е{ц/0)лд1 & ц/0 To search news

(ftgrd'&o) а) 3s,y/Q еЙЗф(,) б)Ее,ft е£Ъ3^0 ey/0 Describing features

{a s,vprep,(T0) а) Эг?,^,^ б) eif/t в) 3e,if/„y/j eQja^,,^) Pamt against corrosion

Лингвистический шаблон Возможные онтологические трактовки Пример

^act^Jprep^o) а) 3е,у/0 ed\3s(\//0) б) Зе,д1 е Г2|3 у/0 Эгг(^0)л£г Found with help of search engine

а) 3e,Wi,Wj е^'3eiVuVj) б) еО\д} & в) еОЗе(ц/а) Standard sensors

^•fj prep'*») а) Ъе,ц/0 еП|Эе(у/0) б) Эе,сг е П|3 ц>0 Эе(ц/0)лд, ец/0 To launch from VAF airbase

Здесь группа существительного а = {<х0, сг2, ,сг6, <Упит,сгрег5, а§еп{г}, где <т0 - начальная форма, существительное в именительном падеже, о"2, Реформы слова в родительном, дательном, винительном, творительном и предложном падежах, сглит, <греп., ч- характеристики (число, лицо и род) Группа

глагола (инфинитив, активный залог, пассивный залог, герундий, предлог, характеристики - переходный и непереходный глагол, а также союз)

М = {Мо>Мас1,Мра5>М8г<1>Мргер>М1гст*,Мп1>Рсоп,}, 0. = (1//,£,д,<р) - ОНТОЛОГИЯ, ГДе Ц/ - множество объектов, с - отношений, д — множество допустимых атрибутов (задаваемые именем и типом), и ср - правил вывода, 1//5И ц/0 - субъект и объект отношения, У - отношение наследования

Особое внимание уделяется этапу проверки онтологии путем построения семантических дескрипторов документов и анализа противоречий, поскольку он является критическим для всей процедуры построения онтологии и представляет основное отличие предлагаемого подхода по сравнению с известными методами, при этом являясь не независимым этапом, а постоянным процессом автоматической коррекции и верификации, запускаемым после каждого из этапов

Вводится метрика корректности синтаксической р!уп{м>1^],С15уп) и семантической связи рБет(а1,а},С1!ет), показывающая, насколько корректна построенная связь между концептами а,и и, соответственно, представляющими их в тексте группами слов {-н>(} —а1 и {л>]} -» а} Синтаксическая корректность

Тогда степень корректности слова

= ± —-—-—.У/

«-1

Общая синтаксическая корректность концепта онтологии

Концепт онтологии исключается в случае, когда

Ыщ

р8уп(а/)«---, V1^1, N(11 - число документов, в которых присутству-

Ыа}

ет концепт онтологии Коэффициенты р5уп ) для остальных терминов пересчи-тьшаются без учета {мг^а 1 В случае нескольких альтернатив термин а"' считается надежным, если р5у0(а1т) » р$ув(а{), \/г ф т, г -1,Иа}

Аналогично, семантическая метрика концепта а/ на основе представляющих его слов {и>/} вычисляется, как ыЧ

А«.(«/) = Ё —-^-'V/ .IV м

1=1

Вклад концепта в смысл документа

Кзет(а1>с>,) = —-1-> У/

Термин понят неудовлетворительно и ухудшает общее понимание текста в случае

Предлагаемый подход к автоматизированному построению онтологии позволяет добиться следующих основных преимуществ по сравнению с существующими методами

- Не требуется построение начальной онтологии предметной области человеком-экспертом в качестве базиса для дальнейшей работы

- Не требуется предобработка человеком-экспертом документов предметной области (включая стандартизацию шаблонов, преобразование форматов, предварительную разметку текста, составление вручную словаря терминов предметной области и пр)

- Процесс построения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены

Процесс построения онтологии не зависит от языка документа, за исключением поддержки синтаксических онтологии для разных языков

- Процесс построения онтологии итеративный, всегда существует обратная связь с возможностью проверить семантику сгенерированной онтологии автоматическим путем, когда уже построенная часть онтологии сама является основой для анализа семантической корректности предлагаемых изменений и дополнений При этом процесс саморегулирования автоматизирован и может обходиться без человека-эксперта

- Анализ и вычленение терминов с учетом их семантики происходит в рамках всего корпуса текстов, он не ограничивается анализом индивидуальных предложений

- Поддерживается возможность работы с множеством документов из нескольких слабосвязанных предметных областей за счет предварительного этапа автоматической предобработки алгоритмом кластеризации

- Алгоритм может работать как автономно, так и в интерактивном режиме, причем пользователь может повлиять на формирование решения на каждом из этапов работы

2 Восприятие/Отражение - Представление информационных квантов в терминах онтологии предметной области - метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области, основанный на применении механизмов мультиагентного взаимодействия квантов знаний, позволяющих в процессе переговоров реконструировать смысл предложения, и использовании построенных онтологий для хранения межфразового контекста, тем самым дающий возможность представлять смысл связного текста и обеспечивающий механизмы сравнения семантики документов

Суть предлагаемого подхода состоит в том, что каждому слову языка ставятся в соответствие агенты его смыслов, которые на основе собственных баз знаний (онтологий) конкурируют между собой и кооперируются, договариваясь о том, какой именно конкретный смысл имеет каждое слово в предложении и каков его общий смысл В результате, основной моделью процесса понимания смысла становится процесс самоорганизации смыслов слов при построении сцены контекста, что принципиально отличает предлагаемый подход от всех на сегодня известных (Рисунок 4)

В процессе синтаксического разбора для каждой пары словосочетаний \¥1,\У1 е е ^ * ю^рщ - р^ = 1 ищутся две синтаксические

роли а' ^, а1^ , такие, что Зезуп е 05уи Ве^а^а^)

Рисунок 4 - Логическая модель процесса анализа ЕЯ текста Осуществляются синтаксическое

3 ц/:,у/] е Пт,Э*О,-,У, )|Э у/\,,^) л Зе(у),) и морфологическое уточнения:

З^уЛ^Р^ДЗ?™, : У,- е П й О,

5 УМ

30,Г; с •!// е П'7у О1^ -> 0Г/

-11"' луи 'Ьзул • ге ^ " гуя >" зуп •

Затем словосочетания объединяются между собой по правилам, приведенным в таблице 2.

Таблица 2 - Создание словосочетаний (на примере союзов)

Вариант объединения Требуемые условия

Субъектное объединение союзов з£(Мсощ) ■ Псощ = Vw^,wJf,^vi е Т1 : м», -> Мсоу>™у ~> <*]>Щ <4 : ЭОсол/,«у) л : Э(рсо^,ак), А" ~ Ру! = - р/с - 1, допустимо Е] = 0 V = 0 объединение двух слов союзом З^уул (а1 > ) """ З^-уп ■ С^п е от,- А ^ 6 - непротиворечащие синтаксические свойства

Вариант объединения Требуемые условия

Союзы могут соединяться с другими союзами Зе 5 VII ' зе {/.1' ,ц} ) СОИ] со») Уе$у„: Эе5уп(м' ) => Зг^,, (//' ,ог, )лЗЕ5уп(р > ,«•) - со») со»] сап/ сои} оба союза должны присоединить к себе хотя бы одно другое слово ^fwhWJ е Т^ : -> л (р,- > рj) только прямая связь

Субъектное объединение элементов перечисления с другими словами - Зи',„ еТ1 : н'т -*ат, ^^Буп (/^ СО п] ' ^'т ) уЗ е,у„(ак,ат) Зи^и/у,^ еТ1 ->^со„у,и'у Эггу : Э(/'со«у.«/) аЗг^ :3(Асойу,ак),Е],ек<=. П5уп, союз присоединил уже как минимум два слова с использованием предыдущего типа объединения

Объектное объединение союзов Бе(^со/у). Исогу ~ Vо Союзное словосочетание является либо одиночным словом, либо объединением союза и предлога V»- = {ну},; > 2 о 3!^- : щ -> Мсогу V ^зуп^согу>Мргер)

Алгоритм синтаксического разбора заканчивается в одном из двух случаев: 1. Найден вариант корректного синтаксического разбора предложений

2. Рассмотрены все возможные пары слов для объединения и в результате не было найдено ни одного варианта разбора: £ < 0 ■

Vw¡6 Т'

На этапе семантического разбора проверяется непротиворечивость, осуществляется дополнение и уточнение семантического дескриптора. Для каждой пары объектов осуществляется оценка возможности связи. Допустимы следующие случаи:

1- В£• (а,.,а .)еП£„ лЗг1ИН(а,-,ау) е

3. у) е С1$уП лЗе5еот(«,•, ау) е П5ет л За/ : лЭГ(ау,а/)) .

Возможные противоречия выявляются на основе следующих правил:

1) 1Wl={wl},WJ={wJ}eTkЗ■wl,wJ wl=WJ,

2) 3йфо«,,,

3) еА^,^, л^е^

В случае возникновения противоречия или требуемого уточнения алгоритм возвращается на стадию синтаксического разбора В противном случае формируется общий семантический дескриптор документа посредство^ слияния Имеющейся сцены и сцены, дополненной концептами данного предложения Объекты считаются совместимыми, если выполняется

¥х е^Гет^Уу = V(ЗГО//, )л(ЗдеПд ? ейу/х)

Отношения считаются совместимыми, если

= ЭеД^,^) => ЗггДу^,^))

Предлагаемый подход позволяет добиться следующих основных преимуществ по сравнению с существующими методами

- Возможность представления смыслового контекста связного текста за счет использования механизмов представления и обработки знаний, с поддержкой уточнений, разрешением противоречий и пр

- Возможность построения углубленного межфразового контекста, с возможностями «многократного прочтения» и обработки информации, поступающей онлайн, когда пришедшая позже фраза меняет смысл предыдущих, и требуется заново пересмотреть понимание текста с учетом вновь полученной информации

- Использование открытой модели предметной области, что дает возможность в полной мере использовать знания эксперта, давая ему мощный инструмент настройки и пополнения онтологии знаниями о предметной области в процессе работы

- Создание прагматически-ориентированных сценариев работы с полученными знаниями, что позволяет обрабатывать информацию согласно нуждам пользователя и обеспечивает субъектно-ориентированное извлечение и анализ знаний

3 Применение/Верификация - Механизмы поиска, сравнения, классификации и кластеризации информационных объектов на основе семантических дескрипторов - метод кластерного анализа, реализованный на основе агентного взаимодействия, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пошаговом, так и в пакетном режимах, а также дает возможность работы с неструктурированными квантами информации, тем самым предоставляя механизм поиска, анализа и классификации знаний, содержащихся в неструктурированных текстах

В предлагаемом подходе в соответствие каждому элементу системы - каждой записи и кластеру, ставится программный агент, представляющий их интересы Процесс работы системы состоит в переговорах агентов, направленных на улучшение их состояния согласно критериям оценки качества Вместо централизованной последовательной обработки осуществляется распределенная обработка, в которой каждая запись и каждый кластер самостоятельно и на основе некоторых заданных стратегий в достаточно узко ограниченном контексте принимают решения о вхождении в кластер или выходе из него, расширении или сужении кластера или его удалении, представляя текущий локальный баланс интересов конкретных записей и кластеров В итоге процесс кластеризации осуществляется путем самоорганизации агентов, формирующих иерархическую кластерную структуру

В разделе описываются типовые стратегии записи и кластера, поддерживаемые типы полей, возможные способы представления структуры кластеров, вычисления расстояний между записями и кластерами, формулы ценности для кластера и записи, принципы точной и интервальной кластеризации, преобразование и нормирование атрибутов, параметры микроэкономики, в том числе назначение начального количества денег (энергии), механизмы поиска вариантов, вхождения в кластер, распределения денег между кластерами, выход из кластера и налоги Целью записи X е Сь является максимизация своей ценности

£ ¥(Сг) -> тах Цель кластера С - максимизация ценности

г=1

V(C) = * Vlm (С) + к2 * vadd (С) + /с3,

где Vadd(C) = е Ch. ,Ск, к],кьк3 - регулирующие коэффициенты

г=1

Начальное назначение денег записи задается как MXt @Х(Х,) =F{x\, -,хм),

где F - эвристическая функция ценности записи Формула ценности кластера вычисляется следующим образом

Natt N М 'тах ~гтт

где Nrec - число записей в кластере, NaU - общее число записей в пространстве D, М- число полей, по которым образован кластер

Число полей, по которым образуется кластер, определяется следующим образом - вычисляется Dif, - степень совпадения атрибута г max (xt-yi)

Difi = 1 ----, гтах = max(z^), гтт = mm(zj), Vz e Dl

'max гтт J J

Затем вычисляется Inf, - степень влияния атрибута на общую формулу

= —— , здесь 0 < к < 1 - коэффициент поощрения похожести атрибута 1 -к

Число полей (кластер формируется по атрибутам i Infl > 0) -

N U = 1 Jnf, > О ;=l' [/ = OJnf, <= О Оценка возможности создания кластера между точками X и Y

MX,Y 3 C(X,Y) <=> - > kx Xl~yi,i=W

'max ~ 'mm

Формула оплаты за вхождение в кластер

м ..s ^

InCost(Q^ku J^bl

Vinwv

1--

' rec

N„

,-i ^¡max ^¡mra V all

1 C;mdX ~Cimm f МЛ j

+ кз N -+ *4 l w"J s

(=1 max 'mm V 'v /

Распределение денег между кластерами для записи

г г у V(C,)

VXeCb ,Ci'0c(C7) = 0C(C7)+ii 0 (X)

ШФ 1=1 к

Предлагаемый подход к кластеризации информации, основанный на агент-ном взаимодействии, позволяет добиться следующих основных преимуществ по сравнению с существующими методами

- Возможность работы с семантическими сетями, что позволяет кластеризовы-вать сложные информационные объекты (образы, тексты)

- Алгоритм не требует предобработки данных экспертом предметной области, не требует участия человека в процессе работы, но может использовать взаимодействие с экспертом для повышения качества результатов

- Алгоритм способен работать в неэвклидовом пространстве, где мера близости может существовать только для каждой пары объектов, а правило треугольника не соблюдается

- Создание значимых кластеров в любом подпространстве исследуемого пространства решений, алгоритм учитывает любые комбинации параметров, позволяя находить зависимости между любым поднабором атрибутов

- Прозрачность принимаемых решений и описание кластера в терминах онтологии, что дает возможность удобного анализа результатов, описание кластера в виде правил вида «если - то»

- Возможность создания сложной иерархической структуры кластеров, где каждая запись и кластер способны входить во множество других кластеров, тем самым учитывая и отображая все найденные семантические зависимости

4 Переосмысление/Пополнение -Алгоритм машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров информационных объектов - метод автоматизированного пополнения

онтологии новыми знаниями на основе анализа семантических групп, найденных на этапе кластеризации, и применения ряда эвристических правил, позволяющих уточнить и пополнить онтологию предметной области, тем самым улучшая качество представления, поиска и анализа документов

Модуль автоматизированного пополнения онтологии позволяет на основе найденных групп семантически близких дескрипторов «выращивать» новые связи между существующими в онтологии квантами знаний

Пополнение и уточнение онтологии основано на гипотезе взаимодействия «если концепты онтологии всегда встречаются вместе в определенной ситуации, значит, они семантически связаны между собой, причем характер связи определяется ситуацией» Методы модуля позволяют проанализировать получившуюся структуру и дескрипторы кластеров, выделить необнаруженные ранее зависимости между концептами онтологии

После того, как документы получили семантические дескрипторы и кластеризованы по семантической близости, происходит процесс кластеризации созданных ранее кластеров Теперь анализируются те зависимости, по которым были объединены документы в различных группах Подобный процесс позволяет подняться над уровнем документов и исследовать уже саму предметную область, анализируя те концепты, которые встречаются в различных семантически близких группах, и установить возможные взаимосвязи между ними

Варианты зависимостей и возможных изменений онтологии приведены в таблице 3

Таблица 3 - Типы зависимостей для пополнения онтологии предметной области

Тип зависимости Возможные изменения онтологии

Два несвязанных объекта С={С1; ,Ск}, С, - кластер семантических дескрипторов 1 Данные объекты должны быть связаны между собой отношением, которое присутствует в онтологии, но их не связывает Зе 6 й|эа' 3£•(;//,е П'лаъ О. 2 Объекты должны быть связаны неизвестным отношением, еще не присутствующим в онтологии Зг € П(ЗП' е е П'лЗ£(ч/пц/^ е ^ 3 Объекты родственные, и один из них является наследником другого за' е а'лО'з о,

Два объекта, связанные определенным отношением еП|зС = {Сь ,Ск], С, 1 Отношение делится на два различных отношения, связывающие объекты Зеь82 £ £2[ЗЙ' еье2 е П'лЗС'= {С,, ,Ск), Сх 3 вх(1//„у/^,3С"= {Сь ,Ст}, С/ => а 2 Родственные отношения

Тип зависимости Возможные изменения онтологии

Эе[,е2 е{,е2 е Й'лЗ?(г!,£,2)л 3С={СЬ ,СА.},С, у/Д ЗС"= {С,, ,Ст},С, э гг2(у/г,у/у),йЬ П

Два объекта, всегда связанные двумя конкретными отношениями З^^ефС = {С„ ,С*>, С/ гэ 1 Синонимы для одного и того же отношения |3е1 (У,, V] ) Зг?2 , уу ) 2 Наследники \ родственники другого отношения, не существующего в онтологии 3«- $г Зё(«-,£]) е П',й'э О 3 Раздваивается один из исследуемых объектов Зу/, {С|, ,С4},С, => ^(у/, зс"={с„ ,ся),срг2г„^)(а'эа

Объект плюс другой объект, связанный определенным отношением с различными третьими объектами еа[эс = {с1, ,Ск},Сг =>у(л ей 1 Объекты должны быть связаны данным отношением ЗО' З^^,^) € £2'

Объект связан отношениями одного и того же типа с двумя объектами разных типов 3^бО|ЗС = {С„ АЬС/гэгв'«.^). С1 з е(1у„у/к), е,ч/Гч/к е О 1 Объекты родственны ЗО' 3

Объект плюс атрибут, встречаемый у других различных объектов С/ ^{УтЬ?/ 1 Атрибут принадлежит данному объекту ЭЙ' ^ е у/, 6 а', П'з £2

Объект плюс атрибут, всегда наличествующий у другого объекга а е а«-, г = {С!, ,СА}, С/ г> ^„С/ =з ц/к,д} € е ^ 1 Атрибут ошибочно приписан другому объекту ЗО' ^ е ц/1 е г ц>к е £2', С2'з □ 2 Субстантивация - атрибут используется вместо объекта ЗГ2' ^ еС2'л^ е^/д. ей', ЙЪО

Объект плюс отношение, не связанные ни с каким объектом 3^(^,0) еПЗС={Сь ,Ск), С/ г> е(1//с,0) 1 Новый объект в онтологии

Тип зависимости Возможные изменения онтологии

Два атрибута, встречающиеся у одного и того же объекта еОйс = {сь ,ст}, С; =Э щ, д},дк е ц/1 1 Допустимо объединение атрибутов д} ер, сС;ля ер, <хС;

Один атрибут, встречающийся одновременно у нескольких разных объектов (в случае устойчивой комбинации) еП|ЭС={С1, ,Ст}, ?к 65 V» ^С[лдке1/// с С; 1 Одному из объектов атрибут приписан ошибочно ЗС2' дк ер,&дк йр } , О'з^ 2 Данные объекты должны быть родственными, чтобы «законно» наследовать атрибут зо: з?(рг,р^ео:, а'а«

В результате по итогам анализа семантики кластеров для каждой группы (кластера кластеров) определяется ряд возможных пополнений \ изменений в онтологию При этом для каждого из вариантов изменения, аналогично этапу построения, считается степень его корректности путем временного изменения онтологии и анализа числа корректных \ некорректных использований измененной части онтологии на имеющемся наборе документов Все варианты и их степень корректности предлагаются пользователю, и в интерактивном режиме можно изменить и уточнить предложенные гипотезы для окончательного утверждения и пополнения онтологии

Предлагаемый подход к автоматизированному пополнению онтологии позволяет добиться следующих основных преимуществ по сравнению с существующими методами

- Процесс пополнения онтологии полностью прозрачен для пользователя, обоснования всех принимаемых решений, логика и оценки могут быть прослежены

- В процессе анализа и пополнения онтологии в полной мере учитывается семантика, построенная онтология является основой для анализа семантической корректности предлагаемых изменений

- Алгоритм ориентирован на пополнение всех существующих типов связей в онтологии, включая принадлежность атрибутов и корректность отношений

- Поддерживается возможность уточнения имеющейся онтологии с учетом ее потенциальной начальной некорректности

- Допустима работа с множеством документов из нескольких слабосвязанных предметных областей

Третий раздел посвящен разработке инструментальной среды онтологического анализа и синтеза для решения задач извлечения знаний и понимания текста

на естественном языке, исследованию реализационных характеристик разработанных средств, оценке эффективности их работы и качества результатов.

Предлагаемый подход к интеграции знаний, основанный на агентных взаимодействиях и заключающийся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, позволил создать архитектуру работы со знанием для реализации предложенных методов автоматизированного конструирования онтологий, представления и обработки информации, анализа результатов и пополнения знаний, обеспечивая цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации в сфере промышленного проектирования и производства и других областях.

Разработанная среда включает в себя несколько программных комплексов: инструментарий инженерии знаний, предназначенный для создания онтологий предметной области и логики принятия решений агентов, и программный инструментарий, ориентированный на представление, анализ и обработку знаний, представленных в виде текста на естественном языке (Рисунок 5).

; Интерфейс пользователя

Вход Вы код

Запрос на естественном языке Загрос е виде семантического дескриптора Релевантные | документы ! ......... 1 Анализ результатов Предложения по изменению | онтологии !

№.СЛ5ДОБ5ГтеПЬу

V..

: Работа с Нзоор документов : документами; На ЕЯ -

: анализируемым материал

Набор с

дескрипторов

Релевантная информация

... гтг: /

I Системным; ! уровень !

Автоматизированное ; построение ! ОНТОЛОГИИ I

Конструктор ОНТОЛОГИИ

Понимание текста на естественном языке - построение семантических дескриптор о е

: Уровень онтологии

Анализ семантических дескрипторов

_ I

Извлечение знании на основе кластеризации

чвтом атиз мров анное пополнение онтологии

Онтология предметной области

[ : Онтология ЕЯ ]

; Онтология кластеризации : ; Со5дание и пополнение онтологии

/"Зксп;

Эксперт предметной

мульти- Исполняющая 1 Библиотека ! Виртуальным

агентного система расширении рынок

Служебный уровень : &аза данных

Про то кол цэов анне

; Внешним ;

АР!

Рисунок 5 — Общая логическая архитектура системы

Инструментарий инженерии знаний включает в себя конструктор онтологий, автоматизированную систему построения онтологий, систему понимания научно-технического текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, в том

числе отладочную систему, интерфейсы работы с базами данных и внешними приложениями

Для создания специализированных программных компонент приложения предлагается инструментарий программиста, состоящий из расширяемого набора библиотек программ и позволяющий настроить инструментальную среду для обработки информации в исследуемой предметной области

Основу всего комплекса составляет исполняющая система, реализованная в двух версиях на основе наиболее распространенных сред объектно-ориентированного программирования Object Pascal и С++ в операционной системе Windows

В разделе описываются реализационные характеристики отдельных модулей и всей инструментальной среды в целом, в частности, поддерживаемые операционные системы Win 98, 2000, NT, ХР, Vista, механизмы интеграции с базами данных BDE, ODBC, ADO и MTS, поддержка COM/CORBA, поддержка XML и периферийных устройств (SMS, E-mail, fax etc), а также характеристики системы по производительности.

В разделе приводится ряд экспериментальных оценок параметров производительности основных модулей и алгоритмов, входящих в структуру предлагаемой системы интеграции знаний, а также обсуждаются возможные способы улучшения производительности и качества результатов

Анализ проводился независимо по нескольким предметным областям (в том числе малые космические аппараты, логистика, страхование, биология), исследуемым в рамках решения реальных прикладных задач в сфере промышленного проектирования и производства, и других областях В каждой области была построена онтология, взяты наборы реальных документов из практики (две группы -исходная и тестовая выборки, в каждой порядка 5000 документов) Все замеры делались на разных типах и объемах данных, затем соответствующие результаты усреднялись по количеству запусков и выводились для анализа

Исследование производительности, эффективности и качества

результатов для каждого из анализируемых модулей

А. Автоматизированное построение онтологии

Исследуемые характеристики

1 Зависимость скорости работы системы от объема задачи (число слов в документах)

2 Требуемое количество агентов (среднее/пиковое) - объем задачи

3. Число выделяемых терминов - объем задачи

4 Сложность онтологии, количество порождаемых концептов (объекты, отношения, атрибуты) - объем задачи

5 Требуемый уровень доработки онтологии (%) от объема автоматически построенной онтологии

6 Тип доработок (%), требуемых от человека-эксперта для уточнения автоматически построенной онтологии

Основные результаты и выводы

1 В среднем в тексте алгоритм выделяет порядка 20% слов как значимые, которые затем преобразуются в термины

2 Для качественного построения начальной онтологии необходим анализ порядка 35 тысяч слов (около 300-400 типовых научно-технических документов) для выявления основных терминов, используемых в предметной области Для минимально корректного реконструирования набора терминов рекомендуется брать не менее 12-15 тыс слов

3 При построении концептов онтологии из терминов наблюдается соотношение 4 1 - т е из четырех найденных терминов формируется один концепт

4 При построении онтологии наблюдается пропорция 4 1 20, т е в среднем на 4 объекта приходится 1 отношение и 20 атрибутов

5 По оценкам экспертов предметную область можно покрыть на основе порядка 2500-3000 концептов Наши оценки показали чуть большие объемы - порядка 4000 концептов для начального покрытия предметной области (без учета добавлений человека-эксперта), и порядка 5000 после уточнений эксперта

6 Уже простая онтология на 250 концептов требует не менее 15% дополнительных работ человека-эксперта, который уточняет и изменяет автоматически построенную онтологию Показано, что процесс сходящийся, и даже в случае серьезных возрастаний объемов онтологии требуется не более 40% дополнительных настроек для получения окончательной работоспособной онтологии

В. Понимание текста на естественном языке - построение семантических дескрипторов

Исследуемые характеристики

1 Зависимость скорости работы системы от объема задачи (для всех этапов разбора - морфология, синтаксис, семантика, прагматика).

2 Среднее требуемое время на этап разбора (%)

3 Среднее/пиковое число агентов при обработке одного предложения - объем задачи (число слов, тыс )

4 Среднее число изменеыий\дополнений в семантический дескриптор (те перестройка структуры системы при разборе нового предложения) в зависимости от объема задачи

5 Среднее время сравнения семантических дескрипторов - сложность дескриптора (число концептов и связей)

Основные результаты и выводы

1 Время на морфологию растет линейно - на данном этапе почти не осуществляется рассуждений

2 Аналогичным образом линейна часть, связанная с прагматикой - т к она зависит только от сложности окончательно сформированного дескриптора

3 Часть, связанная с синтаксисом, растет квадратично - связано с использованием агентных переговоров и множественностью вариантов разбора

4 Наиболее сильно, хотя и по-прежнему квадратично, растет время, требуемое на семантический этап Это согласуется с логикой алгоритма - большее число

ветвей понимания предложения, уточнения смысла и пересмотра ранее распознанной сцены, что подразумевает возврат и повторный анализ предыдущих предложений

5 При оценке пикового числа агентов выяснилось, что вне зависимости от объемов задачи, оно примерно совпадает, что противоречит теоретическим выводам Таким образом, согласно нашим алгоритмам всегда есть некая «допустимая глубина перестройки», далее которой система не позволяет изменять смысл всего текста - ограничение текущей версии алгоритма

6 Среднее число изменений и дополнений в семантический дескриптор растет с ростом размерности задачи, т к изменения не уходят «в глубину», а затрагивают непосредственно концепты, чей смысл изменяется с новой информацией

7 В среднем новый объект в сцене обновляет 4-5 связей \ значений атрибутов, при этом глубина обновлений досгигает 3 уровней (уровень - появление объекта \ уточнение значения)

С. Кластеризация и извлечение знаний

Исследуемые характеристики

1 Зависимость скорости работы системы от объема задачи (точная кластеризация, кластеризация по диапазону, кластеризация семантических дескрипторов)

2 Среднее/пиковое число агентов при обработке одной записи - объем задачи (число записей)

3 Количество порождаемых кластеров - объем задачи (однокластерный и многокластерный случаи)

4 Уровень иерархии и размерность кластеров - объем задачи

5 Среднее число изменений связей в зависимости от шага кластеризации

6 Количество «значимых» кластеров в зависимости от объема задачи

Основные результаты и выводы

1. Среднее число агентов (и, соответственно, время) на обработку одной записи растет медленно и линейно с ростом размерности задачи, при этом пиковое время растет квадратично

2. По мере возрастания числа записей, рост числа кластеров и в однокластер-ном, и особенно в многокластерном варианте начинает затухать Это означает, что система приходит к динамическому равновесию

3 Среднее число изменений связей при приходе новой записи коррелирует со средним числом задействованных агентов (в среднем изменение решения одного агента влечет за собой пересмотр 4-5 связей) и тоже возрастает по линейному закону Но в случае «пика», т е. прихода записи, которая повлекла за собой серьезную перестройку структуры, данный график коррелирует с пиковой нагрузкой по агентам, и возрастает по полиномиальному закону

4 Вне зависимости от объема задачи, число значимых правил составляет порядка 20-25 % от общего числа найденных правил, из них тривиальными (т.е сразу очевидными эксперту за счет дополнительных знаний о предметной области), является порядка 60%

Б. Автоматизированное пополнение онтологии

Исследуемые характеристики

1 Скорость работы системы от объема задачи (число концептов)

2 Требуемое количество агентов (среднее/пиковое) - объем задачи

3 Типы комбинаций концептов онтологии (%)

4 Количество комбинаций определенного типа для онтологии порядка 1000 концептов, и набора документов порядка 10000 штук

5 Распределение для каждой комбинации встречающихся вариантов изменения онтологии

6 Причины возникновения некорректных гипотез

Основные результаты и выводы

1 Учет затрат времени человека-эксперта примерно в 4 раза увеличивает общее время работы системы (При этом качество результатов, оценочно возрастает примерно на 55%)

2 В результате предложенных изменений, которые пригашались экспертом-онтологом, онтология выросла примерно на треть (32%)

3 С помощью данных алгоритмов даже с учетом работы эксперта можно успеть качественно пополнить онтологию примерно за 1-2 рабочих дня В случае, если б работа полностью осуществлялась вручную, по оценкам это в среднем занимает от одной до полутора недель

4 Наиболее частыми комбинациями, встречающимися при кластеризации и нахождении зависимостей, стали «два несвязанных объекта», «объект плюс отношение», «два объекта, связанные отношением», «два атрибута одного объекта» и «объект плюс чужой атрибут» На их долю пришлось порядка 74% от общего числа найденных комбинаций

5 Наилучшие результаты, почти всегда ведущие к пополнению онтологии, показали такие типы комбинаций, как наличие двух несвязных объектов (требуют связи отношением) - 14% погрешности, объект с «повисшим» отношением (требует новый объект в онтологию) - 26% погрешности

В четвертом разделе рассматривается типовая прикладная задача в сфере интеграции профессиональных знаний - задача мониторинга релевантной информации в Интернете в области малых космических аппаратов с целью поддержки принятия решений в промышленном проектировании образцов новой техники

Анализ тенденций развития космических технологий показывает, что одним из наиболее перспективных путей их совершенствования является применение малых космических аппаратов (МКА) и систем на их основе Побудительным мотивом для перехода от создания и использования крупных универсальных спутников к МКА стал прорыв в электронике, двигателестроении, в области создания новых конструкционных материалов и др областях, что позволило получить такие преимущества, как низкая стоимость и малый срок создания, что ведет к уменьшению финансовых рисков и возможности использования МКА как «полигона обкатки» новых космических технологий

В силу перспективности МКА для космической промышленности России в рамках анализа существующих и планируемых решений, имеющихся на мировом рынке и предлагаемых странами-партнерами и конкурентами, становится необходимым постоянный мониторинг имеющейся и появляющейся информации, и особенно, в связи с все возрастающей популярностью Интернета, анализ электронных документов - новостных лент, специализированных порталов, блогов

Имеющиеся на текущий момент технологии поиска и метапоиска, включая поиск по ключевым словам, поиск с использованием операндов булевой алгебры, поиск с расстоянием, построение нового запроса на базе предыдущего, поиск в определенных полях html-документа и морфологический поиск все равно не обеспечивают основного - они не дают возможность проанализировать семантику документа, выявить его реальный смысл (который зачастую противоречит указанным в нем ключевым словам, т к, например, они были указаны с целью занятия более высокого положения в поисковых системах) и определить актуальность предлагаемой информации

Была разработана метапоисковая система, позволяющая в удобной форме специфицировать интересующую предметную область (в данном случае - космические технологии и МКА), наполнить ее предметно-ориентированными знаниями и получить возможность анализировать возвращаемые поисковыми системами тексты с точки зрения семантики, отделяя релевантные тексты от ошибочных, анализируя степень релевантности текста запросу, осуществлять мониторинг сайтов ■ '

С помощью методов автоматизированного пострбения онтологий на основе набора текстов, выданных поисковыми системами по популярным запросам в данной области, создана онтология малых космических аппаратов. Выделены классы МКА - мини, микро, нано, пико, фемто Для каждого из классов найден набор имен существующих спутников (в частности, для класса мини это наши спутники класса COSMOS (2337-39, 2390-1 (2002), 2384-6 (2001) и пр.) и GONETS (12-14 (2001), D1-1-3 (1996) и пр), американские SORCE (2003), RHESSI, серия GLOBALSTAR М, японский MDS-1 и т д ).

Выделены параметры малых спутников, в том числе масса, полезная нагрузка, габариты, форма, бортовая и полезная емкость, тип орбиты, источники питания, каналы связи, типы двигателей \ горючего, датчики, стабилизация, тип оборудования, тип миссии и пр,

Для каждого из параметров выделены возможные значения, например, для propulsion возможные значения - chemical rocket, bipropellant, air-breathing engine, monopropellant, resistojet, electric propulsion, ion thraster, solar sail, aerobraking, nuclear reactor и пр (более 30 значений)

Также выделены типы ракетоносителей и их названия (например, для heavy lift launch vehicles - Ariane 5, Protone Dl, Titan III-IV, Zemth Sealauncher и пр), наземных баз, организаций

Также в онтологию добавлен ряд типовых названий (имена стран, названия фирм, организаций и университетов, конференции, ученые и пр)

Всего в системе порядка 2000 концептов, из них -15 отношений, -300 объек-1 тов. С учетом всех значений атрибутов и синонимов, общее количество слов в| тезаурусе порядка 15 тысяч.

Для импортируемых документов из поисковых систем по набору запросов-критериев на основе онтологии предметной области создаются семантические' дескрипторы, отражающие смысл сайта.

Далее происходит сравнение семантических дескрипторов критериев отбора; и документов на основе онтологии предметной области (Рисунок 6). По степени соответствия выставляется рейтинг, который используется для отсечения нерелевантных документов.

$fcimpMÍ Rwwtch Creup: Ifaw tóiíroMt Internet fjg>to«t тшшшш try - Europa 4?I- j

j Bt We vvftv Fjwxt« ЪА ¡je? "Sc«« Val tic =

I Q ' ÍÉ % / V % Lá^iíil]

;........ ......J '"^•-..déysropw fcy ^

en 'TiОшCJwSatsX 'tetí^nVtm^ «táf ¿ebus%" iStm »Kifninu-: i«b« «vfcft fjfict«ft»: p«w«r ekrtronics, CMnnvjnKitk-fl .... -лялУйу, «ni » ta*гкл ¡riíiiurr.ínt. The «tetude mn»ro! «yitíiw n iif bísed an j эла.г» aiidient bocm nwgnític omIs.

T*t ICECüb» !Y!i5íen «il! la^nch tw.5 Jfiom cybml níno-JSíelEte« <¡«Si9-«etc K-Iii S:e e-4«ts ef coMxIjtoní -n Ни E«th'« :[m«pt»ír* -;r.

c»Jie ditirartijn 4-¡i sMSenng of trjns:wicíl>h£«c 'J<3o ü-jnjii. Whtn r«c«iv»d ät in tri»nnt, <k«se íijnais fi'-ítnt fíndom itn-.pnr*

'? fl«cw«ions m boih jmsIHudí ind phise. Ienoípi--«fic íondllitions mí? <*jsí probaros so-Л as «¡»-al со*ег fadin-j. phsse cyde il¡pí. rt :i¡v-r Icsí cf loci; »»г.. ttv»y V» knonm te Jí-jr^o the auíttr oí íaíjIIÍ»»

MCeived siflfiií. TTie símüm wí| ¡r.dude «\ оп-Ьэмг Gf¿

rWitr. »hivh «i-i >-e<wJ 4» nf Hís n:*«sd «ion«! frer* th„ <;i>s seaHWev. TNs irrfeirftäWi •*« be ««red in th» «tcüíi uikü t. :s trimmltted !<• 5-« v-iur.d stiScn «he« k «í be jad to сг«.««еме : thí tfftríí of Uli WOt¡:|3tK>~i en (№fl№¡№M íijfUlí.

tmnded

r¿5

Mission typö = Scene Valué

.....

\e Cub«S»( ргодмт >»«'. esWbirtKed i- i")S$i b* Swnford Univ«r$ity. alPihrT«di, jndOneStos Sítellitt ЕоЫол» ift sn etiixttobnn;

' or NASA. TW proflrsrft ¡s dtíiíní'J to mil:« rtñ (t'JOK*- s«;*jtoe <r>Kí) W U;:nch the síWlñ«. in ¿dtftjon,

nliii f.ijMtííif é: J«:uvr íHBi-

Рисунок 6 - Представление сайта в виде семантического дескриптора и онтологическое | сравнение с поисковым запросом

В процессе экспертного сравнения качества результатов на наборе тестовых выборок, проанализированных вручную, показано, что степень отбора релевант! ных документов достигает 85-90%, во всех исследованных примерах разработан ная система позволяла существенно улучшить результаты с точки зрения семан тики сайтов \ документов, интересующих пользователя, четко разделяла реле вантные и нерелевантные сайты и корректно упорядочивала релевантные сайты! по степени соответствия пользовательскому запросу

Предложенная система, в которой сочетаются разработки в области систем понимания текста на естественном языке и извлечения знаний, является уникаль: ным примером процесса интеграции знаний, ориентированным на конкретного пользователя, предоставляя механизмы для формализации и структурирований предметных областей, интеллектуального поиска, анализа и классификации сай

тов и документов В сочетании с предлагаемыми методами анализа и формирования знания, система способна решать основные проблемы, стоящие в текущий момент перед Интернет-сообществом, и может служить основой для общеинтеграционной платформы систематизации, обобщения и анализа научно-технических и производственных знаний в самых разных предметных областях

В пятом разделе рассматривается ряд прикладных задач в сфере промышленного производства и других областях, решенных с использованием предлагаемых методов и средств, а также проводится сравнение с имеющимися аналогами

Проблема автоматической обработки, преобразования и коррекции логистических сообщений стандартных форматов обмена бизнес-данными С целью интеграции информационных служб промышленных компаний-партнеров используются стандартные форматы обмена бизнес-данными (ANSI Х12, EDIFACT, XML и пр) Проблема перевода сообщений между различными форматами решается путем ручного конструирования схемы преобразования форматов с помощью некоторой программы интеграции приложений (например, BizTalk). Сложность такого решения состоит в том, что требуется серьезный предварительный экспертный анализ, помогающий выяснить семантические соответствия полей различных форматов В случае же, если формат был адаптирован под нужды фирмы, или в рамках стандартного формата происходит интерпретация полей, специфичная только для данного клиента, процесс выявления соответствий может быть очень сложен и долог На текущий день, по оценкам экспертов, построение соответствия одного раздела формата в рамках пакета стандартов занимает около недели На то, чтобы полностью интегрировать информационные службы двух компаний, уходит не менее полугода, что является очень дорогостоящим решением, к тому же не отвечающим предъявляемым рынком требованиям к динамике и скорости реакции

Основной идеей предложенного подхода является введение «промежуточного» уровня - онтологии, хранящей знания о предметной области, т н нейтрального формата Таким образом, знания, представленные в любом формате, хранятся в специальной внутренней структуре, не зависящей ни от структуры формата, ни от платформы Подобная архитектура позволяет осуществлять перевод из формата в формат естественным образом - как только построено соответствие между новым форматом и онтологией, обеспечивается возможность коммуникации между всеми уже зарегистрированными форматами

Предложенные в диссертации методы помогли автоматизировано построить начальную версию онтологии нейтрального формата, покрывающую семантику различных форматов данных В дальнейшем использование эвристических правил исправления на основе онтологии предметной области с поддержкой методов понимания текстов на естественном языке позволило подстраиваться под вариации имеющегося формата, определяя по контексту смысл неизвестного поля в процессе регистрации нового формата А алгоритмы кластеризации, объединяя типовые значения полей и давая возможные корректные варианты и их вероятность, по-

зволили осуществлять автоматизированное исправление значений в поступающих сообщениях в режиме онлайн

Задача классификации профессиональных, деловых, и научно-технических документов У крупной страховой компании возникла задача классифицировать группы семантически схожих документов (страховых договоров), для построения на их базе документа-образца (например, необходимо все договора по страхованию автомобиля автоматически разделить на группы, т к условия сильно отличаются в зависимости от клиента - возраст, пол, история вождения, доход и пр, учесть аналогичные договора конкурирующих фирм, и для каждой группы схожих страховых договоров сформировать шаблон типового договора, включающий наиболее удачные пункты документов группы)

Для решения данной задачи был предложен подход, основанный на разрабатываемых в работе методах - а именно на основе выборки документов была автоматизированным образом построена онтология предметной области Далее все документы получили семантические дескрипторы Затем с помощью алгоритма кластеризации была сформирована иерархия групп документов Для каждой группы, на основе эвристических правил, заданных в онтологии и статистики частности использования терминов и ключевых абзацев, формировался документ-шаблон

При анализе качества результатов приведем реальные цифры, выявленные при решении данной задачи для страховой компании Имелось 25 ООО различных договоров и соглашений в области страхования. В среднем один документ в формате MS Word имел объем порядка 30 страниц По предварительным оценкам фирмы заказчика, на решение задачи классификации и формирования шаблонов групп документов им должно было потребоваться порядка 16 человеко-лет С помощью разработанной программы задачу удалось решить в 30 человеко-месяцев -6 5 раз быстрее

Разработанные в диссертации методы, в том числе метод понимания текста, обеспечивающий поиск и классификацию документов, и метод кластерного анализа, использующийся для извлечения знаний и нахождения зависимостей, достаточно универсальны и применимы в различных предметных областях, причем настройка осуществляется путем изменения онтологии предметной области, не затрагивая алгоритмы Поэтому они способны решать задачи и вне сферы промышленного производства, характерными примерами чего могут служить проблема семантико-ориентированного поиска и проблема анализа действий пользователя в рамках Интернет-портала, рассмотренные ниже

Проблема семантико-ориентированного поиска в информационно-поисковой системе MEDLINE Доступная в Интернете БД MEDLINE ежегодно пополняется более чем миллионом статей, посвященных современным проблемам биологии, химии, медицины Для нахождения рефератов используется механизм поиска по ключевым словам, который, как показала практика, является поверхностным и весьма неточным, в изобилии предлагающим пользователю избыточную информацию и зачастую пропускающим необходимую Становится востребованным

другой механизм поиска, ориентированный на семантику предметной области и допускающий запросы вида «Нас интересуют результаты экспериментов класса «А», причем только такие, в которых воздействию подвергался объект «Б», имеющий свойства «В» и «Г», при этом длительность этого процесса не превышала «Д»»

Для решения проблемы был предложен новый подход, основанный на механизмах понимания текстов на естественном языке В данном подходе посредством начального анализа текстов предметной области была построена онтология молекулярной биологии, которая затем валидировалась экспертом На основе данной онтологии каждому документу, получаемому по исходному запросу к БД, ставился в соответствии семантический дескриптор, и далее система позволяла определить степень релевантности статьи запросу на основе сравнения дескрипторов с помощью онтологии

Сравнивая результаты системы со статьями, вручную проверенными и отобранными экспертами, было показано, что подобный подход позволяет добиться точности от 82 до 90% в отборе правильных рефератов (зависит от типа запроса), и порядка 5-8 % ошибки в процессе отсечения неправильных

На выполнение конкретного практического задания заказчиков-биологов по оценке вручную требовалось порядка 4 человеко-лет, с помощью разработанной системы удалось решить задачу за 8 человеко-месяцев, т е более, чем в 6 раз быстрее, тем самым высвободив ценные человеческие ресурсы и сэкономив значительные средства

Система онлайн анализа пользователей Интернет-портала по продаже «горящщ» авиационных билетов Ключевой возможностью портала фирмы-заказчика была идея учета индивидуальных предпочтений пользователя для интегрированного предложения различных сервисов, например, выбора гостиницы, кросс-продажи билетов на культурные события, бронирования ресторанов, сдача в аренду машин и пр

Для решения этой задачи использовался предложенный модуль кластерного анализа, позволивший проанализировать предпочтения пользователей, приходящих на сайт (как явные, задаваемые матрицей на сайте, так и неявные, следующие из выбора опций), выявить группы пользователей со сходными интересами, а также проанализировать качество предлагаемых услуг, сравнивая получаемые результаты на соответствие ожиданиям пользователя

Тем самым, была достигнута индивидуализация в общении с пользователями - каждому предлагались целенаправленно сервисы, интересующие его согласно предпочтениям, и повышено общее качество обслуживания

Предложенная система способна подключаться к любому Интернет-порталу со специфицированным форматом хранения данных с целью выявления правил, описывающих типы пользователей и их интересы, что позволяет повысить качество взаимодействия с клиентами за счет индивидуализации подхода

ЗАКЛЮЧЕНИЕ

В диссертации решена научная проблема разработки и развития теоретических основ и инструментальных программных средств для решения проблемы интеграции профессиональных научно-технических знаний, представленных в виде текстов на естественном языке, с целью индивидуализации процесса приобретения и анализа знаний

Сущность предложенной методики состоит в использовании единого онтологического подхода в рамках субъектно-ориентированной модели приобретения знаний для индивидуализации процесса представления и анализа знаний для эксперта предметной области, и использовании мультиагентного подхода для реализации основных блоков инструментальной среды онтологического анализа и синтеза

Основные научные и практические результаты работы состоят в следующем

1 Предложен онтологический подход к задаче интеграции профессиональных научно-технических знаний, ориентированный на субъекта исследования и реализуемый на основе использования онтологии предметной области, индивидуально подстраиваемой под субъекта и автоматизировано сконструированной с помощью имеющихся материалов и знаний эксперта о предметной области, что обеспечивает полный цикл приобретения и интеграции научно-технических знаний, необходимый для эффективного и оперативного использования информации и поддержки принятия решений в сфере промышленного проектирования и производства, а также других областях

2. Предложен метод автоматизированного построения начальной онтологии, реализующийся путем итеративного анализа строящейся онтологии с помощью предложенного мультиагентного метода понимания научно-технических текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов, позволяющий оперативно получать начальное формализованное знание о предметной области

3 Предложен метод преобразования неструктурированной информации на естественном языке в семантическую сеть в терминах онтологии предметной области, заключающийся в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения, и использовании построенных онтологии для хранения межфразового контекста

4 Предложен метод кластерного анализа, реализованный на основе агентного взаимодействия, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пошаговом, так и в пакетном режимах, а также дает возможность работы с неструктурированными квантами информации

5 Предложен метод машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров, что дает возможность

уточнять знания о предметной области, улучшая качество представления, поиска и анализа документов

6 Разработана и реализована инструментальная среда онтологического анализа и синтеза, где инструментарий инженерии знаний включает в себя конструктор онтологий, автоматизированную систему построения онтологий, систему понимания текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, в том числе отладочную систему, интерфейсы работы с базами данных и внешними приложениями

7 Выработаны критерии оценки и проведены экспериментальные исследования реализационных характеристик разработанных методов и средств, получено порядка 50 оценок и рекомендаций по применению предлагаемых алгоритмов Исследования подтвердили эффективность предлагаемых методов, в частности было показано, что начальное автоматизированное построение онтологии позволяет сконструировать от 60 до 85% онтологии, представление текста в виде семантического дескриптора остается корректным примерно в 85-90% случаев, кластерное извлечение знаний формулирует до 22-27% значимых правил, при этом порядка 10-12% являются неизвестными для экспертов предметных областей, а пополнение онтологий позволяет дополнительно расширить начальную онтологию до 32% от первоначального объема

8 На основе разработанных методов и средств создан ряд прикладных промышленных систем для применения в задачах мониторинга информации в области малых космических аппаратов, логистики, поисковых и метапоисковых системах, системах классификации профессионального и научно-технического документооборота, семантическом анализе действий пользователя в режиме онлайн, электронной коммерции и других Полученный опыт свидетельствует, что разработанные методы и средства позволяют эффективно решать задачи анализа и извлечения знаний из естественно-языковых текстов, а использование созданного инструментария повышает производительность труда, сокращает стоимость и сроки разработки, а также упрощает процессы интеграции и сопровождения рассматриваемых промышленных систем

Основные результаты диссертации отражены в следующих работах:

Статьи, опубликованные в реферируемых журналах из Перечня ВАК

1 Минаков И А Онлайн-анализ пользователей Интернет-портала продажи «горящих» авиабилетов // Информационные технологии, 2006 № 1 С 62-68

2 Андреев В , Виттих В., Батищев С , Ивкушкин К, Минаков И, Ржевский Г, Сафронов А., Скобелев П Методы и средства создания открытых мультиа-гентных систем для поддержки процессов принятия решений // Изв РАН Теория и системы управления, 2003 № 1 С 126-137

3 Минаков И А Система интеллектуального метапоиска в сети Интернет для оперативного нахождения и мониторинга релевантной информации в области малых космических аппаратов // Вестник Самарского гос техн ун-та Серия «Технические науки», 2007 №1(19) С 28-35

4 Минаков И А Интеграция профессиональных знаний, представленных в виде текстов на естественном языке // Вестник Самарского гос техн ун-та Серия «Технические науки» Самара СамГТУ, 2006 Вып 41 С 18-25

5 Минаков И А Кластеризация неструктурированной информации, представленной в виде текстов на естественном языке // Вестник Самарского гос техн ун-та Серия «Технические науки» Самара СамГТУ, 2006 Вып 40 С 15-22

6 Минаков И А Анализ эффективности и выработка рекомендаций для повышения качества алгоритмов кластеризации и текстопонимания в онтологической модели приобретения знаний//Вестник Самарского гос техн ун-та Серия «Технические науки» Самара СамГТУ, 2005 Вып 39 С 10-17

7 Минаков И А Архитектура инструментальной среды, ориентированной на решение задач извлечения знаний и понимания текста на естественном языке //Вестник Самар гос техн ун-та Серия «Технические науки», Самара СамГТУ, 2005 Вып 32 С 12-19

8 Минаков И А Автоматизированное пополнение онтологии на основе знаний, извлеченных в процессе кластеризации // Вестник Самар гос техн ун-та Серия «Технические науки» Самара СамГТУ, 2005 Вып 33 С 321-326

9 Минаков И А Разработка автоматизированной системы построения онтологии предметной области на основе анализа текстов на естественном языке // Вестник Самар гос техн ун-та. Серия «Технические науки» Самара СамГТУ, 2004 Вып 20 С 44-48

10 Батищев С В , Лахин О И, Минаков И А, Ржевский Г А , Скобелев П О Разработка мультиагентной системы дистанционного обучения для Интернет-портала «Оптик-сити» //Изв СШДРАН -2003 -Т 5, №1 -С 91-95

11 Батищев С, Ивкушкин К, Минаков И, Ржевский Г, Скобелев П Открытые мультиагентные системы для поддержки процессов принятия решений при управлении предприятиями//Изв СНЦ РАН, Январь - Июнь 2001 Самара СНЦ РАН, 2001 С.71-79

12 Батищев С В , Лахин О И, Минаков И А, Ржевский Г А, Скобелев П О Разработка инструментальной системы для создания мультиагентных приложений в сети Интернет // Изв СНЦ РАН Самара СНЦ РАН, 2001 Т 3, №1 С 131-135

13 Минаков И А Сравнительный анализ некоторых методов случайного поиск; и оптимизации//Изв СНЦ РАН Самара СНЦ РАН, №2 1999 С 286-293

Статьи, опубликованные в материалах конференций и других журналах

14 Виттих В А , Минаков И А Интеграция профессиональных знаний основньи положения подхода // Проблемы управления и моделирования в сложных

системах Тр IX Междунар конф , Самара, 22 июня - 29 июня 2007 Самара СНЦ РАН, 2007. С 191-197

15 Минаков И А Интеграция профессиональных знаний методы и средства // Проблемы управления и моделирования в сложных системах Тр IX Междунар конф, Самара, 22 июня - 29 июня 2007 Самара СНЦ РАН, 2007 С 498510

16 Igor Minakov, George Rzevski, Petr Skobelev, Simon Volman "Automatic Extraction of Business Rules to Improve Quality in Planning and Consolidation in Transport Logistics Basing on Multi-Agent Clustering" Proceedings of the 2nd International Workshop - Autonomous Intelligent Systems Agents and Data Mining (AIS-ADM-07), St Petersburg, Russia, June 3-5,2007, LNAI4476, pp 124-137

17 Marat Kanteev, Igor Minakov, George Rzevski, Petr Skobelev, Simon Volman "Multi-Agent Meta-Search Engine Based on Domain Ontology" Proceedings of the 2nd International Workshop - Autonomous Intelligent Systems Agents and Data Mining (AIS-ADM-07), St Petersburg, Russia, June 3-5, 2007, LNAI 4476, pp 269-274

18 Igor Minakov, George Rzevski, Petr Skobelev, and Semen Volman "Dynamic Pattern Discovery using Multi-Agent Technology" Proceedings of the 6th WSEAS International Conference on Telecommunications and Informatics (TELE-INFO '07), Dallas, Texas, USA, March 22-24,2007,75-81

19 Минаков И А Скобелев П.О Томин M С. Мультиагентная система интеллектуальной обработки факсов, используемых для обмена бизнес-данными // Проблемы управления и моделирования в сложных системах Тр VIII Междунар конф., Самара, 24 июня - 28 июня 2006 Самара- СНЦ РАН, 2006 С 510-515.

20 Вольман С.И, Минаков И А Применение методов извлечения знаний в задачах транспортной логистики // Проблемы управления и моделирования в сложных системах Тр VIII Междунар конф, Самара, 24 июня - 28 июня 2006 - Самара СНЦ РАН, 2006 С.516-521

21 Minakov Igor, Rzevski George, Skobelev Petr, Volman Semen Automatic Generation of Busmess Rules for Logistics Company using Multi-agent clustering // 1st International Conference on Busmess Information, Organisation and Process Management (BIOPoM 2006), Westminster Busmess School, University of Westminster London, June, 2006 http //www wmin ac uk/wbs/pdfTBIOPoM_2006_FinaI_-Programme2 pdf

22 Minakov I, Tomin M, Volman S Development of Multiagent Internet Meta-Search Engine // Международная конференция «ИТ в бизнесе» (ШВ), Санкт-Петербург, 14-17 июня 2005 г http //itib finec ru/ru/05/

23 Вольман С И , Минаков И А , Томин М С Мультиагентная система интеллектуального анализа содержимого Интернет-страниц // Проблемы управления и моделирования в сложных системах Тр VII Междунар конф, Самара, 27 июня-1 июля2005 -Самара СНЦ РАН, 2005 С 403-408

24 Вольман С И , Карягин Д В , Минаков И А , Скобелев П О Разработка системы нахождения бизнес-правил с использованием кластеризации на примере данных логистической компании // Проблемы управления и моделирования в сложных системах Тр VII Междунар конф Самара, 27 июня - 1 июля 2005 -Самара СНЦРАН, 2005 С 409-413

25 Вольман С И, Минаков И А , Томин М С Увеличение эффективности поиска информации в Интернете с использованием формальных семантических дескрипторов текста // Интеллектуальные системы принятия решений и прикладные аспекты информационных технологий (ISDMIT'2005) Тр Междунар научной конф., Херсон, 18-21 мая 2005 - Херсон Изд-во Херсонского морского ин-та, 2005 Т 4 С 102-105

26 Алексеев А , Вольман С, Минаков И, Орлов А, Томин М Создание муль-тиагентной системы автоматической обработки, преобразования и коррекции логистических сообщений стандартных форматов обмена бизнес-данными // Проблемы управления и моделирования в сложных системах Тр VI Междунар конф Самара, 14-17 июня 2004 -Самара СНЦ РАН, 2004 С 270-276

27 Андреев В , Лахин О, Минаков И, Сальков А , Скобелев П Развитие элементов самоорганизации и эволюции в мультиагентном портале социокультурных ресурсов Самарской области // Проблемы управления и моделирования в сложных системах Тр Vr Междунар конф Самара, 14-17 июня 2004 - Самара СНЦ РАН, 2004 С 277-281

28 Андреев В , Ивкушкин К, Минаков И, Ржевский Г, Сафонов А , Скобелев П Основные компоненты внутреннего устройства мультиагентной системы // Проблемы управления и моделирования в сложных системах Тр V Междунар конф Самара, 17-21 июня 2003 - Самара СНЦ РАН, 2003 С 304316

29. Андреев В, Вольман С, Ивкушкин К , Карягин Д, Минаков И, Пименов А , Скобелев П., Томин М Разработка мультиагентной системы интеллектуальной обработки и классификации документов // Проблемы управления и моделирования в сложных системах Тр V Междунар конф Самара, 17-21 июня 2003 -Самара СНЦ РАН, 2003 С 317-323

30 Andrejev V., Baüshchev S , Ivkushkm К, Minakov I, Rzevski G, Safronov A , Skobelev P MagentA Multi-Agent Engines for Decision Making Support // International Conference on Advanced Infrastructure for Electronic Business, Science, Education and Medicine on the Internet (ISBN 88-85280-63-3), 29 July - 4 August 2002, L'AquiIa, Italy, pp 64-76

31 Андреев В , Батищев С , Ивкушкин К, Минаков И, Ржевский Г, Сафронов А, Скобелев П, Шамашов М Принципы построения открытых мультиагент-ных систем для поддержки процессов принятия решений И Проблемы управления и моделирования в сложных системах Тр IV Междунар конф Самара, 17-24 июня 2002 С 127 -140

32 Андреев В , Гельфанд М, Ивкушкин К, Казаков А, Новичков П, Томин М, Вольман С, Минаков И, Скобелев П Разработка мультиагентной системы

интеллектуального поиска информации в области современных биотехнологий // Проблемы управления и моделирования в сложных системах Тр IV Между нар конф Самара, 17-24 июня 2002 - Самара СНЦ РАН, 2002 С 338 -345

33 Batishev S V , Ivkushkin С V , Mmakov IA, Rzevski G A, Skobelev P О MagentA Multi-Agent Systems Engines, Ontologies and Applications // Proc of the 3rd Intern Workshop on Computer Science and Information Technologies CSIT'2001, Ufa, Russia, 21-26 September, 2001 - Ufa State Aviation Technical University - Institute JurlnfoR-MSU, Vol 1 Regular Papers, 2001, pp 73-80

34 Ивкушкин К В , Минаков Г А, Ржевский Г А, Скобелев П О, Шамашов M А Транспортная логистика на основе мультиагентных систем // В кн Системная логистика и центр консолидации грузопотоков на международных трассах Тр 1-ой Междунар научн -практ конф Вып 1 - Самара, 2001 С 120129

35 Андреев В В , Волхонцев Д В , Ивкушкин К В , Карягин Д В, Минаков И А , Ржевский Г А, Скобелев П О Мультиагентная система извлечения знаний // Проблемы управления и моделирования в сложных системах Тр. III Междунар конф Самара, 4-9 сентября 2001 - Самара СНЦ РАН, 2001 С. 206 -212

36 Андреев В В , Ивкушкин К В , Карягин Д В , Минаков И А , Ржевский Г А, Скобелев П О, Томин M С Разработка мультиагентной системы понимания текста // Проблемы управления и моделирования в сложных системах- Тр Ш Междунар конф Самара, 4-9 сентября 2001 - Самара СНЦ РАН, 2001 С 489 - 495

37 Ivkushkin К, Mmakov I, Rzevski G, Skobelev P MA DAE MagentA MultiAgent Desktop Application Engine // Proceedmgs of the 3rd International Workshop on Computer Science and Information Technologies CSIT'2001, Ufa, Russia, 21-26 September, 2001 - Ufa State Aviation Technical University - Institute Jur-InfoR-MSU, Vol 1 Regular Papers, 2001, pp 81-89

38 Batishev S V, Ivkushkin C.V, Mmakov IA, Rzevski G A, Skobelev P О A Multi-Agent Simulation of Car Manufacturing and Distribution Logistics // Proc of the II International Conference "Complex Systems Control and Modelling Problems", Samara, Russia, June 20-23, 2000, pp 100-104

39 Ивкушкин К В , Минаков И А, Ржевский Г А, Скобелев П О Мультиагентная система для решения задач логистики // Тр 7-й Национальной конф по искусственному интеллекту с международным участием ИИ-2000, 24-27 октября 2000, Переславль-Залесский, Россия - M Физматлит, 2000, т 2, с 789798

40 Кораблин MA, Минаков И А Эволюционные алгоритмы в имитационном моделировании //Проблемы управления и моделирования в сложных системах Тр междунар конф Самара СНЦ РАН, 1999 С 45-50

41 Андреев В В , Ивкушкин К В , Карягин Д В , Минаков И А , Ржевский Г А , Пшеничников В В , Симонова Е В , Скобелев П О Основы построения муль-тиагентных систем Ч I Уч пособие // Самара ПГАТИ, 2005 114 с

Свидетельства о регистрации программ

42 Свидетельство о регистрации программы № 2004610968 от 20 апреля 2004 г I Инструментальная система конструирования мультиагентных систем для де-сктопных приложений //В В Андреев, К В Ивкушкин, И А Минаков, Г А Ржевский, А В Сафронов, П О Скобелев

43 Свидетельство о регистрации программы № 2004610970 от 20 апреля 2004 г Мультиагентная система понимания текстов на естественном языке //В В Андреев, И А Минаков, Г А Ржевский, П О Скобелев, М С Томин

44 Свидетельство о регистрации программы № 2004610966 от 20 апреля 2004 г Мультиагентная система извлечения знаний методом кластеризации //СИ Вольман, Д В Карягин, И А Минаков, Г А Ржевский П О Скобелев

Автореферат отпечатан с разрешения диссертационного совета Д212 217 03 (протокол № 10 от « 2 » июля 2007 г )

Заказ № 613 Тираж 100 экз

Отпечатано в типографии ГОУ ВПО «Самарский государственный технический университет»

443100, г Самара, ул Молодогвардейская, 244 Корпус №8

Оглавление автор диссертации — доктора технических наук Минаков, Игорь Александрович

ВВЕДЕНИЕ .•.

1. ОНТОЛОГИЧЕСКИЙ ПОДХОД В ПРОЦЕССАХ ОБРАБОТКИ ИНФОРМАЦИИ В СФЕРЕ ПРОМЫШЛЕННОГО ПРОЕКТИРОВАНИЯ И ПРОИЗВОДСТВА, НАПРАВЛЕННЫЙ НА ИНТЕГРАЦИЮ НАУЧНО-ТЕХНИЧЕСКИХ ЗНАНИЙ.

1.1. Проблема использования разнородных знаний в сфере промышленного проектирования и производства.

1.2. Задача интеграции знаний. Специфика профессиональных и научнотехнических знаний.

1.3. Субъектно-ориентированная модель приобретения знаний как метод интеграции разнородных научно-технических знаний

1.4. Два вида научно-технической информации - знание, основанное на объяснении, и знание, основанное на понимании.

1.5. Обобщенная логическая модель приобретения научно-технических знаний. Цикл приобретения и интеграции знаний, основанный на концептуальной модели эксперта.

1.6. Модель онтологии для представления знаний, основанных на понимании.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Минаков, Игорь Александрович

В процессе решения подобных задач эксперт - лицо, принимающее решение, осуществляет интеграцию знаний, в рамках которой анализируются и систематизируются разнородные информационные материалы, произведенные другими исследователями, с целью получения знаний об изучаемом объекте, для чего обрабатываются различные электронные ресурсы: проектно-конструкторская документация, статьи научно-технических библиотек, промышленные и бизнес новости, страницы профессионально-ориентированных Интернет-порталов, онлайн-конференции, форумы, блоги.

К сожалению, существующие инструментальные средства обладают рядом ограничений, которые существенно уменьшают область и эффективность их практического применения. Это связано с тем, что имеющиеся поисковые системы и системы документооборота, при наличии множества методов для работы с текстом документов (анализ ключевых слов, морфология, грамматика, шаблоны, таксономия и пр.), практически не способны работать со смыслом текста, не анализируют знания, представленные в текстовой форме, что и является главной неразрешенной проблемой анализа.

В то же время в практических задачах все чаще экспертов не устраивает единый стандартизованный механизм поиска и анализа, доступный на сегодняшний день для обработки электронных документов. Возникает необходимость индивидуализировать процесс анализа, сделав его субъектно-ориентированным, принимая во внимание знания и цели самого эксперта.

В области теории и практики работы со знаниями с помощью вычислительной техники накоплен значительный положительный опыт. Вопросы построения содержательных онтологий для моделирования реальности отражены в трудах отечественных ученых Т.А. Гавриловой, В.В. Девяткова, Г.Б. Евгенева, Г.С. Поспелова, Д.А. Поспелова, В.Ш. Рубаш-кина, В.А. Виггиха, A.B. Смирнова, C.B. Смирнова, В.Ф. Хорошевского, Г.П. Щедровиц-кого, а также многих зарубежных специалистов: T.R. Gruber, N. Guarino, J.F. Sowa, M. Uschold, B.J. Wielinga и др.

К работам, характеризующим предысторию развития, современное состояние и тенденции в области обработки естественно-языковых текстов можно отнести фундаментальные исследования Т. Винограда, Н. Хомского, Р. Шенка, В. Гумбгольдта, Ч. Филлмо-ра и др.

Среди российских работ можно выделить труды Ю.Д. Апресяна, Б.Ю. Городецкого, Ю.А. Загорулько, H.H. Леонтьевой, Н.В. Лукашевич, М.Г. Мальковского, И.А. Мельчука, A.C. Нариньяни, Г.С. Осипова, Э.В. Попова, В.А. Тузова, С.Д. Шелова и др.

В области кластеризации данных - труды И.З. Батыршина, Ж. Бола, В.Н. Вагина, Б. Дюрана, В.И. Городецкого, Н.Г. Загоруйко, Дж. Вэн Райзина, R. Agrawal, A. Maedche и др.

Необходимо также отметить, что данная диссертационная работа базируется на работах В.А. Виттиха, сформулировавшего принципы онтологического анализа и синтеза, применяемые в процессе познания, и П.О. Скобелева, выработавшего принципы создания открытых мультиагентных систем для поддержки процессов принятия решения в сложных системах.

Но, несмотря на актуальность методов по работе со знаниями и обработке текстов на естественном языке, нужно отметить, что известные публикации в большинстве своем носят либо концептуальный характер и не предлагают конструктивных подходов, либо относятся к частным методам (например, построение тезаурусов, работа с шаблонами, кластеризация числовых полей и др.).

В то же время с точки зрения инструментальных средств ситуация значительно хуже. Не только не существует единой инструментальной среды, обеспечивающей все шаги процесса интеграции и приобретения знаний, но и имеющиеся системы, ориентированные на решение подзадач, обладают целым рядом ограничений, существенно уменьшающих эффективность их практического использования.

Рассматривались такие алгоритмы и системы, как ASUIM, Chameleon, ConExt, DOE, KEA, LTG, OntoLearn, Promethee, SIMER+MIR, SOAT, SubWordNet, SVETLAN, TFIDF,

TERMINAE, Welkin для задач автоматизированного построения/поддержки онтологий, HPSG, SFG, LFG, SAM, ПОЭТ, ИВОС, InterBase, KRITON, ТАКТ, DocMiner, Enkata, In-tellexer, Inxight, Ontos, Text Analyst, SAS Text Miner, Clearforest, dtSearch, TEMIS, Vantage-Point - для анализа текстов на естественном языке, LSA/LSI, STC, Bayesian classifiers, Single Link, Complete Link, Group Average, Scatter/Gather, K-means, CI, Concept vector-based clustering, SOM, Clusty, Quintura, Nigma, Vivísimo Search Platform, iBoogie, CarrotSearch -для кластеризации документов.

К сожалению, для каждой группы программных систем можно выделить ряд принципиальных недостатков, включая необходимость существенной ручной предобработки данных человеком-экспертом; невозможность анализа всего набора текстов с точки зрения семантики предметной области; зависимость качества результатов от языка документов; отсутствие открытой модели предметной области, позволяющей в полной мере использовать знания эксперта и пополнять ее в процессе работы; ограниченность работы с семантическими сетями; непрозрачность и неинтерактивность алгоритмов; критичность к наличию «мусорной информации»; зависимость качества результатов от изначальной предпосылки - догадки о «правильной структуре»; нетерпимость к наличию неполной или противоречивой информации.

Предмет исследования составляют процессы обработки информации, направленные на интеграцию научно-технических знаний.

Для достижения поставленной цели в работе решаются следующие задачи: 1. Построить обобщенную логическую модель приобретения научно-технических знаний, позволяющую формализовать и применять знания эксперта с учетом промышленной и производственной специфики; разработать принципы онтологического подхода, позволяющего реализовать все этапы процесса приобретения и интеграции знаний в рамках единой методологии и концептуальной модели (онтологии).

2. Разработать метод автоматизированного конструирования начальной онтологии предметной области.

3. Разработать метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области с целью представления семантики документа.

4. Разработать методы получения, анализа и обработки научно-технической информации, представленной в виде семантической сети, в том числе механизмы сравнения, поиска, структурирования и классификации с помощью кластерного анализа.

5. Разработать метод самокоррекции и саморегуляции системы путем автоматизированного уточнения и пополнения знаний, представленных в терминах онтологии.

6. Разработать архитектуру системы и программно-инструментальную среду для работы со знанием, реализующую предложенные методы.

7. Выработать критерии оценки и провести исследование параметров и качественных характеристик разработанных методов и средств работы со знаниями, выработать рекомендаций по их применению.

8. Оценить эффективность предложенных методов и средств при решении ряда практических задач в сфере промышленного проектирования и производства и других применениях.

• Новизна предложенного онтологического подхода к решению задачи интеграции профессиональных научно-технических знаний состоит в использовании единой методологии, основанной на концептуальной модели эксперта, для реализации всех шагов цикла приобретения и интеграции знаний, что обеспечивает индивидуализацию процесса и учет целей эксперта.

• Новизна предложенного метода автоматизированного построения онтологии предметной области заключается в итеративном анализе строящейся онтологии с помощью предложенного мультиагентного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов, что обеспечивает механизмы самокоррекции и саморегуляции в процессе построения начальной онтологии предметной области.

• Новизна предложенного метода преобразования неструктурированной информации на естественном языке в семантическую сеть в терминах онтологии предметной области заключается в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения и всего документа, что дает возможность представлять смысл научно-технического текста в виде семантических сетей, обеспечивает механизмы уточнения семантики в режиме реального времени по мере поступления новой информации и предоставляет механизмы сравнения семантики связных профессиональных текстов.

• Новизна предложенного метода кластерного анализа состоит в реализации его на основе агентных механизмов переговоров, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пакетном режиме, так и в режиме реального времени, а также дает возможность работы с неструктурированными квантами информации, представленными в виде семантических сетей.

• Новизна метода автоматизированного пополнения онтологии состоит в использовании мультиагентного кластерного анализа групп семантически схожих документов для выявления закономерностей, позволяющих уточнять онтологию предметной области, улучшая качество представления, поиска и анализа документов.

• Новым является предложенная архитектура инструментальной среды онтологического анализа и синтеза, основанная на субъектно-ориентированной модели приобретения знания с применением агентных взаимодействий, и заключающаяся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, что обеспечивает полный цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации.

Практическая значимость. Научные результаты работы явились основой создания инструментальной среды онтологического анализа и синтеза, включающей подсистемы формирования, накопления, использования, анализа и пополнения разнородных знаний, необходимые для решения прикладных задач в сфере промышленного производства; предложены адекватные этим целям инструментальные программные средства.

Созданные программные инструментальные средства для реализации методов автоматизированного конструирования онтологий, обработки и представления информации, анализа результатов и пополнения знаний применяются в задачах мониторинга проектноконструкторской информации в Интернет, логистики, поисковых и метапоисковых системах, системах классификации документооборота, онлайн-анализа и других применениях, поскольку использование созданного инструментария повышает скорость анализа и обработки информации, сокращает стоимость и сроки работ, увеличивает производительность и функциональность используемых систем.

Реализация работы. Результаты диссертационной работы нашли применение при выполнении научно-исследовательских работ:

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2004-2006 гг. (раздел VI, тема «Онтологический анализ и синтез в процессах принятия решений», гос. per. №0120.0403300);

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2000-2003 гг. (раздел III «Управление и автоматизация», тема «Разработка основ теории управления сложными открытыми системами с применением компьютерного представления и обработки знаний», гос. per. №0120.0110152);

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 1996-2000 гг. (п. 3.1.2 «Разработка моделей управляемых процессов, методов прогнозирования экономической эффективности и социальных последствий», тема «Разработка методов и средств построения теорий артефактов для компьютерной интеграции знаний и автоматической генерации моделей объектов управления», гос. per. № 01.9.60002398).

- с ФГУП ГНПРКЦ «ЦСКБ-ПРОГРЕСС» по созданию системы интеллектуального ме-тапоиска в сети Интернет для оперативного нахождения и мониторинга релевантной информации в области малых космических аппаратов (2007 г.);

- с ООО «Научно-производственная компания «Маджента Девелопмент», г. Самара (1999-2007 гг.), при разработке систем извлечения знаний и понимания текстов на естественном языке;

Апробация. Основные положения и результаты работы докладывались и обсуждались на международных и национальных конференциях и семинарах, в том числе: I-IX Международных конференциях по проблемам управления и моделирования сложных систем (Самара, 1999 - 2007), 2-м Международном семинаре «Автономные интеллектуальные системы: извлечение знаний из данных и интеллектуальные агенты» (AIS-ADM 07, Санкт-Петербург), 6-й Международной конференции по телекоммуникациям и информатике (WSEAS TELEINFO '07 Даллас, США), 5-й Международной объединенной конференции по автономным агентам и мультиагентным системам (AAMAS-06, Хакодате, Япония), 1-й Международной конференции «Бизнес: информация, организация и менеджмент» (ВЮРоМ 2006, Лондон, Великобритания), Международной научной конференции «Интеллектуальные системы принятия решений и прикладные аспекты информационных технологий» (ISDMIT'2005, Херсон), Международной конференции «ИТ в бизнесе» (ITIB2005, Санкт-Петербург), Международной конференции по развитию инфраструктуры электронного бизнеса, науки, образования и медицины в Интернет (Аквила, Италия, 2002), 3-м Международном семинаре по новым информационным технологиям (CSIT'2001, Уфа), VII Национальной конференции по искусственному интеллекту (Пере-славль-Залесский, 2000).

Публикации. По теме диссертации опубликовано самостоятельно и в соавторстве свыше 50 работ, в том числе в перечне, рекомендованном ВАК - 13; а также 3 авторских свидетельства об официальной регистрации программ для ЭВМ. Опубликованные материалы отражают основное содержание диссертации.

Структура и объем работы. Диссертация состоит из введения, пяти разделов, заключения, приложений и списка использованных источников, содержащего 256 наименований. Основная часть работы содержит 332 страницы, включая 111 рисунков и 13 таблиц.

Заключение диссертация на тему "Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний"

Основные результаты и выводы к разделу 5

1. На основе разработанных методов и средств создан ряд прикладных промышленных систем для применения в задачах логистики, поисковых и метапоисковых системах, системах классификации документооборота, онлайн анализе покупателей сайта, электронной коммерции и других. Полученный опыт свидетельствует, что разработанные методы и средства позволяют эффективно решать задачи анализа и извлечения знаний из естественно-языковых текстов, а использование созданного инструментария повышает производительность труда, сокращает стоимость и сроки разработки, а также упрощает процессы интеграции и сопровождения рассматриваемых систем.

2. В задаче интеграции информационных служб промышленных бизнес-компаний показано, что предложенный подход позволяет автоматизировать процесс регистрации новых форматов обмена данными и ускорить процесс интеграции форматов за счет использования единого формата представления знаний, что дает возможность автоматически строить схемы перевода из вновь зарегистрированного формата в любой из уже зарегистрированных в системе, метод автоматизированного построения онтологии и понимания текстов позволяет ускорить процесс распознавания новых форматов, а методы кластеризации и пополнения онтологии могут использоваться для решения задачи очистки данных в режиме реального времени.

3. При решении задачи интеллектуального поиска информации в области современных биотехнологий показано, что при сравнении результатов системы со статьями, вручную проверенными и отобранными экспертами, предложенный подход позволяет добиться точности от 82 до 90% в отборе правильных рефератов (зависит от типа запроса), и порядка 5-8 % ошибки в процессе отсечения неправильных. На выполнение конкретного практического задания заказчиков-биологов по оценке

310 вручную требовалось порядка 4 человеко-лет, с помощью разработанной системы удалось решить задачу за 8 человеко-месяцев, т.е. более, чем в 6 раз быстрее, тем самым высвободив ценные человеческие ресурсы и сэкономив значительные средства.

4. В задаче классификации профессиональных, деловых, и научно-технических документов по предварительным оценкам страховой фирмы-заказчика, на решение задачи классификации и формирования шаблонов групп документов должно было потребоваться порядка 16 человеко-лет. С помощью разработанной системы задачу удалось решить в 30 человеко-месяцев - 6.5 раз быстрее (при пересчете на сэкономленные средства эта цифра преобразуется в существенную экономическую прибыль).

ЗАКЛЮЧЕНИЕ

В диссертации решена научная проблема разработки и развития теоретических основ и инструментальных программных средств для решения проблемы интеграции профессиональных знаний, представленных в виде текстов на естественном языке, с целью индивидуализации процесса приобретения и анализа знаний.

Сущность предложенного подхода состоит в использовании единого онтологического подхода в рамках субъектно-ориентированной модели приобретения знаний для индивидуализации процесса представления и анализа знаний для эксперта предметной области, и использовании мультиагентного подхода для реализации основных блоков инструментальной среды онтологического анализа и синтеза.

Основные научные и практические результаты работы состоят в следующем:

1. Предложен подход к задаче интеграции профессиональных знаний, ориентированный на субъекта исследования и реализуемый на основе использования онтологии предметной области, индивидуально подстраиваемой под субъекта, и автоматизировано сконструированной с помощью имеющихся материалов и знаний эксперта о предметной области, предоставляющий универсальный механизм для работы со знаниями.

2. Предложен принцип построения инструментальной среды онтологического анализа и синтеза, базирующийся на агентных взаимодействиях и заключающийся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, что обеспечивает полный цикл при обретения знаний, необходимый для эффективного и оперативного использования информации.

3. Предложен метод автоматизированного построения начальной онтологии, реализующийся путем итеративного анализа строящейся онтологии с помощью предложенных методов понимания текстов на естественном языке с применением базовой / онтологии и набора предметно-ориентированных текстов, позволяющий оперативно получать начальное формализованное знание о предметной области.

4. Предложен метод представления неструктурированной информации на естественном языке, заключающийся в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения, и использовании построенных онтологии для хранения межфразового контекста в виде семантических дескрипторов.

5. Предложен метод кластерного анализа, реализованный на основе агентного взаимодействия, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пошаговом, так и в пакетном режимах, а также дает возможность работы с неструктурированными квантами информации.

6. Предложен метод машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров, что дает возможность уточнять знания о предметной области, улучшая качество представления, поиска и анализа документов.

7. Разработана и реализована инструментальная среда онтологического анализа и синтеза, где инструментарий инженерии знаний включает в себя конструктор он-тологий, автоматизированную систему построения онтологий, систему понимания текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, включая отладочную систему, интерфейсы работы с базами данных и внешними приложениями.

8. Проведены экспериментальные исследования реализационных характеристик разработанных методов и средств, выработано порядка 50 рекомендаций по применению предлагаемых алгоритмов. Исследования подтвердили эффективность предлагаемых методов, в частности было показано, что начальное автоматизированное построение онтологии позволяет сконструировать от 60 до 85% онтологии, представление текста в виде семантического дескриптора остается корректным примерно в 85-90% случаев, кластерное извлечение знаний формулирует до 22-27% значимых правил, при этом порядка 10-12% являются неизвестными для экспертов предметных областей, а пополнение онтологий позволяет дополнительно расширить начальную онтологию до 32% от первоначального объема.

9. На основе разработанных методов и средств создан ряд прикладных промышленных систем для применения в задачах мониторинга информации в области малых космических аппаратов, логистики, поисковых и мета-поисковых системах, системах классификации документооборота, семантическом анализе действий пользователя в режиме онлайн, электронной коммерции и других. Полученный опыт свидетельствует, что разработанные методы и средства позволяют эффективно решать задачи анализа и извлечения знаний из естественно-языковых текстов, а использование созданного инструментария повышает производительность труда, сокращает стоимость и сроки разработки, а также упрощает процессы интеграции и сопровождения рассматриваемых систем.

Библиография Минаков, Игорь Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. П.Андреев В.В., Ивкушкин К.В., Карягин Д.В., Минаков И.А., Ржевский Г.А., Пшеничников В.В., Симонова Е.В., Скобелев П.О. Основы построения мультиагентных систем. Ч. I. Уч. пособие // Самара: ПГАТИ, 2005. - 114 с.

2. Батищев С., Ивкушкин К., Минаков И., Ржевский Г., Скобелев П. Открытые мультиагентные системы для поддержки процессов принятия решений при управлении предприятиями // Изв. СНЦ РАН, январь июнь 2001. - Самара: СНЦ РАН, 2001. -С.71-79.

3. Батищев C.B., Лахин О.И., Минаков И.А., Ржевский Г.А., Скобелев П.О. Разработка мультиагентной системы дистанционного обучения для Интернет-портала «Оптик-сити» // Изв. СНЦ РАН. Самара: СНЦ РАН, 2003. Т.5, №1. - С.91-95.

4. Батищев C.B., Лахин О.И., Минаков И.А., Ржевский Г.А., Скобелев П.О. Разработка инструментальной системы для создания мультиагентных приложений в сети Интернет // Изв. СНЦ РАН. Самара: СНЦ РАН, 2001. Т.З. №1. - С. 131-135.

5. Виттих В.А., Минаков И.А. Интеграция профессиональных знаний: основные положения подхода // Проблемы управления и моделирования в сложных системах:

6. Тр. IX Междунар. конф., Самара, 22 июня 29 июня 2007. - Самара: СНЦ РАН, 2007. - С.191-197.

7. Вольман С.И., Минаков И.А. Применение методов извлечения знаний в задачах транспортной логистики // Проблемы управления и моделирования в сложных системах: Тр. VIII Междунар. конф., Самара, 24 июня 28 июня 2006. - Самара: СНЦ РАН, 2006. -С.516-521.

8. Кораблин М.А., Минаков И.А. Эволюционные алгоритмы в имитационном моделировании // Проблемы управления и моделирования в сложных системах: Тр. междунар. конф. Самара: СНЦ РАН, 1999. - С. 45-50.

9. Минаков И.А. Автоматизированное пополнение онтологии на основе знаний, извлеченных в процессе кластеризации // Вестник Самар. гос. техн. ун-та. Серия «Технические науки». Самара: СамГТУ, 2005. Вып. 33. - С. 321-326.

10. Минаков И.А. Архитектура инструментальной среды, ориентированной на решение задач извлечения знаний и понимания текста на естественном языке // Вестник Самар. гос. техн. ун-та. Серия «Технические науки», Самара: СамГТУ, 2005. Вып. 32. -С.12-19.

11. Минаков И.А. Разработка автоматизированной системы построения онтологии предметной области на основе анализа текстов на естественном языке // Вестник Самар. гос. техн. ун-та. Серия «Технические науки». Самара: СамГТУ, 2004. Вып. 20. - С. 44-48.

12. Минаков И.А. Интеграция профессиональных знаний, представленных в виде текстов на естественном языке // Вестник Самарского гос. техн. ун-та. Серия «Технические науки». Самара: СамГТУ, 2006. Вып. 41. - С. 18-25.

13. Минаков И.А. Интеграция профессиональных знаний: методы и средства // Проблемы управления и моделирования в сложных системах: Тр. IX Междунар. конф. Самара, 22 июня 29 июня 2007. - Самара: СНЦ РАН, 2007. - С. 498-510.

14. Минаков И.А. Кластеризация неструктурированной информации, представленной в виде текстов на естественном языке // Вестник Самарского гос. техн. ун-та. Серия «Технические науки». Самара: СамГТУ, 2006. Вып. 40. - С. 15-22.

15. Минаков И.А. Онлайн-анализ пользователей Интернет-портала продажи «горящих» авиабилетов //Информационные технологии, 2006. № 1. С.62-68.

16. Минаков И.А. Сравнительный анализ некоторых методов случайного поиска и оптимизации // Изв. СНЦ РАН. Самара: СНЦ РАН, № 2. 1999. - С.286-293.

17. Свидетельство о регистрации программы № 2004610966 от 20 апреля 2004 г. Мультиагентная система извлечения знаний методом кластеризации // С.й. Вольман, Д.В. Карягин, И.А. Минаков, Г.А. Ржевский П.О. Скобелев.

18. Свидетельство о регистрации программы № 2004610968 от 20 апреля 2004 г. Инструментальная система конструирования мультиагентных систем для десктопных приложений //В.В. Андреев, К.В. Ивкушкин, И.А. Минаков, Г.А. Ржевский, А.В. Сафронов, П.О. Скобелев.

19. Свидетельство о регистрации программы № 2004610970 от 20 апреля 2004 г. Мультиагентная система понимания текстов на естественном языке //В.В. Андреев, И.А. Минаков, Г.А. Ржевский, П.О. Скобелев, М.С. Томин.

20. Batishev S.V., Ivkushkin C.V., Minakov I.A., Rzevski G.A., Skobelev P.O. A Multi-Agent Simulation of Car Manufacturing and Distribution Logistics // Proc. of the II International

21. Conference "Complex Systems: Control and Modelling Problems", Samara, Russia, June 2023, 2000, pp. 100-104.

22. Minakov I., Tomin M., Volman S. Development of Multiagent Internet Meta-Search Engine // Международная конференция «ИТ в бизнесе» (ПТВ), Санкт-Петербург, 14-17 июня 2005 г. http://itib.fmec.ru/ru/05/

23. Абдеев Р.Ф. Философия информационной цивилизации. М.: ВЛАДОС, 1994. 336 с.

24. Алексеев П.В., Панин A.B. Теория познания и диалектика. Москва: Высшая школа, 1991.-383 с.

25. Аналитические бизнес-решения www.anbr.ru

26. Анфилатов B.C., Емельянов A.A., Кукушкин A.A. Системный анализ в управлении -- М.: Финансы и статистика 2002. 368 с.

27. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JT. и др. Лингвистическое обеспечение системы ЭТАП-2. -М.: Наука, 1989.-231 с.

28. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М.: Наука, 1967.-251 с.

29. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JT. и др. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992. - 256 с.

30. Баженов Л. Б. Обладает ли наука особым эпистемологическим статусом? // Вопросы философии. 1988. № 7.

31. Бельнап Н., Стил Т. Логика вопросов и ответов. М.: Прогресс. 1981. - 288 с.

32. Брябрин В.М., и др. ДИЛОС диалоговая система для взаимодействия с ЭВМ на естественном языке. - М.: Изд. ВЦ АН СССР, 1979.

33. Бухараев Р.Г., Сулейманов Д.Ш. Семантический анализ в вопросно-ответных системах. Казань: Изд. КГУ. 1990. - 124 с.

34. Бэкон Ф. Новый Органон // Соч.: В 2 т. М., 1972. Т. 2. - С. 27-28.

35. Вейценбаум И. Понимание связного текста вычислительной машиной // Распознавание образов: Исследование живых и автоматических распознающих систем. -М.: Мир, 1970. С.214-245.

36. Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976. - 296 с.

37. Виттих В.А. Знания, основанные на понимании, в процессах принятия решений // Проблемы управления и моделирования в сложных системах: Тр. VI Междунар. конф. Самара: СНЦ РАН , 2004. - С. 37-44.

38. Виттих В.А. Инженерная эпистемология // Проблемы управления и моделирования в сложных системах: Тр. III Междунар. конф. Самара: СНЦ РАН , 2001. - С. 92-100.

39. Виттих В.А. Интеграция знаний при исследованиях сложных систем на основе инженерных теорий. // Известия РАН Теория и системы управления, 1998. №5.

40. Виттих В.А. Онтологии сложных систем организаций // Препринт ИПУСС РАН, №3,-Самара, 1998.- 15 с.

41. Виттих В.А. Онтологический анализ и синтез при управлении сложными открытыми системами // Проблемы управления и моделирования в сложных системах: Тр. V Междунар. конф. Самара: СНЦ РАН, 2003. - С.56-60.

42. Виттих В.А. Процессы управления в социо-технических системах // Проблемы управления и моделирования в сложных системах: Тр. VII Междунар. конф. -Самара: СНЦ РАН, 2005. С. 32-42.

43. Виттих В.А. Согласованная инженерная деятельность. Состояние, проблемы, перспективы // Проблемы машиностроения и надежности машин, 1997. №1. С. 6-15.

44. Виттих В.А. Управление открытыми системами на основе интеграции знаний. // Автометрия, 1998. № 3. С. 38 - 49.

45. Виттих В.А., Ржевский Г.А., Скобелев П.О. Мультиагентные модели взаимодействия в системах принятия решений // Проблемы управления и моделирования в сложных системах: Tp.IV Междунар. конф. Самара, 17-24 июня 2002. Самара: СНЦ РАН,2002.-С. 116-126.

46. Гаврилова Т. А. Онтологический подход к управлению знаниями при разработке корпоративных информационных систем // Новости искусственного интеллекта,2003. №2. С.24-30.

47. Гаврилова Т.А. Использование онтологий в системах управления знаниями, http:// big.spb.ru/publications/bigspb/km/useontologymsuz.shtml БИГ-Петербург, 2001.

48. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Изд-во «Питер», 2001. - 382 с.

49. Гарант-Парк-Интернет Технологии анализа и поиска текстовой информации. www.rco.ru

50. Городецкий Б. Ю. К созданию Машинного фонда русского языка (определение, применения, актуальные проблемы) // Машинный фонд русского языка: идеи и суждения. М., 1986.

51. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения (Вступительная статья) // Новое в зарубежной литературе. М.: Прогресс. Вып. XXIV. Компьютерная лингвистика. - С. 5-31.

52. Городецкий В., Самойлов В., Малов А. Технология обработки данных для извлечения знаний: Обзор состояния исследований // Новости искусственного интеллекта, 2002. № 3-4.

53. Гумбольдт В. Избранные труды по языкознанию. М., 1984. - 244 с.

54. Дударь З.В., Шуклин Д.Е. Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке // Радиоэлектроника и информатика. Харьков: Изд-во ХТУРЭ, 2000. №. 3. - С. 72-76.

55. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. семинара Диалог'2002. В двух томах. Т.2. "Прикладные проблемы". М., 2002.-С. 180-185.

56. Жигалов В.А., Соколова Е.Г. InBASE: технология построения ЕЯ интерфейсов к базам данных // Тр. Междунар. семинара Диалог'2001 по компьютерной лингвистике. Т. 2, Аксаково, июнь 2000. М., 2000. - С. 123-135.

57. Забежайло М.И. Data Mining and Knowledge Discovery in Data Bases: Предметная область, задачи, методы и инструменты // 6 Нац. конф. с междунар. участием, Пущино, 5-11 октября 1998: Сб. науч. тр. в 3 т. Т. 2. Пущино, 1998. - С. 592 - 600.

58. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та матем., 1999. - 270 с.

59. Загорулько Ю.А. Методы представления и обработки знаний: Семантические сети и системы продукций: методическое пособие. Изд-во НГУ. Новосибирск, 1996. 46 с.

60. Загорулько Ю.А., Попов И.Г., Щипунов В.В. Интегрированная технологическая среда для создания систем обработки знаний // Известия РАН. Теория и системы управления. № 5, 1995. С.210-213.

61. Зализняк A.A. Грамматический словарь русского языка: словоизменение. М.: Русский язык, 1987. - 879 с.

62. Ильин В.В. Теория познания. Эпистемология. М.: Изд-во МГУ, 1974. - 136 с.

63. Интеллектуальная поисковая система Nigma, http://nigma.ru

64. Капица П.Л. Эксперимент. Теория. Практика. М.: Наука, 1981.-351 с.

65. Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовой информации. http://www.dialoR-21 .ru/Archive/2001/volume2/2 26.htm

66. Кузин Л.Т., Преображенский А.Б., Хорошевский В.Ф. и др. Разработка и исследование методов построения интеллектуальных вопрос-ответных систем (проект МИВОС). Отчет о НИР. -М.: МИФИ, 1977.-291 с.

67. Кутепов В. П. Проблема и задача в системе познания. Фрунзе, 1988.

68. Леонтьева H.H. Строение семантического компонента в информационной модели автоматического понимания текста. Автореф. дис. д-ра техн. наук. М., 1990.

69. Леонтьева H.H. Автоматическое понимание текстов: системы, модели, ресурсы. М.: Издательский центр «Академия», 2006.

70. Линник Ю. В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. М.: Физматгиз, 1962. - 352 с.

71. Мальковский М.Г. Программно-информационное обеспечение адаптивных систем общения с ЭВМ на естественном языке. М.: МГУ. Дис. д-ра физ.-мат. наук. 1990.

72. Мельчук И.А. Опыт теории лингвистических моделей типа «Смысл Текст». - М.: Наука, 1974.-314 с.

73. Минский М. Фреймы и представление знаний. М.: Энергия, 1979. - 151 с.

74. Молчанов В. И. Время и сознание. Критика феноменологической философии. М.: Высшая школа, 1988. - 144 с.

75. Назаров А.И. Обобщенная модель познавательной деятельности индивида // Психологическая наука и образование. 2000. №3. С. 40-60.

76. Нариньяни A.C. Проблема понимания ЕЯ-запросов к базам данных решена // В сб. тр. Междунар. семинара «Диалог-95 по компьютерной лингвистике и ее приложениям», Казань, 31 мая 4 июня, 1995 г. - Казань, 1995. - С. 206-215.

77. Нариньяни A.C., Лингвистические процессоры ЗАПСИБ (1-я и 2-я части). Препринт ВЦ СО АН СССР, N 199,1979.

78. Николис Г., Пригожин И. Самоорганизация в неравновесных системах: от диссипа-тивных структур к упорядоченности через флуктуации. -М.: Мир, 1979. 512 с.

79. Новые идеи в математике. Сб. № 1. СПб., 1913. - С. 87.

80. Обработка текста и когнитивные технологии: Сб. / Под ред. В.Д. Соловьева Пущино, 1999. Вып. 3.-304 с.

81. Овдей О.М., Проскудина Г.Ю. Обзор инструментов инженерии онтологий // Электронные библиотеки. 2004. №4http://www.impb.ru/~rcdl2004/ cgi/get paper pdf. cgi?pid=26

82. О'Лири Управление корпоративными знаниями // Открытые системы, 1998. №4-5, -с.31-39.

83. Осипов Г.С. Приобретение знаний интеллектуальными системами. М.: Наука, 1997. -112с.

84. Осипов Г.С. Построение баз знаний на основе взаимодействия полуавтоматических методов приобретения знаний. II. Модель знаний и приобретение знаний. // Изв. РАН, Теория и системы управления, 1995, №5.

85. Попов Э.В. Естественно-языковые системы: прошлое, настоящее и будущее // 7 Нац. конф. по искусст. интеллекту с междунар. участием, КИИ'2000, Переславль-Залесский, 24-27 октября 2000: Тр. конф. Т. 1. М.: ИФМЛ, 2000. - С. 17.

86. Попов, Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. - 360 с.

87. Поспелов Д.А. Моделирование рассуждений. Опыт анализа мыслительный актов. -М.: Радио и связь, 1989. 184 с.

88. Поспелов Д.А. Ситуационное управление: теория и практика. М.: Наука, 1986, -284 с.

89. Пригожин И., Стенгерс И. Порядок из хаоса. М.: Эдиториал, 2000. - 310 с.

90. Рубашкин В.1П. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989. 192 с.

91. Рузавин Г.И. Концепции современного естествознания. М.: ЮНИТИ, 1999. - 287 с.

92. Рузавин Г.И. Методология научного исследования. М.: ЮНИТИ, 1999. - 317 с.

93. Савин Е.Ю. Понимание как форма познавательной активности субъекта: Опыт субъекта в понимании. Калуга, 1996.

94. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Тр. Междунар. семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. - С. 227-230.

95. Скобелев П. О. Открытые мультиагентные системы для оперативной обработки информации в процессах принятия решений. Дис. д-ра техн. наук. Самара, 2003. 298 с.

96. Скобелев П.О. Виртуальные миры и интеллектуальные агенты для моделирования деятельности компаний. // Тр. 6-ой Национальной конф. ИИ-1998, 5-7 ноября 1998, -Пущино. Т 2. С. 714-719.

97. Скрэгг Р. Семантические сети как модели памяти. // Новое в зарубежной лингвистике. Вып. XII. М: Прогресс, 1983. - С. 144-154.

98. Смирнов A.B. Логика смысла: Теория и ее приложение к анализу классической арабской философии и культуры / РАН. Ин-т философии. М. :Языки славян, культуры, 2001. - 504 с.

99. Смирнов C.B. Онтологический анализ предметных областей моделирования // Изв. СНЦ РАН. Самара, 2002. Т. 3. №1. - С. 62-70.

100. Смирнов C.B. Онтологический анализ в системах компьютерного моделирования: дис. . д-ра техн. наук. Самара, 2002. - 348 с.

101. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. - 560 с.

102. Сулейманов Д.Ш. Аналитический обзор отечественных и зарубежных работ обработки естественного языка в аспекте прагматически-ориентированного подхода. // Информационные технологии. Казань: Изд-во Казанского гос. техн. ун-та, 1999.

103. Тузов В. А. Языки представления знаний. СПб.: Изд-во СПбГУ. 1990. - 120 с.

104. Филлмор Ч. Фреймы и семантика понимания //НЗЛ. Вып. XXIII. М., 1988. - С. 5290.

105. Финн В.К. Интеллектуальные системы: проблемы их развития и социальные последствия Будущее искусственного интеллекта. - М.: Наука, 2000. - 309 с.

106. Хакен Г. Синергетика: Иерархия неустойчивостей в самоорганизующихся системах и устройствах. М.: Мир, 1985. -423 с.

107. Хомский Н. Язык и мышление. -М.: Изд-во МГУ, 1972. 253 с.

108. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов // Девятая Национальная конф. по искусственному интеллекту с международным участием КИИ-2004. Тр. конф. М.: Физматлит, 2004. Т.2. - С.573-581.

109. Чистякова Г.Д. Формирование предметного кода как основы понимания текста // Вопросы психологии. 1981. № 4.

110. Шаров С.А. Средства компьютерного представления лингвистической информации. Обзор, http://www.kcn.ru/tat en/science/ittc/vol000/002/

111. Шелов С.Д., Определение терминов и понятийная структура терминологии. СПб.: Изд-во СПбГУ. 1998.

112. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980. - 361 с.

113. Щедровицкий Г.П. Философия. Наука. Методология. М., 1997. - 368 с.

114. Adriaans P, Zantinge D. Data Mining. Addisson-Wesley, 1996.

115. Amit Singhal, Mandar Mitra, and Chris Buckley.Learning routing queries in a query zone // In Proc. of the SIGER'97, July 1997. P. 25-32.

116. Apte C., Damerau F., and Weiss S.M. Towards language independent automated learning of text categorization models. In Proc. 17th Int'l Conference on R&D in IR (SIGIR), 1994. P. 23-30.

117. Autonomy Portal-in-a-box www.autonomy.com

118. Baker Douglas L. and Kachites Andrew McCallum. Distributional clustering of words for text classification. In Proceedings of the SIGm.'98, 1998. P. 96-103.

119. Bernaras A., Laresgoiti I. & Corera J. (1996), Building and Reusing Ontologies for Electrical Network Applications, in W. Wahlster, ed., 'ECAI96 Proceedings', John Wiley&Sons P. 298-302.

120. Berners-Lee, Т., Hendler, J. & Lassila, O. The Semantic Web. Scientific American, May 2001.

121. Borst P. Construction of Engineering Ontologies for Knowledge Sharing and Reuse, PhD thesis, Tweente University. 1997.

122. Bresnan J., editor. The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts. 1982.

123. Callan J. Learning while filtering documents. In Proc. of SIGER'98, Melbourne, Australia, 1998.-P. 224-231.

124. Chomsky N. Syntactic Structures. The Hague: Mounton. /Рус. пер.: Н.Хомский. Синтаксические структуры. В сб. «Новое в лингвистике», вып.2. Москва: Изд-во ин.лит., 1962.

125. Cristianini N. and Shawe-Taylor J. An introduction to support vector machines (and other kernel-based learning methods) Cambridge University Press 2000.

126. Croft W.B, Callan J., and Broglio J. Trec-2 routing and adhoc retrieval evaluation using the INQUERY system. Proceedings of the 2nd Text Retrieval Conference (TREC-2), 1994.

127. Dietr Merkl. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

128. Ding Chris, Xiaofeng He, Hongyuan Zha, Ming Gu, and Horst Simon. Spectral min-max cut for graph partitioning and data clustering. Technical Report TR-2001-XX, Lawrence Berkeley National Laboratory, University of California, Berkeley, CA, 2001.

129. Douglass R. Cutting, David R. Karger, Jan O. Pedersen, and John W. Tukey, Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, SIGER '92. 1992. P. 318 - 329.

130. Dubes Richard C. and Jain Anil K. Algorithms for Clustering Data, Prentice Hall, 1988.

131. Dumains Susan T., Furnas George W., Landauer Thomas K. Indexing by Latent Semantic Analysis. Bell Communications Research 435 South St. Morristown, NJ 07960. Richard Rashman: University Of Western Ontario. 1990.

132. El-Hamdouchi A. and P. Willet, Comparison of Hierarchic Agglomerative Clustering Methods for Document Retrieval, The Computer Journal, Vol. 32, No. 3,1989.

133. Farquhar A., Fikes R., Pratt W. & Rice J. Collaborative Ontology Construction for Information Integration, Technical Report KSL-95-63, Knowledge Systems Laboratory, Stanford University. 1995.

134. Fernandez-Lopez M., Gomez-Perez A. and Juristo N., METHODOLOGY: from ontological art towards ontological engineering. In: AAAI-97 Spring Symposium on Ontological Engineering, Stanford University, CA, USA (24-26 March 1997).

135. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), 1990. P. 40-47.

136. Fredrik Kilander, Eva Fehraeus, and Jacob Palme. PEFNA: The private filtering news agent. Technical report, Department of Computer and Systems Sciences, Stockholm University, February 1997.

137. Fuhr Norbert. Optimum polynomial retrieval funcions based on the probability ranking principle. ACM Transactions on Information Systems, 7(3):183-204, 1989.

138. Gavron J.M. et al, Processing English with a Generalised Phrase Structure Grammar. // Proc. 20th ACL. University of Toronto. 1982.

139. General Architecture for Text Engineering, http://www.gate.ac.uk/

140. Gentner, D. On relational meaning: The acquisition of verb meaning. Child Development, 49, 1998. P.988-998.

141. Gomez-Perez A. Manzano-Macho D.: A Survey of Ontology Learning Methods and Techniques. Deliverable 1.5, Onto Web Project, 2003.

142. Grishman Ralph, Discovery Methods for Information Extraction. Proc. Workshop on Spontaneous Speech Processing and Recognition, Tokyo, Japan, April 2003.

143. Gruber T.R. A translation approach to portable ontologies // Knowledge Acquisition. 1993. No.5(2). P. 199-220.

144. Gruber T. Onto lingua: A Mechanism to Support Portable Ontologies, Technical Report KSL-91-66, Knowledge Systems Laboratory, Stanford University. 1993.

145. Gruninger M. and Fox M.S., Methodology for the design and evaluation of ontologies. In: IJCAI95 Workshop on Basic Ontological Issues in Knowledge Sharing. Montreal, Canada (19-20 August 1995).

146. Guarino N., Masolo C. and Vetere G., OntoSeek: content-based access to the Web. IEEE Intelligent Systems (May/June 1999) P.70-80.

147. Guha Sudipto, Rastogi Rajeev, and Shim Kyuseok. CURE: An efficient clustering algorithm for large databases. In Proc. Of 1998 ACM-SIGMOD Int. Conf. on Management of Data, 1998.

148. Guha Sudipto, Rastogi Rajeev, and Shim Kyuseok. ROCK: a robust clustering algorithm for categorical attributes. In Proc. of the 15th Int'l Conf. on Data Eng., 1999.

149. Hahn U, Schulz S. Towards Very Large Terminological Knowledge Bases: A Case Study from Medicine. In Canadian Conference on AI 2000. P. 176-186

150. Hatzivassiloglou Vasileios, Gravano Luis, and Maganti Ankineedu. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000, 2000.

151. Hearst M.A. Automatic acquisition of Hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistic, Nantes, France, July 1992.

152. Hinrich Schütze, David A. Hull, Jan O. Pedersen: A Comparison of Classifiers and Document Representations for the Routing Problem. SIGIR 1995. P.229-237.

153. Hinrich Schütze, Christopher D. Manning and Prabhakar Raghavan. Introduction to Information Retrieval, Cambridge University Press. 2007.

154. Hung Chihli, Wermter Stefan, Smith Peter. Hybrid Neural Document Clustering Using Guided Self-Organization and WordNet. IEEE Intelligent Systems, Vol. 19, No.2. P. 6877.

155. Indeijit S. Dhillon and Dharmendra S. Modha. Concept Decompositions for Large Sparse Text Data using Clustering, Machine Learning, vol. 42:1, January, 2001. P.143-175.

156. Intelligent Miner for Text http://www-3.ibm.com/software/data/iminer/fortext/

157. International ISpell http://ftng-www.cs.ucla.edu/fmg-members/geoff7ispell.html

158. Inxight categorizer http://Avww.inxight.com/products/categorizer/

159. Karypis G., Han E.H., and Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 32(8):68-75, 1999.

160. Klein Michel. Change Management for Distributed Ontologies. PhD thesis, Vrije Universiteit Amsterdam, 2004.

161. Knight K. & Luk S. Building a Large Knowledge Base for Machine Translation, in 'AAAI94 Proceedings', 1994. -P. 773-778.

162. Knuth Donald, The Art of Computer Programming, vol. 3: Sorting and Searching», Addison-Wesley, 1973.

163. Lambrix, P., Habbouche, M. and Perez, M. Evaluation of ontology development tools for bioinformatics. Bioinformatics 19, 2003. P.1564-1571. http://www.ncbi.nlm.nih.gov/ entrez/query.fcgi?db=PubMed&cmd=Retrieve&dopt=Citation&list uids= 12912838

164. Landauer T., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 1998. 25:259-284.

165. Lande D. Добыча знаний, CHIP Ukraine 10'2003.

166. Lenat D. & Guha R. Building Large Knowledge-Based Systems, Representation and Inference in the CYC Project, Addison Wesley. 1990.

167. Lewis David D. An evaluation of phrasal and clustered representations on a text categorization task. In SIGIR, 1992. P. 37-50.

168. Lewis David and Ringuette Marc. A comparison of two learning algorithms for text categorization. In Symposium on Document Analysis and Information Retrieval. University of Nevada, Las Vegas, 1994.

169. Lopez F. Overview of Methodologies for Building Ontologies. In: Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods, Stockholm, Sweden, August 2, 1999.

170. Maedche A, Staab S. (2004) Ontology Learning. Handbook on Ontologies, p.173-190.

171. Maedche A, Staab S. (2001) Ontology Learning for the Semantic Web. IEEE Intelligent Systems, Special Issue on the Semantic Web, 16(2).

172. Manning Christopher D., Schutze Hinrich. Foundation of Statistical Language Processing. MIT Press. 1999.

173. McCarthy John. Some expert systems need common sense. In Heinz Pagels, editor, Computer Culture: The Scientific, Intellectual and Social Impact of the Computer, volume 426. 1983. Available as http://www-formal.stanford.edu/imc/someneed.html

174. Megaputer Intelligence Text Analyst http.7/www.megaputer.com/products/ta/

175. Miller G. WordNet: An on-line lexical database. International Journal of Lexicography, 1990.

176. Minsky M. The Society of Mind //New York, 1986. 339 p.

177. Mitchell T. Machine Learning. McGraw Hill, 1997.

178. Morin E (1999) Automatic acquisition of semantic relations between terms from technical corpora. Proc. Of the Fifth Int. Congress on Terminology and Knowledge Engineering (TKE-99), TermNet-Verlag, Vienna.

179. Neidle C. Lexical Functional Grammar // In Proceedings of the ESSLLI, August 12-23, 1996, Prague.-P.107-128.

180. Nerbonne J., Oepen S., Diagne A.K., Konrad K. and Neis I. NLL—Tools for Meaning Representation. // DFKI Workshop on Natural Language Systems: Modularity and Reusability, Stephan Busemann and Karin Harbusch (ed.), Saarbruecken, 1993.

181. Oliver Jonathan: Decision Graphs-An Extension of Decision trees http://citeseer.ni.nec.com/oliver93decision.html

182. Papka Ron and Allan. James Document classification using multiword features. In Proc. of the CIKM'98, New-York, November 1998. P. 124-131.

183. Pelleg Dan, Moore Andrew. X-means: Extending K-means with Efficient Estimation of the Number of Clusters. School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213 USA. 2000.

184. Philips Lawrence, Practical Algorithms for Programmers», Binstock & Rex, Addison Wesley, 1995.

185. Pinto H. S., Gomez-Perez A., Martins J. P. Some Issues on Ontology Integration // Proceedings of the IJCAI-99 workshop on Ontologies and Problem Solving Methods (KRR5) Stockholm, Sweden, August 2,1999.

186. Pollard C., Sag I.A. Head-Driven Phrase-Stracture Grammar.// Center for the Study of Language and Information (CSLI) Lecture Notes. Stanford University Press and University of Chicago Press. 1994.

187. Pusteyovsky James. The Generative Lexicon. MIT Press, London. 1995.

188. Qi Lu, Matthias Eichstaedt, and Daniel Ford. Efficient profile matching for large scale webcasting. Computer Networks 30(1-7). 1998. P. 443-455.

189. Raskin V., Nirenburg S., Lexical Semantics of Adjectives, Recent Papers from the Mikrokosmos and Corelli Projects, Vol 2., New Mexico State University, 1996.

190. Readware ConSearch www.readware.com

191. Ruiz Miguel E, Srinivasan Padmini. Automatic Text Categorization Using Neural Networks. Advances in Classification Research vol. 8: Proceedings of the 8th ASIS

192. SIG/CR Classification Research Workshop. Ed. Efthimis Efthimiadis. Information Today, Medford:New Jersey. 1998. P. 59-72

193. Rzevski G. On Behaviour and Architectures of Autonomous Intelligent Agents: An Engineering Perspective. Proc. First International Round-Table on Abstract Intelligent Agents. ENEA, Rome. 1993.

194. SemioMap http://www.entrieva.comyentrievayindex.htm

195. Schreiber G., Weilinga B. & Jansweijer W. The Kactus View on the 'o' World, in 'IJCAI95's workshop on Basic Ontological Issues in Knowledge Sharing'. 1995.

196. Sibson R. SLINK: An optimally efficient algorithm for the single-link cluster method. King's College Research Center, King's College, Cambridge, and Cambridge University Statistical Laboratory. 1973.

197. Skuce D. How We Might Reach Agreement on Shared Ontologies: A Fundamental Approach, in 'AAAI97 Spring Symposium Series, workshop on Ontological Engineering'. 1997.

198. Sowa J. Conceptual Structures: information processing in mind and machine. Cambridge, MA: Addison Wesley, 1984.

199. Stata Raymie, Bharat Krishna, and Maghoul Farzin. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000/

200. Steinbach M., G. Karypis, and V. Kumar A comparison of document clustering techniques In KDD Workshop on Text Mining, 2000.

201. Stephen B. Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report. MCCS-96-292. 1997.

202. Stojanovic Ljlijana. Methods and Tools for Ontology Evolution. PhD thesis, University of Karlsruhe, 2004.

203. Tong Richard M. and Appelbaum Lee A. Machine learning for knowledge-based document routing Proceedings of the 2nd Text Retrieval Conference (TREC-2), 1994.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00