автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели, методы и программные средства распределенного приобретения знаний для автоматизированного построения баз знаний интегрированных экспертных систем
Автореферат диссертации по теме "Модели, методы и программные средства распределенного приобретения знаний для автоматизированного построения баз знаний интегрированных экспертных систем"
4855493
Дейнеко Александр Олегович
МОДЕЛИ, МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА РАСПРЕДЕЛЕННОГО ПРИОБРЕТЕНИЯ ЗНАНИЙ ДЛЯ АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ БАЗ ЗНАНИЙ ИНТЕГРИРОВАННЫХ ЭКСПЕРТНЫХ СИСТЕМ
Специальность 05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных
сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Автор:
- 6 ОКТ 2011
Москва-2011
4855493
Работа выполнена в Национальном исследовательском ядерном университете «МИФИ».
Научный руководитель:
доктор технических наук, профессор Рыбина Галина Валентиновна
Официальные оппоненты:
доктор технических наук, профессор Еремеев Александр Павлович
кандидат технических наук, доцент Тарасов Валерий Борисович
Ведущая организация:
Институт системного анализа Российской академии наук
Защита состоится » д^ТдЪкЛ 2011 г. в /4 час. 0£мин. на заседании диссертационного совета Д 212.130С03 при Национальном исследовательском ядерном университете «МИФИ» по адресу: Москва, Каширское ш., 31 (конференц-зал, 2 этаж главного корпуса)
С диссертацией можно ознакомиться в библиотеке Национального исследовательского ядерного университета «МИФИ».
Отзывы в двух экземплярах, заверенные печатью, просьба направлять по адресу: Каширское ш., 31, Ученый Совет МИФИ.
Автореферат разослан « 22.» СоМг/ьуьЗ), 2011 г.
Учёный секретарь ^ Леонова Н.М.
диссертационного совета — )
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. Приобретение знаний является центральной проблемой, возникающей при разработке современных интеллектуальных систем, в частности, традиционных экспертных систем и более сложных - интегрированных экспертных систем (ИЭС), обладающих масштабируемой архитектурой и расширяемой функциональностью. Однако, несмотря на значительное число исследований и разработок в этой важнейшей области искусственного интеллекта вопросы практического использования традиционных методов приобретения знаний и создания технологии автоматизированного приобретения знаний по-прежнему являются актуальной проблемой.
Существенный дефицит экспертов, возрастание объемов противоречивых и «зашумленных» данных и знаний, нехватка специальных компьютерных систем, имитирующих искусство эксперта/экспертов, слабая теоретическая и технологическая исследованность методов приобретения знаний из электронных источников знаний и другие проблемы наиболее остро ощущаются при создании интегрированных экспертных систем, предназначенных для решения сложных практических задач, особенно в таких областях, как медицина, энергетика, космос, экология и др., что приводит к значительному удорожанию стоимостных и временных параметров разработки систем подобного класса сложности.
Опыт практического использования целого ряда прикладных ИЭС, разработанных на основе задачно-ориентированной методологии (ЗОМ), предложенной Г.В. Рыбиной в середине 90-х годов, и поддерживающего её инструментального комплекса АТ-ТЕХНОЛОГИЯ (в том числе для диагностики сложных технических систем, проектирования уникальных объектов машиностроения, комплексных экологических задач, экспресс-диагностики крови и др.) показал необходимость мониторинга, т.е. проведения регулярных проверок и подтверждений накапливаемых и формализуемых знаний в соответствующих базах знаний (БЗ), чтобы их качество не отразилось на функционировании ИЭС в целом.
Соответственно возрастает актуальность и роль разработки методов и средств автоматизации труда экспертов и создания специальных программных средств, направленных на компьютерную поддержку процессов получения знаний от эксперта (или групп экспертов), являющихся основным источником знаний. С другой стороны, типология источников знаний уже не ограничивается только экспертами, поскольку значительные объемы экспертных знаний накоплены в текстах на естественных языках, а в последние годы - в информации, аккумулирующейся в современных информационных бизнес-системах, в частности, большие информационные ресурсы накоплены в базах данных (БД).
Проблеме автоматизированного извлечения знаний из БД в искусственном интеллекте посвящены такие новые направления как Data Mining и Knowledge Discovery in Databases (KDD). Однако эти технологии возникли и развивались независимо от технологий автоматизированного приобретения знаний от экспертов, и сегодня подобная автономность и распределенность не позволяет осуществлять эффективный мониторинг всех информационных ресурсов (БЗ, БД, а в последние годы и онтологии), которыми обладают интеллектуальные системы, в частности ИЭС. В настоящее время, практически, отсутствуют исследования в области создания инструментальных средств и технологий распределенного приобретения знаний из источников различной типологии.
Значительный вклад в исследование и решение проблем приобретения знаний внесли отечественные учёные О.И.Ларичев, Д.А.Поспелов, Э.В.Попов, Г.С.Осипов, Г.В. Рыбина, А.П.Еремеев, Т.А.Гаврилова, И.Б.Фоминых, В.Ф.Хорошевский, В.Л.Стефанюк, Н.Г. Загоруйко, В.Б.Тарасов, Б.А. Кобринский, А.С.Нариньяни, О. К. Подлипский, А.Б. Петровский, В.К. Финн и др., а также целый ряд зарубежных учёных S. Easter-brook., J. Quinlan, К. Sreeraman, P. Gregory, R. Dieng, D. Waterman, T. Nguyen, H. Toivonen, F. Coenen, J. Tsai, P. Meseguer, K. Wang и др.
Таким образом, актуальность темы диссертации определяется возрастающей потребностью индустрии интеллектуальных систем в современных эффективных средствах автоматизированного приобретения знаний, распределенных по источникам знаний различной типологии.
Цель работы. Целью данной диссертационной работы является автоматизация процессов построения баз знаний ИЭС на основе разработки моделей, методов и программных средств распределенного приобретения знаний.
Для достижения поставленной цели в диссертации решены следующие задачи:
1) На основе анализа существующих моделей, методов и средств приобретения знаний выбор базисного метода автоматизированного приобретения знаний, на основе которого предложен новый подход к интеграции информации, полученной из источников знаний различной типологии, предложено и исследовано понятие «распределённого приобретения» знаний с целью автоматизированного построения максимально полных и непротиворечивых моделей проблемных областей.
2)Разработка оригинального алгоритма распределенного приобретения знаний из баз данных, основанного на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества баз данных и оптимизация структуры и количества выведенных продукционных правил.
3)Разработка метода и алгоритмов группового приобретения знаний, основанных на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу.
4) Разработка метода и алгоритмов объединения продукционных правил, полученных из источников знаний различной типологии, основанных на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хем-минга для посылок и заключений правил.
5) Разработка инструментальных программных средств приобретения знаний, распределенных по источникам знаний различной типологии, и средств объединения продукционных правил, полученных из различных источников.
6) Проведение экспериментальной апробации предложенных алгоритмов и разработанных инструментальных программных средств на задачах медицинской диагностики и задачах контроля радиационных дозовых нагрузок персонала атомных электростанций РФ.
Объект п предмет исследования. Объектом исследования являются БЗ интегрированных экспертных систем. Предметом исследования являются методы распределенного приобретения знаний для автоматизированного построения БЗ интегрированных экспертных систем.
Методы исследования. Для решения поставленных задач в диссертации использованы методы искусственного интеллекта (модели и методы представления и обработки знаний, методы инженерии знаний), методы Data Mining (методы классификации, построения деревьев решений), метод эвристической классификации, теория мультимножеств, теория множеств и отношений, технология разработки программного обеспечения.
Научная новизна. В диссертации получены следующие новые результаты:
1. С учетом распределенного варианта приобретения знаний предложен расширенный для источников знаний различной типологии комбинированный метод автоматизированного приобретения знаний.
2. Предложен и исследован алгоритм распределенного приобретения знаний из БД, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества БД и оптимизация структуры и количества выведенных правил.
3. Впервые предложен и исследован метод объединения продукционных правил, полученных из источников знаний различной типологии.
4. Впервые разработаны инструментальные программные средства распределенного приобретения знаний из БД для автоматизированного построения БЗ интегрированных экспертных систем и рекомендации по их применению.
Таким образом, в результате выполненных исследований разработаны модели, методы, алгоритмы и инструментальные программные средства, позволяющие снизить трудоемкость и временные затраты на разработку поля знаний и БЗ в процессе разработки прикладных ИЭС.
Основные научные результаты, выносимые на защиту.
1. Расширенный для источников знаний различной типологии комбинированный метод приобретения знаний, построенный на основе выполненного анализа существующих моделей, методов и средств приобретения знаний.
2. Алгоритм распределенного приобретения знаний из БД, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества БД и оптимизация структуры и количества выведенных правил.
3. Метод объединения продукционных правил, полученных из источников знаний различной типологии, основанный на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хемминга для посылок и заключений правил.
4. Комплекс инструментальных программных средств распределенного приобретения знаний из БД для автоматизированного построения БЗ ИЭС.
Практическая ценность и значимость работы заключается в том, что созданные инструментальные программные средства в составе комплекса АТ-ТЕХНОЛОГИЯ используются в учебном процессе НИЯУ «МИФИ» на кафедре Кибернетики, а также в деятельности ОАО «Концерн Росэнергоатом» (акты о внедрении).
Апробация разработанных моделей, методов и инструментальных программных средств при создании нескольких БЗ для задач медицинской диагностики и задач контроля радиационных дозовых нагрузок персонала атомных электростанций РФ подтвердили практическую значимость результатов диссертации.
Реализация результатов диссертации. Результаты диссертации использовались в НИР, выполненной при поддержке РФФИ (проект № 09-0100638) в учебно-научной лаборатории "Интеллектуальные системы и технологии" кафедры Кибернетики МИФИ. В феврале 2011 работа стала победителем конкурса НИЯУ МИФИ по программе "У.М.Н.И.К.-2011".
Апробация результатов. Основные результаты диссертации докладывались и обсуждались на 12-й национальной конференции по искусственному интеллекту с международным участием КИИ-2010 (Тверь, 2010), на конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления процессами и знаниями (РБС-СУ3-2010)» (Москва, 2009), международном семинаре «Интегрированные модели и мягкие вычисления, вероятностные системы и комплексы программ
в искусственном интеллекте» (Коломна, 2009), 17-ом и 18-ом международных научно-технических семинарах (Алушта 2009, 2010), ежегодных «Научных сессиях МИФИ» с 2007 по 2011 гг.
Публикации. Основные результаты диссертационного исследования опубликованы в десяти печатных трудах, в том числе в трех статьях в журналах, включённых ВАК РФ в перечень ведущих рецензируемых научных журналов и изданий.
Структура и объём работы. Диссертация состоит из введения, четырёх разделов, заключения, списка использованной литературы (79 наименований) и приложений. Основная часть диссертации содержит 127 страниц машинописного текста, включая 48 рисунков, 8 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, её научная новизна и практическая значимость, сформулирована цель работы.
В первом разделе проводится анализ современных подходов и методов к автоматизированному построению полных и непротиворечивых моделей проблемных областей, рассматриваются основные понятия и определения в области приобретения знаний из источников различной типологии, исследуются проблемы, характерные для этой области, проводится обзор и сравнительный анализ методов и программных средств приобретения знаний из источников различной типологии, вводится и исследуется понятие распределённого приобретения знаний (Рис. 1) применительно к интеграции информации, полученной из источников знаний различной типологии, с целью автоматизированного построения максимально полных и непротиворечивых моделей проблемных областей.
Значительное внимание в диссертации уделяется анализу отечественных и зарубежных программных средств поддержки процессов приобретения знаний, и построения БЗ как классических экспертных систем, так и более сложного и широкого класса - ИЭС, отличающиеся масштабируемой архитектурой, позволяющей расширять функциональность простых (продукционных) экспертных систем, предназначенных для поддержки решения неформализованных задач, с помощью дополнительных подсистем, реализующих широкий класс формализованных задач.
В диссертации показано, что несмотря на значительное число разработанных в настоящее время инструментальных средств приобретения знаний, только некоторые из них (SIMER + MIR, CLEMENTINE, KATEMES, инструментальный комплекс АТ-ТЕХНОЛОГНИЯ) позволяют учитывать совместное использование источников знаний различной типологии (эксперты, проблемно-ориентированные тексты, электронные носители в виде БД).
Приобретение знаний
-......".......'.....~........................ |
Локальный вариант Распределенный вариант
Щ Эксперт ( 1 Текст
" '] БД
Совместное использование
« К
| ] Эксперт или группа экспертов
С .3 С .Л. Текст
- и Множество БД
Рис. 1. Локальный и распределенный варианты приобретения знаний.
Кроме того, в диссертации показано, что как в отечественных, так и зарубежных исследованиях незначительное внимание уделяется решению проблем приобретения знаний, связанных с учетом географической распределенности источников знаний, а также возможных групп удаленных источников, например, отдельных групп экспертов. Проведен анализ некоторых подходов и методов группового приобретения знаний. На основе проведенного анализа выбран базисный метод группового приобретения знаний, основанный на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу.
В результате проведенного анализа инструментальных средств приобретения знании показано, что среди отечественных систем приобретения знаний, использующих комбинацию различных методов и подходов к приобретению знаний, выделяется инструментальный комплекс АТ-ТЕХНОЛОГИЯ, созданный на основе ЗОМ построения прикладных интегрированных экспертных систем, предложенной Г.В. Рыбиной в середине 90-х годов. Неотъемлемой частью ЗОМ является ЗОМ приобретения знаний, представляющая собой совокупность комбинированного метода приобретения знаний (КМПЗ) и технологии его использования на различных стадиях жизненного циклах построения ИЭС и веб-ориентированные ИЭС (веб-ИЭС).
Следует отметить, что источники знаний 1-го и 2-го типа в контексте КМПЗ, реализованного в рамках ЗОМ построения ИЭС, рассматриваются как совмещенные, поскольку в КМПЗ существует совокупность хорошо апробированных технологических процедур, позволяющих дополнять информацию, полученную от эксперта/экспертов, за счет информации, выявленной из проблемно-ориентированных естественно-языковых текстов (ЕЯ-текстов) (в
данном случае - это обработка протоколов интервьюирования экспертов, сбор лексики инженера по знаниям, анализ сигнальных лексем во входных ЕЯ-текстах и др.).
Поэтому основное внимание в диссертации уделялось источникам знаний 3-его типа, т.е. БД, для чего исследовались технологии Data Mining и Knowledge Discovery in Databases (KDD).
В диссертации рассмотрены основные методы Data Mining, среди которых выделены методы, основанные на построении деревьев решений, обладающие такими достоинствами как хорошая интерпретируемость и способность к анализу больших объемов информации. Приведена классификация методов, основанных на построении деревьев решений, а также на основе проведенного анализа выбран базисный метод Data Mining, основанный на построении бинарных деревьев решений.
Показано, что одной из наиболее сложных и трудоёмких задач, затрудняющей приобретение знаний из источников различной типологии с учетом географической удаленности источников и наличия групп источников знаний, является задача объединения полученных продукционных правил в единую БЗ, для решения которой предложено использование теории мультимножеств для представления многопризнаковых объектов, что значительно упрощает решение известных задач классификации, сортировки, ранжирования многопризнаковых объектов. Проведен анализ современных методов группировки и кластеризации продукционных правил, среди которых выделены методы, основанные на вычислении мер близости между утверждениями правил.
На основе проведенного в диссертации анализа показано, что в настоящее время не существует универсальных методов и методологий, позволяющих эффективно решать проблему автоматизированного приобретения знаний и учитывающих совместное использование источников знаний различной типологии, а также географическую распределенность источников и наличие возможных групп удаленных источников (например, отдельных групп экспертов).
В связи с этим делается вывод об актуальности темы диссертационного исследования, направленного на разработку эффективных методов и инструментальных программных средств распределенного приобретения знаний, повышающих степень автоматизации процессов построения БЗ для широкого класса прикладных ИЭС, в том числе проектируемых на основе ЗОМ.
Сформулирована цель и поставлены конкретные задачи диссертационного исследования.
Во втором разделе диссертации рассматриваются теоретические аспекты разработки методов и алгоритмов распределенного приобретения знаний.
В соответствии с концептуальными основами ЗОМ приобретения знаний в рамках базового КМПЗ и средств его реализации рассматривается так называемый локальный вариант приобретения знаний. Однако, при переходе к веб-версии комплекса АТ-ТЕХНОЛОГИЯ стал возможен другой вариант автоматизированного приобретения знаний на основе КМПЗ - распределенный, обеспечивающий в рамках клиент-серверной архитектуры, интеграцию всех рассмотренных выше типов источников знаний, учет их географической распределенности, а также возможность работы с группами удаленных источников знаний.
Теоретической основой базового КМПЗ является задача экспертной классификации многомерных объектов, которая формулируется следующим образом: пусть имеется эксперт, являющийся специалистом в рассматриваемой проблемной области; требуется на основе его знаний построить классификацию объектов. В основу подхода к решению задачи экспертной классификации положена гипотеза о различной степени характерности отдельных значений каждого признака для каждого свойства, что даёт возможность вынесения заключений по ряду состояний без их непосредственной идентификации экспертом, позволяя организовать рациональную процедуру экспертного опроса, целью которого является классификация всех возможных состояний при уменьшении числа вопросов к эксперту.
В рамках базового КМПЗ, ориентированного на поддержку процессов приобретения знаний на всех этапах жизненного цикла разработки ИЭС, а также на возможность итеративного пополнения БЗ ИЭС, для решения проблемы неполноты БЗ ИЭС предусмотрено локальное использование источников знаний различной типологии.
В общем виде теоретико-множественную модель расширенного для источников знаний различной типологии КМПЗ с учетом распределенного варианта приобретения знаний можно представить в виде: Л-/„, = <АГ, К, К, 2>, где ЛГ = (Ммрпп , 1,Т, Е), где Ммртз- совокупность моделей решения типовых задач (МРТЗ) диагностики, проектирования, планирования, обучения, и управления; / = (7ми, Г1'-'") - знания, полученные от экспертов путем применения МРТЗ, где Рвт - знания, полученные от автономного эксперта, а /л,и — знания от групп экспертов; Е - знания, приобретенные из БД; Т = ((), Д IV) - знания, выявленные в результате лингвистической обработки ЕЯ-текстов, где () - знания, получаемые в результате "понимания" ЕЯ-текстов, описывающих решаемую проблему; £> = /Д7 - знания, приобретенные от эксперта/экспертов; IV - лексические знания, получаемые на этапе анализа системных требований пользователя. Компонент ¿Г = /¿Г „,}, т=\,...,т„, - есть множество структурированных описаний проблемной области в виде поля знаний, выполняющего важную функцию в процессе структурирования полученной от эксперта информации, обеспечивая единое внут-
реннее представление и унификацию основных понятий и отношений проблемной области, выявленных из различных источников знаний. Соответственно, с учетом особенностей распределенного приобретения знаний обобщенную модель поля знаний можно представить в виде: S,„ = <ISm, SS,„, О,,,, R,„>, где ISm - порядковый номер структурированного описания проблемной области; SS,„ = <TSS, Iss> - источник, откуда получено описание, где Tss - тип источника (эксперт, группа экспертов, БД, текст), Iss - идентификатор источника знаний; От = {Omi}, j=\,...,n - множество объектов; Rm = {Rmk}, к=\, ...,р - множество правил.
Компонент К - множество процедур конвертации сформированного поля знаний в форматы языков представления знаний различных инструментальных средств (зарегистрированных в комплексе АТ-ТЕХНОЛОГИЯ), a Z-фрагменты БЗ в форматах языков представления знаний.
Компонент F~ определяет множество процедур внутреннего малого жизненного цикла формирования фрагментов БЗ на основе поля знаний. Разработанный в диссертации распределенный вариант приобретения знаний на основе КМПЗ позволяет строить более полные и непротиворечивые БЗ за счет использования как географически удаленных источников знаний, так и наличия групп источников знаний различной типологии. При переходе от локального варианта приобретения знаний к распределенному в диссертации решались такие задачи как групповое приобретение знаний, приобретение знаний из множества БД, а также автоматизация объединения множества полученных из источников разной типологии продукционных правил в единую БЗ. Таким образом, при переходе от локального варианта приобретения знаний к распределенному, компонент F~ представляется в виде:
F~ — F г,лз U FpAcnr,
где Fha3 - множество базовых процедур, а Ррлспр - множество процедур, добавленных при переходе от локального варианта приобретения знаний к распределенному: FpAcnr = {Fp\,..., F va}, где FPl - процедуры группового приобретения знаний; Fn = {РГ2.и Pn-ъ Ргг-ъ, Pn-ь Pri-s} - процедуры построения хранилищ данных, где РП-\ - процедура генерации SQL запроса; РГгг - процедура извлечения данных из БД в соответствии с запросом, сформированным процедурой Pp2-i; Рг2-з - процедура фильтрации некоторого подмножества данных, которое будет использоваться для построения фрагмента поля знаний; РР2.4 - процедура выделения зависимых и независимых атрибутов в анализируемой выборке; Pr2-s - процедура конвертации данных; Fn ~ {Рръл, Рп-2, Ргз-з, Рп-л} - процедуры распределенного приобретения знаний из БД, где РГЪА - процедура построения деревьев решений, Pri_2 -процедура генерации наборов правил, РР}.3 - процедура упрощения и сокращения количества правил, Рпл - процедура конвертации полученных правил в формат поля знаний; />4 = {Рр±-\, Ррл-ъ Ррл-ъ} - процедуры объединения
фрагментов полей знаний, полученных из источников разной типологии, где Рра-\ - процедура объединения типов атрибутов, Рга-2 - процедура объединения объектов, Р/>4.з - процедура объединения продукционных правил.
Перейдем к детальному рассмотрению предложенных и реализованных в диссертации методов и алгоритмов. Для решения задач группового приобретения знаний в диссертации был разработан метод группового приобретения знаний, суть которого заключается в следующем: рассматривается случай, когда в задаче классификации только два класса решений: С\ = С и
Сг= С, т.е. в класс С попадают объекты, обладающие, по мнению эксперта,
свойством О, а в класс С — не обладающие свойством С. На этих множествах решений с помощью эксперта строится отображение F : У —> У2}, такое, что У = У\ иУ2', У] П У2 = 0 (У; — множество векторных оценок, принадлежащих классу С,), удовлетворяющее свойству непротиворечивости: Ух,у £ У: х £ У/,у £ Ур хРу => г >у. Функция/(л:) : У—> {(), 1} определяется так, что:
В случае, если рассматриваемую задачу решают 2 экспертов, то в результате решения каждый из экспертов построит отображение Fi и соответствующую ему функцию/(х) (/" = 1,... ,7). Величина:
г
является вероятностью принадлежности объекта хЕУ классу С] по мнению группы экспертов. В рассматриваемом случае эта величина также называется вероятностью (по мнению группы экспертов) того, что объект обладает свойством <7.
Аналогичным образом определяется понятие вероятности (по мнению группы экспертов) в задачах классификации с более чем двумя классами решений. Однако, в этом случае вероятность вводится по отношению к набору классов решений, либо начиная/заканчивая некоторым классом. Разработанный для реализации предлагаемого метода алгоритм описывается следующим образом: на этапе экспертной классификации каждый эксперт решает упрощенные задачи, после чего один из них решает задачу в полном пространстве решений; для построенной БЗ выделяются границы классов решений; каждый из оставшихся экспертов начинает работу в полном пространстве решений с решения задач, лежащих на границах классов решений первого эксперта. Особое внимание было уделено случаю, когда отдельные сочетания значений признаков не могут быть реализованы на практике, и тогда
\У(х)
г
подобные объекты исключаются из проблемной области и не предъявляются эксперту. Классификация заканчивается если всем не исключенным объектам будет назначен класс. Завершающий этап методики — проверка границ классов, причем проверяется назначенный экспертом класс, а затем полученные границы классов преобразуются в продукционные правила. Таким образом, за счет реализации описанной методики создаётся достаточно полный и непротиворечивый фрагмент поля знаний.
Рассмотрим разработанные в диссертации методы и алгоритмы, реализующие распределенное приобретение знаний из множества БД, для чего в диссертации применялись технологии KDD и Data Mining, обеспечивающие выявление скрытых закономерностей в больших объёмах информации. Следует отметить, что в соответствии с ЗОМ под KDD подразумевается весь процесс извлечения знаний, начиная от соединения с БД, заканчивая представлением полученных результатов, a Data Mining являешься лишь некоторым этапом общего процесса KDD.
В базовом КМПЗ для приобретения знаний из БД использовались два алгоритма построения деревьев решений ID3 и С4.5. При переходе к распределенному варианту КМПЗ предпочтение было отдано концепции алгоритма CART, позволяющего строить бинарные деревья решений, что более удобно при визуализации и возможной постобработке продукционных правил.
Предложенный в диссертации алгоритм распределенного приобретения знаний из БД ориентирован на работу с предварительно подготовленными данными, причем вне зависимости от модели БД, предварительно проделанных операций, выборка данных должна представляться в виде плоской таблицы и содержать следующую информацию: множество независимых атрибутов выборки {At, .... А„}, а также один выделенный зависимый атрибут Л , значение которого определяет класс, к которому принадлежит пример.
При переходе от локального варианта приобретения знаний к распределенному возникает необходимость приобретения знаний из множества БД, для чего в диссертации применялся подход, суть которого заключается в построении из каждой БД dbk одного хранилища данных s* (Рис. 2).
Предложенный в диссертации алгоритм распределенного приобретения знаний из БД представляет собой алгоритм построения бинарных деревьев решений: в каждом узле дерева осуществляется разбиение множества атрибутов, ассоциированного с узлом, на два подмножества по следующему правилу - выбранный атрибут должен разбивать множество на подмножества так, чтобы количество объектов из других классов было минимальным. Для оценки качества разбиения использовался статистический критерий, основанный на индексе Gini.
Рассмотрим подробнее предложенный в диссертации алгоритм распределенного приобретения знаний из БД:
Шаг 1. Производится загрузка множества анализируемых выборок и выделение первой из них. Данные выборки записываются в матрицу и проводится разбиение матрицы на левую (не выполняется правило разбиения) и правую (выполняется правило разбиения). Разбиение происходит по следующему алгоритму. Сортируются все столбцы матрицы £ по убыванию, кроме первого и последнего, по последнему столбцу определяется принадлежность к классу, а по первому - название правила разбиения. Выбирается второй столбец, формируются все правила разбиения. Для каждого правила матрица разбивается на левую и правую (левый и правый лист), подсчитывается значение Если произведено разбиение по всем правилам, то выбирается следующий столбец. Определяется
правило разбиения соответствующее максимальному значению О ¡¡рш. Производится разбиение по выбранному правилу, получившееся разбиение считается лучшим.
Шаг 2. Если примеры на некотором листе принадлежат одному классу, то лист помечается именем класса. Если не все листы дерева помечены именами классов, то производится проверка, все ли примеры в листе принадлежат одному классу, если нет, то проводится дальнейшее разбиение.
Шаг 3. Если все листы помечены именами классов, то дерево считается построенным, производится генерация правил и, в случае наличия других анализируемых выборок, строится следующее дерево решений.
Шаг 4. По окончании построения всех деревьев решений путем обхода каждого дерева генерируется набор продукционных правил: каждый путь от корня до листа дерева даёт одно правило, а условиями правила являются проверки из узлов, принадлежащих пути.
Шаг 5. Упрощение и сокращение числа выведенных правил для каждого полученного фрагмента поля знаний.
Важно отметить, что по завершении работы алгоритма распределенного приобретения знаний из БД генерируется большое количество простых правил, которые могут быть преобразованы в одно или несколько более сложных, но в то же время более наглядных и удобных для использования правил. Для этого в рассматриваемом алгоритме применена постобработка выведенных правил, направленная на сокращение их количества. Способы упрощения правил можно разделить на следующие группы:
Рис. 2. Построение множества хранилищ данных из множества БД
Способ 1. Некоторый набор выведенных правил имеет одинаковое заключение, тогда посылка нового правила является дизъюнкцией посылок рассматриваемого набора правил.
Способ 2. Некоторый набор выведенных правил имеет одинаковое заключение, тогда посылка нового правила является конъюнкцией посылок рассматриваемого набора правил, причем результирующее правило является более сильным, чем исходные (посылки первоначального набора правил могут быть взаимоисключающими, в таком случае выполнение преобразования не возможно).
Способ 3. Некоторый набор выведенных правил имеет одинаковые посылки, тогда заключение нового правила является дизъюнкцией заключений рассматриваемого набора правил (способ носит теоретический характер, т.к. при решении задач классификации необходимо находить условия, четко относящие пример к тому или иному классу).
Способ 4. Некоторый набор выведенных правил имеет одинаковое заключение, и в посылках правил рассматриваются числовые атрибуты, тогда возможно объединение условий, налагаемых на числовые атрибуты (способ требует дополнительных знаний, в частности, о дискретных значениях атрибутов).
Перечисленные способы в некоторых случаях позволили существенно уменьшить число сгенерированных изначально правил.
Решение задачи объединения фрагментов полей знаний, полученных из источников знаний различной типологии, существенно затрудняется задачей объединения объектов, описанных в каждом фрагменте поля знаний. Для решения этой проблемы в диссертации предложен метод, основанный на теории мультимножеств. Рассмотрим совокупность А ={А¡,...у4к} объектов, которые описываются т атрибутами ()\,...,(),„, имеющими конечное число значений. Также рассмотрим вариант, когда объект А; получен из к независимых источников и описывается т атрибутами. Очевидно, что объект А, представляется в от-мерном пространстве уже не одной точкой д,, а группой ("облаком"), состоящим из к точек. В таком случае удобно представить объект в виде мультимножества: пусть количество фрагментов полей знаний равно к, суммарное количество всех уникальных атрибутов равно т; введем обобщенную шкалу признаков - множество й={()и...,()„}, состоящую из т групп признаков, и представим объект в символическом виде:
где число кл,(с/ ") указывает, сколько раз атрибут </<"€: встречается в описании объекта А„ знак ° обозначает кратность вхождения атрибута д ". Например, при получении объекта А1 из нескольких источников число кА,(с1") равно числу источников, в которых объекту А, присвоен атрибут д/4 по критерию <2$.
Объекты группируются в мультимножества по именам, либо синонимам имен. Объекты возможно объединить, либо заменить объект Ат объектом Лк в случае совпадения имен объектов, совпадения синонима имени объекта Ат с именем объекта А¡¡, а также в случае совпадения синонимов имён объектов. В случае, если объединение объектов по словарю синонимов не может гарантировать приемлемых результатов необходимо воспользоваться подсчетом расстояния между мультимножествами. Рассмотрим метрическое пространство между двумя объектами, представленными в виде мультимножеств: с!\р{А,В) = [от(ЛДВ)]|/р, где р - целое число, т - мера мультимножества, действительная неотрицательная функция, заданная на алгебре мультимножеств Ц2), причем ш(А) = ¿¡\У|кА(хО, \\'|> 0. В таком случае с1\р(А,В) можно представить в виде:
\
мР
I х.ес;
Метрика с1]Г(А,В) аналогична мере схожести Хемминга для мультимножеств. Для объединения нескольких фрагментов полей знаний в один необходимо привести множество многомерных точек, образующих мультимножество к единственной многомерной точке. В случае, если сделать это невозможно, каждая точка выделяется в виде отдельного многомерного объекта. На Рис. 3, на примере двухмерного пространства, приведена последовательность преобразований мультимножеств А и В, а также разбиение мультимножества В на две многомерных точки.
Рис. 3. Приведение множеств многомерных точек к единой точке и разбиение мультимножества на множество многомерных точек.
Для подсчета расстояния между каждой парой точек О,,, и О* внутри мультимножества применяется квадрат геометрического расстояния:
ОтОк) — \ (ХОот/ ХОШ ) '
значение которого является количеством атрибутов, различных для объектов.
Обозначим Ат - не пустое множество атрибутов объекта От, а Ак - не пустое множество атрибутов объекта Ок. Объекты 0,„ и Од имеют одинаковые имена, либо совпадающие синонимы имён. Рассмотрим состояния:
• (¿окоп)2=0, т.е. Ак=А„„ в этом случае будем называть объекты Лк и А,„ идентичными, возможно их автоматическое объединение;
• (¿окОпУ = ш + \Лт\ и АкГ\Ат= 0, в этом случае, либо допущена ошибка при сопоставлении имен и синонимов имен объектов, либо имена объектов полностью идентичны, но объекты различны. Для устранения данного совпадения необходимо уточнение экспертом, либо инженером по знаниям имени объекта;
• (<^0к0п>2 и А/ФАщ, в этом случае возможны следующие состояния:
о Ак(^Ат, при данном условии возможна автоматическая замена объекта Ак объектом Ат, т.к. объект Ат является более детально описанным; о АкфА„, и Ак ПАт ф 0 при данных условиях необходима ручная обработка объектов экспертом, либо инженером по знаниям. Возможно как объединение объектов с частичным или полным объединением атрибутов, так и замена выбранных атрибутов, либо декомпозиция объектов.
Следующим после завершения объединения объектов этапом объединения фрагментов полей знаний, является этап объединения наборов правил. Для объединения наборов правил в диссертации использовались расширенные таблицы решений, представляющие собой набор строк и столбцов, где каждая ячейка строки таблицы хранит данные о вхождении и параметрах вхождения утверждения, характеризующегося заголовком строки, в конкретное правило. По мере рассмотрения правил, входящих в состав поля знаний, расширенная таблица решений пополняется новыми строками, однозначно идентифицирующимися парой «объект - атрибут объекта». Правила представляются в расширенной таблице решений ее столбцами. В каждую ячейку расширенной таблицы решений записывается «тип» утверждения, принимающий следующие значения: 0 - утверждение отсутствует в правиле; 1 - утверждение присутствует в правиле.
На основе анализа расширенной таблицы решений осуществляется построение таблицы мер схожести правил (Рис. 4) путем подсчета числа совпадающих атрибутов, участвующих в правилах /?; и Л*.
л,
Ях И (1) И 11 (1> Л/с /< .VI И Л'1
Ям я1",* ч И IV Ж /< NN (1) И NN (1)
Рис. 4. Общий вид таблицы схожести правил.
Для левой и правой частей правил подсчитывается мера сходства Хем-
минга (/iNLn и /tN,t = nif/N, где п,к - есть число совпадающих признаков у образцов Rj и Rk, ftNL¡к - есть отношение количества совпавших атрибутов посылок правил R-, и Rk к количеству всех атрибутов, участвующих в заключениях правил. На пересечении каждого столбца и строки таблицы мер схожести имеется две ячейки, предназначенные для хранения мер схожести посылок и заключений правил.
Для определения последовательности вывода правил устанавливается контрольная зона мер схожести. В случае попадания текущих меры схожести посылки и меры схожести заключения в заданный интервал, пары правил, образующие пересечение столбца и строки таблицы мер схожести могут быть выведены для дальнейшего анализа инженером по знаниям. Затем полученный фрагмент поля знаний подвергается завершающей обработке — все объекты и правила собираются в единый XML файл и проходят финальную перенумерацию и верификацию.
В третьем разделе диссертации рассматриваются вопросы реализации в комплексе АТ-ТЕХНОЛОГИЯ инструментальных программных средств распределенного приобретения знаний из БД. В процессе разработки были учтены требования последних версий комплекса АТ-ТЕХНОЛОГИЯ, основным из которых является реализация программных средств в виде СОМ-объектов, выполняющих установленные правила обмена сообщениями с остальными компонентами комплекса, а также содержащие функции, обеспечивающие связь с типовыми проектными процедурами, которые активизируются специальными средствами интеллектуальной поддержки разработки ИЭС.
Для поддержки приобретения знаний из источников знаний различной типологии применяется типовая проектная процедура «Приобретение знаний из БД», на Рис. 5 приведена диаграмма последовательности действий инженера по знаниям при её реализации. На первом этапе реализации типовой проектной процедуры «Приобретение знаний из БД» инженером по знаниям производится выбор зарегистрированных БД. При помощи средств поддержки проектирования хранилищ данных производится формирования набора хранилищ данных, являющихся анализируемыми выборками для алгоритма распределенного приобретения знаний из БД. Вторым этапом является настройка алгоритма распределенного приобретения знаний из БД и генерация с его помощью набора фрагментов полей знаний, полученных из каждой зарегистрированной БД. Третий этап - объединение всех фрагментов полей знаний, полученных из источников знаний различной типологии. Основными шагами этапа являются загрузка и объединение объектов, построение расширенной таблицы решений и таблицы схожести правил. На этапе объединения фрагментов полей знаний экспертом задаются контрольные зоны и величины совпадения числовых атрибутов, производится объединение объектов, типов
атрибутов объектов и объединение правил. Четвертым (завершающим) этапом является верификация итогового фрагмента поля знаний.
-Запрос БД— -Выбор БД-
- Выбранная БД....................................................-.....
Выбор таблиц и атрибоутов
Определение соответствий ПЗ
Определение зависимых/ незаеисимых атрибутов
-Сформировать ХД-
......- ..............-ХД...............-.......-......-...........
.......— Выбор алгоритма
- -...............- -..... Data Mining
-Приобретение знаний-р-
Фрагмент ПЗ _3апустить средство объединения Фрагментов ПЗ
-Запрос зарегистрированных БД-^
-Информация о БД-
-Генерация SQL запроса
- Фрагмент ПЗ -_3апустить средство_ верификации
-Сохранить ХД-
Приобретение знаний —Сохранить фрагмент П3-
Запуск средства объединения
Запуск средства верификации
Рис. 5. Последовательность действий ииженера по знаниям при реализации типовой проектной процедуры «Приобретение знаний из БД».
Общая архитектура разработанных инструментальных средств поддержки типовой проектной процедуры «Приобретение знаний из БД» представлена на Рис. 6, в соответствии с чем основными средствами поддержки процессов распределенного приобретения знаний являются следующие компоненты: компонент диалога с экспертом с целью выяснения требуемых ему параметров, компонент поддержки построения структур БД, компонент сопоставления объектов хранилищ данных объектам поля знаний, компонент заполнения хранилищ данных, компонент загрузки фрагментов полей знаний, компонент построения расширенной таблицы решений и таблицы мер схожести, компонент объединения объектов и правил, компонент анализа расширенной таблицы решений, таблицы мер схожести и итогового фрагмента поля знаний, компонент формирования отчетов.
Базовые средства распределенного приобретения знаний реализованы как отдельные компоненты, поскольку активизация каждого из них определяется различными условиями.
При выполнении задач, соответствующих типовой проектной процедуре «Приобретение знаний из БД», поле знаний обрабатывается с помощью компонента формирования расширенной таблицы решений, который обеспечивает нормализацию правил и заполнение расширенной таблицы решений.
Расширенная таблица решений служит в качестве исходных данных, на основе заключенной в ней информации, при помощи компонента построения таблицы мер схожести рассчитывается мера сходства Хемминга для посылок и заключений пар правил.
Рис. 6. Архитектура средств поддержки типовом проектной процедуры «Приобретение знаний из БД».
Компонент объединения объектов и правил является визуальным компонентом, предоставляющим эксперту возможность указать на равенство разноименных атрибутов различных правил. Приравненным атрибутам и объектам присваивается имя одного из них. Присваиваемое имя определяется экспертом. Компонент анализа построенных таблиц и итогового фрагмента поля знаний также является визуальным компонентом, предоставляющим эксперту возможность создания и упорядочения контрольных зон, определения действий над правилами, определения порядка вывода правил по контрольным зонам. Ускорение процесса построения БЗ обеспечивается за счет частичной автоматизации этапов сравнения и объединения объектов и наборов правил.
Четвертый раздел диссертации посвящен экспериментальной проверке разработанных программных средств распределенного приобретения знаний из БД. Экспериментальная проверка выполнялась на БД, полученных при разработке нескольких приложений, связанных с задачами проектирования, медицинской диагностики, определения географического положения IP-адреса, контроля радиационных дозовых нагрузок персонала атомных электростанций РФ и др. Кроме того, эксперименты проводились с различными специально подготовленными тестовыми БД и тестовыми анализируемыми выборками, опубликованными Center for Machine Learning and Intelligent Systems Университета Калифорнии.
В качестве анализируемых БД использовались фрагменты БД географического местонахождения IP-адресов и БД по диагностике заболеваний дыхательных путей. Полученная в первом случае анализируемая выборка включала 1000 записей и 12 полей. Итоговые наборы правил и скорость работы разработанных программных средств приобретения знаний из БД сравнивалась с реализацией алгоритма CART средства Answer Tree компании SPSS, Inc. При применении алгоритма распределенного приобретения знаний из БД, реализованного в рамках диссертации из БД местонахождения IP-адресов было выведено 417 правил, а при применении алгоритма CART средства Answer Tree было получено 439 правил (Рис. 7а.). Анализируемая выборка, полученная из БД по диагностике заболеваний дыхательных путей, содержала 500 записей. Из данной выборки было выведено 236 правил при применении реализованного в диссертации алгоритма распределенного приобретения знаний из БД и 238 правил при применении реализации алгоритма CART средства Answer Tree (Рис. 76.).
439 а
417 Г Количество
правил
Количество' правил
236
238
Рис. 7а. Количество правил, выведенных из БД IP-адресов.
Рис. 76. Количество правил, выведенных из БД по диагностике заболеваний дыхательных путей.
Разница в количестве выведенных правил обусловлена наличием этапа постобработки в реализованном в диссертации алгоритме распределенного приобретения знаний из БД, направленного на упрощение и сокращение числа выведенных правил.
Тестирование разработанных программных средств приобретения знаний из БД показало (Рис. 8), что при увеличении количества записей в анализируемой выборке в 2 раза изменение времени обработки незначительно превышает 2 раза, что связано с различным числом полей в различных анализируемых выборках, а также с наличием этапа постобработки выведенных
Рис. 8. График зависимости времени, затраченного на приобретение знаний от объема
контрольной выборки
Проверка работы предложенного алгоритма распределенного приобретения знаний из БД оценивалась на фрагментах БД по дозовым нагрузкам сотрудников атомных электростанций РФ. Для работы были использованы фрагменты 10 БД атомных электростанций (Балаковской, Белоярской, Били-бинской, Калининской, Кольской, Курской, Ленинградской, Нововоронежской, Ростовской и Смоленской). Объем контрольных выборок, полученных из каждой БД составил от 2500 до 4000 записей.
На Рис. 9 приведена диаграмма зависимости времени обработки каждой контрольной выборки (в секундах) от её объема. Суммарное время работы алгоритма распределенного приобретения знаний на десяти контрольных выборках (общий объем: 35072 записи) составило 126.2 секунды. Объединение всех десяти фрагментов полей знаний, полученных из различных БД было осуществлено в полностью автоматическом режиме, и заняло менее 10 минут. Суммарное количество правил, выведенных из десяти контрольных выборок составило 10350 продукционных правил. Объём итогового поля знаний составил 1674 правила. Кроме того, в диссертации были проведены эксперименты, в ходе которых были объединены два фрагмента полей знаний: фрагмент, полученный путем интервьюирования экспертов и содержит 340 правил и фрагмент, полученный путем приобретения знаний из БД и содержит 236 правил.
о
3860 3240 2823 2630 3157 3417 2605 2970 3438 3712 3220
Рис. 9. Время обработки каждой контрольной выборки в зависимости от её объёма.
При объединении фрагментов поле знаний было пополнено на 42 правила, что соответствует приросту объема фрагмента поля знаний приблизительно на 12%.
В заключении приводятся основные выводы и результаты диссертации.
В приложение вынесены: акты об использовании результатов диссертационного исследования; примеры фрагментов БД, использовавшихся для экспериментальной проверки разработанных инструментальных средств распределенного приобретения знаний из БД; примеры фрагментов полей знаний и БЗ, использованные для экспериментальной проверки разработанных инструментальных средств распределенного приобретения знаний из БД; тестовые примеры работы средств распределенного приобретения знаний из БД.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1) На основе анализа существующих моделей, методов и средств приобретения знаний выбран базисный метод автоматизированного приобретения знаний, на основе которого предложен новый подход к интеграции информации, полученной из источников знаний различной типологии, и введено понятие «распределённого приобретения» знаний с целью автоматизированного построения максимально полных и непротиворечивых моделей проблемных областей.
2) На основе выполненного анализа существующих моделей, методов и средств приобретения знаний построена модель расширенного для источников знаний различной типологии комбинированного метода приобретения знаний.
3) Разработан метод и алгоритм группового приобретения знаний, основанный на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу.
4) Разработан оригинальный алгоритм распределенного приобретения знаний из БД, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества БД и оптимизация структуры и количества выведенных продукционных правил.
5) Разработан метод и алгоритмы объединения продукционных правил, полученных из источников знаний различной типологии, основанный на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хемминга для посылок и заключений правил.
6) Разработаны инструментальные программные средства приобретения знаний, распределенных по источникам знаний различной типологии, и средства объединения продукционных правил, полученных из различных источников, включенные в состав комплекса АТ-ТЕХНОЛОГИЯ третьего поколения.
7) Проведена экспериментальная апробация предложенных алгоритмов и разработанных инструментальных программных средств на задачах медицинской диагностики и задачах контроля радиационных дозовых нагрузок персонала атомных электростанций РФ.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в журналах, входящих в перечень ВАК:
1) Рыбина Г.В., Дейнеко А.О. Распределенное приобретение знаний для автоматизированного построения интегрированных экспертных систем // Искусственный интеллект и принятие решений, 2010. №4.
С. 56-62.
2) Рыбина Г.В., Дейнеко А.О., Нистратов О.В. Автоматизированное построение полных и непротиворечивых баз знаний в интегрированных экспертных системах // Приборы и системы. Управление. Контроль. Диагностика. 2010. №5. С. 21-24.
3) Рыбина Г.В., Нистратов О.В., Дейнеко А.О. Особенности автоматизации и интеллектуализации процессов подготовки и переподготовки персонала на промышленных предприятиях // Промышленные АСУ и контроллеры, 2011. №. 3. С. 10-14
Работы, опубликованные в сборниках трудов конференций:
1) Дейнеко А.О., Никулин Г.Н. Прототип динамической интеллектуальной системы управления ядерным реактором «СУЗ РБМК-1000» // Научная сес-
сия МИФИ-2007. Интеллектуальные системы и технологии. Т.З. - М.: МИФИ, 2007.-С. 210-211.
2) Рыбина Г.В., Дейнеко А.О., Нистратов О.В. Особенности построения полных и непротиворечивых баз знаний в интегрированных экспертных системах // Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Сборник научных трудов У-й международной научно-практической конференции. 12. - М.: Физматлит, 2009 - С. 760-768.
3) Рыбина Г.В., Дейнеко А.О. Распределенное приобретение знаний для автоматизированного построения баз знаний интегрированных экспертных систем // Двенадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2010 (20 - 24 сентября 2010 г., г. Тверь, Россия): Труды конференции. Т2. - М.: Физматлит, 2010 - С. 240-247.
4) Рыбина Г.В., Дейнеко А.О. Интеллектуальная технология распределенного приобретения знаний для автоматизированного построения баз знаний интегрированных экспертных систем // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления процессами и знаниями (РБС-СУЗ-2010). Сборник научных трудов. М.: МЭСИ, 2010 - С. 260-264.
5) Дейнеко А.О., Нистратов О.В. Об одном подходе к преодолению неполноты баз знаний в интегрированных экспертных системах. // Научная сессия НИЯУ МИФИ-2010. XIII Международная телекоммуникационная конференция студентов и молодых ученых «Молодежь и наука». Тезисы докладов в 3-х частях. 4.2. М.: НИЯУ МИФИ, 2010. - С. 101-102.
6) Дейнеко А.О., Рыбина Г.В. Распределенное приобретение знаний для автоматизированного построения баз знаний интегрированных экспертных систем // Современные технологии в задачах управления, автоматики и обработки информации: Труды XIX Международного научно-технического семинара. Алушта, сентябрь 2010 г. - М.: МИРЭА, 2010. - С. 125-126.
7) Дейнеко А.О. Распределенное приобретение знаний для автоматизированного построения интегрированных экспертных систем // Научная сессия НИЯУ «МИФИ»-2011. XIV Международная телекоммуникационная конференция студентов и молодых ученых «Молодежь и наука». Тезисы докладов в 3-х частях. 4.2. М.: НИЯУ МИФИ, 2011. - С. 93-94.
Заказное. Формат 60x90/16 Гарнитура «Тайме». Подписано в печать 25.08.2011
Тираж 100 экз. Заказ № 451 Отпечатано в типографии ООО «КОПИ МАСТЕР» 119049, Москва, Калужская площадь, д.1
Оглавление автор диссертации — кандидата технических наук Дейнеко, Александр Олегович
ВВЕДЕНИЕ.
1. АНАЛИЗ СОВРЕМЕННЫХ ПОДХОДОВ И МЕТОДОВ К АВТОМАТИЗИРОВАННОМУ ПОСТРОЕНИЮ ПОЛНЫХ И НЕПРОТИВОРЕЧИВЫХ МОДЕЛЕЙ ПРОБЛЕМНЫХ ОБЛАСТЕЙ
1.1 Особенности построения полных и непротиворечивых моделей проблемных областей.
1.2 Распределенное приобретение знаний.
1.3 заданно-ориентированная методология приобретения знаний и инструментальные программные средства поддержки методологии.
1.3.1 Общая характеристика комбинированного метода приобретения знаний в рачках задачно-ориентированной методологии построения ИЭС.
1.3.2 Технология Data Mining.
1.3.3 Особенности применения алгоритмов Data Mining в рамках комбинированного метода, приобретения знаний.
1.3.4 Типовая проектная процедура «Приобретение знаний из БД».
1.4 представление многопризнаковых объектов.
1.5 Анализ современных методов группировки и кластеризации продукционных правил.
1.5.1 Метрики в пространстве знаний.
1.5.2 Типы измеритаьных шкал и их сравнительный анализ.
1.5.3* Меры близости между у тверждениями для арифметических шкал.
1.5.4 Меры близости между утверждениями дш качественных шкал.
1.6 Цели и задачи диссертационного исследования.
ВЫВОДЫ.
2. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ РАСПРЕДЕЛЕННОГО ПРИОБРЕТЕНИЯ ЗНАНИЙ.
2.1 Особенносги применения методов экспертной классификации сложных объектов для извлечения знаний.
2.2 Обобщенная модель комбинированного метода приобретения знании.
2.3 Методика группового приобретения знании.
2.4 Разработка алгоритма распределенного приобретения знании из бд.
2.4.1 Выбор стратегии формирования хранилищ данных.
2.4.2 Формальная постановка задачи построения дерева решений
2.4.3 Оптимизация алгоритма распределенного приобретения знаний из БД.
2.5 Разработка метода объединения объектов, полученных из ис i очников знаний различной типологии.
2.5.1 Разработка алгоритма объединения типов атрибутов.
2.5.2 Применение теории мультимножеств для представления многомерных объектов.
2.6 Разработка метода объединения множеств продукционных правил.
2.6.1 Формальная постановка задачи объединения продукционных правил.
2 6.2 Метод автоматизированного объединения продукционных правил, полученных из источников знаний различной типологии.
Выводы.
3. ПРОЕКТИРОВАНИЕ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ КОМПЛЕКСА
ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ РАСПРЕДЕЛЕННОГО ПРИОБРЕТЕНИЯ ЗНАНИЙ.
3.1 Особенности реализации средств поддержки типовой проектной процедуры «Приобретение знаний из БД».
3.2 Анализ системных требований на разработку средств поддержки ТПП «Приобретение знании из БД», функционирующих в составе комплекса АТ-ТЕХНОЛОГИЯ.
3.3 Архитектура и реализация программных средств поддержки проектирования хранилищ данных.
3.4 Программная реализация средств распределенного приобретения знании из БД.
3.5 Особенности реализации средств автоматизированного объединения фрагментов полей знаний, полученных из источников знаний различном типологии.
3.6 Интеграция и комплексная отладка программных срсдс ш поддержки гиповой проектной процедуры «Приобретение знаний из БД».
3.7 Пример функционирования средств поддержки проектирования хранилищ данных.
3.8 Пример функционирования средств распределенного приобретения знании из бд и средств объединения наборов правил.
Выводы.
4. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА МЕТОДОВ И АЛГОРИТМОВ РАСПРЕДЕЛЕННОГО
ПРИОБРЕТЕНИЯ ЗНАНИЙ. ВНЕДРЕНИЕ РАЗРАБОТАННЫХ ИНСТРУМЕНТАЛЬНЫХ ПРОГРАММНЫХ СРЕДСТВ.
4.1 Экспериментальная проверка методов и алгоритмов распределенного приобретения знаний.
4.2 сравнение характеристик реализованных программных средств распре деленного приобретения знаний с существующими средствами.
4.3 применение алгоритма распределенного приобретения знаний из БД в составе проекта «АРМИР-АЭС версия-4». выводы.
ВЫВОДЫ ПО ДИССЕРТАЦИИ.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Дейнеко, Александр Олегович
Актуальность темы исследования. Проблема приобретения знании всегда находилась в центре внимания разработчиков современных интеллектуальных систем, в. частности, традиционных экспертных систем и более сложных - интегрированных экспертных систем (ИЭС), обладающих масштабируемой архитектурой и расширяемой функциональностью. Этому важнейшему направлению искусственного интеллекта посвящено значительное число исследований и разработок, тем не менее вопросы практического использования традиционных методов приобретения знаний и создания технологии автоматизированного приобретения знаний по-прежнему являются: актуальной проблемой, что связано как с острым дефицитом экспертов, так и с нехваткой специальных компьютерных систем, имитирующих искусство эксперта/экспертов.
Наиболее остро проблема приобретения знаний возникает при решении сложных практических задач, особенно в таких областях, как медицина, энергетика, космос, экология и др.', где не всегда достаточно мнения одного эксперта, поэтому для построения максимально полных и непротиворечивых моделей проблемных областей и снижения рисков ошибок эксперта необходимо привлекать нескольких экспертов или группу экспертов, что существенно удорожает стоимостные и временные параметры разработки ИЭС. Соответственно возрастает актуальность и роль степени автоматизации труда экспертов и разработки специальных программных средств, различных «оболочек приобретения» и т.д., направленных на компьютерную поддержку процессов получения знаний от эксперта или групп экспертов, являющихся основным источником знаний (источник знаний 1-ого типа).
Значительный вклад в исследование и решение проблем приобретения знаний внесли отечественные учёные О.И.Ларичев, Д.А.Поспелов, Э.В.Попов, Г.С.Осипов, Г.В.Рыбина, А.П.Еремеев, Т.А.Гаврилова, И.Б.Фоминых, В.Ф.Хорошевский, ВЛ.Стефанюк, Н.Г. Загоруйко, В.Б.Тарасов, Б.А. Кобринский, А.С.Нариньяни, О. К. Подлипский, А.Б. Петровский, В.К. Финн и др., а также целый ряд зарубежных учёных S. Easterbrook., J. Quinlan, К. Sreeraman, P. Gregory, R. Dieng, D. Waterman, T. Nguyen, H. Toivonen, F. Coenen, J. Tsai, P. Meseguer, K. Wang и др.
Однако, в настоящее время существует достаточно небольшое число исследований в области группового извлечения знаний из экспертов, которые пока носят только теоретико-методологический характер и предназначены для частичной автоматизации работы инженера по знаниям на этапе группового извлечения знаний.
С другой стороны, в настоящее время типология источников знаний уже не ограничивается только экспертами. Значительные объемы экспертных знаний накоплены в текстах на естественных языках (источник знаний 2-ого типа), а в последние годы — в информации, аккумулирующейся в современных информационных бизнес-системах, представляющих собой сложные организационно-технические системы с такими компонентами управления как сетевые устройства, серверы, приложения, базы данных (СУБД) и т.д. и обладающих большими информационными ресурсами (источник знаний 3-его типа).
Проблема получения (выявления) знаний из источников 2-ого типа связана с бурно прогрессирующей технологией Text Mining, а проблеме автоматизированного извлечения знаний из БД в искусственном интеллекте посвящены такие новые направления как Data Mining и Knowledge Discovery in Databases. Успехи технологии Text Mining связаны с различными аспектами применения текстологических методов получения знаний из естественно-языковых текстов (ЕЯ-текстов), которые получили наибольшее развитие в трёх типах современных веб-ориентированных ЕЯ-систем — поиска информации (Information Retrival), извлечения информации (Information Extraction) и понимания ЕЯ-текста (Text / Message Understanding). С применением различных алгоритмов Data Mining тесно связаны такие проблемные области, как: научные исследования (медицина, биология, биоинформатика и др.); решение задач бизнеса (банковское дело, финансы, страхование. CRM и др.); задачи государственного уровня (борьба с терроризмом, поиск розыскиваемых лиц и т.д.); решение задач анализа веб-ресурсов, где основными направлениями являются Web Content Mining (интеллектуальные поисковые агенты, классификация и фильтрация информации) и Web Usage Mining (подразумевает обнаружение закономерностей в действиях пользователя веб-узла или их группы) и др.
Каждая их этих технологий возникла и развивалась независимо друг от друга и сегодня подобная автономность и распределенность не позволяет осуществлять эффективный мониторинг всех информационных ресурсов (базы знаний, базы данных, а в последние годы и онтологии), которыми обладают интеллектуальные системы, в частности ИЭС. В настоящее время, практически, отсутствуют исследования в области создания инструментальных средств и технологий распределенного приобретения знаний из различных источников различной типологии.
Опыт практического использования целого ряда прикладных ИЭС, разработанных на основе задачно-ориентированной методологии, предложенной Г.В. Рыбиной в середине 90-х годов, и поддерживающего её инструментального комплекса АТ-ТЕХНОЛОГИЯ (в том числе для экспресс-диагностики крови, диагностики сложных технических систем, проектирования уникальных объектов машиностроения, комплексных экологических задач и др.), показал необходимость мониторинга, т.е. проведения регулярных проверок и подтверждений накапливаемых и формализуемых знаний в соответствующих базах знаний, чтобы их качество не отразилось на качестве функционирования ИЭС в целом.
Кроме выявления ошибок (дефектов), дублирования, противоречивости и неполноты информации в базах знании функционирующих систем, эти же вопросы имеют важное значение при моделировании проблемных областей и проектировании собственно баз знаний и баз данных (контроль ограничений целостности, согласованности, соглашений между использованием терминов проблемной области1 и т.д.). Например, чтобы преодолеть проблему неполноты разрабатываемой базы знаний (т.е. эксперт не знает и/илш забыл отметить какой-либо факт, необходимый для решения задачи) можно поступать следующим образом: приглашать конкретного эксперта п-ое количество раз; приглашать других экспертов или группу экспертов; использовать независимый электронный источник знании в виде баз данных Первые два способа могут привести к срыву всего процесса моделирования проблемной области как из-за существенного удорожания стоимости труда эксперта/экспертов, так и в следствие так называемых «шумовых» личностных особенностей экспертов (недопонимание, умолчание, конформизм, когнитивная защита, собственные интересы эксперта, отсутствие семантической унификации используемых терминов проблемной области и др.). Также особо отмечается наличие таких факторов, как «когнитивная защита" личности», «дискретность», неполнота человеческого знания и др.
Наиболее нейтральными и независимыми источниками знаний являются базы данных. Анализ экспериментальных данных, полученных при создании баз знаний целого ряда прикладных ИЭС, показал, что локальное использование баз данных в качестве дополнительного источника знаний способно пополнить объем разрабатываемых баз знаний на 10-20%, в зависимости от специфики проблемной области.
Таким образом, возникает необходимость создания новой автоматизированной технологии приобретения знаний, распределенных по источникам знаний различной типологии.
Цель работы. Целью данной диссертационной работы является автоматизация процессов построения баз знаний ИЭС на основе разработки моделей, методов и программных средств распределенного приобретения знаний
Для достижения поставленной цели в диссертации решены следующие задачи:
1) На основе анализа существующих моделей, методов и средств приобретения знаний выбор базисного метода автоматизированного приобретения знаний, на основе которого предложен новый подход к интеграции информации, полученной из источников знаний различной типологии, предложено и исследовано понятие «распределённого приобретения» знаний с целью автоматизированного построения максимально полных и непротиворечивых моделей проблемных областей.
2) Разработка оригинального алгоритма распределенного приобретения знаний из баз данных, основанного на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества баз данных и оптимизация структуры и количества выведенных продукционных правил.
3) Разработка метода и алгоритмов группового приобретения знаний, основанных на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу.
4) Разработка метода и алгоритмов объединения продукционных правил, полученных из источников знаний различной типологии, основанных на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хемминга для посылок и заключений правил.
5) Разработка инструментальных программных средств приобретения знаний, распределенных по источникам знаний различной типологии, и средств объединения продукционных правил, полученных из различных источников.
6) Проведение экспериментальной апробации предложенных алгоритмов и разработанных инструментальных программных средств на задачах медицинской диагностики и задачах контроля радиационных дозовых нагрузок персонала атомных электростанций РФ.
Методы исследования. Для решения поставленных задач в диссертации использованы методы искусственного интеллекта (модели и методы представления и обработки знаний, методы инженерии знаний), методы Data Mining (методы классификации, построения деревьев решений), метод эвристической классификации, теория мультимножеств, теория множеств и отношений, технология разработки программного обеспечения.
Научная новизна. В диссертации получены следующие новые результаты.
1. С учетом распределенного варианта приобретения знаний предложен расширенный для источников знаний различной типологии комбинированный метод автоматизированного приобретения знаний.
2. Предложен и исследован алгоритм распределенного приобретения знаний из баз данных, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества баз данных и оптимизация структуры и количества выведенных правил.
3. Впервые предложен и исследован метод объединения продукционных правил, полученных из источников знаний различной типологии.
4. Впервые разработаны инструментальные программные средства распределенного приобретения знаний из баз данных для автоматизированного построения баз знаний интегрированных экспертных систем и рекомендации по их применению.
Таким образом, в результате выполненных исследований разработаны модели, методы, алгоритмы и инструментальные программные средства, позволяющие снизить трудоемкость и временные затраты на разработку поля знаний и базы знаний в процессе разработки прикладных ИЭС.
Основные научные результаты, выноснмыс на защиту:
1. Расширенный для источников знаний различной типологии комбинированный метод приобретения знаний, построенный на основе выполненного анализа существующих моделей, методов и средств приобретения знаний.
2. Алгоритм распределенного приобретения знаний из баз данных, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества баз данных и оптимизация структуры и количества выведенных правил.
3. Метод объединения продукционных правил, полученных из источников знаний различной типологии, основанный на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хемминга для посылок и заключений правил.
4. Комплекс инструментальных программных средств распределенного приобретения знаний из баз данных для автоматизированного построения баз знаний интегрированных экспертных систем.
Практическая ценность н значимость работы заключается в том, что созданные инструментальные программные средства в составе комплекса АТ-ТЕХНОЛОГИЯ используются в учебном процессе ННЯУ «МИФИ» на кафедре Кибернетики, а также в деятельности ОАО «Концерн Росэнергоатом» (акты о внедрении).
Апробация- разработанных моделей,, методов и инструментальных-• программных средств при создании нескольких баз знаний для задач медицинской диагностики и задач контроля: радиационных дозовых нагрузок персонала атомных электростанций РФ-подтвердшщпрактическую значимость результатов диссертации. . . . .
Реализация результатов: диссертации. Результаты диссертации- использовались• в НИР; выполненной при; поддержке РФФИ (проект № 09-01-00638) в учебно-научной? лабораторий "Интеллектуальные системы итехнологии" кафедры Кибернетики МИФИ;
Структура и объём работы. Во введении обоснована актуальность темы диссертации; её научная новизна и практическая значимость, сформулирована,цель работы.
В первом разделе рассматриваются основные понятиям и определения, в;, области приобретения знаний из различных.источников; исследуются; проблемы, характерные;для этой,области, проводится обзор исравнительный; анализ методов ^программных- средств; приобретения знаний из различных источников; На основе анализа существующих моделей, методов и средств- приобретения; знаний выбран базисный5 метод автоматизированного приобретения знаний; предложенный'; и, реализованный? Г.В: Рыбиной в рамках задачно-ориентировапной методологии построения ИЭС. В контексте выбранного метода вводится и исследуется; понятие распределённого приобретения знаний применительно к> интеграции информации; полученной из источников-знаний различной типологии, с целью- автоматизированного построения-максимально полных и непротиворечивых моделей;проблемных областей:
В соответствии с выбранным; подходом источники , знаний; 1-го' и 2-го типа рассматриваются в диссертации как совмещенные,.поскольку в комбинированном методе приобретения знаний существует совокупность хорошо апробированных технологических" процедур, позволяющих дополнять информацию, полученную от эксперта/экспертов, за; счет информации,, выявленной; из проблемно-ориентированных ЕЯ-текстов (в данном: случае — это обработка протоколов интервьюирования экспертов; сбор: лексики инженера, по знаниям / системного аналитика, анализ сигнальных лексем во входных ЕЯ-текстах и
ДР-)- * . . ■
В диссертации; показано, что поскольку не существует универсальных ; методов, позволяющих решать проблему неполноты баз знаний,- то разработка, и применение технологии приобретении знаний, из баз данных как дополнительного источника знаний; является новым приложением концепций Data Mining и Knowledge Discovery in Databases, для решения этой проблемы.
Также в первом разделе диссертации; приводятся результаты анализа отечественных; и зарубежных программных средств поддержки процессов приобретения знаний. Показано, что несмотря на то, что в настоящее время разработано огромное количество» программных средств, реализующих различные подходы к приобретению знаний, функционирующих как в составе многочисленных оболочек экспертных систем, так и-автономно от других компонентов поддержки разработки экспертных систем, несуществует универсальных методов^ и« методологий, позволяющих эффективно решать проблему автоматизированного приобретения знаний, ориентированных на поддержку процессов приобретения знаний на всех этапах жизненного цикла разработки не только ИЭС, но и традиционных экспертных систем.
В связи- с этим в диссертации делается вывод об актуальности темы исследования, направленного на разработку эффективных методов и. инструментальных программных средств распределенного приобретения знаний из баз данных, повышающих степень автоматизации процессов построения поля знаний* и базы знаний для широкого- класса прикладных ИЭС, в том числе проектируемых на основе задачно-ориентированной методологии. Сформулирована цель и поставлены конкретные задачи диссертационного исследования.
Во втором разделе диссертации рассматриваются теоретические аспекты разработки программных средств распределенного приобретения знаний.
Исследованы особенности распределенного варианта приобретения знаний на основе комбинированного метода приобретения' знаний, обеспечивающего с одной* стороны, интеграцию всех типов источников знаний, с другой, стороны — учет их географической распределенности, а также возможность работы с группами удаленных источников знаний. Описана.обобщенная модель комбинированного метода приобретения-знаний с учетом особенностей перехода от локального варианта приобретения знаний- к распределенному приобретению знаний и акцентом на расширение-множества базовых процедур за счет дополнения процедурами группового приобретения знаний; распределенного приобретения знаний из баз данных; объединения фрагментов полей знаний, полученных из источников знаний разной типологии и др.
Описан предложенный алгоритм распределенного приобретения знаний из баз данных, основанный на построении бинарных деревьев решений и дополненный постобработкой сгенерированных правил, направленной- на оптимизацию структуры и количества выведенных правил.
Впервые предложен метод объединения многомерных объектов, для представления которых в диссертации применяется теория мультимножеств, разработанная известным российским ученым А. Б. Петровским. Данный подход является наиболее удобным для представления объектов, характеризующихся многими разнородными признаками, которые могут быть как количественными, так и качественными или смешанными. В рамках предложенного подхода разработаны оригинальные алгоритмы для объединения наборов типов атрибутов и объединения объектов, полученных из источников знаний различной типологии, основанные на применении теории мультимножеств.
Для объединения наборов правил, полученных из источников знаний различной типологии, в диссертации предложен и реализован метод, основанный на анализе расширенных таблиц решений и построении табчиц мер схожести для посылок и заключений сравниваемых правил.
Для реализации группового приобретения знаний из источников 1-ого типа в диссертации разработан и реализован метод группового приобретения знаний, основанный на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу.
Заключение диссертация на тему "Модели, методы и программные средства распределенного приобретения знаний для автоматизированного построения баз знаний интегрированных экспертных систем"
Выводы по диссертации
В диссертации представлены материалы, посвященные решению актуальной задачи, связанной с автоматизацией приобретения знаний из источников различной типологии для построения баз знаний ИЭС. В центре внимания работы находились проблемы, которые до настоящего времени мало исследовались в отечественной и зарубежной практике приобретения знаний из источников различной типологии, поскольку их решение затрагивает целый ряд смежных задач (приобретение знаний из множества источников различной типологии, групповое приобретение знаний, объединение продукционных правил и т.д.).
1) На основе анализа существующих моделей, методов и средств приобретения знаний выбран базисный метод автоматизированного приобретения знаний, на основе которого предложен новый подход к интеграции информации, полученной из источников знаний различной типологии, и введено понятие «распределённого приобретения» знаний с целью автоматизированного построения максимально полных и непротиворечивых моделей проблемных областей.
2) На основе выполненного анализа существующих моделей, методов и средств приобретения знаний построена модель расширенного для источников знаний различной типологии комбинированного метода приобретения знаний.
3) Разработан метод и алгоритм группового приобретения знаний, основанный на вычислении вероятности принадлежности по мнению группы экспертов каждого рассматриваемого объекта определенному классу, позволяющие получать достаточно полные и непротиворечивые фрагменты ПЗ, путем приобретения знаний' из группы экспертов.
4) Разработан оригинальный алгоритм распределенного приобретения» знаний из баз данных, основанный на построении бинарных деревьев решений, существенным отличием которого от базового алгоритма CART является ориентация на приобретение знаний из множества баз данных и оптимизация структуры и количества выведенных продукционных правил.
5) Разработан метод и алгоритмы объединения продукционных правил, полученных из источников знаний различной типологии, основанный на применении теории мультимножеств, расширенных таблиц решений и таблиц мер схожести правил, строящихся путем вычисления мер схожести Хемминга для посылок и заключений правил. Предложенные метод и алгоритмы объединения продукционных правил позволяют существенно сокращать временные затраты при объединении фрагментов ПЗ, полученных из источников знаний различной типологии.
6) Разработаны инструментальные программные средства приобретения знаний, распределенных по источникам знаний различной типологии, и средства объединения продукционных правил, полученных из различных источников, включенные в состав комплекса АТ-ТЕХНОЛОГИЯ третьего поколения.
7) Проведена экспериментальная апробация предложенных алгоритмов и разработанных инструментальных программных средств на задачах медицинской диагностики и задачах контроля радиационных дозовых нагрузок персонала атомных электростанций РФ.
Предложенные и реализованные в диссертации модели, методы и программные средства распределенного приобретения знаний для автоматизированного построения баз знаний ИЭС позволили существенно сократить временные и финансовые затраты на разработку и своевременное пополнение баз знаний ИЭС, а в некоторых случаях автоматизировать процесс создания и поддержания в актуальном состоянии баз знаний ИЭС.
заключения от |0.6 Г от до до с Слить пра
Пропустить правила
Атрибут первого правила
ОБЪЕКТ! .АТРИБУТІ.
Атрибут второго правила 0БЪЕКТ1АТРИБУТ2 ОБЪЕКТ ¿АТРИБУТІ.
Готово
1100] ІНОСТЬ
Ю;100]
0БЪЕКТ2АТРИБУТ1.
0БЪЕКТ2АТРИБУТ1.
РТР
Схожести
Назад | Далее»
Готово
Рис. 38. Задание контрольной зоны Завершающим этапом реализации ТПП «Приобретение знаний из БД» является верификация итогового фрагмента ПЗ (Рис. 39, 40, 41). гВыявитьг
I .V ^ Все нарушения О
V Значение атрибута, на которое нет ссылок. Г" Недопустимое значение атрибута Г Недостижимое заключение Г Замкнутые правила Г* Лишние ії-условия Г" Избыточные правила Г" Конфликтные правила Г" Пересекающиеся правила
Из^ггочньїе цепочкм прави/і 17 Конфликтные цепочки правил Замкнутые цепочки правил Пересекающиеся цепочки правил
-Критерий охвата для цепочек правил
• Охват правил С Охват ветвлений С Охват условий
ОК
Отмена
Рис. 39. Окно средств верификации. Выбор типа аномалий.
Остальные атрибуты:
Атрибуты для начальной маркеровки сета:
Объективные данные 0смотр.Слизистая глотки Все —>
Объективные данные Пальпация. Болезненность к» Объективные данные ПальпацияТолосовое дрожа! Объективные данные. ПальпацияУвеличение пече)-Объективные данные Перкуссия.Высота перкуторе Объективные данные. Перкуссия.Сила перкугорног Пациент № медицинской карты Пациент. Возраст Пациент Домашний адрес Пациент. О смотр Пациенг.Пол Пациенг.ФИО
Предварительный диагноз.Предварительный диагн Предварительный диагноз.Предваригельный диагн Предварительный диагноз.Предваригельный диагн Предварительный диагноз Предварительный диагн Предварительный диагноз Предварительный диагн Предварительный диагноз.Предваригельный диагн Предварительный диагноз.Предваригельный диагн П редваригельный диагноз П редваригельный диагн Предварительный диагноз.Предварительный диагн П редваригельный диагноз. П редваригельный диагн Предварительный диагноз.Предваригельный диагн Предварительный диагноз.Предваригельный диагн П редваригельный диагноз П редваригельный диагн Предварительный диагноз.Предваригельный диагн <— Все Предварительный диагноз Предварительный диагн ^ I
Анамнез. Наследственность Аллергия
Анамнез. Наследственность.Бронхиальная астма
Анамнез. Наследственность.Муковисцидоз
Анамнез. Перенесенные заболевания и наличие хрониче
Анамнез. Перенесенные заболевания и наличие хрониче
Анамнез. Перенесенные заболевания и наличие хрониче
Анамнез. Эпидемиологический и Аллергический анамне
Жалобы пациетаАллергическая сыпь на коже
Жалобы пациетаБоль в горле
Жалобы пациета Боль в грудной клетки
Жалобы пациетаБоль в левой половине грудной клетки
Жалобы пациетаБоль в правой половине грудной клегк!
Жалобы пациета. Бол> в ухе
Жалобы пациета.Влажность кашля
Жалобы пациета Время гроявления кашля
Жалобы пациета Головная боль
Жалобы пациета.Изменение голоса
Жалобы пациета. Кашель
Жалобы пациета.Наличие хрипов
Жалобы пациега.Нарушение сна
Жалобы пациета. Н асморк
Жалобы пациета. Одышка
Жалобы пациета. Одышка в покое
Жалобы пациета. Одышка при незначительной Физическ
Жалобы пациета. Одышка при Физических нагрузках
Жалобы пациета.Озноб
Жалобы пациета. Откашливание мокроты
Жалобы пациета. О тушение в носу сж
Рис. 40. Окно средств верификации. Настройка алгоритмов обнаружения динамических аномалий.
Вдац 1
Найаены оимбки Выжяено
Ошибок мет ^ • Исправлено
Ш в Избыточные цело«* правил V Конфликтные цепочки правил 2 Замкнутые цепо«*м правил 2
Печать Редактор
И стравить
Д пер.
Начало рмнита1 Острый ринит! Анализ ОстрыйРъмиг и Начало ринита1 Острый ринит1 Анализ ОстрыйРиниг и Начало рмнита1 Острый риниг1 Анализ ОстрыйРиниг и Начало рмыта! Острый рюыт! Анализ ОстрыйРмыт и Начало ринита! Острый ригмг! Анализ ОстрыйРиниг и Начало ришта1 Острый ришт! Анализ 0стрыйР»*1иг и Начало рижпа! Острый рижт! Анализ 0стрь*5Риниг и Начало ринита1 Острый рию<т! Анализ ОстрыйРюмг и Начало ринига1 Острый рижт! Анализ ОстрыйРиниг и Начало рим*та2 Острый риниг1 Анализ ОстрыйРьыит и Начало ринит¿2 Острый ринит 1 Анализ ОстрыйРиниг и Начало ришта2 Острый ригыт1 Анализ ОстрыйРиниг и Начало рижта2 Острый рм»«т! Анализ ОстрыйРиниг и Начало ринит«2 Острый ринит1 Анализ ОстрыйРиниг и Начало ринмта2 Острый р**»«г1 Анализ ОстрыйРиниг и Начало ринита2 Острый римет! Анализ ОстрыйРиниг и Начало рим<та2 Острый ринит1 Анализ ОстрыйРинит и Начало рмжта2 Острый риниг1 Анализ ОстрыйРинмт и Начало ринитаЗ Острый риниг1 Анализ ОстрыЗРтит и Начало ринит аЗ Острый ришг! Анализ ОстрыйРиниг и
Начало ринига1 Дополнительные ринита! Дополнительные с.
Начало ринита! Дополнительные сиксгтома» ринига2 Дополнительные с. Начало ринита! Неспецифические симтгомы ринита1 Неспецифические Начало ринита! Неспецифические симптомы ринит а2 Неспецифические Начало ринита1 Н ©специфические симптомы ринитаЗ Неспецифические Начало ринита! Неспецифические симпго»<ш ринита4 Неспецифические Начало ринита! Неспецифические омтгомы ринита5 Неспецифические Начало ринита! Аллергическая этиология! Начало аллергического р«+ыга Начало ринита! Аллергическая зтиология2 Начало аллергтеского ринита Начало ринит а2 Допо/мигельные сикеттомы ринита! Дополнительные с. Начало ринита2 Дополнительные симптомы ринита2 Дополнительные с. Начало ринита2 Неспецифические симптом« риюта! Неспецифические Начало ринита? Неспецифические симптомы ринит а2 Неспецифические. Начало ри«гга2 Неспецифические с*#-«тгомы рикмтаЗ Неспецифические. Начало ринита2 Неспецифические симптомы ринита* Неспецифические Начало ринит а2 Неспецифические симптомы ринита5 Неспецифические Начало ринига2 Аллергическая этиология! Начало аллергического риота Начало ринит а2 Аллергическая зтиология2 Начало аллергического рижта Начало ринигаЗ Дополнительные симптомы рин*чта1 Дополнителым с Начало ринитаЗ Доло/мительные ое-гтгомы ринит а2 Дополнительные с
Рис. 41. Протокол верификации
При верификации итогового фрагмента ПЗ, полученного при объединения знаний, полученных путем интервьюирования экспертов и приобретения знаний из БД, статических и динамических аномалий выявлено не было.
Библиография Дейнеко, Александр Олегович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Рыбина Г.В. Основы построения интеллектуальных систем. Учебное пособие. М.: Финансы и статистика; ИНФРА-М, 2010.
2. Рыбина Г.В. Теория и технология построения интегрированных экспертных систем. Монография. М.: «Научтехлитиздат», 2008.
3. Люгер Д.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание.: Пер. с англ. М.: Издательский дом «Вильяме», 2003.—320 с.
4. Попов Э.В. Экспертные системы. Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987. - 441 с.
5. Попов Э.В., Фоминых И.Б., Шапот М.Д. Статические и динамические экспертные системы: Учеб. Пособие. М.: Финансы и статистика, 1996. — 320 с.
6. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. — М.:Наука. Физматлит, 1997. — 112 с.
7. Осипов Г.С. Лекции по искусственному интеллекту. М.: КРАСАНД, 2009. - 272 с.
8. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — Питер, 2000.-384 с.
9. Рыбина Г.В., Дейнеко А.О., Нистратов О.В. Автоматизированное построение полных и непротиворечивых баз знаний в интегрированных экспертных системах // Приборы и системы. Управление, контроль, диагностика. 2010. №5. С. 21-24.
10. Рыбина Г.В., Нистратов О.В., Дейнеко А.О. Особенности автоматизации» и интеллектуализации процессов подготовки и переподготовки персонала на промышленных предприятиях // Промышленные АСУ и контроллеры. 2011. № 3. С. 10-14
11. S. М. Easterbrook. Distributed Knowledge Acquisition as a Model for Requirements Elicitation. In Proc. of EKAW-89, pages 530-543, Paris, July 1989.
12. Dieng R., Giboin A., Tourtier P., Corby O., Knowledge Acquisition for Explainable, MultiExpert, Knowledge-Based Design Systems // EKAW. 1992. P. 298-317
13. Кобринский Б.А. Извлечение экспертных знаний: групповой вариант // Новости искусственного интеллекта. 2004. №3. с. 58-66.
14. Подлипский О. К. Построение баз знаний группой экспертов // КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ 2010 Т. 2 № 1 С. 3-11
15. Рыбина Г.В., Калинина Е.А. Применения технологии Data, Mining для автоматизированного построения баз знаний интегрированных экспертных систем // КИИ-2000. Седьмая нац. конф. с международным участием. Тр. конф.-М.: Физмалит, 2000. Т. 1.С.119-127.
16. Рыбина Г.В., Калинина Е.А., Туровец А.А. Применение методов формирования и обработки хранилища данных для извлечения знаний из данных в комплексе АТ-ТЕХНОЛОГИЯ//Научная сессия МИФИ-2002. Сб.науч. трудов.-М.: МИФИ, 2002. Т.З. С.158-159.
17. Рыбина Г.В. Кочубей Е.А. Рысь Д.И. Интеграция различных источников знаний в инструментальном комплексе АТ-ТЕХНОЛОГИЯ // Научная сессия МИФИ-2005. Сборник научных трудов. М.: МИФИ, 2005. Т. 3. С. 185-186.
18. Quinlan J.R. Induction of Decision Trees //Machine Learning Journal. 1986. №1.
19. Sreerama K.Murthy, Simon Kasif, Steven Salzberg. A System for'Induction of Oblique Decision Trees//Journal of Artificial Intelligence Research. 1994. №8.
20. Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия — 3-е изд. — М.: «Диалектика», 2007. — С. 912.
21. Горбань А. Нейроинформатика и ее приложения. //Открытые системы, 1998. №4-5.
22. Фоминых И.Б. Нейрологические модели в интеллектуальных системах.-//Научная сессия МИФИ-2001. Сб. трудов. Т. 3. с.71-73.
23. Michalski R.S:, Bratko I., Kubat M. Machine Learning and Data Mining: Methods and Applications. Jonh Wiley & Sons Ltd, 1996.
24. Aha D: Case-Based Learning Algoi ithms. 1991.
25. Goldberg D.E. Genetic Algorithms in Search, Optimization and Machine Learning. -Addison-Wisley, 1990.
26. D.B. Fogel Speculation on the evolution of intelligence and its possible realization in machine form. — 1990.
27. Sreerama K.Murthy, Simon Kasif, Steven Salzberg. A System for Induction of Oblique Decision Trees. //Journal of Artificial Intelligence Research, 1994. №8.
28. Quinlan,J.R. Simplifying decision trees. //International Journal of Man-Machine Studies, 1987. №27.
29. Breiman L., Fiedman J., Olshen R. and Stone C.J. Classification and Regression Trees. -Belmont, California, Wadsworth Int.Group, 1984.
30. Mingers J. An Empirical Comparison of Pruning Methods for Decision Tree Induction. -//Machine Learning Journal, 1989. №4.
31. Гаити В;, Герке Й., Рамакришнан Р. Добыча данных в сверхбольших базах данных. -//Открытые системы, 1999. №9-10.
32. Shafer J., Agraval R., Mehta M. SPRINT: A Scalable Parallel Classifier for Data Mining. -//Proc.22nd Int'l Conf. "Very barge Databases". Morgan Kaufinann, San Francisco, 1996.
33. Gehrke J., Ramakrishnan R., Ganti V. Rain-Forest a Framework for Fast Decision Tree Construction of Large Datasets. -//Proc.24nd Int'l Conf. "Very Large Databases", Morgan Kaufmann, San Francisco, 1998.
34. Рыбина Г.В., Левин Д.Е. Особенности применения интеллектуального анализа данных в рамках задачно-ориентированной методологии построения интегрированных экспертных систем//Научная сессия МИФИ-2007. Сб.науч. трудов-М.: МИФИ, 2007. Т.З. С.99-100.
35. Breiman L, Friedman J.H., Olshen R.A., Stone C.T. Classification and Regression Trees.-Wadsworth, Belmont, California, 1984.
36. Рыбина Г.В. Автоматизированное рабочее место для построения интегрированных экспертных систем: комплекс АТ-ТЕХНОЛОГИЯ // Новости искусственного интеллекта. 2005. №3. С 6987.
37. Sreerama K.Murthy, Simon Kasif, Steven Salzberg. A System for Induction of Oblique Decision Trees//Journal of Artificial Intelligence Research. 1994. №8.
38. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.-Новосибирск: Издательство института математики, 1999.-17С.
39. Рыбина Г.В., Степанов Л.С., Тавадзе М.В., Бакина А.С., Петриченко Ю.И. Обучающая интегрированная экспертная система для диагностики заболеваний дыхательных путей//Научная сессия МИФИ-2002. Сб.науч. трудов.-М.: МИФИ, 2002. Т.З. С. 138-139.
40. Рыбина Г.В., Смирнов В.В. Планирование процедур верификации баз знаний в интегрированных экспертных системах // Инженерная физика. 2006. № 3.C.53-65.
41. Вагин В.Н., Федотов А.А., Фомина М.В. Методы извлечения и обобщения информации в больших базах данных. //Изв. РАН. Теория и системы управления, 1999. №5. с. 45-59.
42. Adomavicius G., Tuzhilin A. Expert-Driven Validation of Rule-Based User Models in Personalization Applications. Data Mining and Knowledge Discovery Journal, vol. 5, 2001.
43. Lent В., Swami A., Widom J. Clustering association rules. In Proceedings of the 13th International Conference on Data Engineering, 1997, p. 220-231.
44. Wang K., Tay S., Liu B. Interestingness-based interval merger for numeric association rules. In proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, 1998.
45. Toivonen H., Klemettinen M., Ronkainen P., Hatonen К., H. Mannila. Pruning and grouping discovered association rules. In ECML-95 Woikshop on Statistics, Machine Learning, and Knowledge Discovery in Databases, 1995.
46. Дюк B.A., Самойленко А.П. Data Mining: учебный курс СПб.: Питер, 2001
47. Jiawei Н., Kamber М. Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, August 2000.
48. Kohavi R. «А Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection», 1995.
49. Adomavicius G., Tuzhilin A. Expert-Driven Validation of Rule-Based User Models in Personalization Applications. Data Mining and Knowledge Discoveiy Journal, vol. 5, 2001.
50. Петровский А.Б. Новые классы метрических пространств измеримых множеств и мультимножеств в кластерном анализе. // Методы поддержки принятия решений: Т. 12 М.: Едиториал УРСС, 2001. - С. 54-67.
51. Петровский А.Б. Метрические пространства мультимножеств. // Доклады Академии наук. 1995, Т.344, №2, С.175-177.
52. Петровский А.Б. Пространства множеств и мультимножеств. М.: Едиториал УРСС, 2003.-248 с.
53. Anderberg M.R. Cluster Analysis for Applications. New York, Academic Press, 1973.
54. Рыбина Г.В., Смирнов В.В. Методы и алгоритмы верификации баз знаний в интегрированных экспертных системах // Новости искусственного интеллекта.— 20 05, №3. С.7-19.
55. Подлипский О. К. Об одной гипотезе организации экспертного знания // Современные проблемы фундаментальной и прикладной математики. Сборник научных трудов. — М., 2008. —С. 140-155.
56. Davis, R. 1982. TEIRESIAS: Applications of meta-level knowledge. Knowledge-based systems in artificial intelligence. New York: McGraw-Hill:, 1982.
57. Bennet J.S. ROGET: A Knowledge-Based System for Acquiring the Conceptual Structure of a Diagnostic Expert System Journal of Automated Reasoning // Journal of Automated Reasoning, 1985. p. 49-74.
58. Marcus S. SALT: A knowledge acquisition tool for propose-and-revise systems (Carnegie-Mellon University Department of Computer Science Technical Report). Pittsbuigh, PA, 1987, 170p
59. Eshelman, L MOLE: A knowledge acquisition tool that buries certainty factors: International Journal of Man-Machine Studies Vol 29(5) Nov 1988, p. 563-577.
60. Carlsson M. SICStus Prolog User's Manual. Swedish Institute of Computer Science, September 2010. 1357 p.
61. Моргоев В. К. Метод структуризации и извлечение экспертных знаний: имитация консультаций // Человеко-машинные процедуры принятия решений. Тр. ВНИИСИ. № И. М., 1988. С. 44-56.
62. Андриенко Г.Л. Формирование баз знаний в системе ЭСКИЗ // Прикладные системы искусственного интеллекта (Математические исследования, вып. 123) Кишинев: Штиинца, 1991. с.79-91.
63. Boose О. Expertise transfer and complex problems: using AQUINAS as a knowledge-based system. Int. J. Man- Machine studies, 1987, Vol 26, N1. p. 3-28.
64. Diederich, J , Ruhmann, I., May, M., KRITON: Knowledge Acquisition Tools for Expert Systems, edited by John H. Boose and Brian R. Gaines // Knowledge-Based Systems Series, London: Academic Press, 1998. p. 39-64
65. Осипов Г.С. Инструментарий для экспертных систем. Технология SIMER + MIR // Программные продукты и системы, 1990, N3, с.23-32
66. Reinartz Т. Focusing solutions for data mining: analytical studies and experimental results in real world domains/ Tomas Reinartz Berlin; Hiedelberg; New Yourk; Barcelona; Hong Kong; London; Milan; Paris; Singapore; Tpkyo; springer, 1999, C. 156.
67. Mena, J. Data Mining Your Website. Butterworth-Heinemann, Newton, MA, USA, 1999. 169 p.
68. Alex A. Freitas, Simon H. Mining very large databases with parallel processing Springer, 1998. 55 p.
69. Lindner W., Mesiti M. Current trends in database technology: EDBT 2004 Workshops, PhD, Heraklion, Crete, Greece, March 14-18, 2004: revised selected papers Springer, 2004. 351 P
70. Berson A., Smith S., Thearling K. Building data mining applications for CRM McGraw-Hill, 2000.510 р.
71. Engels R. Component-Based User Guidance in Knowledge Discovery and Data Mining, -IOS Press, 1999. 80 p.
72. Кнут Д. Искусство программирования. В 3-х томах. Т.1 М.: Мир, 1986.1. ИНТЕРНЕТ ИСТОЧНИКИ
73. Machine Learning Repository, http://archive.ics.uci.edu/ml/
74. SPSS Answer Tree Capabilities: http://www.aspiresoftwareintl.com/html/spssanswercap.html
-
Похожие работы
- Исследование и разработка моделей, методов и программных средств темпорального вывода в динамических интегрированных экспертных системах
- Разработка и исследование кластерных экспертных систем
- Модели, методы и программные средства для построения интегрированных экспертных систем
- Инструментальные средства проектирования интегрированных систем поддержки принятия решений по ликвидации химических аварий
- Информационная технология построения экспертной системы на основе нейросетевой модели и с распределенным вводом данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность