автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование и разработка системы поддержки принятия решений на основе прецедентов
Автореферат диссертации по теме "Исследование и разработка системы поддержки принятия решений на основе прецедентов"
На правах рукописи УДК 681 518
□озовзэоо
Юдин Валерий Николаевич
ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ ПРЕЦЕДЕНТОВ
Специальность 05 13 11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва 2007
0 7 ИЮН 2007
003063900
Работа выполнена в Институте системного программирования Российской Академии Наук
Научный руководитель
кандидат физико-математических наук Гайсарян Сергей Суренович
Официальные оппоненты
Ведущая организация
доктор физико-математических наук Сметании Юрий Геннадиевич
доктор физико-математических наук Кузюрин Николай Николаевич
Факультет вычислительной математики и кибернетики Московского государственного университета им М В Ломоносова
Защита диссертации состоится << 2007 г в и часов на
заседании диссертационного совета Д 002 087.01 при Институте системного программирования РАН по адресу
109004, г Москва, ул Б Коммунистическая, 25, Институт системного программирования РАН, конференц-зал
С диссертацией можно ознакомиться в библиотеке Института системного программирования РАН
Автореферат разослан ^ 4 2007 г
Ученый секретарь диссертационного совета
кандидат физико-математических наук /Прохоров СП/
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
В диссертации рассматривается задача построения систем поддержки принятия решений на основе прецедентов
В настоящее время разработано множество различных программных систем поддержки принятия решений Наиболее трудными для анализа и принятия решений являются ситуации, чьи характеристики не поддаются формализации, т е выявлению основных факторов, связей между ними и силы влияния одних факторов на другие. В силу недостаточности знаний об объекте и среде, в которой он функционирует, попытки получить точную модель поведения такого объекта не представляются возможными Однако управление такими объектами представляет не меньший интерес и является не менее важным, чем управление хорошо формализуемыми объектами
Вывод, основанный на прецедентах - это метод принятия решений, в котором используются знания о предыдущих ситуациях или случаях (прецедентах) Практика принятия решения, моделирующая человеческие рассуждения, применяется во многих областях человеческой деятельности Это широкий спектр возможных приложений, в том числе управление слабо формализуемыми объектами, медицина, управление предприятием и тд Все это обусловливает актуальность и значимость исследований в этой области
При таком выводе прецедент, если он признан схожим, часто является обоснованием решения Одна из основных проблем при построении подобных систем - выбор меры близости прецедента и текущего случая Новизна предлагаемого подхода, прежде всего, заключается в том, что знания о предметной области, полученные методами добычи данных, предлагается использовать при автоматическом отборе из большой базы прецедентов и при адаптации решения к текущему случаю
Анализ существующих исследований в области интеграции методов добычи данных и вывода по прецедентам выявил крайне незначительное число
готовых подходов в данной области, что во многом связано с новизной проблемы и отсутствием достаточно проработанной теории и практики решения задач Подобный подход востребован и актуален в области систем поддержки принятии решений
Цель работы - разработка новой методики построения и реализация системы поддержки принятия решений на основе интеграции методов добычи знаний и вывода по прецедентам
Для достижения поставленной цели определены следующие основные задачи
• исследовать существующие подходы к разработке систем поддержки принятия решений, сформулировать основные проблемы,
• сформулировать и реализовать на практике новый подход к построению интеллектуальных систем на основе интеграции методов добычи данных и вывода по прецедентам,
• решить проблему выбора наиболее удачных прецедентов на основе новой, нетрадиционной меры близости, в условиях, когда объект исследования не полностью описан и оценивается неоднозначно,
• реализовать программный комплекс для отработки предложенных принципов и методов анализа данных
Методы исследований.
Для решения поставленных задач использовались методы теории принятия решений, распознавания образов, вывода на основе прецедентов, добычи данных
На защиту выносятся следующие основные результаты:
• метод принятия решений, основанный на интеграции методов добычи данных и вывода по прецедентам, где методы добычи данных
используются для автоматического отбора из большой базы прецедентов и адаптации решения,
• метод выявления наиболее удачных прецедентов на основе предложенной локальной контекстно-зависимой метрики, базирующейся на предварительном разбиении базы прецедентов на классы эквивалентности и модифицированном методе распознавания (оценки) объектов в нефиксированном пространстве признаков,
• исследование и разработка системы поддержки принятия решений на основе прецедентов
Все результаты являются новыми
Научная новизна.
В работе предложен новый подход к разработке систем принятия решений, основанный на совместном применении ранее не комбинировавшихся методов добычи данных и вывода по прецедентам, методы добычи данных предлагается использовать при автоматическом отборе из большой базы прецедентов и при адаптации решения к текущему случаю
Практическая ценность работы заключается в том, что на основе нового подхода к созданию систем поддержки принятия решений реализована программная система, которая позволяет принимать решения с большей достоверностью и обоснованностью Практическая значимость диссертации подтверждается актом о внедрении системы поддержки врачебных решений Спутник Врача в Московском областном научно-исследовательском клиническом институте (МОНИКИ)
Достоверность работы подтверждается результатами собственных исследований, а также теоретическим обоснованием использованных и предлагаемых подходов к решению задач
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 5 научных конференциях
• 6-я международная конференция "РАСПОЗНАВАНИЕ ОБРАЗОВ И АНАЛИЗ ИЗОБРАЖЕНИЙ' НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" (РОАИ-б-2002) (октябрь 2002г, Великий Новгород)
• 6-й открытый российско-немецкий семинар "РАСПОЗНАВАНИЕ ОБРАЗОВ И ПОНИМАНИЕ ИЗОБРАЖЕНИЙ" (Поселок Катунь, Республика Алтай, РФ, август 2003г )
• 11-я Всероссийская конференция "Математические методы распознавания образов (ММРО-11)", Пущино, 2003г
• международная научная конференция "Интеллектуализация обработки информации (ИОИ 2004)", Алушта, 2004г
• 12-я Всероссийская конференция "Математические методы распознавания образов (ММРО-12)", Звенигород, 2005г
Система поддержки врачебных решений Спутник Врача внедрена в эксплуатацию в Московском областном научно-исследовательском клиническом институте (МОНИКИ) с весны 2007 года
Результаты, полученные в диссертации, включались в научные отчеты по проектам РФФИ № 03-01-00322, № 06-07-89098, № 06-01-00503
Публикации по теме диссертации.
По материалам диссертации опубликовано 14 работ, в том числе 2 - в ведущих рецензируемых научных журналах
Объем и структура работы.
Диссертация состоит из введения, трех глав, заключения, списка литературы из 96 наименований Общий объем работы -105 страниц
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы, сформулированы цель и задачи исследования, перечисляются основные научные результаты диссертации и ее краткое содержание Приводятся основные положения, выносимые на защиту
В первой главе дан обзор методов и средств добычи данных и вывода по прецедентам в системах поддержки принятия решений, приведена мотивация для интеграции обоих методов и возможные подходы к ней На примере различных систем показано, что интеграция является не только возможной, но и заслуживающей внимания
Показано, что большая часть существующих подходов сосредоточена на одном аспекте такого использования выборе наиболее релевантных прецедентов Приведены два способа оценки близости прецедентов статистический, где для отбора прецедентов используется байесовская сеть, и разбиение множества прецедентов на классы эквивалентности В основе всех подходов к отбору прецедентов лежит тот или иной способ измерения степени близости прецедента и текущего случая В большинстве случаев методы поиска прецедентов сводятся к индукции деревьев решений или к алгоритму "ближайшего соседа"
Основным недостатком таких систем является произвол, который допускают системы при выборе меры близости Кроме того, безосновательным выглядит распространение общей меры близости на выборку данных в целом Что касается адаптации и использования найденного решения, эта задача до сих пор остается недостаточно формализованной и сильно зависящей от предметной области
В главе сформулированы цели и задачи работы, определяющие основное направление диссертационного исследования Они заключаются в разработке нового подхода к отбору прецедентов и адаптации решения, основанному на привлечении дополнительных знаний о предметной области, или фонового
знания, методами добычи данных Автор предлагает уйти от распространения общей меры близости на выборку данных в целом, введя понятие локальной контекстно-зависимой метрики для текущего случая Эта метрика называется локальной, так как она привязывается к текущему случаю, а контекстно-зависимой - потому, что она определяется отношениями между объектами, в частности, полнотой описания текущего случая
Предполагается ввести в базе прецедентов отношения эквивалентности, которые выражают принадлежность оцениваемых объектов к каким-либо классам, рассматриваемым как самостоятельные семантические единицы Классы представляют номинальную шкалу (шкала наименований - не количественная, а строго качественная, она не приписывает классам никаких численно выражаемых атрибутов) Объекты, отнесенные к одному и тому же классу, считаются эквивалентными с точки зрения данной номинальной шкалы Классы (основные понятия в базе прецедентов) могут быть построены различными способами с помощью экспертного знания, на основе обучающей выборки, или путем предварительной кластеризации базы прецедентов Их предлагается использовать как основу для предлагаемой меры близости прецедентов
В задачах классификации предполагается, что в основе описаний объектов лежит набор признаков (атрибутов), общий для объектов всех классов В реальных приложениях это условие часто не выполняется Когда классы и исследуемый объект имеют несовпадающие наборы признаков, при оценке (распознавании) исследуемого объекта часть его признаков по отношению к выбранным классам может отсутствовать Одной из причин этого является недостаток информации в описании объектов Это приводит к тому, что объект может попасть в пересечение классов Следовательно, необходимо разработать подход к оценке объектов в условиях нефиксированного набора признаков
Локальная метрика зависит от полноты описания объекта, от наличия тех или иных признаков Выявление дополнительных признаков может быть
затруднено по причине нехватки средств, времени или оборудования для проведения дополнительных исследований Если знать влияние того или иного признака по его вкладу в близость прецедентов, задача облегчается Ставится следующая задача разработать метод для анализа данных, который позволил бы быстро обнаружить степень влияния признака.
Формулируются основные требования к программной реализации, в которой должны быть отражены основные теоретические результаты диссертационной работы
• рабочее место пользователя системы - персональный компьютер, поэтому она должна предъявлять минимальные требования к аппаратной части по производительности и ресурсам,
• система должна допускать импорт внешних данных из популярных форматов,
• интерфейс системы должен быть максимально приближен к проблемной области, обеспечивая
о удобство восприятия,
о приемлемые средства отображения результатов,
• уровень производительности системы должен обеспечить
о применение ресурсоемких алгоритмов классификации,
о допустимое время отклика,
о эффективную обработку больших объемов данных с нефиксированным набором атрибутов,
• открытость системы (должна существовать возможность для интеграции интерфейса, отражающего специфику поддержки принятия решений в новой области)
Во второй главе описываются основные теоретические результаты работы Вводится понятие локальной контекстно-зависимой метрики Описывается подход к оценке объектов в условиях нефиксированного набора
признаков, на его основе определяется локальная метрика Описывается метод отбора и адаптация прецедентов на основе предлагаемой метрики
Традиционные методы анализа многомерных данных используют представление об общем пространстве признаков для всех объектов и об одинаковой мере, применяемой для оценки их сходства или различия Но в задачах, которые можно объединить под общим названием "формирование знаний", каждый объект следует рассматривать как самостоятельный информационный факт, имеющий уникальные особенности Эти особенности раскрываются путем конструирования для любого объекта собственного пространства признаков и нахождения индивидуальной меры его сходства с другими объектами Это, в свою очередь, требует знаний о предметной области, то есть сведений, выражающих закономерности, определяющие отношения между объектами из баз данных, в которых хранятся прецеденты
Методы добычи данных позволяют сконструировать для каждого объекта индивидуальную локальную метрику, которая обеспечивает ему максимально возможную "сферу действия", которой нельзя достигнуть при построении общего пространства признаков и использовании одинаковой метрики для всех объектов К любому объекту, запечатленному в памяти как целостная многомерная структура, может быть привязан набор различных локальных метрик, каждая из которых оптимизирует его сходства и различия с другими объектами соответственно целям определенной задачи отражения отношений между объектами Так как локальная метрика привязана к объекту, для нее могут не выполняться требования симметричности и неравенства треугольника. Поэтому она, хотя и отражает отношения различия между объектами, всего лишь имеет интерпретацию расстояния, но не может истолковываться как метрика в ее классическом понимании
Конструирование собственного пространства признаков и нахождение индивидуальной меры будем называть локальным преобразованием пространства признаков Если использовать преобразование в классификационный показатель, ранг объектов по степени удаленности
и
заменяется идентификатором своего класса Все объекты, находящиеся в одном классе с рассматриваемым, будут считаться равными ему, а объекты других классов - нет Локальная метрика для текущего объекта превращается в бинарную величину
Как уже указывалось, особенности объекта раифываются в пространстве его признаков На практике это означает, что локальная метрика зависит от степени описания объекта, от наличия тех или иных признаков
Как сами окружающие объекты, так и сформированные о них знания (например, описания классов) могут иметь свое пространство признаков Если ввести понятие контекста, который определяет отношения между объектами и, в частности, степень описания самого объекта, то этот контекст проявляется в проекции классов на пространство признаков объекта Недостаточно описанный объект может попасть в класс, к которому он не принадлежит, только потому, что у него не хватает признака, который дифференцировал бы его от этого класса Очевидно, что чем меньше степень описания объекта, тем больше пересекаются проекции классов в этом пространстве, и тем худшего качества будет привязанная к объекту локальная метрика, которая определяет его сходство (различие) с другими объектами Поэтому к такой метрике, кроме понятия "локальная", мы добавляем понятие "контекстно-зависимая"
Локальная метрика, основанная на классах эквивалентности, не полностью учитывает взаимоотношения между текущим объектом и окружающими (контекст), особенно когда они выражаются через пересечение классов и попадание объекта в область пересечения
Если классы разнесены друг от друга, задача распознавания решается легко Когда объект попадает в область пересечения классов, задача усложняется Такая ситуация может возникать, если у объекта часть признаков по отношению ко всем этим классам отсутствует Проиллюстрируем их на простом примере
Два непересекающихся класса, А я В, описаны в пространстве признаков {Хъ х2} Объект исследования О представлен одним признаком Хъ признак Х2
отсутствует В пространстве признаков {Х^} проекции классов пересекаются, и объект попадает в это пересечение
Назовем классы, в которые попадает объект, дифференциальным рядом объекта Это означает, что классы нужно дифференцировать друг от друга, добавляя значения недостающих признаков объекта Но на практике это не всегда возможно В нашем примере для более точной оценки нужно было бы добавить контрольному объекту значение признака Х2
Опишем формально сущность предложенного метода оценки Пусть объекты исследования задаются значениями признаков хр Назовем этот
набор общим набором признаков Множество объектов разбито на конечное число классов Ор, р=1,ш В пределах класса 0Р объекты представлены набором признаков хя, ,хЛ,гдери ,рпе 1,п Как видно, наборы признаков разных классов могут не совпадать
Представление классов. Обозначим через а'рк (/е 1,п , ке 1,к„ , ре 1,т)
значение у-го признака к-то объекта р-то класса Границы класса р по признаку у составим из пар
{т1Пк 1а1кЪ «««к [в^]}
Совокупность таких пар будем считать описанием класса Геометрическая интерпретация такого описания - многомерный параллелепипед, минимально объемлющий объекты этого класса
Сравнение объекта и классов. При оценке (распознавании) исследуемый объект сравнивается с проекциями классов на подпространство его признаков Это значит, что каждый его признак сравнивается с соответствующим диапазоном в описании класса (ребром параллелепипеда), вне связи с другими признаками
Необходимо определить отношение к классу 0Р исследуемого объекта со, который представлен значениями признаков х^, , где , ап е!7п
Будем считать, что объект и отнесен к классу Пр, если для любого признака *, входящего в набор признаков класса 0Р, т е для всех (¿¡е
[а* ] ^ ^ тахк [вД ]
Обозначим классы, к которым отнесен объект ш, через ра (среди них могут быть как все классы, образующие дифференциальный ряд объекта, так и только часть из них, на которой нужно сконцентрировать внимание) Область в подпространстве признаков объекта, где они пересекаются, можно обозначить совокупностью пар
тахр тшь [а°'к] , ттр тахк [а^ ]
по всем признакам * объекта а>
Рассмотрим теперь другой объект \[>, представленный значениями признаков хп,
Объект ф будет считаться аналогом объекта о на классах ри, если для каждого непустого признака хг, имеется соответствующий непустой признак х , и выполняются условия
тахр ттк [а"р'к ]<*,,.< ттр тахк [аЦ ]
В зависимости от сложности, область пересечения, в которую попадает объект, может включать два, три или более классов Если же в качестве р0, выбрать только один из классов, к которым отнесен объект и, то его аналогами на этом классе будут все объекты класса ра
Когда класс и исследуемый объект имеют несовпадающие наборы признаков, при оценке исследуемого объекта часть его признаков по отношению к выбранному классу может отсутствовать В общем случае, для того, чтобы проводить сравнение в признаковом пространстве объекта, необходимо переопределить заново ограничивающую поверхность всех классов в этом подпространстве (когда, например, эти поверхности представлены гиперсферами) Предлагаемый метод позволяет избежать пересчета при переходе в подпространство признаков исследуемого объекта, т к сравнение
происходит по каждому признаку независимо Кроме того, процедура корректировки описания классов (при повторном обучении или кластеризации) сводится лишь к корректировке соответствующих диапазонов в этих описаниях
Существуют различные пути построения классов эквивалентности (возможно сочетание указанных методов)
• привлечение экспертного знания,
• на основе обучающей выборки,
• предварительная кластеризация
Детальное рассмотрение этих вопросов выходит за рамки данной работы Предположим, что база прецедентов уже подверглась предварительной обработке - кластеризации
При рассмотрении текущего случая точка, соответствующая ему, сравнивается с пространственным расположением полученных кластеров в проекции на пространство его признаков Близкими считаются аналоги -прецеденты, принадлежащие кластеру, в который попадает случай Если он попал в область пересечения кластеров, то близкими к нему будут аналоги из соответствующих классов, также находящиеся в области пересечения В зависимости от сложности пересечения, мы можем разделить все аналога на группы (рис 1) Аналоги, находящиеся в общей с текущим случаем области пересечения, естественно считать более близкими к нему, чем те, что находятся только в одном из кластеров, потому что с тем же набором признаков, что и текущий случай, они подобны ему по принадлежности к понятиям, обозначаемым кластерами Чем больше кластеров, к которым отнесен случай, принято в рассмотрение, тем более высокого ранга аналоги находятся в их общей области пересечения В конечном счете, аналоги самого высокого ранга находятся в области пересечения всех кластеров, образующих дифференциальный ряд текущего случая
Текущий случай
2
1 /
'о
1
2
Рис 1 Степени близости прецедентов (цифрами обозначены расстояния между текущим случаем и прецедентами)
Приведем более строгое определение предлагаемой меры Расстояние между текущим случаем и прецедентом равно разности количества кластеров, куда попал текущий случай, и количества кластеров из этого числа, в котором находится прецедент
Предложенная локальная метрика не является метрикой в классическом понимании, однако она позволяет учитывать контекст взаимоотношений объекта с окружающими, особенно в непосредственной близости от него
Отбор прецедентов. Описанная метрика лишь частично отражает специфику отбора прецедентов В ней используется описание текущего случая и прецедента (входные признаки) При отсутствии точного аналога прецеденты выстраивают по рангу на основе входных признаков При наличии нескольких аналогов одного ранга, их можно сравнивать по другому критерию
Структура прецедента, как указывалось, включает в себя, кроме входных признаков, применяемое решение, а также исход Применение решения влечет за собой изменение состояния текущего случая, которое можно описать выходными признаками При принятии решений требуется определить понятие цели Эта задача в большой степени зависит от предметной области Целью может служить определенное значение признаков, класс значений признаков (например, норма) или показатель их динамики
Для принятия решения важнее всего результат, а именно, то, насколько оно приближает к цели При отборе прецедентов следует учитывать и этот критерий При совпадении входных признаков более близким можно считать прецедент, больше приближающий к цели
Если итог представляет собой один дихотомический признак (успех, неуспех), отфильтровать по нему прецеденты легко В более сложном случае, когда итог неоднозначный, можно для ранжирования прецедентов попробовать применить предложенную метрику, но уже на пространстве выходных признаков
В общем случае, можно представить композиционную меру близости, где прецеденты сравниваются
1 по состоянию до применения решения, или воздействия (входным признакам),
2 по воздействию,
3 по состоянию после воздействия (выходным признакам)
Адаптация решения. После того, как выбран подходящий прецедент, выполняется адаптация - модификация имеющегося в прецеденте решения с целью его оптимизации к текущему случаю Невозможно выработать единый подход к адаптации, так как это в большой степени зависит от предметной области Автоматизация процесса адаптации является очень сложной задачей и практически не поддается обобщению Многие системы только извлекают из базы наиболее релевантные прецеденты, а процесс адаптации оставляют за человеком
Кроме того, часто в ней просто нет необходимости, поскольку выбранные прецеденты содержат достаточно информации для принятия человеком решения Если же адаптация необходима, то для ее проведения можно воспользоваться знаниями о предметной области
Если существуют алгоритмы адаптации, они обычно предполагают наличие зависимости между изменением прецедентов и изменением
содержащихся в них решений Эхо значит, что степень различия между текущим случаем и прецедентом находится в прямой зависимости с необходимостью модифицировать решение
Предложенный метод отбора прецедентов позволяет приблизиться к формализации понятия адаптации Хотя в общем случае проблема остается зависимой от предметной области, подход упрощает эту задачу, так как учитывает фоновое знание
Представим, что описание текущего случая со, представленного значениями признаков хон, (ыь 1,п , где п - общее число
возможных признаков), в этом пространстве признаков находится в пересечении проекций нескольких кластеров Его аналог ф, представленный значениями признаков хщ, (■фи. ,фве Пп ), принадлежит одному из таких кластеров Р^ Набор признаков аналога ф, в общем случае, не совпадает с набором признаков текущего случая и Решение, содержащееся в нём, может влиять на признак фи который отсутствует в со (ф^и ь ,,со„) Первый шаг к адаптации решения - попытаться выявить в и новый признак, соответствующий ф„ без которого решение для ы теряет смысл
Обобщив сказанное, получаем, что при адаптации решения первый шаг должен заключаться в попытке выявления дополнительных признаков, которых у текущего случая не хватает по сравнению с прецедентом
Анализ зависимостей. Как указывалось, особенности объекта раскрываются в собственном пространстве признаков На практике это означает, что локальная метрика зависит от степени полноты описания объекта, от наличия тех или иных признаков Выявление дополнительных признаков на этапе адаптации может быть затруднено из-за нехватки средств, времени или оборудования для проведения дополнительных исследований Если знать влияние того или иного признака по его вкладу в близость прецедентов, задача облегчается несущественные признаки можно не принимать во внимание или выяснять в последнюю очередь
Традиционно используемые при исследовании данных регрессионные методы являются основным средством для исследования числовых зависимостей в данных Задача состоит в построении модели, позволяющей по значениям независимых {входных) переменных получать оценки значений зависимой (целевой) переменной Эти методы основаны на стандартных статистических методиках и включают массивный перебор разнообразных гипотез, требуя значительного времени вычислений Самая распространенная в статистических пакетах классическая модель линейной регрессии требует решения системы линейных уравнений для получения коэффициентов регрессии по каждой входной переменной
Но в большом числе случаев нет нужды искать точную форму функциональной зависимости Необходимо обнаружить само наличие связей и оценить степень этой зависимости
В традиционной задаче выявления кластеров первоначально не известно, по каким критериям можно отличить одну группу от другой Система должна самостоятельно найти, какие признаки важны для кластеризации, и разделить объекты. С другой стороны, при исследовании данных с целью извлечения зависимостей встречается иная постановка задачи Разбиение объектов по целевому признаку уже задано, и необходимо выявить влияние каждого из входных признаков на это разбиение В случае с кластерами целевой признак -принадлежность объекта к кластеру - превращается в номинальную величину, определенную на конечном множестве значений
Предлагаемый метод имеет простую геометрическую интерпретацию влияние признака на принадлежность объекта к тому или иному кластеру определяется тем, насколько разделены кластеры по этому признаку
Для оценки рассмотрим проекции объектов и самих кластеров на этот признак Объект, находящийся в одном из кластеров, может попасть в проекцию либо только своего, либо нескольких кластеров, если эти кластеры пересекаются В общем случае, значимость признака определим как отношение
числа объектов в кластерах к числу попаданий в проекции кластеров на этот признак
Значимость равна 1, когда кластеры разделены, и меньше 1, когда кластеры пересекаются
Предложенный метод предоставляет не полный, но достаточно удобный набор возможностей для быстрого анализа данных. Он позволяет быстро обнаружить наличие связей в данных и получить данные о степени зависимости, хотя и не предоставляет точную форму этой зависимости Как следствие, решается задача отбора наиболее информативных факторов И, наконец, метод удобен для первичного обнаружения зависимости в данных По сравнению с традиционными методами исследования корреляций, используемыми при добыче данных, предложенный метод работает значительно быстрее, особенно с массивами данных большой размерности
В третьей главе были рассмотрены практические вопросы построения системы поддержки принятия решений на основе предложенного метода и приведена их конкретная реализация в интегрированной среде объектно-ориентированного программирования Borland С++ Builder
Предпочтение было отдано системе С++ Builder благодаря широкому набору стандартных средств программирования, позволяющих экономить время на создание различных программных интерфейсов и реализации общих для широкого спектра программных продуктов функций Еще одним преимуществом выбранной системы является высокая эффективность генерируемого компилятором кода, что весьма существенно для данного продукта, тк в нем применяются методы, требующие большого количества вычислений В состав C++Builder включен Borland Database Engine (BDE), обеспечивающий гибкий механизм работы с базами данных, в который входят средства доступа ко всем популярным форматам современных баз данных В связи с тем, что система ориентирована на персональный компьютер, для реализации выбраны локальные базы данных, к которым BDE обеспечивает
доступ Системные таблицы реализованы на файлах Paradox, импорт возможен из файлов dBASE, FoxPro, и Access,
Описаны функции, интерфейс и структура данных системы Приведены экранные снимки, иллюстрирующие результаты анализа данных и примеры поддержки решений в области диагностики и выбора лечения Представленные формы и диаграммы данных позволяют детальнее рассмотреть практические аспекты реализации и использования предложенных в работе результатов
Для реализации представленных в главе 1 требований было выбрано решение, представляющее собой систему, состоящую из двух уровней Оболочки и Классификатора (рис 2) В совокупности эти два уровня представляют собой презентационный и прикладной слои программного обеспечения, предназначенного для системной поддержки выполняемых работ Оболочка (презентационный слой) - уровень системы, реализующий интерфейс с конечным пользователем на уровне лица, принимающего решение (ЛПР), организует управление доступом к данным в терминах прикладной задачи
Пользователь (эксперт, ЛПР)
Интерфейс прикладной задачи
SQL-запроси, записи БД
Рис 2 Архитектура системы
Классификатор (прикладной слой) - уровень, выполняющий основные операции анализа данных классификацию, оценку, прогнозирование и выявление зависимостей в данных Основными сущностями, с которыми оперирует Классификатор, являются класс, объект и признак объекта
Реализованная интерактивная система имеет два варианта инсталляции
1 Спутник Врача - система поддержки принятия врачебных решений Организует доступ к данным в терминах, с которыми привык работать врач пациент, показатель, заболевание, лечение, исход
2 Универсальный Классификатор Система, предназначенная для исследователя, который хочет работать в широком спектре приложений Предоставляет доступ к данным непосредственно к нижнему уровню в терминах класс, объект, признак Реализует набор возможностей для анализа данных Среди выполняемых функций - два основных режима классификации (с обучением, без обучения), операции над объектами (распознавание объекта, поиск аналогов), выявление зависимостей в данных
Для проверки работоспособности в Универсальный Классификатор был введен пример с данными, представ ченными Институтом Биохимической физики РАН В описании 138 объектов, представляющих две группы -ликвидаторов аварии на ЧАЭС и контрольную выборку - до 69 обезличенных признаков
Обработка показала, что группы разделяются с некоторой долей пересечения Был выявлен главный признак, влияющий на принадлежность к группе Впоследствии оказалось, что этот признак - "число хромосомных аберраций", что совпало с предположениями исследователей
Система показала высокую скорость на массивах данных большой размерности Универсальный Классификатор на персональном компьютере с процессором Celeron D 2400 в указанном примере потратил
• на вычисление границ классов -1,5 сек,
• на распознавание контрольной выборки - 20 сек,
• на определение влияния признаков на разделение классов - 3 сек
Второй вариант инсталляции - система поддержки принятия врачебных решений Спутник Врача - организует доступ к данным в терминах, с которыми привык работать врач пациент, показатель, заболевание, лечение, исход Выполняемые функции - сопровождение картотеки пациентов и поиск аналогов при диагностике и выборе лечения
Описана схема взаимодействия двух функциональных уровней -оболочки и Классификатора при обучении системы с помощью реальных и моделируемых больных и схема запроса к системе с передачей показателей больного и отбором прецедентов на основе введенной в главе 2 метрики
Формализован известный пример из медицинских учебников под названием "симптомы острого живота при пневмонии" Текущий случай попадает в дифференциальный ряд заболеваний (в нашей терминологии -пересечение классов), среди которых - прободная язва желудка, спонтанный разрыв пищевода, перитонит Система приводит соответствующие прецеденты Неопытный врач обычно концентрирует внимание на этих случаях Но система привела еще один прецедент с такими же симптомами и диагнозом "базальная плевропневмония" В этой ситуации, чтобы не терять время на ложный диагноз, рекомендуется выяснить, есть ли у больного другие симптомы пневмонии боли в грудной клетке и влажные хрипы в нижних отделах легких
В отличие от большинства экспертных систем, применяемых в медицине, система Спутник Врача не ограничена отдельной областью медицины Она может быть использована врачами специализированных лечебных учреждений, поликлиник, а также для обучения студентов и практикантов Система может оказаться полезной в работе домашнего врача
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
• разработан метод принятия решений, основанный на интеграции методов добычи данных и вывода по прецедентам, где методы добычи данных используются для автоматического отбора из большой базы прецедентов,
• разработан метод выявления наиболее удачных прецедентов на основе модифицированного метода распознавания (оценки) объектов в нефиксированном пространстве признаков и базирующейся на его основе локальной контекстно-зависимой метрики,
• на основе разработанных методов реализован программный комплекс систем поддержки принятия решений с помощью прецедентов
Все результаты являются новыми
Направление дальнейших исследований - применение предложенного подхода для адаптивного управления плохо формализуемыми объектами, когда вместо точного вида математической модели объекта управления доступна только априорная информация о состояниях этого объекта, управляющих воздействиях на него и результатах воздействий В терминах вывода по прецедентам, информация о состоянии объекта - это описание проблемы, а выдача управляющего воздействия есть решение проблемы, тогда результат управляющего воздействия необходимо рассматривать как результат применения решения Предлагаемый подход - смоделировать управление такого рода объектами по прецедентам, основываясь на классах состояний Это направление исследований поддержано грантом РФФИ № 06-07-89098
Большую помощь в понимании специфики работы врача при разработке системы Спутник Врача оказали сотрудники Московского областного научно-исследовательского клинического института им М Ф Владимирского (МОНИКИ) и Научного Центра сердечно-сосудистой хирургии имени АН Бакулева РАМН
Часть системы, касающаяся диагностики, разрабатывалась при поддержке профессора А В Ватазина и доцента кафедры абдоминальной хирургии МОНИКИ В И Семиволкова Его пример симптомов острого живота при пневмонии помог автору прийти к формализации понятия аналога
Сотрудники Центра имени Бакулева Г К Айткожин В К, Исраилова, А Т Беспаев оказывали поддержку при разработке той части системы, которая
касается выбора лечения, в частности, при вводе прецедентов и тестовых примеров
Прототипы систем Классификатор и Спутник Врача демонстрировались на международной конференции РОАИ-6 (Великий Новгород, 2002)
Система Спутник Врача внедрена в эксплуатацию в Московском областном научно-исследовательском клиническом институте (МОНИКИ) с весны 2007 года
Публикации автора по теме диссертации.
1 Г К Айткожин, В К Исраилова, В Н Юдин Применение математического метода распознавания образов к задачам диагностики и прогнозирования в кардиохирургии Аспирант и соискатель, 2001, №3, стр 279-281
2 Г К Айткожин, В К Исраилова, В Н Юдин Применение математического метода распознавания образов при определении хирургической тактики и метода реваскуляризации миокарда у больных ИБС Депонировано ВИНИТИ, № 97-В01, УК №3 2001
3. Юдин В Н Система информационной поддержки врачебных решений, основанная на модифицированном методе динамического кластерного анализа Труды ИСП РАН, т 3,2002, стр 103-118
4 Беспаев AT, Юдин ВН Применение кластерного анализа для поиска аналогий в диагностике и выборе лечения в системе "Спутник Врача" Труды 6-й международной конференции "Распознавание образов и анализ изображений новые информационные технологии" (РОАИ -6-2002), Великий Новгород, 2002, т 2, стр 630-634
5 Юдин В Н Программная система "Спутник Врача" (описание разработки) Труды 6-й международной конференции "Распознавание образов и анализ изображений новые информационные технологии" (РОАИ -6-2002), Великий Новгород, 2002, т. 2, стр 635
6. Y N Yudm, А Т Bespaev. Application of Cluster Analysis for Searching for Analogies in Diagnostics and Choice of Treatment m the "Doctor's Partner" System Pattern Recognition and Image Anaysis, Vol 13, No 2, pp 387-390
7 V N Yudin, Applying Cluster Analysis for Searching for Analogs in Diagnostics and Choice of Treatment Pattern Recognition and Image Anaysis/ Vol 13, No 4, pp 706-713
8 Yudin VN Knowledge Discovery through the Feature Research in the "Universal Classifier" System In Proceedings of The 6th GERMAN-RUSSIAN WORKSHOP "PATTERN RECOGNITION and IMAGE UN D ERST ANDIG'' (OGRW-6-2003) Novosibirsk, 2003 pp 252-254
9 В H Юдин Анализ данных и извлечение знаний с помощью Универсального Классификатора Доклады 11-й Всероссийской конференции "Математические Методы Распознавания Образов (ММРО-11)", Москва, 2003, стр 494-496
10 Юдин В Н Быстрый метод обнаружения зависимостей в больших объемах данных, основанный на гипотезе компактности Труды Международной научной конференции "Интеллектуализация обработки информации ИОИ-2004" Симферополь, 2004, cip 177
11 Юдин В Н Быстрый метод обнаружения зависимостей в больших объемах данных, основанный на гипотезе компактности Искусственный Интеллект, 2'2004 стр 216-219
12 Юдин В Н Мера близости в системе вывода на основе прецедентов Доклады 12-й Всероссийской конференции "Математические Методы Распознавания Образов (ММРО-12)", Москва 2005, стр 241-244
13 JIE Карпов, ВН Юдин Методы добычи данных при построении локальной метрики в системах вывода по прецедентам Институт Системного Пр01раммирования РАН, Препринт, 2006, 42 стр (http //www citforum ru/consultmg/BI/data_mirang/)
14 JI E Карпов, В Н Юдин Адаптивное управление по прецедентам, основанное на классификации состояний управляемых объектов Труды ИСП РАН, 2007, стр 135-155
Подписано в печать 24 05 2007 г Исполнено 25 05 2007 г Печать трафаретная
Заказ № 542 Тираж 50экз
Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш , 36 (495) 975-78-56 www autoreferat ru
Оглавление автор диссертации — кандидата технических наук Юдин, Валерий Николаевич
ВВЕДЕНИЕ.
1 ОБЗОР МЕТОДОВ ВЫВОДА ПО ПРЕЦЕДЕНТАМ И ДОБЫЧИ ДАННЫХ В СИСТЕМАХ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ.
2 ОРГАНИЗАЦИЯ БАЗЫ ПРЕЦЕДЕНТОВ.
2.1 Классификация неполностью описанных объектов.
2.2 Мера близости.
2.3 Отбор прецедентов.
2.4 Адаптация решения.
2.5 Выявление зависимостей.
3 РЕАЛИЗАЦИЯ.
3.1 Выбор структуры системы.
3.2 Выбор средства программирования.
3.3 Инсталляция системы.
3.4 Система «Универсальный Классификатор».
3.5 Система «Спутник Врача».
3.6 Выводы.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Юдин, Валерий Николаевич
В диссертации рассматривается задача построения систем поддержки принятия решений на основе прецедентов.
В настоящее время разработано множество различных программных систем поддержки принятия решений. Наиболее трудными для анализа и принятия решений являются ситуации, чьи характеристики не поддаются формализации, т.е. выявлению основных факторов, связей между ними и силы влияния одних факторов на другие. В силу недостаточности знаний об объекте и среде, в которой он функционирует, попытки получить точную модель поведения такого объекта не представляются возможными. Однако управление такими объектами представляет не меньший интерес и является не менее важным, чем управление хорошо формализуемыми объектами.
Вывод, основанный на прецедентах - это метод принятия решений, в котором используются знания о предыдущих ситуациях или случаях (прецедентах). При таком выводе прецедент, если он признан схожим, часто является обоснованием решения. Практика принятия решения, моделирующая человеческие рассуждения, применяется во многих областях человеческой деятельности. Это широкий спектр возможных приложений, в том числе управление слабо формализуемыми объектами, медицина, управление предприятием и т.д. Все это обусловливает актуальность и значимость исследований в этой области.
Одна из основных проблем при построении подобных систем - выбор наиболее подходящих прецедентов, который упирается в оценку схожести прецедента и текущего случая. Суть предлагаемого подхода - в том, чтобы при отборе прецедентов использовать знания о предметной области (фоновое знание), полученные методами добычи данных. Анализ исследований в области интеграции методов вывода по прецедентам и добычи данных выявил незначительное число готовых решений в данной области. Это связано с новизной проблемы и отсутствием проработанной практики решения подобных задач. Такой подход востребован и актуален в области систем поддержки принятии решений.
Цель работы - разработка методики построения и реализация системы поддержки принятия решений на основе интеграции методов вывода по прецедентам и добычи данных.
Для достижения поставленной цели определены следующие основные задачи:
• сформулировать метод построения интеллектуальных систем на основе интеграции алгоритмов и эвристик вывода по прецедентам и добычи данных,
• решить проблему выбора наиболее подходящих прецедентов в условиях, когда объект исследования не полностью описан и оценивается неоднозначно,
• реализовать программный комплекс на основе предложенных принципов и методов аиализа данных.
На защиту выносятся следующие основные результаты:
• метод выбора наиболее подходящих прецедентов (аналогов) для неполностью описанных объектов, базирующийся на предварительном разбиении базы прецедентов на классы эквивалентности,
• метод принятия решений по прецедентам с использованием методов добычи данных для отбора прецедентов,
• эвристический алгоритм обнаружения зависимостей,
• система поддержки принятия решений на основе прецедентов.
Все результаты являются новыми.
Практическая ценность работы заключается в том, что на основе предложенного подхода реализована программная система поддержки врачебных решений «Спутник Врача», внедренная в Московском областном научно-исследовательском клиническом институте (МОНИКИ).
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 5 научных конференциях:
• 6-я мевдународная конференция "РАСПОЗНАВАНИЕ ОБРАЗОВ И АНАЛИЗ ИЗОБРАЖЕНИЙ: НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" (РОАИ-6-2002), октябрь 2002г., Великий Новгород,
• 6-й открытый российско-немецкий семинар "РАСПОЗНАВАНИЕ ОБРАЗОВ И ПОНИМАНИЕ ИЗОБРАЖЕНИЙ", Поселок Катунь, Республика Алтай, РФ, август 2003г.,
• 11-я Всероссийская конференция "Математические методы распознавания образов (ММРО-11)", Пущино, 2003г.,
• международная научная конференция "Интеллектуализация обработки информации (ИОИ 2004)", Алушта, 2004г.,
• 12-я Всероссийская конференция "Математические методы распознавания образов (ММРО-12)", Звенигород, 2005г.
Система поддержки врачебных решений «Спутник Врача» внедрена в эксплуатацию в Московском Областном Научно-исследовательском Клиническом Институте (МОНИКИ) с весны 2007 года.
Результаты, полученные в диссертации, включались в научные отчеты по проектам РФФИ № 03-01-00322, № 06-07-89098, № 06-01-00503.
Краткое описание следующих глав:
В первой главе дан обзор методов вывода по прецедентам и добычи данных, приведена мотивация для интеграции обоих методов в системах поддержки принятия решений и возможные подходы к ней. На примере различных систем показано, что интеграция является не только возможной, но и заслуживающей внимания.
Во второй главе описывается подход к классификации неполностью описанных объектов, на его основе определяются мера близости и метод отбора прецедентов. Описывается эвристический алгоритм обнаружения зависимостей.
Третья глава посвящена реализации системы поддержки принятия решений в интегрированной среде объектно-ориентированного программирования Borland С++ Builder. Перечислены основные технические требования, предъявляемые к системе. Описываются две инсталляции системы:
Универсальный Классификатор» - система, предназначенная для исследователя и реализующая набор возможностей для анализа данных.
Система поддержки врачебных решений «Спутник Врача» - система вывода по прецедентам. Приведены результаты, которые показали обе системы.
В заключении подведены итоги проделанной работы, сформулированы основные результаты и направления дальнейших исследований.
Заключение диссертация на тему "Исследование и разработка системы поддержки принятия решений на основе прецедентов"
Основные результаты работы.
• разработан метод выбора наиболее подходящих прецедентов (аналогов) для неполностью описанпых объектов, базирующийся на предварительном разбиении базы прецедентов на классы эквивалентности,
• разработан метод принятия решений по прецедентам с использованием методов добычи данных для отбора прецедентов,
• разработан эвристический алгоритм обнаружения зависимостей,
• реализована система поддержки принятия решений на основе прецедентов.
Все результаты являются новыми.
Направление дальнейших исследований - применение предложенного подхода для адаптивного управления плохо формализуемыми объектами, когда вместо точного вида математической модели объекта управления доступна только априорная информация о состояниях этого объекта, управляющих воздействиях на него и результатах воздействий. В терминах вывода по прецедентам, ииформация о состоянии объекта - это описание проблемы, а выдача управляющего воздействия есть решение проблемы, тогда результат управляющего воздействия необходимо рассматривать как результат применения решения. Предлагаемый подход - смоделировать управление такого рода объектами по прецедентам, основываясь на классах состояний. Это направление исследований поддержано грантом РФФИ № 06-07-89098.
Большую помощь в понимании специфики работы врача при разработке системы «Спутник Врача» оказали сотрудники Московского областного научно-исследовательского клинического института им. М.Ф. Владимирского (МОНИКИ) и Научного Центра сердечно-сосудистой хирургии имени А.Н. Бакулева РАМН.
Часть системы, касающаяся диагностики, разрабатывалась при поддержке профессора А.В. Ватазина и доцента кафедры абдоминальной хирургии МОНИКИ В.И. Семиволкова. Его пример симптомов острого живота при пневмонии помог автору прийти к формализации понятия аналога.
Сотрудники Центра имени Бакулева Г.К. Айткожин В.К., Исраилова, А.Т. Беспаев оказывали поддержку при разработке той части системы, которая касается выбора лечения, в частности, при вводе прецедентов и тестовых примеров.
Прототипы систем «Универсальный Классификатор» и «Спутник Врача» демонстрировались на международной конференции РОАИ-6 (Великий Новгород, 2002).
Система «Спутник Врача» внедрена в эксплуатацию в Московском областном научно-исследовательском клиническом институте (МОНИКИ) с весны 2007 года.
ЗАКЛЮЧЕНИЕ
В работе рассмотрены теоретические и практические вопросы построения систем поддержки принятия решений на основе интеграции методов добычи данных и вывода по прецедентам.
Библиография Юдин, Валерий Николаевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Г.К. Айткожин, В.К. Исраилова, В.Н. Юдин. Применение математического метода распознавания образов к задачам диагностики и прогнозирования в кардиохирургии. Аспирант и соискатель, 2001, №3, стр. 279-281.
2. Г.К. Айткожин, В.К. Исраилова, В.Н. Юдин. Применение математического метода распознавания образов при определении хирургической тактики и метода реваскуляризации миокарда у больных ИБС. Депонировано ВИНИТИ, № 97-В01, УК №3. 2001.
3. Юдин В.Н. Система информационной поддержки врачебных решений, основанная па модифицированном методе динамического кластерного анализа. Труды ИСП РАН, т. 3,2002, стр. 103-118.
4. Юдин В.Н. Программная система "Спутник Врача" (описание разработки). Труды 6-й международной конференции "Распознавание образов и анализ изображений: новые информационные технологии" (РОАИ -6-2002), Великий Новгород, 2002, т. 2, стр. 635.
5. V.N. Yudin, А.Т. Bespaev. Application of Cluster Analysis for Searching for Analogies in Diagnostics and Choice of Treatment in the "Doctor's Partner" System. Pattern Recognition and Image Anaysis, Vol 13, No 2, pp 387-390.
6. V.N. Yudin, Applying Cluster Analysis for Searching for Analogs in Diagnostics and Choice of Treatment. Pattern Recognition and Image Anaysis/ Vol 13, No 4, pp 706-713.
7. Yudin V.N., Knowledge Discovery through the Feature Research in the "Universal Classifier" System. In Proceedings of The 6th GERMAN
8. RUSSIAN WORKSHOP "PATTERN RECOGNITION and IMAGE UNDERSTANDIG" (OGRW-6-2003) Novosibirsk, 2003 pp. 252-254.
9. B.H. Юдин, Анализ данных и извлечение знаний с помощью Универсального Классификатора. Доклады 11-й Всероссийской конференции Математические Методы Распознавания Образов (ММРО-11), Москва, 2003, стр. 494-496,.
10. Юдин В.Н. Быстрый метод обнаружения зависимостей в больших объемах данных, основанный на гипотезе компактности. Труды Международной научной конференции Интеллектуализация обработки информации ИОИ-2004. Симферополь 2004, стр. 177.
11. Юдин В.Н. Быстрый метод обнаружения зависимостей в больших объемах данных, основанный на гипотезе компактности. Искусственный Интеллект, 2'2004. стр. 216-219.
12. Юдин В.Н. Мера близости в системе вывода на основе прецедентов. Доклады 12-й Всероссийской конференции "Математические Методы Распознавания Образов (ММРО-12)", Москва, 2005, стр. 241-244.
13. JI. Е. Карпов, В. Н. Юдин. Адаптивное управление по прецедентам, основанное на классификации состояний управляемых объектов. Труды ИСП РАН, 2007, стр. 135-155.
14. Agnar Aamodt and Enric Plaza. "Case-based reasoning: Foundational issues, methodological variations, and system approaches". AI Communications, 7(l):39-59, 1994.
15. Acorn Т., Walden S. (1992). "SMART: Support management cultivated reasoning technology for Compaq customer service". In Proceedings of AAAI92. Cambridge, MA: AAAI Press/MIT Press.
16. Aha D. W. "An Implementation and Experiment with the Nested Generalized Exemplars Algorithm". Technical Report AIC-95-003. Washington, DC: Naval Research Laboratory, Navy Center for Applied Research in Artificial Intelligence, 1995
17. David W. Aha and Li Wu Chang. "Cooperative bayesian and case-based reasoning for solving multiagent planning tasks". Technical report, Navy Center for Applied Research in AI, Naval Research Laboratory, Washington, DC, USA, 1996.
18. Klaus-Dieter Althof, Eric Auriol, Ralph Barlette, and Michel Manago. A Review of Industrial Case-Based Reasoning Tools. AI Intelligence, 1995.
19. Althoff, K.D., Auriol, E., Barletta, R., and Manago, M. "A Review of Industrial Case-based Reasoning Tools". An AI Perspectives Report. Series Editor: Alex Goodall. 1996.
20. Sarabjot Anand, Bryan Scotney, Mee Tan, Sally McClean, David Bell, John Hughes, and Ian Magill. "Designing a kernel for data mining". IEEE Expert, 12(2):65-74, 1997.
21. Anand S. S., Patterson D. W., Hughes J. G., Bell D. A. "Discovering Case Knowledge Using Data Mining". 2nd Pacific-Asia Conference in Knowledge Discovery in Databases (PAKDD-98), Australia, pp25-35, 1998.
22. Anand, S.S., Hughes, J.G., Bell, D.A. and Hamilton, P. "Utilising Censored Neighbours in Prognostication", Workshop on Prognostic Models in
23. Medicine, Eds. Ameen Abu-Hanna and Peter Lucas, Aalborg, (AIMDM'99), Denmark, ppl 5-20,1999.
24. Ashley, K.D. and Rissland, E.L. (1988). "Waiting on Weighting: A Symbolic Least Committment Approach". In Proceedings of the Seventh National Conference on Artificial Intelligence, pp. 239-244.
25. Ashley, Kevin D. (1990). "Modelling Legal Arguments: Reasoning with Cases and Hypotheticals", Cambridge, MIT Press
26. Bareiss, E., Porter, В., and Wier, C. (1988). PROTOS: An Exemplar-based Learning Apprentice. International Journal of Man-Machine Studies, 29: 549561.
27. Brand E., Gerritsen R. "Decision Trees". DBMS. 1998. № 7.
28. Brand E., Gerritsen R. "Naive-Bayes and Nearest Neighbor". DBMS. 1998. №7.
29. John S. Breese and David Heckerman. "Decision-theoretic case-based reasoning". In Proceedings of the Fifth International Workshop on Artificial Intelligence and Statistics, pages 56-63, 1995.
30. Breiman L., Friedman J. H., Olshen R. A., & Stone, C. J. (1984). "Classification and regression trees". Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
31. Alan Bundy, editor. Artificial Intelligence Techniques. Springer Verlag, 1997.
32. Torgeir Dingsoyr "Integration of Data Mining and Case-Based Reasoning" (http://www.idi.ntnu.no/-dingsovr/diploma/)
33. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. "From Data Mining to Knowledge Discoveiy: An Overview". In Advances in Knowledge Discovery and Data Mining (Eds. U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth), Cambridge, Mass: MIT Press, 1996, pp. 1-34.
34. Fuernkranz J. "Separate-and-Conquer Rule Learning". Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-96-25,1996.
35. Gruvaeus, G., & Wainer, H. "Two additions to hierarchical cluster analysis". The British Journal of Mathematical and Statistical Psychology, 25,200-206, 1972.
36. Hammond, K. "A model of case-based planning", in Proceedings of the Fifth National Conference on Artificial Intelligence, 65-95. Menlo Park, Calif.: American Associan for Artificial Intelligence. 1986.
37. Hartigan, J. A. "Clustering algorithms". New York: Wiley, 1975.
38. Hartigan, J. A. & Wong, M. A. "Algorithm 136. A k-means clustering algorithm". Applied Statistics, 28, 100, 1978.
39. Heckerman D., Geiger D., Chickering D. "Learning Bayesian networks: The combination of knowledge and statistical data". Machine Learning. 1995. -20. - P. 197-243.
40. Heckerman D. "Bayesian Networks for Data Mining". Data Mining and Knowledge Discoveiy. 1997. № 1. P. 79-119.
41. Holland J. H. Adaptation in natural and artificial systems. Ann Arbor: University of Michigan Press. 1975.47. http://isl .cemi.rssi.ru/ruswin/index.htm
42. Johnson, S. C. Hierarchical clustering schemes. Psychometrika, 32,241-254, 1967.
43. Hiroaki Kitano, Hideo Shimazu, and Akihiro Shibata. "Case-method: A methodology for building large-scale case-based systems". In Proceedings of the AAAI, pages 303-308,1993.
44. Kolodner, J.L. "Maintaining Organization in a Dynamic Long-term memory". Cognitive Science, 7(4): 243-280, 1983.
45. Kosko, В.: Neural Networks and Fuzzy Systems Prentice Hall, Englewood Cliffs, NJ, 1992.
46. David B. Leake. "Case-Based Reasoning Experiences, Lessons and Future Directions". AAAI/MIT Press, 1996.
47. S. Murthy. "Automatic construction of decision trees from data: A Multi-disciplinary survey", 1997.
48. Nguyen, T, Czerwinski, M., and Lee, D. (1993). "Compaq QUICKSOURCE: Providing the Consumer with the power of AI". AI Magazine, Fall 1993, pp. 50-60.
49. Parsaye K. "Rules are Much More than Decision Trees". The Journal of Data Warehousing. 1997. - № 1.
50. Quinlan J. R. "Generating production rules from decision trees". In Proceedings of the 10th International Joint Conference on Artificial Intelligence (IJCAI-87). Morgan Kaufmann, 1987. - P. 304-307.
51. Quinlan J. R. "C4.5: Programs for Machine Learning". Morgan Kaufmann Publishers, San Mateo, CA, 1993.
52. Andres F. Rodriguez, Sunil Vadera, and L. Enrique Sucar. "A probabilistic model for case-based reasoning". In I Smith and В Faltings, editors, Case-Based Reasoning Research and Development, ICCBR-97. Proceedings, pages 623-632, 1997.
53. Schank, R. (Ed.) (1982). "Dynamic Memory: A Theory of Learning in Computers and People". New York: Cambridge University Press.
54. Schwefel H. P. Numerical optimization of computer models. Chichester: Wiley, 1981.
55. Simpson, R.L. (1985). "A computer model of case-based reasoning in problem solving: An investigation in the domain of dispute mediation". Ph.D. thesis, School of Information and Computer Science, Georgia Institute of Technology.
56. B. Smyth, M. T. Keane. "Remembering to Forget: A Competence-Preserving Case Deletion Policy for Case-Based Reasoning Systems", in Proc. of IJCAI-95, pp 337-382, 1995.
57. Henry Tirri, Perti Kontkanen, and Petri Myllymaksi. "A bayesian framework for case-based reasoning". In I Smith and В Fallings, editors, Advances in Case-Based Reasoning, EWCBR-96, pages 413-427, 1996.
58. Wang, H., Dubitzky, W., Dbntsch, I., Bell, D.A., "A Lattice Machine Approach to Automated Case Base Design: Marrying Lazy and Eager Learning". Proc. 17th Int. Joint Conference on Artificial Intelligence (IJCAI-99), Sweden, 1999.
59. Wettschereck D., Aha D. W., Mohri T. "A Review and Empirical Evaluation of Feature Weighting Methods for a Class of Lazy Learning Algorithms". Artificial Intelligence Review. -11. pp. 273-314.
60. Zadeh, Lotfi. Fuzzy Sets / Information and Control, 8(3), June 1965, pp.338353.
61. Айвазян C.A., Бежаева З.И., Староверов O.B. "Классификация многомерных наблюдений". М.: Статистика, 1974.
62. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин JI. Д. "Прикладная статистика: Классификация и снижение размерности". М.: Финансы и статистика, 1989.
63. Апраушева Н.Н. Новый подход к обнаружению кластеров. М.: ВЦ РАН, 1993.
64. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. М: Наука, 1964
65. С. Арсеньев ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ МЕДИЦИНСКИХ БАЗ ДАННЫХ //wmv.megaputer.ru/download/book.zip
66. Бритов П.А., Липчинский Е.А. Практика построения хранилищ данных: SAS System. Корпоративные системы, № 3, 1999
67. Буров К. Обнаружение знаний в хранилищах данных. Открытые системы, №05-06, 1999
68. Гупал А. М., Пономарев А. А., Цветков А. М. "Об одном методе индуктивного вывода с подрезанием деревьев решений". Кибернетика и системный анализ. 1993. - № 5. - С. 174-178.
69. Норман Дрейпер, Г. Смит. "Прикладной регрессионный анализ. Множественная регрессия". 3-е изд. М. Диалектика, 2007.
70. Дюк В.А. Обработка данных на ПК в примерах. СПб: "Питер", 1997.
71. Дюк В. А., Самойленко А. П. "Data Mining: учебный курс" СПб: "Питер", 2001.-368 с.
72. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1975.
73. Загоруйко Н.Г. Методы распознавание и их применение. М., Сов. Радио, 1972.
74. Загоруйко Н.Г., Ёлкина В.Н., Лбов Г.С. Методы обнаружения эмпирических закономерностей. Новосибирск: Наука, СО, 1985.
75. Загоруйко Н.Г., Елкипа В.Н., Лбов Г.С., Емельянов С.В. Пакет прикладных программ ОТЭКС. Изд. "Финансы и статистика". М., 1986.
76. Загоруйко Н.Г. Гипотезы компактности и 1-компактности в методах анализа данных. Сибирский журнал индустриальной математики. Изд. ИМ СО РАН. Том 1, N1, 1998, С.114-126.
77. М.С. Камеииова. "Корпоративные информационные системы: технологии и решения". Системы Управления Базами Данных № 3/1995 стр. 88-99.
78. М. Киселев, Е. Соломатин. "Средства добычи знаний в бизнесе и финансах". Открытые системы, № 4,1997, с.41-44.
79. Миркин Б.Г. Анализ качественных признаков и структур.- М.: Статистика, 1980.
80. Себестиап Г.С. Процессы принятия решений при распознавании образов. Киев: Техника, 1965.
81. Уоссермен. Ф. "Нейрокомпыотерная техника: Теория и практика". М.: Мир, 1992.-240 с.
82. Цветков А. М. "Разработка алгоритмов индуктивного вывода с использованием деревьев решений". Кибернетика и системный анализ. -1993.-№ 1. с. 174-178.л ( н И л<» Л-' . >•»,<•.-.«!"5t<f.1.—'.л/'-"'. •ч^/.' \ . ,<*s \
83. ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ ПРЕЦЕДЕНТОВ» (специальность 05.13.11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей)
84. Ведущий научный сотрудник отделения планирования и координации НИРк.м.н. О.В.Борисенко
-
Похожие работы
- Интеллектуальная система поддержки принятия решений на основе рассуждений по прецедентам
- Интеллектуальная поддержка инженерного анализа на основе рассуждений по прецедентам
- Система поддержки принятия коллективных решений при управлении взаимодействующими деловыми процессами в промышленности
- Методы и программные средства поиска решения на основе аналогий в интеллектуальных системах поддержки принятия решений
- Нейросетевая экспертная система на основе прецедентов для решения проблем абонентов сотовой сети
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность