автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях
Автореферат диссертации по теме "Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях"
На правах рукописи
Муратова Елена Анатольевна
АЛГОРИТМЫ ФОРМИРОВАНИЯ ЗНАНИЙ ДЛЯ ЭКСПЕРТНЫХ СИСТЕМ В СЛАБОСТРУКТУРИРОВАННЫХ ПРЕДМЕТНЫХ ОБЛАСТЯХ
Специальность: 05.13.01 - Системный анализ, управление и обработка информации (отрасль: информация и информационные системы)
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Томск 2004
Работа выполнена в Томском политехническом университете
Научный руководитель:
Официальные оппоненты:
доктор технических наук, профессор В.А. Кочегуров
доктор технических наук, профессор Ф.П. Тарасенко
кандидат технических наук, доцент В.А. Воловоденко
Ведущая организация: Новосибирский государственный
технический университет, г. Новосибирск
Защита состоится «3 0 » июня 2004 г. в 15— часов на заседании диссертационного совета Д 212.269.06 при Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84, институт «Кибернетический центр» ТПУ.
С диссертацией можно ознакомиться в научно-технической библиотеке Томского политехнического университета по адресу: 634034, г. Томск, ул. Белинского, 53.
Автореферат разослан «24» мая 2004 г.
Ученый секретарь диссертационного совета, к.т.н., доцент
Сонькин М.А.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время исследования в области разработки интеллектуальных систем, выполняющих роль эксперта и консультанта, лежат на магистральном направлении развития компьютерной информационной технологии. При этом бесспорно, актуальными являются проблемы, связанные с формированием и представлением знаний, выявлением закономерностей в знаниях, формированием решающих правил, принятием и обоснованием решений.
На мировом рынке программных продуктов уже давно имеется ряд систем извлечения знаний, большинство из которых предназначено для крупных корпоративных хранилищ информации и, соответственно, работает на мощных компьютерах. В то же время в России и ведущих зарубежных странах активно ведутся разработки программных продуктов, относящихся к классу систем Data Mining, работающих на персональных компьютерах: ОТЭКС, ЭКСНА (Загоруйко Н.Г., Новосибирск); ЭК-САПРАС, ИМСЛОГ (Янковская А.Е., Томск); системы, реализующие ДСМ-метод логического вывода (Финн В.К., Москва); обучающие системы Стефанюка В.Л. (Москва); система интеллектуального анализа данных, распознавания и прогноза (Журавлев ЮМ., Рязанов В.В. и др., Москва); технология для построения экспертных систем и баз знаний SIMER+MIR+KAD (Исследовательский Центр Искусственного Интеллекта, Переяславль-Залесский); PolyAnalyst (Megaputer Intelligence, Россия); инструментальный комплекс АТ-ТЕХНОЛОГИЯ (Рыбина Г.В., Москва); инструментальный пакет CAKEv2.0 (Воинов А., Россия); Универсальный Классификатор (Юдин В.Н., Россия); система Deep Data Diver (Дюк В.А., Асеев М.Г., Санкт-Петербург); система представлений знаний в процессе обучения INSPIRATION (Inspiration Corp, США); система поиска логических закономерностей в данных WIZ-WHY (WizSoft, США); система построения деревьев решений See5/C5.0 (RuleQuest, QUA); система построения классификационных и регрессионных деревьев CART (США); интерактивный дихотомайзер ЮЗ (США) и др.
Изучение существующего многообразия методов исследования данных и систем, реализующих данные методы, подтолкнуло нас к идее интеграции существующих средств в единую информационную технологию формирования знаний.
Направленность на слабоструктурируемые предметные области обусловлена тем, что они характеризуются сложностью и неопределенностью объектов исследования. Предложенный подход даст возможность исследователю получать информацию нового качества в виде логических закономерностей. Выявленные закономерности позволят объяснить существующие факты и процессы в изучаемой предметной области, обнаружить и осмыслить новые знания, а также переосмыслить ранее известные факты, процессы и тенденции, характеризующие формирование, эволюцию и трансформацию сложных систем, сформировать процедуры работы со знаниями, в частности, процедуры рассуждения.
Главной особенностью разработанной информационной технологии является качественно новый метод организации взаимодействия исследователя и компьютера для решения слабоструктурированных задач.
Актуальность тематики диссертационной работы и решаемых в ней задач подтверждается включением исследований по ним в гранты Российского фонда фундаментальных исследований и гранты Российского фонда гуманитарных исследований.
РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА
Целью данной работы является разработка информационной технологии формирования знаний для областей, формализация знаний в которых сопряжена с целым рядом проблем.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Разработать алгоритмы формирования знаний в слабоструктурированных предметных областях.
2. Разработать и программно реализовать алгоритм адаптивного кодирования разнотипной информации.
3. Создать программное обеспечение для конструирования локальных диагностических шкал.
4. Исследовать разработанные алгоритмы и программное обеспечение на экспериментальных данных.
5. Внедрить разработанные алгоритмы и программное обеспечение в практику.
Основные положения, выдвигаемые на защиту:
1. Модифицированный алгоритм адаптивного кодирования разнотипной информации, предназначенный для унификации признакового пространства.
2. Универсальная программа UniData, предназначенная для решения задач кодирования разнотипной информации и конструирования локальных диагностических шкал.
3. Информационная технология формирования знаний, позволяющая выявлять логические закономерности в слабоструктурируемых предметных областях.
Научная новизна и практическая ценность.
- Разработан алгоритм адаптивного кодирования разнотипной информации, являющийся развитием метода адаптивного эвристического кодирования признаков, предложенного Тарановой Н.Н.. Разработанный в диссертационной работе алгоритм позволяет оперировать малыми выборками и эффективно адаптировать пространство признаков к особенностям решаемой задачи.
- Разработана информационная технология формирования знаний в слабоструктурированных предметных областях, объединяющая несколько методов интеллектуального анализа данных с последующей интеграцией выявленных логических закономерностей: метод локальной геометрии, метод ограниченного перебора и построение деревьев решений. Отличительной особенностью данной технологии является представление исследователю возможности выбора в интерактивном режиме различных стратегий для решения прикладных задач.
- Разработана схема нахождения устойчивых логических закономерностей в структуре множества эмпирических фактов, представляющая собой оригинальный подход для интеграции логических моделей.
- Разработана универсальная программа UniData, в состав которой входит алгоритм адаптивного кодирования разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является ее многовариантность (5 вариантов выделения интервалов), востребованность (унификация признакового пространства является неотъемлемой частью подготовки разнотипной информации к дальнейшему анализу) и уникальность.
- Разработана схема выделения информативных диагностических интервалов, реализующая новый подход при конструировании локальных диагностических шкал в медицине, психологии, социологии, психодиагностике и других слабоструктурированных предметных областях.
- Выявлены знания, доказывающие наличие эффекта крайних значений применительно к стилевым качествам интеллекта при решении задач исследования специфики когнитивного обеспечения интеллектуальной деятельности студентов.
Практическая ценность.
Созданное программное обеспечение позволило существенно ускорить и облегчить работу специалистов СПО при формировании унифицировашюго признакового пространства, а также предоставило инструментарий для конструирования локальных диагностических шкал.
Апробация работ.
Основные положения диссертационной работы докладывались и обсуждались на; 5-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии», Самара, 2000; седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000, Переяславль-Залесский, 2000; Международном конгрессе «Искусственный интеллект в XXI веке», Дивноморское, 2001; Международной научной конференции «Интеллектуализация обработки информации (ИОИ-2002)», Алушта, Украина, 2002; IV Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур», Томск, 2002; Международной научно-технической конференции «Компьютерное моделированием - 2003», Санкт-Петербург, 2003; Международной научно-технической конференции «Интеллектуальные системы (IEEE AIS'03)», Дивноморское, 2003.
Публикации.
По результатам выполненных исследований было опубликовано 19 работ, приведенных в основном списке литературы, в том числе 7 статей в рецензируемых журналах, 12 научных публикаций в материалах и трудах международных и Всероссийских конференций. Личный вклад автора в каждой работе составляет 50-80%.
Внедрение результатов.
Результаты работы используются в учебном процессе, и внедрены в лаборатории психологии способностей Института психологии РАН, в отделе социально-психологических исследований информационно-аналитического центра Томского политехнического университета, Томском государственном педагогическом университете, Сибирском государственном медицинском университете.
Связь работы с научными программами, темами, грантами.
Большая часть исследований диссертационной работы проводилась в соответствии с планом работ по фантам: РФФИ, 2003-2005, №03-06-80128, "Моделирование механизмов эффективной интеллектуальной самореализации субъекта"; РГНФ, 20012003, №01-06-00084а, "Выявление специфики когнитивного развития субъектов с высоким и сверхвысоким уровнем интеллекта"; РГНФ, 2002-2004, №02-06-00086а, "Влияние типов социальных взаимодействий на интеллектуальную самореализацию и социальную адаптацию одаренных студентов в технических вузах".
Работа также частично поддержана грантами: РФФИ, 2003, №03-01-06115мас; РФФИ, 2001-2003, №01-01-01050, "Развитие интеллектуальной системы логико-комбинаторного принятия решения, основанной на матричном представлении знаний"; РФФИ, 2000-2003, №01-01-00772, "Логические тесты, логико-вероятностный вывод и средства когнитивной графики в интеллектуальной системе"; РГНФ, 19982000, №98-06-150, "Коммуникативный стресс студента: феноменология, закономерности динамики, факторы трансформации"; РФФИ, 1998, №98-01-00295, "Логико-вероятностные выводы на основе оптимальных смешанных диагностических тестов, частичной импликации и средств когнитивной графики в интеллектуальных системах"; РФФИ, 1998-2000, №98-01-03019, "Разработка математических основ и создание междисциплинарных гибридных интеллектуальных систем выявления закономерностей и оперативной оценки состояния окружающей среды в экологически напряжённых районах Западной Сибири".
Структура и объем диссертации.
Диссертация состоит из введения, четырех глав основного содержания, заключения, изложенных на 182 страницах, содержит 52 рисунка, 27 таблиц, список литературы из 117 наименований и приложения.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертационной работы, проводится краткий анализ научных задач, формулируются цель и задачи исследования, приводятся сведения о практической ценности диссертации и результатах ее внедрения и апробации.
В первой главе рассмотрена классификация интеллектуальных систем по областям их применения. Определено место и значение экспертных систем в задачах анализа данных и получения новых знаний в слабоструктурируемых предметных областях (СПО).
Сформулированы отличительные особенности знаний от данных, и описаны стратегии получения знаний. Приведена обобщающая структура систем искусственного интеллекта и стандартизированная схема, охватывающая выполнение основных этапов создания экспертных систем. Показано, что от того, насколько полно будет изучена структура исходных экспериментальных данных на начальных этапах разработки экспертных систем, сформированы новые знания, которые будут положены в основу базы знаний, подобрана математическая модель представления данных и знаний, — зависит эффективность принимаемых решений экспертной системой.
Определены основные особенности СПО: большая размерность, разнотипность, неопределенность, противоречивость. В данной ситуации для извлечения знаний приходится либо адаптировать существующие методы, либо использовать методы, позволяющие учитывать перечисленные выше особенности, например, оперирующие разнотипными данными, либо использовать методы, опирающиеся на конкретные эмпирические факты.
Для выявления закономерностей при формировании базы знаний достаточно распространены логические методы, предложенные Журавлевым Ю.И., Загоруйко Н.Г., Вайнцвайгом М.Н., Бонгардом М.М., Лбовым Г.С., Гладуном В.П., Финном В.К., Дюком ВА. и др. Одна из основных причин, объясняющая приоритет логиче-
ских методов, это возможность их применения в СПО, где закономерности не могут быть достаточно точно описаны на языке статистических или иных математических моделей.
С учетом особенностей, характерных для слабоструктурированных предметных областей была сформулирована следующая постановка задачи.
Имеется множество объектов 0= {о1,о2,...,о/,...,о№}, описание важных свойств
которых задается набором признаков Х = {х,,х2.....х1.....х,}, измеренных в шкалах
разного типа, принимающих ,/Ц разных значений {гА,-*Л.....>•*./« Каждый объект
описывается своим подмножеством из характеристик размерность признакового пространства).
Множество О разбито в соответствии с заранее известной информацией на к подмножеств или классов таким образом, что
Стоит задача разработать информационную технологию формирования знаний на основе имеющихся исходных данных, включающая в себя алгоритмы:
1. Адаптивный алгоритм кодирования разнотипной информации, позволяющий перейти от множества разнотипных признаков X = } к множеству бинарных признаков есть множество
бинарных признаков, образованного признака, размерность которого опреде-
ляется по формуле
= 1),
где р — исходная размерность признакового пространства, А, — количество градаций или интервалов разбиения для каждого признака, измеренного в порядковой или количественной шкале. Для номинальных признаков И, = 1.
2. Алгоритмы извлечения закономерностей в виде логических решающих правил /{ = {/•,(X),гг(Х),...,г,[Х).....Гц(Х)} , к= 1,2,3."ч где решающее правило г{Х) представляет собой конъюнкцию элементарных событий _
г,{Х) = А,лА, а____лАш,1 = \,к,т£р,
где в качестве элементарных событий рассматриваются отдельные значения какого-либо признака. Например, для признаков, измеренных в номинальных шкалах,
элементарные события _
А, - (х, = а) или А] = х, ф а, J=\,m,i = l,p,
где а- одно из возможных значений признака
В диссертационной работе для получения логических решающих правил применяются такие логические методы как метод ограниченного перебора и деревья решений. А также, в качестве альтернативы логическим методам, используется метод локальной геометрии, переводящий задачу формирования знаний на язык геометрических соотношений между эмпирическими фактами, выступающими целостными информационными единицами и отображаемыми в пространстве признаков. В методе локальной геометрии, прежде чем перейти к выявлению логических закономерностей, требуется выполнить унификацию признакового пространства.
Кроме того, в первой главе показана необходимость участия исследователя во всех этапах анализа данных, для которых априорно не определена описывающая их математическая модель, это позволит усовершенствовать схему принятия того или иного решения в исследуемой области.
Во второй главе проведен анализ методов работы с разнотипными данными, в основе которых лежат различные приемы унификации.
Сложность автоматизированного анализа данных и знаний в СПО заключается в том, что анализируемое многомерное признаковое пространство {х,,х2,...,х,,...,хр}
содержит признаки, измеренные в разных шкалах: количественных по-
рядковых х' (|=1,/), ном ж" н=ал>л> ВДе ^Н^ух (р— общее количество признаков).
В диссертационной работе изучены процедуры перехода от количественных признаков к качественным, которые менее сложны в вычислительном плане и обоснованы теоретически. В основе этого подхода лежит введение вместо каждого исходного признака х, серии признаков где к- число градаций, если
признак измерен в порядковой шкале, и количество интервалов для признака измеренного в количественной шкале, а сами значения признака принимают
только два значения: 0 или 1.
Основными недостатками данного подхода унификации являются увеличение признакового пространства и потеря содержащейся во всей статистике информации. Для того чтобы минимизировать потерю информации разработан алгоритм адаптивного кодирования разнотипной информации, который обеспечивает сохранность априорно имеющихся соотношений в исследуемых данных. Кроме того, разработанный в диссертационной работе алгоритм было предложено использовать для конструирования локальных диагностических шкал, применяемых различными специалистами при принятии решений.
В - основу адаптивного алгоритма кодирования разнотипной информации (ААКРИ) был положен метод адаптивного эвристического кодирования признаков, предложенный Тарановой ИЛ (в дальнейшем будем ссылаться на него как на базовый). На рис. 1 приводится схема разработанного ААКРИ.
Рис. 1. Схема алгоритма адаптивного кодирования разнотипной информации
Для его реализации автору пришлось решить следующие задачи:
1. Разработать процедуру определения типа аппроксимирующей кривой.
2. Выбрать оптимальный метод построения аппроксимирующей кривой.
3. Модифицировать процедуру укрупнения интервалов.
4. Модифицировать алгоритм для работы с выборками небольшого объема.
Задача адаптивного кодирования признаков рассмотрена для случая разделения двух классов А и В. При решении задачи распознавания т классов по одному и тому же набору признаков, формируется т различных кодировочных таблиц. Дальнейшее исследование будет направленно на стыковку кодировочных таблиц, получаемых для различных пар диагностических классов.
На первом этапе реализации алгоритма область изменения значений признака разбивается на равные по длине начальные интервалы, число которых определяется по формуле:
^ = ^имх ^шд О)
где Хтяю Хщщ — максимальное и минимальное значение в исследуемой выборке, / — точность измерения признака (/— 10у, где V — количество знаков после запятой), I— номер итерации. Итеративная процедура вычисления величины К продолжается до тех пор, пока не устранятся все ненулевые интервалы (т.е. интервалы с 1гулевой частотой). Однако при тестировании базового метода на задачах психодиагностики, которым часто свойственны относительно малые объемы выборок (менее 50 объектов исследования) был выявлен существенный недостаток на данном этапе: требование ненулевых первоначальных интервалов приводило к объединению высокоинформативных интервалов с малоинформативными. Поэтому автором предложено останавливать итеративную процедуру, когда количество начальных интервалов не станет равным 8-12, при этом среди них могут присутствовать интервалы с нулевыми частотами.
Выбор данного количества равномерных интервалов обусловлен следующими соображениями. При неоднородных распределениях (что свойственно слабострукту-рируемым предметным областям) нулевые частоты в крайних интервалах неизбежны. Чем мельче интервалы, и чем меньше наблюдений попадает в каждый интервал, тем больше выражены случайные выбросы. Уменьшение влияния случайных выбросов на величину различий двух классов и является одной из целей укрупнения интервалов. По мере укрупнения интервалов все большее значение приобретает правильный выбор границ между ними. Оптимальными были бы такие границы укрупненных интервалов, которые при минимальном числе интервалов максимально сохраняли бы имеющиеся различия.
На втором этапе осуществляется устранение нулевых частот в концевых интервалах. Нулевые интервалы объединяются с близлежащими ненулевыми интервалами. Естественно, что в одном интервале должно быть не менее 1 объекта наблюдения. Такое разбиение позволяет минимизировать потерю информации при объединении интервалов с нулевыми частотами на концах разбиения.
На третьем этапе для каждого интервала подсчитывается величина
равная отношению относительных частот встречаемости объектов диагностируемых классов, тдс/1,/2 — частота встречаемости объектов в классе Л и В, И| — количество объектов в первом классе, Пг~ количество объектов во втором классе.
На четвертом этапе с целью отображения исследуемой зависимости и сглаживания возможных выбросов полученное множество значений {Р}={Р1, Р2, Рк} аппроксимируется полиномом Чебышева дискретной переменной второго порядка с применением метода наименьших квадратов с ортогональным базисом.
Аппроксимирующая функция имеет следующий вид:
<КР)=2>лС)='МП+сМР)+сМР).
(2)
Для построения ортогональных полиномов Чебышева дискретной переменной воспользуемся двухслойной рекуррентной формулой, по которой можно вычислить полином любой степени через начальные полиномы:
ЛР) = (Р-аМР)-Ьм1„(Р),
где
Также принято полагать что /„,(/') = 0, а /0(/') = 1.
Коэффициенты с* линейной комбинации (2) определяются по формуле:
где - значения в узловых точках, в качестве которых фигурируют
Использование базиса в виде ортогональных полиномов Чебышева дискретной переменной позволило отказаться от формирования матрицы Грама и решения системы нормальных уравнений методом Гаусса при вычислении коэффициентов полинома, за счет чего удалось сократить время вычислений, что является бесспорным преимуществом при разработке программного обеспечения.
На пятом этапе автором диссертационной работы предложено проверять различие полученных распределений по непараметрическому критерию Колмогорова-Смирнова, который не требует привлечения дополнительных вычислительных процедур, поскольку основан на оперировании относительными частотами
гл _ / I
Г, — '»
п, и,
где - частота попаданий объектов в выделенные интервалы для класса А и
класса В,/!/, Щ- количество наблюдений в рассматриваемых классах, К - количество интервалов. Далее вычисляются накопленные относительные частоты для класса А и класса В:
Следующим шагом вычисляются разности между накопленными
относительными частотами в каждом интервале и, далее, определяется наибольшая абсолютная разность (Ипт.
На последнем этапе подсчитывается эмпирическое значение критерия Колмогорова-Смирнова по формуле:
где И], П2~ количество наблюдений в классе А и В. Полученное значение сравнивается с критическими значениями А. Для 5% уровня значимости ¿о&=1,36, а для 1% уровня значимости различия между распределениями ста-
тистически достоверны.
В случае, если различие в распределениях статистически не значимо, то признак в контексте решаемой задачи не имеет информативных диагностических интервалов и разбивается равномерно на количество интервалов К, вычисляемое по формуле (1) или задаваемое экспертом.
На шестом этапе по параметрам аппроксимирующей параболы определяется-тип распределения отношения относительных частот встречаемости объектов в выделенных интервалах. Возможны следующие варианты: тип I — монотонно убывающая функция, тип П - монотонно возрастающая функция, тип Ш - функция, имеющая один минимум и тип ГУ—функция, имеющая один максимум;
На седьмом этапе осуществляется укрупнение начальных интервалов. Для типа Г и типа II укрупнение производится путем сравнения отношения частот встречаемости Р между собой. Если нарушается условие монотонности убывания (возрастания) отношения относительных частот встречаемости объектов в классах, то соответствующие интервалы объединяются. Для Ш и IV типа находится и укрупняется интервал перелома. До и после перелома процедура укрупнения интервалов аналогична процедуре укрупнения для I и П типа. В случае, если укрупненных неравномерных интервалов оказалось больше числа, задаваемого экспертом, то объединяются близлежащие малоинформативные интервалы.
Для выделенных интервалов и признака в целом вычисляется информативность с использованием информационной меры Кульбака. Выбор в пользу данной меры был сделан в силу того, что она также не требует, во-первых, производить никаких специальных преобразований и трудоемких вычислений, оперируя относительными частотами, а во-вторых, знания законов, которым подчинены эмпирические распределения, и пригодна при любой форме распределений.
Информационная мера для каждого интервала вычисляется по формуле:
где Р, (Л),^ (5)- частота в выделенных интервалах соответственно в классе Аив классе В.
Общая информативность признака по Кульбаку вычисляется по формуле
где К— количество интервалов разбиения.
Вычисление информативности позволило количественно оценивать вклад ка-
Л = 101е£££<),5(/> (А)-Р, (В)), (/ = 1,К)
ы
ждого признака в общее решение диагностической задачи. Кроме того, по динамике изменения информативности определяется наиболее оптимальное разбиение области значений признака на интервалы, тем самым, минимизируя потерю информации при унификации признакового пространства. Например, исследователь считает, что полученное неравномерное разбиение следует еще укрупнить. Сравнивая информативность признака до и после укрупнения оценивается необходимость дальнейшего укрупнения интервалов.
На последнем этапе полученные укрупненные интервалы преобразуются в серию бинарных признаков.
Результатом работы алгоритма является новая таблица экспериментальных данных ТЭД*, представленная унифицированными признаками. Такая ТЭД* позволяет расширить границы применения интеллектуального анализа данных, что особенно важно для слабоструктурировапных и междисциплинарных областей (например, использовать тестовые методы распознавания).
В диссертационной работе предложено в качестве альтернативного подхода традиционным методам конструирования диагностических шкал использовать разработанный алгоритм адаптивного кодирования разнотипной информации, который пе требует формирования выборки большого объема, что не всегда осуществимо в силу специфичности группы исследуемых, и нормальности распределения значений исследуемого показателя. Так же хорошо известен тот факт, что тестовых норм, действительных для всех, не существует. Любые диагностические нормы, как бы они не выражались, всегда получены для определенной группы лиц. Вследствие этого их нельзя считать универсальными или постоянными. Использование разработанной схемы, представленной на рис. 2 и реализованной в программе UniData, позволяет исследователю конструировать локальные диагностические шкапы с учетом специфичности исследуемых данных.
В третьей главе описывается разработанная автором информационная технология (ИГ) формирования знаний в СПО. Суть информационной технологии формирования знаний составляет последовательный интеллектуальный анализ данных на первом этапе - методом локальной геометрии, на втором этапе - методом ограниченного перебора, на третьем этапе — посредством построения деревьев решений, и на заключительном этапе - выявление устойчивых логических закономерностей в изучаемой предметной области относительно выбранных методов исследования.
Выбранные методы не являются обязательными. Кроме того, необязательно последовательное прохождение первых трех этапов. Это может быть любая комбинация из двух этапов, или к предложенным методам могут быть добавлены другие методы, результатом которых являются логические модели (например, метод случайного поиска с адаптацией, метод ветвей и границ и др.), поскольку заключительный этап работает только с конъюнкциями элементарных событий.
Каждый из выбранных методов имеет свою специфику, и позволяет по-разному "взглянуть" на структуру исходных данных. Отличия в специфике применяемых методов будут тем заметнее, чем с более сложными и разнообразными объектами приходится иметь дело исследователю. Ниже дается описание выбранных методов.
Рис. 2. Схема построения локальных диагностических шкал
В отличив от традиционных методов анализа многомерных данных, опирающихся на геометрическую метафору, и использующих представление об общем пространстве признаков для всех объектов и об одинаковой мере, применяемой для оценки их сходства или различия, в методе локальной геометрии каждый отдельно взятый объект представляет собой самостоятельный информационный факт, имеющий важные уникальные особенности, которые можно раскрыть, если сконструировать для него собственное пространство признаков и найти индивидуальную меру, определяющую иерархию его сходства (различия) с другими объектами, что особенно важно при исследовании СПО.
Построение локального пространства осуществляется путем перехода к новой векторной переменной - выбранный объект для изучения, называе-
мый также центральным.
После такого преобразования центральный объект располагается в начале координат локального пространства. Определение меры его сходства/различия с другими объектами позволяет раскрыть присущие ему полезные свойства для решения конкретной диагностической задачи. Конструирование собственного пространства признаков и нахождение индивидуальной меры предложено В.А. Дюком называть
локальным преобразованием пространства признаков.
Задача локального преобразования пространства признаков формулируется как задача определения локальной взвешенной метрики того или иного ти-
па, обеспечивающей оптимальную иерархию близостей объектов относи-
тельно объекта Для дихотомических признаков может быть использована взвешенная метрика Хэмминга
(3)
— весовой вектор с неотрицательным элементами, так как различие объектов по какому-либо признаку должно обязательно приводить к увеличению расстояния либо вообще не сказываться на изменении расстояния
Тогда, если для некоторого подмножества объектов выполняется условие неотрицательности весовых коэффициентов, то на этом подмножестве истинно следующее логическое высказывание:
(*Л = *„)л...л(хл =ДГл),
где Л (/ = 1,4) - индексы при ненулевых компонентах весового вектора w.
Для нахождения правой части формулы (3) в диссертационной работе использовался метод множественной регрессии, реализованный в прикладном статистическом пакете Statgгaphics.
Поскольку в СПО исходные данные обладают рядом отмеченных выше особенностей, то диссертантом было предложено на начальных этапах (1 и 2 этап) конструирования логических правил проводить визуальное изучение геометрической структуры исходных и преобразованных данных, а перевод количественных и порядковых признаков в серию бинарных осуществлять посредством универсальной программы UniData. Такой подход дает возможность проводить более качественный анализ данных по сравнению с базовым методом, предложенного В А. Дюком.
Использование данного метода на первом этапе технологии позволит исследователю всесторонне изучить структуру исходных данных, осуществляя последующие действия с большим пониманием изучаемой проблемы.
Кроме того, как и клинический подход, метод локальной геометрии представляет собой ценность там, где недостаточно развиты теоретические представления об изучаемых феноменах, находящие выражение в виде правил обращения с атрибутами объектов, и отражающие осмысленные закономерности в структуре экспериментальных данных.
В качестве инструментария для построения логических правил методом ограниченного перебора была выбрана система WizWhy. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации (комбинация есть конъюнкция элементарных событий, представляющих собой попадание значений признаков в определенные интервалы) для классификации, распознавания и прогнозирования. Максимальное число комбинаций логических высказываний в данной системе равно 6.
Деревья решений являются достаточно распространенным в настоящее время подходом к выявлению и визуализации логических закономерностей в данных. В качестве инструментария для построения деревьев решений выбрана система See5.
Корню дерева соответствует самый информативный характеристический признак. Далее, в вершинах располагаются признаки в порядке уменьшения значений прироста информативности. В качестве меры информативности узла используется энтропия.
Имеется множество Т объектов, разделенных по значениям классифицирующего признака на полные непересекающиеся классы (классифицирующий признак может принимать к возможных значений), тогда информация, необходимая для идентификации класса, есть
Що(Г) = 1(Р),
где Р — вероятность распределения классов (С,,С2,.. ,СЛ)'.
а. 1(Р) — энтропия, вычисляемая по формуле:
1(Р) = -(р\ *1оф\) +р2*1оё(р2) +... +рк*1офк)).
Информация, необходимая для идентификации класса при условии, что нам известно значение разделятотттего (хяпяктепистическотгЛ тттшзнакаЖ считается как;
-(\т I V
где Т, — одно из возможных значений разделяющего признака Х,т — количество значений разделяющего признака, - информация для каждого значения разделяющего признака.
Тогда величина, характеризующая прирост информативности Сагп(Х, Т) может быть определена как:
ватРС 1) = 1ф(Г) -1ф(Х, Т).
Прирост информативности представляет собой разницу между информацией, необходимой для идентификации класса и информацией, необходимой для идентификации класса при условии, что нам известно значение признака X. При использовании обучающей выборки с неполным набором информации вычисление коэффициента прироста признака производится только по признакам с определенными значениями.
Понятие «прирост информации» необходимо для ранжирования характеризующих признаков при построении дерева решений. Каждый новый узел, включаемый в дерево решений, располагается так, что он приносит наивысший прирост информативности из всех разделяющих признаков, еще не включенных в путь к корню.
Результаты классификации и прогнозирования по каждому построенному дереву будут различаться. Для построения коллективной классификации и прогнозирования используется метод голосования, т.е. объекту приписывается тот класс, которому отдает предпочтение большинство деревьев из набора.
Четвертый этап является самым важным в представляемой информационной технологии формирования знаний. На этом этапе желательно привлечь к работе нескольких экспертов.
Стоит еще раз отметить, что данная технология разрабатывалась для СПО. В таких областях изучаемая совокупность данных имеет много непредсказуемого, хаотического и неопределенного. Поэтому главной целью исследователя является выяв-
ление имеющихся в данных устойчивых, повторяющихся закономерностей, которые помогут решительно ускорить процесс человеческого познания и решение практических проблем.
В разработанной ИТ реализована возможность предоставить исследователю из получаемой совокупности логических закономерностей извлечь только ту информацию, которая бы обеспечивала валидность, непротиворечивость и не была избыточной. Что касается полноты описания, то, едва ли, это условие будет выполнено, так как невозможно учесть все факторы, влияющие на изучаемые процессы и явления. Но одним из достоинств разработанной технологии и является то, что на этапах построения логических закономерностей, происходит "погружение" в экспериментальный материал, рождаются новые гипотезы, выявляются новые факты, которые следует доказать или опровергнуть.
Проиллюстрируем определение устойчивой закономерности на формальных моделях состоящих, например, из разных букв, каждая из которых будет обозначать одно элементарное событие. Возьмем реальный случай, предусматривающий наличие в модели не только разных, но и одинаковых элементов: АВСА.
Общее число элементов в этой системе равняется четырем (n=4), три из которых разные - А, В и С (m=3). Примем наиболее строгое определение устойчивости: п, т = Const, то есть будем считать устойчивыми не только такие закономерности, в которых не происходит качественных изменений (полное исчезновение Л, В или С, появление D), но и количественных - количество событий, входящих в модель должно быть постоянным.
К менее устойчивым закономерностям будем относить, такие модели, в которых происходят незначительные качественные изменения, а именно при n>2, m уменьшается или увеличивается на 1. Тогда в конечную совокупность правил, включается правило, обладающее большим процентом доверительной вероятности.
Что касается, моделей, с количеством элементов l<n<4, состав которых дублируется в моделях с n>3, качественный состав которых не отличается, например, ЛВС и DACB, то предпочтение отдается в соответствии с семантической и прагматической адекватностью, а также во внимание принимается доверительная вероятность правила.
На рис. 3 представлена схема, на которой приведена последовательность действий при обнаружении устойчивых закономерностей.
В четвертой главе дано описание универсальной программы UniData, в состав которой входит алгоритм адаптивного кодирования разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Данная программа предназначена для осуществления перехода от разнотипного представления данных к однотипному и конструирования локальных диагностических шкал.
Программа реализована в среде визуального программирования Delphi 5.0 и функционирует под операционной системой Windows 98/NT/2000.
В данной главе па примере решения задачи прогнозирования адаптации студентов к обучению в вузе показано, что разработанный автором диссертации алгоритм адаптивного кодирования разнотипной информации позволяет улучшать результаты классификации и прогнозирования по сравнению с экспертным выделением
информативных интервалов.
На примере исследования специфики когнитивного обеспечения интеллектуальной деятельности студентов показано, что разработанная автором диссертации информационная технология формирования знаний является эффективным средством при выявлении скрытых закономерностей. Доказало наличие определенного симптомокомлекса интеллектуальных качеств, которые благоприятствуют реальным интеллектуальным достижениям человека в профессионально ориентированных видах научно-технической деятельности. Кроме того доказано существование эффекта крайних значений применительно к стилевым качествам интеллекта.
Продемонстрированы возможности универсальной программы UniData при выделении информативных диагностических диапазонов, с помощью которых доказана необходимость проведения тех ли иных корректирующих реабилитационных мероприятий у женщин в период беременности, что обеспечивает первичную профилактику перинатальной заболеваемости у детей.
Основные результаты работы:
1. Предложен эффективный по сравнению с существующим способ кодирования разнотипной информации. Новизна и эффективность предложенного алгорит-
ма заключается в возможности работать с малыми выборками, что особенно актуально для СПО.
2. Разработана информационная технология формирования знаний в СПО, объединяющая несколько методов интеллектуального анализа данных с последующей интеграцией выявленных логических закономерностей. Отличительной особенностью данной технологии является представление исследователю возможности выбора в интерактивном режиме различных стратегий для решения прикладных задач.
3. Усовершенствован метод локальной геометрии за счет проведения на начальных этапах конструирования логических правил визуального анализа геометрической структуры исходных и преобразованных данных, а преобразование количественных и порядковых признаков в серию бинарных признаков осуществлять на базе универсальной программы UniData. Такой подход дает возможность проводить более качественный анализ данных по сравнению с исходным.
4. Разработана схема нахождения устойчивых логических закономерностей (относительно выбранных методов решения), позволяющая проводить интеграцию логических моделей и исключать ложные закономерности, которые могут проявлять себя в силу имеющихся особенностей исследуемых данных в СПО.
5. Разработана универсальная программа UniData, в состав которой входит алгоритм адаптивного кодирования разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является се многовариантность (5 вариантов выделения интервалов), востребованность (унификация признакового пространства является неотъемлемой частью подготовки разнотипной информации к дальнейшему анализу) и уникальность (нет подобных аналогов).
6. На базе программы UniData разработана схема выделения информативных диагностических интервалов, реализующая адаптивный подход при конструировании локальных диагностических шкал.
7. На основе предложенной автором информационной технологии формирования знаний разработан цикл лабораторных работ по теме «Формирование знаний в экспертных системах», которые используются в учебном процессе по дисциплине «Базы данных и экспертные системы» для студентов 4 курса направления «Прикладная математика и информатика» на кафедре прикладной математики факультета автоматики и вычислительной техники.
Основное содержание диссертации опубликовано в следующих работах:
1. Берестнева ОТ., Кострикина КС, Муратова Е.А. Применение современных информационных технологий в задачах психологии интеллекта // Труды Международных научно-технических конференций «Интеллектуальные системы (IEEE A1S'03)» и «Интеллектуальные САПР» (CAD-2003). T.2.- М.: Идд-во «Физматлит», 2003.- С.236-240.
2. Берестнева О. Г., Муратова Е.А. Компьютерные технологии в психологическом эксперименте // Материалы III международной научно-практической конференции «Компьютерные технологии в науке, производстве, социологических и психологических процессах».— Новочеркасск: ООО НПО «Темп», 2002.-С. 23-25.
3. Берестнева О.Г., Муратова Е.А., Кострики на И. С. Извлечение знаний в задачах психологам интеллекта с использованием системы WizWhy // Тезисы международной конференции «Математика. Компьютеры, образование». Пущено, 20-25 января 2003. - М.: Изд-во «РиХД».- С. 13.
4. Берестнева О.Г., Муратова ЕА., Кострикина И.С. Компьютерное моделирование специфики развития познавательных способностей // Труды Международной научно-технической конференции «Компьютерное моделирование 2003».- СПб.: «Нестор», 2003. - С.396-398.
5 Берестнева О Г, Муратова ЕА, Янковская А.Е. Эффективный алгоритм адаптивного кодирования разнотипной информации // Искусственный интеллект в XXI веке Труды Международного конгресса. Т 1 - М Физматлит, 2001 -С 155-167
6 Информационная система мониторинга здоровья студентов / О Г Берестнева, В Т Иванов, Л И. Иванкина, К.А. Шаропин, ЕА. Муратова // Вестник Томского государственного университета.- 2002 -№1(11)-С 196-201
7 Математическое моделирование влияния психокоррекции избыточного веса на организм человека / О Г Берестнева, ЕА. Муратова, А.В Рогов, М А. Гаврилов // Актуальные проблемы информатики. Сборник трудов VI Международной научной конференции - Минск, 1998 - С 250-256
8 Муратова Е А Алгоритм адаптивного кодирования количественных признаков // Современное развитие и применение математических методов Сб статей студентов и аспирантов - Томск Изд-во Института оптики атмосферы СО РАН, 2001 - С 46-51
9 Муратова ЕА. Интеллектуальная система формирования базы знаний для задач психологической и медицинской диагностики // VI Общероссийская межвузовская конференция студентов, аспирантов и молодых ученых "Наука и образование" (15-20 апреля, 2002 г ) Материалы конференции В 5 т ТЗ "Педагогика и психология" -Томск Изд-воТГРУ,2003 -С 257-261
10 Муратова ЕА., Берестнева О Г. Выявление скрытых закономерностей в социально-психологических исследованиях // Известия ТПУ - 2003 - Т 306 - №3 - С 97-102
11 Муратова ЕА., Берестнева О Г, Янковская А.Е Анализ структуры многомерных данных методом локальной геометрии // Известия ТПУ- 2003 - Т3 0 6-№3-С19-23
12 Технология конструирования диагностических решений в слабоструктурируемых проблемных областях / Р В Аметов, О Г Берестнева, ЕА. Муратова, А.Е Янковская // Труды Международных научно-технических конференций «Интеллектуальные системы (ШЕЕ AIS'03)» и «Интеллектуальные САПР» (CAD-2003) - М. Изд-во «Физматлит», 2003 Т 1 - С 267-272,
13 Янковская А.Е, Берестнева О Г Муратова ЕА. Адаптивное преобразование признаков в задачах распознавания образов // Математические методы распознавания образов (ММРО-9) Доклады 9-й всероссийской конференции - Москва, 1999 - С 133-135
14 Янковская А.Е, Муратова Е А., Берестнева О Г Применение локальных метрик для формирования и оптимизации базы знаний // 5-я международная конференция «Распознавание образов и анализ изображений новые информационные технологии» (РОАИ-5-2000) Труды конференций в 4-х томах. Том 4 Программно-аппаратные средства в системах распознавания образов и обработке изображений -Самара, 2000 -С 784-788
15 Янковская А.Е, Муратова Е А., Берестнева О Г Унификация разнотипных данных в интеллектуальных распознающих системах // Знание-Диалог-Решение (KDS-2001) Труды Международной научно-практической конференции. Том 2 - СПб Изд-во «Лань», 2001 - С 661-668
16 Янковская А.Е, Муратова Е.А, Берестнева О Г Извлечение знаний с применением алгоритма адаптивного кодирования разнотипной информации // Искусственный интеллект (Донецк) - 2002 - №2 -С 315-322
17 Янковская А.Е, Муратова Е А., Берестнева О Г Формирование и оптимизация базы знаний в интеллектуальной системе ИМСЛОГ // Новости искусственного интеллекта.- 2001 - № 5-6 - С 34-40
18 Computer complex for express-valuation ofhealth state of the people with excessive weight/OG Ber-estneva, E A. Muratova, A.V Rotov, M.A. Gavnlov, A V Bobrovskiy // KORUS'98 Abstracts the Second Russian-Korean International Symposium on Science and Technology - Tomsk, 1998 - P 256
Компьютерный комплекс для экспресс-оценки уровня здоровья людей с избыточным весом / О Г Берестнева, ЕА. Муратова, А.В Рогов, М.А Гаврилов, А В Бобровский // KORUS'98 Тезисы второго русско-корейского симпозиума в науке и технологиях.-Томск, 1998 -С 256
19 Yankovskaya А.Е, Muratova E A., Berestneva О G Application of Local Metrics for Formation and Optimization of the Knowledge Base // Pattern Recognition and Image Analysis - MAIK «Nauka / Interpen-odica» (Russia) - 2001 -V 11 - N Z- P 488-490
Янковская А.Е, Муратова E A, Берестнева О Г Применение локальных метрик для формирования и оптимизации базы знаний // Распознавание образов и анализ изображений - Маяк «Наука / Интерпериодика» (Россия) -2001 -Т11 -№2 -С 488-490
Автор считает своим долгом выразить глубокую благодарность и признательность д.т н, профессору кафедры прикладной математики Томского государственного архитектурно-строительного университета Янковской А.Е и к.т н, доценту кафедры прикладной математики Томского политехнического университета Берестневой О Г за плодотворное творческое сотрудничество и помощь при работе над диссертацией
*10102
Подписано ■ псчлъ 19 05.2004 Тарш 100 ж) Заказ159 Бушп офсетам nrmRISO Оптиавов-пшопафю ООО «Р»уИ] мбХ» Лш*и»и Серя« ПД M 12-0092 от 03 05JOOlr г Томск, ул. Усом 7, кои 052 те* (3822) 56-44-54
Оглавление автор диссертации — кандидата технических наук Муратова, Елена Анатольевна
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ ДАННЫХ И ФОРМИРОВАНИЕ ЗНАНИЙ В ЭКСПЕРТНЫХ СИСТЕМАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА.
1.1. Экспертные системы и их место при анализе слабоструктурированных проблем.
1.2. Основные понятия и определения, исходный материал.
1.3. Постановка задачи при формировании знаний для экспертных систем в слабоструктурированных предметных областях.
1 .4. Модели представления данных и знаний.
1.5. Методы анализа данных и формирования знаний
1.6. Интерактивный анализ данных и знаний.
Выводы.
ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМА АДАПТИВНОГО КОДИРОВАНИЯ РАЗНОТИПНОЙ ИНФОРМАЦИИ.
2.1. Методы преобразования разнотипных данных.
2.2. Разработка алгоритма адаптивного кодирования разнотипной информации.
2.2.1. Метод адаптивного эвристического кодирования признаков.
2.2.2. Построение аппроксимирующей функции методом наименьших квадратов.
2.2.3. Выявление различий в распределениях значений признака в диагностируемых классах.
2.2.4. Алгоритм адаптивного кодирования разнотипной информации.
2.3. Оценка информативности признака.
2.4. Алгоритм адаптивного кодирования в задачах конструирования локальных диагностических шкал.
Выводы.
ГЛАВА 3. РАЗРАБОТКА ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ ФОРМИРОВАНИЯ ЗНАНИЙ В СЛАБОСТРУКТУРИРОВАННЫХ ПРЕДМЕТНЫХ ОБЛАСТЯХ.
3.1. Информационная технология: основные принципы построения.
3.2. Этап 1. Построение логических моделей методом локальной геометрии.
3.3. Этап 2. Построение логических моделей методом ограниченного перебора.
3.4. Этап 3. Построение логических моделей с использованием деревьев решений.
3.5. Этап 4. Выявление устойчивых логических закономерностей в изучаемой предметной области.
Выводы.
ГЛАВА 4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И АПРОБАЦИЯ РЕЗУЛЬТАТОВ.
4.1. Программная реализация алгоритма адаптивного кодирования разнотипной информации.
4.2. Оценка эффективности алгоритма адаптивного кодирования разнотипной информации на примере решения задачи прогнозирования адаптации студентов к обучению в вузе
4.3. Формирование информативных диагностических диапазонов в программе \JniData при изучении влияния комплекса реабилитационных мероприятий на уровень здоровья беременных женщин.
4.3. Применение информационной технологии формирования знаний при исследовании специфики когнитивного обеспечения интеллектуальной деятельности студентов.
Выводы.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Муратова, Елена Анатольевна
Актуальность работы.
В настоящее время исследования в области разработки интеллектуальных систем, выполняющих роль эксперта и консультанта, лежат на магистральном направлении развития компьютерной информационной технологии [14, 30, 32, 38-40,! 44; 61, 80, 86, 102]. При этом, бесспорно, актуальными являются проблемы, связанные с формированием и представлением знаний, выявлением закономерностей в знаниях, формированием решающих правил, принятием и обоснованием решений [22].
Процесс извлечения знаний на начальных этапах проектирования интеллектуальных экспертных систем, - один; из наиболее сложных и трудоемких, и он не всегда; заканчивается успешно, поскольку базы данных в слабоструктурируемых предметных областях содержат неполную, нечеткую, разнотипную и противоречивую информацию; Поэтому одним из перспективных подходов к решению обозначенных проблем является использование интеллектуальных методов Data Mining - современным воплощением основных идей искусственного'интеллекта [105], - основными задачами которых являются поиск функциональных зависимостей и логических закономерностей в; накопленной информации, построение моделей и правил, объясняющих найденные закономерности.
На мировом1 рынке программных продуктов уже давно имеется ряд систем извлечения знаний, большинство из, которых предназначено для крупных корпоративных хранилищ информации и, соответственно, работает на мощных компьютерах. В то же время в России и ведущих зарубежных странах активно ведутся разработки; программных продуктов, относящихся к классу систем Data Mining, работающих на персональных компьютерах: ОТЭКС, ЭКСНА (Загоруйко Н.Г., Новосибирск); ЭКСАПРАС, ИМСЛОГ (Янковская А.Е., Томск); системы, реализующие ДСМ-метод логического вывода (Финн
В.К., Москва); обучающие системы Стефанюка B.JI. (Москва); система интеллектуального анализа данных, распознавания и прогноза (Журавлев Ю.И., Рязанов В.В. и др., Москва); технология для построения экспертных систем и баз знаний SIMER+MIR+KAD (Исследовательский Центр Искусственного Интеллекта, Переяславль-Залесский); PolyAnalyst (Megaputer Intelligence, Россия); инструментальный комплекс АТ-ТЕХНОЛОГИЯ (Рыбина Г.В., Москва); инструментальный пакет CAKEv2.0 (Воинов А., Россия); Универсальный Классификатор (Юдин B.£L, Россия); система Deep Data Diver (Дюк В.А., Асеев: М.Г., Санкт-Петербург); система: представлений знаний в процессе обучения INSPIRATION (Inspiration Corp, США); система поиска логических закономерностей в данных WIZWHY (WizSoft, США); система построения деревьев решений See5/C5.0 (RuleQuest, США); система построения классификационных и регрессионных деревьев CART (США); интерактивный дихотомайзер ID3 (США) и др.
Изучение существующего многообразия методов исследования данных и систем, реализующих данные методы, подтолкнуло нас к идее интеграции существующих средств в единую информационную технологию формирования знаний.
Направленность на слабоструктурируемые предметные области обусловлена тем, что они характеризуются сложностью и неопределенностью объектов исследования. Предложенный подход даст возможность исследователю получать информацию нового качества в виде логических закономерностей. Выявленные таким образом закономерности! позволят объяснить существующие факты и процессы в изучаемой предметной области, выявить и осмыслить новые знания, а также переосмыслить ранее известные факты, процессы и тенденции, характеризующие формирование, эволюцию и трансформацию сложных систем, сформировать процедуры работы со знаниями, в частности, процедуры рассуждения.
Главной особенностью разработанной информационной технологии является качественно новый метод организации взаимодействия исследователя и компьютера для решения слабоструктурированных задач.
При выборе методов исследования; предпочтение было4 отдано логическим методам, которые позволяют представить имеющиеся закономерности на языке,' близком к естественному языку логических суждений, и: дают возможность специалисту в прикладной области лучше понять внутренние причинно-следственные связи изучаемых сложных объектов [17, 29, 47, 53, 73, 77]. С их помощью решаются задачи< прогнозирования, классификации, распознавания образов, сегментации баз данных, извлечения из данных скрытых (невербализуемых) знаний, интерпретации данных, установления ассоциаций в базах данных и др. Логические методы работают в условиях разнородной информации, что особенно важно для слабоструктурируемых предметных областей. В качестве альтернативы логическим методам, в информационную технологию включен метод локальной геометрии [28], переводящий задачу формирования знаний на язык геометрических соотношений между эмпирическими фактами, выступающими целостными информационными единицами. При этом решается проблема; разнотипности исходных данных.
В то же время практика показывает целесообразность разработки такого рода технологий, сочетающих различные методы интеллектуального анализа данных.
Актуальность тематики диссертационной работы и решаемых в ней задач подтверждается включением исследований по ним в гранты Российского фонда; фундаментальных исследований и гранты Российского фонда гуманитарных исследований.
Цель работы.
Задача в общем виде формулируется как разработка информационной технологии формирования знаний для областей, формализация знаний в которых сопряжена с целым рядом проблем. Построение технологии обеспечивается созданием математических моделей и применением адекватных задаче математико-статистических методов. Средством их реализации в данной работе являются разработанные алгоритмы извлечения и представления знаний, характерных для мультидисциплинарных исследований.
Для достижения поставленной цели необходимо было решить следующие задачи: разработать алгоритмы формирования знаний в слабоструктурированных предметных областях;
- разработать и программно реализовать алгоритм адаптивного кодирования разнотипной информации;
- создать программное обеспечение для конструирования локальных диагностических шкал;
- исследовать разработанные алгоритмы и программное обеспечение на экспериментальных данных; внедрить разработанные алгоритмы и программное обеспечение в практику. Методы исследования.
Методы и модели интеллектуального анализа данных, в частности, методы многомерного линейного анализа, ограниченного перебора (логико-комбинаторные), деревья решений, линейной геометрии:
Обоснованность и достоверность выдвигаемых и использованных в: диссертации научных положений, выводов и рекомендаций подтверждается:
- теоретическим обоснованием;
- апробированием программных реализаций;
- опытом применения для решения конкретных задач;
- перспективой дальнейшего использования. Основные положения, выдвигаемые на защиту:
1. Модифицированный алгоритм адаптивного кодирования разнотипной информации, предназначенный для унификации признакового пространства.
2. Универсальная программа 1МБа1а, предназначенная для решения задач кодирования разнотипной информации и конструирования: локальных диагностических шкал.
3. Информационная технология формирования знаний,, позволяющая выявлять логические закономерности в слаботсруктурируемых предметных областях.
Научная новизна.
- Разработан алгоритм адаптивного кодирования разнотипной информации, являющийся развитием метода адаптивного эвристического кодирования признаков, предложенного Тарановой Н;Н. Разработанный алгоритм, позволяет оперировать малыми выборками и эффективно адаптировать пространство признаков к особенностям решаемой задачи.
- Разработана информационная технология формирования знаний в слабоструктурированных предметных областях, объединяющая несколько методов интеллектуального анализа данных с последующей интеграцией выявленных логических закономерностей: метод локальной геометрии, метод ограниченного перебора; и построение деревьев решений. Отличительной особенностью данной технологии является представление исследователю возможности выбора в интерактивном режиме различных стратегий для решения прикладных задач.
- Разработана схема нахождения устойчивых логических закономерностей в структуре множества эмпирических фактов, представляющая собой новый подход для интеграции логических моделей.
- Разработана универсальная программа ШШа1а, в состав которой входит алгоритм адаптивного кодирования - разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является ее многовариантность (5 вариантов выделения интервалов), востребованность (унификация признакового пространства является неотъемлемой частью подготовки разнотипной информации к дальнейшему анализу) и уникальность (нет подобных аналогов).
- Разработана схема выделения информативных диагностических интервалов, реализующая новый подход при конструировании локальных диагностических шкал: в медицине, психологии,, социологии, и других слабоструктурированных предметных областях.
- Для решения задач исследования специфики когнитивного обеспечения интеллектуальной деятельности студентов выявлены знания, доказывающие наличие эффекта крайних значений применительно к стилевым качествам интеллекта.
Связь работы с научными программами, темами, грантами.
Большая часть исследований диссертационной' работы проводилась в соответствии с планом работ по грантам: РФФИ, 2003-2005, №03-06-80128, "Моделирование механизмов эффективной интеллектуальной самореализации субъекта"; РГНФ, 2001-2003, №01-06-00084а, "Выявление специфики когнитивного развития^ субъектов с; высоким и сверхвысоким уровнем интеллекта"; РГНФ, 2002-2004, №02-06-00086а, "Влияние типов социальных взаимодействий на интеллектуальную самореализацию- и социальную адаптацию одаренных студентов в технических вузах".
Работа также частично поддержана грантами: РФФИ, 2003, №03-01-06115мас; РФФИ; 2001-2003, №01-01-01050, "Развитие интеллектуальной системы логико-комбинаторного принятия решения, основанной на матричном представлении знаний"; РФФИ; 2000-2003, №01-0100772, "Логические тесты, логико-вероятностный вывод и средства когнитивной графики в интеллектуальной системе"; РГНФ, 1998-2000, №98-06150, "Коммуникативный стресс студента: феноменология, закономерности динамики, факторы трансформации"; РФФИ, 1998, №98-01-00295, "Логико-вероятностные выводы на основе оптимальных смешанных диагностических тестов, частичной импликации и средств когнитивной графики в интеллектуальных системах"; РФФИ, 1998-2000, №98-01-03019, "Разработка математических основ и создание междисциплинарных гибридных интеллектуальных систем выявления закономерностей и оперативной оценки состояния окружающей среды в экологически напряжённых районах Западной
Сибири".
Практическая ценность.
Созданное программное обеспечение позволило получить качественно новые научные и практические выводы, существенно ускоряющие и облегчающие работу специалистов слабоструктурируемых предметных областей.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на: 5-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии», Самара, 2000; седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000, Переяславль-Залесский, 2000; Международном конгрессе «Искусственный интеллект в XXI веке», Дивноморское, 2001; Международной научной конференции «Интеллектуализация обработки информации (ИОИ-2002)», Алушта, Украина, 2002; IV Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур», Томск, 2002; Международной научно-технической конференции «Компьютерное моделированием — 2003», Санкт-Петербург, 2003; Международной научно-технической конференции «Интеллектуальные системы (IEEE AIS'03)», Дивноморское, 2003. Публикации.
По результатам выполненных исследований было опубликовано 20 работ, приведенных в основном списке литературы [6-10, 35, 51, 55-59, 84, 96-100,
103, 111], в том числе 7 статей в рецензируемых журналах, 13 научных публикаций в материалах и трудах международных и Всероссийских конференций.
Также диссертант является автором 2 учебных пособий. На учебное пособие «Компьютерный анализ данных» получен в 2002 году гриф «Рекомендовано к межвузовскому использованию» в Сибирском региональном учебно-методическом центре.
Внедрение результатов.
Результаты работы используются в учебном процессе, и внедрены в лаборатории психологии способностей Института психологии РАН, в отделе социально-психологических исследований информационно-аналитического центра Томского политехнического университета, Томском государственном педагогическом университете, Сибирском государственном медицинском университете.
Структура и объем работы.
Диссертация состоит из введения, четырех глав основного содержания, заключения, изложенных на 182 страницах, содержит 52 рисунка, 27 таблиц, список литературы из 117 наименований и приложения.
Заключение диссертация на тему "Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях"
Выводы:
1. Разработана универсальная программа итБа1а, в состав которой входит алгоритм адаптивного кодирования разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является ее многовариантность (5 вариантов выделения интервалов), востребованность (унификация признакового пространства, является неотъемлемой частью подготовки разнотипной информации к дальнейшему анализу) и уникальность (нет подобных аналогов).
Кроме того, программа позволяет одновременно с визуализацией частотного распределения вычислять информативность каждого интервала, тем самым,.корректируя шаги врача-диагноста при определении: оптимального или наиболее информативного разбиения области значений исследуемого признака.
2. Показано на примере решения задачи прогнозирования адаптации студентов к обучению в вузе, что разработанный автором диссертации алгоритм адаптивного кодирования разнотипной информации позволяет улучшать результаты классификации и прогнозирования по сравнению с экспертным выделением информативных интервалов.
3. С использованием разработанной автором универсальной программы UniData сформированы информативные диагностические диапазоны и тем самым доказана необходимость проведения тех ли иных корректирующих реабилитационных мероприятий в период беременности, что обеспечивает первичную профилактику перинатальной заболеваемости у детей.
4. Показано на примере исследовании специфики когнитивного обеспечения интеллектуальной деятельности студентов, что разработанная автором диссертации информационная технология формирования знаний является эффективным средством при выявлении скрытых закономерностей.
5. Доказано наличие определенного симптомокомлекса интеллектуальных качеств, которые благоприятствуют реальным интеллектуальным достижениям человека в профессионально ориентированных видах научно-технической деятельности. Кроме того доказано существование эффекта крайних значений применительно к стилевым качествам интеллекта.
ЗАКЛЮЧЕНИЕ
В диссертационной работе были; получены следующие основные результаты:
1. Рассмотрена классификация интеллектуальных систем по областям их применения. Определено место и значение экспертных систем в задачах анализа данных и получения новых знаний в слабоструктурируемых предметных областях. Проанализирована- терминология, и определения в области искусственного интеллекта. Сформулированы отличительные особенности знаний от данных, и описаны стратегии получения* знаний. Показано, что от того насколько полно будет изучена структура исходных экспериментальных данных на начальных этапах разработки экспертных систем, зависит эффективность принимаемых решений.
2. Введены описания задач, сопряженных с формированием новых знаний в исследуемых предметных областях. Проанализированы основные модели представления данных и знаний при разработке экспертных систем, а также на этапе структуризации данных и знаний.
3. Проведен анализ методов преобразования разнотипных данных, в основе которых лежат различные приемы унификации. Предложен более эффективный по сравнению с существующим способ кодирования разнотипной информации: Новизна предложенного алгоритма заключается в возможности работать с малыми выборками, что особенно актуально для слабоструктурируемых предметных областей.
4. Разработана информационная технология формирования знаний в слабоструктурированных предметных областях, объединяющая несколько методов интеллектуального анализа данных с последующей интеграцией выявленных логических закономерностей: метод локальной геометрии, метод ограниченного перебора и построение деревьев решений. Отличительной особенностью данной технологии является представление исследователю возможности выбора в интерактивном режиме различных стратегий для решения прикладных задач:
5: Усовершенствован метод локальной геометрии за счет проведения на начальных этапах конструирования логических правил визуального; анализа геометрической структуры исходных и преобразованных данных, а преобразование количественных и порядковых признаков; в серию бинарных признаков осуществлять на базе универсальной программы итБа1а. Такой подход дает возможность проводить более качественный анализ данных по сравнению с исходным методом.
6. Разработана схема нахождения устойчивых логических закономерностей, представляющая собой новый подход- для интеграции логических моделей и позволяющая исключать ложные закономерности, которые могут проявлять себя в силу имеющихсяособенностей > исследуемых данных в слабоструктурируемых предметных областях.
7. Разработана универсальная; программа ишБа1а, в состав которой! входит алгоритм адаптивного кодирования разнотипной информации, алгоритм < равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является ее многовариантность (5 вариантов выделения; интервалов), востребованность (унификация! признакового пространства; является: неотъемлемой частью подготовкшразнотипнойшнформацишк дальнейшему анализу) и уникальность (нет подобных аналогов).
8; На базе программы ишБа1а разработана схема? выделения; информативных диагностических интервалов, реализующая; новый подход приз конструировании; локальных диагностических шкал (информативных интервалов * признака). в медицине, психологии, социологии, психодиагностике и других слабоструктурированных предметных областях.
9. С использованием разработанного? алгоритма адаптивного кодирования разнотипной информации решены следующие прикладные задачи:
- выявлены информативные показатели и получены решающие правила для прогнозирования успешности адаптации студентов-первокурсников Томского политехнического университета к обучению: в вузе по результатам; медицинского исследования;
- сформированы информативные диагностические диапазоны и ■ тем самым доказана необходимость проведения тех ли иных корректирующих реабилитационных мероприятий в период беременности, обеспечивающих первичную профилактику перинатальной заболеваемости у детей.
10. С использованием разработанной информационной технологии формирования знаний при исследовании специфики когнитивного обеспечения интеллектуальной: деятельности студентов доказано наличие определенного симптомокомлекса интеллектуальных качеств, которые благоприятствуют реальным интеллектуальным» достижениям человека в. профессионально ориентированных видах научно-технической деятельности. Кроме того доказано существование эффекта крайних значений применительно к стилевым качествам интеллекта.
11. Разработанная универсальная программа ишОа1а внедрена на кафедре медицинской и биологической кибернетики: Сибирского государственного медицинского университета, в отделе социально-психологических исследований информационно-аналитического центра Томского политехнического университета, Томском государственном педагогическом университете;
12. На основе предложенной автором информационной технологии формирования знаний разработан цикл лабораторных работ по теме «Формирование знаний в экспертных системах», которые используются в учебном процессе по дисциплине «Базы данных и экспертные системы» для студентов 4 курса направления «Прикладная математика и информатика» на кафедре прикладной математики факультета автоматики и вычислительной техники.
Библиография Муратова, Елена Анатольевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Адаптационные характеристики человека / A.B. Ротов, М.А. Медведев, Я.С. Пеккер, О.Г. Берестнева. Томск: Издательство Томского университета, 1997.- 137с.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности.- М.: Финансы и статистика, 1989-608с.
3. Александров Е.А. Основы теории эвристических решений — М:, 1975254с.
4. Анализ состояния и тенденции развития информатики. Проблемы создания экспертных систем // Исследовательский отчет / Под ред. С .А. Николова-София, Интерпрограмма, 1988 151с.
5. Анастази А., Урбина С. Психологическое тестирование СПб.: Питер, 2001.- 688с.
6. Берестнева О.Г., Муратова Е.А., Кострикина И.С. Компьютерноемоделирование специфики развития познавательных способностей // Труды Международной научно-технической конференции «Компьютерное моделирование 2003» СПб.: «Нестор», 2003. - С.396-398.
7. Берестнева O.F., Муратова Е.А., Янковская; А.Е. Эффективный алгоритм адаптивного кодирования разнотипной информации // Искусственный интеллект в XXI веке. Труды Международного конгресса. Т. 1- Мл Физматлит, 2001- С. 155-166.
8. Бонгард М.М. Проблема узнавания М.: Наука, 1967. - 220 с.
9. Будущее искусственного интеллекта / Под ред. К.Е. Левитина и Д.А. Поспелова-М.: Наука, 1991.-302с.
10. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов «Кора» // Алгоритмы обучения распознаванию образов. — М.: Сов. Радио, 1973. С.8-12.
11. Воинов А.И., Гаврилова Т.А.,, Данцин Е.Я. Язык визуального представления знаний и его место в САКЕ-технологии // Известия РАН: Теория и системы управления.— 1996- №2.
12. Вълев В. Задачи распознавания с большими массивами обучающей информации метод выбора существенных подзадач. / Сб. докладов, юбилейной научной сессии, Шумен - 1982 - С. 195-204.
13. Гаврилова Т. А., Червинская К. Р. Извлечение и структурирование знаний для экспертных систем М.: Радио и связь, 1992 - 200с.
14. Гик Дж. ван. Прикладная общая теория систем М.: Мир, 1981
15. Гипертекстовый психодиагностический словарь // http://ht.ru/on-line/dictionary/
16. Гладун В.П. Эвристический поиск в сложных средах Киев: Наукова Думка, 1977
17. Гласс Дж., Стенли. Дж. Статистические методы в педагогике и психологии.-М.: Прогресс, 1976 495с.
18. Громов Г.Р. Автоформализация профессиональных знаний. // Микропроцессорные Средства и Системы. 1986. - N 3. - С. 80 - 91.
19. Гублер Е. В., Генкин А. А. Применение непараметрических критериев статистики в медико-биологических исследованиях- JL: Медицина, 1973-142с.
20. Дейт К. Введение в системы баз данных / Пер. с англ.- М.: Наука,1980.
21. Дрибас В.П. Реляционные модели,баз данных- Минск: Изд-во БГУ,1982.
22. Дружинин В.Н. Психология общих способностей. СПб: Питер, 1999. -368с.
23. Дюк В., Самойленко A. Data Mining: Учебный курс. СПб: Питер, 2001.-368с.
24. Дюк В.А. Компьютерная психодиагностика- СПб.: Изд-во «Братство», 1994-364с.
25. Дюк В.А. Обработка данных на ПК в примерах: Статистические расчеты. Построение графиков и диаграмм. Анализ данных.- СПб.: Питер, 1997.-240с.
26. Егошина И.В., Калитова И.С. Обзор систем автоматического интеллектуального анализа данных и прогнозирования // http://www.jurinfor.ru/CSIT2000/EgoshinaK00.htm
27. Ефимова С.М., Суворов Е.В. Модель П-графов для представления знаний и способ ее аппаратной реализации на основе метода М37/ Изв. АН СССР. Техническая кибернетика.- 1986 № 2.- С.32-47.
28. Журавлев Ю.И., Рязанов В.В., Сенько О.В. и др. Разработка универсальной программной системы интеллектуального анализа данных, распознавания и прогноза // Математические методы распознавания образов
29. ММРО-11). Доклады 11-й Всероссийской конференции. Москва, 2003. -С. 227-229.
30. Информационная система мониторинга здоровья студентов / О.Р. Берестнева, В.Т. Иванов, Л.И. Иванкина, К.А. Шаропин, Е;А. Муратова // Вестник Томского государственного университета 20021- №1(11).— С. 196-201.
31. Искусственный интеллект: В 3 кн. Кн. 2. Модели и методы / Под ред. Д.А.Поспелова.-М.: Радио и связь, 1990;
32. Искусственный интеллект: В 3 кн. Кн.З. Программные и аппаратные средства / Под ред. В:Н.Захарова, В.Ф.Хорошевского- М;: Радио и связь, 1990.
33. Киселев М., Соломатин Е. Средства добычи! знаний в бизнесе и финансах // Открытые системы 1997 - № 4 - С.41-44.
34. Кобринский Б.А. Искусственный интеллект и медицина: возможности-и перспективы систем, основанных на знаниях // Новости; искусственного интеллекта 2001- №4.
35. Кобринский Б.А. Искусственный интеллект и медицина: особенности прикладных консультативных систем // Новости искусственного интеллекта — 2002.-№4.
36. Кофман А. Введение в прикладную комбинаторику. М.: Наука, 1975. -286 с.
37. Кочетков В.В., Скотникова И.Г. Индивидуально-психологические проблемы принятия решения. М.: Наука, 1993. - 143 с.
38. Лакин Г. Д. Биометрия М.: Высшая школа, 1980 — 293 с.
39. Ларичев О.И. Системы, основанные на экспертных знаниях: история, современное состояние и некоторые перспективы // Труды конференции;
40. КИИ'2000.- М: ФИЗМАТЛИТ, 2000- С.3-8.
41. Ларичев О.И. Теория и методы принятия решений, а также хроника событий в Волшебных странах: Учебник-М.: Логос, 2000-296с.
42. Лбов Г.С. Методы обработки разнотипных экспериментальных данных-Новосибирск: Наука, 1981- 159 с.
43. Лбов Г.С., Старцева H.F. Логические решающие функции и вопросы статистической устойчивости решений— Новосибирск: Изд-во Ин-та математики, 1999.
44. Лозовский B.C. Экстенсиональная база данных на основе семантических сетей // Изв. АН СССР. Техническая кибернетика- 1982 № 5-С. 23-42:
45. Магнус Я.Р., Катышев П.К., Пересецкий А;А. Эконометрика. Начальный курс: Учебник 5-е изд., испр — М.: Дело, 2001- 400 с.
46. Мартин Дж. Организация баз данных в вычислительных системах / Пер. с англ.- М.: Мир, 1980.
47. Минский М.! Фреймы для представления знаний / Пер. с англ.- М:: Энергия, 1979.
48. Михеенкова М.А., Финн; В.К. Проблемы и логические средства интеллектуального анализа социологических данных // Труды восьмой национальной конференции по искусственному интеллекту с международным участием. Т. 1- М.: Физматлит, 2002. С. 15-23.
49. Мудров А.Е. Численные методы для ПЭВМ на языках Бейсик, Фортран и Паскаль Томск: МП «РАСКО», 1991 - 227с.
50. Муратова Е.А. Алгоритм адаптивного кодирования; количественных признаков // Современное развитие и применение математических методов: Сб.статей студентов и аспирантов — Томск: Изд-во Института оптики атмосферы СО РАН; 2001.- С. 46-51.
51. Муратова Е.А., Берестнева О.Г. Выявление скрытых закономерностей в социально-психологических исследованиях // Известия ТПУ.- 2003 Т.306 — №3.-С.97-102.
52. Муратова Е.А., Берестнева О.Г.,. Янковская А.Е. Анализ структуры многомерных данных методом локальной геометрии7/ Известия ТПУ — 2003-Т.306 №3. - С. 19-23.
53. Муратова Е.А., Берестнева О.Г., Янковская А.Е. Эффективный алгоритм« адаптивного кодирования разнотипной информации // Труды конгресса «Искусственный интеллект в XXI веке». — М.: ФИЗМАТЛИТ, 2001: -С. 155-167.
54. Нетрадиционные модели и системы с нечеткими знаниями / Под ред. А.Ф.Блишуна-М.: Энергоатомиздат, 1991.
55. Никитов Г.В. О метрических методах интеллектуальной обработки данных // Математические методы распознавания образов (ММРО-11). Доклады 11-й Всероссийской конференции Москва, 2003 - СЛ56-157.
56. Нильсон Н. Принципы искусственного интеллекта / Пер. с англ.- М.: Радио и связь, 1985.
57. Осипов Г.С. Метод формирования и структурирования модели знаний для одного типа предметных областей // Изв. АН СССР. Техническая кибернетика.- 1988.- № 2.- С.3-12.
58. Осипов Г.С. О формировании модели для плохо структурированной предметной области // Изв. АН СССР. Техническая кибернетика 1986 - № 5 —1. С. 14-19.
59. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа. Томск: Изд-во НТЛ, 1997.-396 с.
60. Попечителев Е.П:, Романов C.B. Анализ числовых таблиц в биотехнических системах обработки экспериментальных данных— JL: Наука, 1985.- 144с.
61. Поспелов Г.С., Поспелов Д.А. Искусственный интеллект прикладные системы-М.: Энергия, 1985.
62. Поспелов Д.А. Искусственный интеллект: фантазии и реальность // Наука и жизнь 1995 - №6
63. Поспелов Д.А. Представление знаний // Искусственный интеллект: Кн. 2. Модели и методы / Под ред. Д.А.Поспелова.- М.: Радио и связь, 1990.-С.7-13.
64. Поспелов Д.А. Прикладная семиотика и искусственный интеллект // Программные продукты и системы-1996.- № 3 С. 10-13.
65. Поспелов Д.А. Ситуационное управление: теория и практика- М.: Наука, 1986.-288с.
66. Построение экспертных систем / Под ред. Ф. Хейес-Рота, Д. Уотермена, Д. Лената М.: Мир, 1987 - С. 434.
67. Представление и использование знаний: Пер. с японск. / Под ред. Х.Уэно, М.Исидзука М.: Мир, 1989.
68. Программная система распознавания Лорег: Алгоритмыраспознавания, основанные на голосовании по системам логических закономерностей / В.П. Богомолов и др. М.: ВЦ РАН, 1998.
69. Психологическая диагностика и новые информационные технологии / Л.И. Вассерман, В.А. Дюк, Б.В. Иовлев, К.Р.Червинская- СПб.: ООО «СЛП»,. 1997.-С. 203.
70. Ревунков Г.И., Самохвалов Э.Н., Чистов В.В. Базы и банки данных и знаний/ Под ред. В.Н.Четверикова.— М.: Высшая школа, 1992.
71. Сидоренко Е. В. Математические методы в психологии.- СПб.: Изд-во Социально-психологический центр; 1996 —346с.
72. Таранова H.H. Метод адаптивного кодирования признаков // Динамика систем. Межвуз. тематич. сб. научн. тр./ Под ред. Ю.И. Неймарка Нижний Новгород: Нижегор. Гос. Ун-т., 1995 - С. 54-70.
73. Тарасенко Ф.П. Некоторые проблемы формализации гуманитарных знаний (на примере археологии) // Информационные технологии в гуманитарных исследованиях, 2000. -№2. С. 84-87.
74. Уинстон П. Искусственный интеллект / Пер. с англ.- М.: Мир, 1980.
75. Финн В.К. Интеллектуальные системы: проблемы их развития и социальные последствия // Будущее искусственного интеллекта / Под ред.
76. К.Е. Левитина и Д.А. Поспелова М.: Наука, 1991
77. Хант Э. Искусственный интеллект / Пер. с англ.- М.: Мир, 1978.
78. Холодная М.А. Психологические механизмы интеллектуальной одаренности // Вопросы психологии 1993. - №1 .- С.32-39.
79. Хорошевский В.Ф. Программный инструментарий представления знаний в экспертных системах // Экспертные системы: состояние и перспективы / Под ред. Д.А. Поспелова М.: Наука, 1989 - С.38- 47.
80. Цикритис Д., Лоховски Ф. Модели данных- М.: Финансы и статистика, 1985.
81. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики // Новое в зарубежной лингвистике. Компьютерная лингвистика. — М.: Прогресс, 1989 432 с.
82. Эндрью А. Искусственный интеллект: Пер. с англ.-М:: Мир, 1985.
83. Янковская А.Е. Алгоритмы распознавания на базе оптимизирующих логико-комбинаторных преобразований в пространстве признаков // Математические методы распознавания образов: Тез. докладов IV Всесоюзной конференции. Рига, 1989-С.97-99.
84. Янковская А.Е., Берестнева О.Г. Муратова Е.А. Адаптивное преобразование признаков в задачах распознавания образов // Математические методы распознавания образов (ММРО-9). Доклады 9-й всероссийскойконференции-Москва, 1999 С.133-135.
85. Янковская А.Е., Муратова Е.А., Берестнева О.Г Унификация разнотипных данных в интеллектуальных распознающих системах // Знание-Диалог-Решение (KDS-2001). Труды Международной научно-практической; конференции. Том 2 СПб.: Изд-во «Лань», 2001 - С.661-668.
86. Янковская А.Е., Муратова Е.А., Берестнева О.Г. Извлечение знаний с применением алгоритма адаптивного кодирования разнотипной информации // Искусственный интеллект (Донецк).- 2002 №2 — С.315-322.
87. Янковская А.Е., Муратова Е.А., Берестнева О.Г. Формирование и оптимизация базы знаний в интеллектуальной системе ИМСЛОГ // Новости искусственного интеллекта — 2001 № 5-6 - С.34-40.'
88. Янковская А.Е. Тестовые распознающие медицинские экспертные системы с элементами когнитивной графики // Компьютерная хроника. 1994. № 8/9. С. 61-83.
89. Kittler J.A. Feature set search algorithms // Proc. Conf. Pattern Recogn. and Signal Processing. Paris, France, 25 June - 4 July, 1978. p. 41-60.
90. Newquist H. P. Data Mining: The AI Metamorphosis // Database Programming & Design. 1996. - N 9 (Data Mining Special Edition Supplement). -P. 512-514.
91. Quinlan J. R. Induction of Decision Trees // Machine Learning 1986-№ 1 - P.l-81.
92. Simon H. The Structure of Ill-structured Problems // Artificial Intelligence. 1973, - V. 4. - P. 181- 202.
93. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей / Пер. с нем ./ А. Бююль, П. Цефель. СПб.: ООО «ДиаСофтЮП», 2001.- 608с.
94. User's Guide WizWhy Ver. 2. WizSoft Inc. // http://www.wizsofl.com
95. Vtogoff P.E. Incremental Induction of Decision Trees // Machine Learning.- 1989.-№ 4.-P. 161-186.
96. Yankovskaya A.E., Muratova E.A., Berestneva O.G. Application of Local Metrics for Formation and Optimization of the Knowledge Base // Pattern Recognition and Image Analysis MAIK «Nauka / Interperiodica» (Russia).- 2001.-V. 11.-N.2.-P. 488-490.
-
Похожие работы
- Автоматизация многокритериального оценивания в слабоструктурированных предметных областях на основе е-портфолио
- Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте
- Групповые методы качественного анализа слабоструктурированных проблемных ситуаций с интерактивной визуализацией
- Методы формирования стратегий решения слабоструктурированных проблем на основе когнитивных моделей
- Разработка и исследование систем управления гибридными данными сложной нестабильной структуры на основе универсальной модели
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность