Анализ и адаптивное управление в недетерминированных средах на основе самообучения

Стасевич, Владимир Павлович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Анализ и адаптивное управление в недетерминированных средах на основе самообучения

кандидата технических наук: Стасевич, Владимир Павлович
город: Краснодар
год: 2007
специальность ВАК РФ: 05.13.01
цена: 450 рублей

Диссертация по информатике, вычислительной технике и управлению на тему «Анализ и адаптивное управление в недетерминированных средах на основе самообучения»

Автореферат диссертации по теме "Анализ и адаптивное управление в недетерминированных средах на основе самообучения"

На правах рукописи

СТАСЕВИЧ Владимир Павлович

АНАЛИЗ И АДАПТИВНОЕ УПРАВЛЕНИЕ В НЕДЕТЕРМИНИРОВАННЫХ СРЕДАХ НА ОСНОВЕ САМООБУЧЕНИЯ

Специальность 05 13 01 - «Системный анализ, управление и обработка информации (информационные и технические системы)»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

и03058983 I и к."

Краснодар - 2007

003058983

Работа выполнена в Кубанском государственном технологическом

университете

Научный руководитель. кандидат технических наук

Шумков Евгений Александрович Официальные оппоненты доктор технических наук, доцент

Видовский Леонид Адольфович кандидат технических наук, доцент Ермоленко Владимир Валентинович Ведущая организация ФГУП КБ «Селена» (г Краснодар)

Защита состоится "23" мая 2007 г в 1600 на заседании диссертационного совета Д 212.10004 в Кубанском государственном технологическом университете по адресу 350072, г Краснодар, ул Московская 2, корпус «А», конференц - зал

С диссертацией можно ознакомиться в научной библиотеке КубГТУ по адресу 350072, г Краснодар, ул Московская, 2, корпус «А»

Автореферат диссертации разослан "21" апреля 2007 г

Ученый секретарь

диссертационного совета,

канд техн наук, доцент

Власенко А В

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В последнее время одними из актуальных становятся задачи связанные с объектами или комплексами объектов, действующих в недетерминированных средах Актуальность обуславливается развитием технологий, усложнением объектов, а также стремлением автоматизировать процессы, ранее производимые с помощью человека При рассмотрении среды как недетерминированной открывается потенциал для улучшения решения задач за счет ранее неиспользуемых возможностей (подстройка к среде и т д) В большинстве случаев, управление объектами в недетерминированных средах выполняется людьми-операторами Однако существуют задачи, при которых человек-оператор справляется с управлением недостаточно хорошо Один из примеров таких задач являются задачи, в которых оператор не имеет право на ошибку (операции спасения людей, боевые роботы, медицинские роботы) Таким образом, задача создания систем автоматического управления (СУ) объектами в недетерминированных средах является актуальной

Недетерминированные среды, не обладая свойствами предсказуемости, обладают, тем не менее, некоторыми закономерностями. В выявлении этих закономерностей в процессе работы системы заключен потенциал адаптации СУ к среде Таким образом, данная работа рассматривает недетерминированные среды, обладающими выявляемыми закономерностями (т е. такие среды, воздействие которых нельзя предсказать заранее, но характер воздействия которых определен)

Целью работы является разработка методов накопления и запоминания опыта систем управления, методы анализа опыта и текущего состояния объекта и среды, а также методы построения тактического управления в данной схеме стратегического управления

Задачи исследования:

- исследование существующих методик построения адаптивных СУ объектами в недетерминированных средах,

- разработка метода адаптивного управления объектами в недетерминированных средах с такими свойствами

а) гарантированным выполнением целевой функции (отсутствие права на ошибку, метод проб и ошибок не применим),

б) автономность (отсутствие дообучения экспертом в процессе работы),

в) режим работы в реальном времени

- экспериментальные исследования результатов работы СУ, выявление достоинств и недостаток метода, оценить эффективность предложенных метода обучения и топологии

Методы исследования. Задачи исследования решены с использованием методов системного анализа, теории искусственных нейронных сетей, нечеткой логики и искусственного интеллекта

Научная новизна:

- разработано решение по применению метода обучения самообучению в системах управления в недетерминированных средах,

- нейросетевая топология «внутренний учитель» адаптирована к использованию в управлении в недетерминированных средах,

- разработана модель топологии «внутренний учитель» на основе нечеткой логики,

- разработана схема управления комплексом лифтов многоэтажного здания с применением «внутреннего учителя»,

- разработан адаптивный автотрейдер фондового рынка с применением метода обучение самообучению и «внутреннего учителя»

Практическая ценность работы заключается в применении «внутреннего учителя» в СУ в недетерминированных средах Разработан адаптивный автотрейдер фондового рынка

Реализация и внедрение результатов работы.

Адаптивный автотрейдер фондового рынка внедрен в ЗАО «КБ Ситибанк»

Основные положения, выносимые на защиту:

- решение метода обучения самообучению в СУ в недетерминированных средах,

- топология «внутренний учитель» применяемая в СУ в недетерминированных средах,

- СУ комплексом лифтов с применением метода обучения самообучению,

- адаптивный автотрейдер фондового рынка с применением метода обучения самообучению,

- результаты сравнительного анализа СУ созданных 3 способами традиционное управления на основе предикатов, нейросетевая модель с использованием алгоритма СМП, модель созданная на основе топологии «внутренний учитель»

Публикации. Основной материал работы опубликован в 6 научных статьях и 3 тезисах докладов Получен патент на изобретение

Структура и объем диссертации. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников и приложений Ее общий объем составляет 170 страниц текста, содержащего 3 таблицы и 38 рисунка

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность и сформулирована научная проблема исследования, определены его объект и предмет, поставлены цель и задачи исследования

В первой главе рассмотрены современные методы построения адаптивных СУ Проведено исследование способов построения самообучающихся систем с подкреплением Проведен анализ существующих методов обучения с подкреплением с использованием нейронных сетей Q - обучение, сети адаптивной критики (DHP, HDP, GDHP) Проанализирована методика СМП Выявлены достоинства и недостатки существующих методов В качестве недостатков сетей адаптивной критики можно отметить большое количество вычислений, сложность реализации Для Q - обучения в случае значительного пространства состояний объекта необходима большая Q — таблица, что сказывается на быстродействии Для СМП высокая вероятность зацикливания в лучшей с точки зрения системы контрольной точке, рекурсии для отмены действий, которые снизили поступающее подкрепление Принято решение реализовывать предлагаемую методику, используя модифицированный метод СМП, что позволит строить универсальные адаптивные СУ в рассматриваемом классе сред

Во второй главе разработаны метод обучения самообучению и нейросетевая топология «внутренний учитель» в СУ в недетерминированных средах Топология и метод обучения есть две стороны одной концепции - обучения самообучению

Постановка задачи формулируется следующим образом

1) СУ в недетерминированной среде должна выполнять целевую функцию,

2) СУ должна максимизировать коэффициент эффективности,

3) при выполнении задачи на основании информации от внешней среды объект, при необходимости, изменяет свое поведение (СУ пользуется имеющимися знаниями о среде - заложенные в СУ на этапе разработки),

4) объект должен обучаться на своих ошибках, путем выявления изменившегося характера воздействия среды (СУ вырабатывает новые способы реакции на воздействия),

5) объект должен адаптироваться к среде в процессе выполнения задачи Необходимо построить СУ, адаптирующуюся в процессе выполнения задачи, без предварительного обучения (самообучения)

Требование адаптации в процессе выполнения задачи, без предварительного обучения в конкретной среде, является принципиальным отличительным требованием постановки задачи данной работы

Для реализации адаптивной СУ будем использовать топологию с двумя вновь предлагаемыми компонентами - компонентой решателя и компонентой учителя Основная компонента системы - решающая («решатель») Она получает на вход сведения о текущем состоянии среды, текущем состоянии объекта и выдает на выход управляющие воздействия Важнейшая часть системы - компонента обучения («учитель») Здесь оценивается состояние среды с точки зрения изменения тактики поведения, а также формируются измененные правила поведения

системы На вход этой компоненты подаются сведения о состоянии среды, обработанные сенсорной компонентой

СУ должна максимизировать коэффициент эффективности (КЭ) КЭ используется для выявления изменения стратегии поведения улучшившего или ухудшившего общую оценку работы Такой КЭ является основным источником информации для построения эффективной схемы самообучения При этом КЭ вычисляется на основе обработки сведений о внешней среде, объекте, и о характере взаимодействия объекта со средой

Вся система в целом построена на единой нейронной сети вновь разработанной топологии Топология в структурном виде представлена на рисунке 1

Рисунок 1 - Топология "Внутренний учитель"

Введем следующие обозначения г - время (цикл управления),

СМПа(1) - правила самообучения компоненты учителя, СШ/40) - правила управления компоненты решателя,

к(СМПа(t), СМПЬ (/)) - общие правила СУ,

K3(t) - коэффициент эффективности на итерации t,

a(t) - воздействие СУ на цикле управления t, где a(t) е Л{а,,а2 ап},

5(0 - состояние объекта на цикле управления t, где s(t) se S{svs2 s„} ,

A - пространство воздействий СУ,

S - пространство состояний объекта,

АП - адаптационный параметр - элемент правил управления решателя, изменяющийся для адаптации правил управления,

т(КЭ) - объем истории изменений КЭ,

т(АП)- объем истории изменений АП

Также введем несколько определений относящихся к времени

Итерация - законченный цикл управления объектом, т е цикл между воздействием внешней среды и реакцией системы управления на него

Критическое время т, - время установленное разработчиком, за

которое система обязательно должна восстановить заданный коэффициент эффективности, в противном случае система не отрабатывает задание

Период дообучения г„ - время, за которое система при потере заданного значения коэффициента эффективности, вновь должна на него выйти Определяется как

г <т

* п —

Предлагается использовать коэффициент эффективности П

где 1 - номер кванта времени (итерации, одного законченного цикла управления), для которого вычисляем коэффициент,

Д - безразмерный показатель полезной деятельности, произведенной объектом,

Е, - безразмерный показатель затраченных ресурсов

КЭ записан в обобщенном виде Он вычисляется на основе обработки сведений о внешней среде, объекте, и о характере взаимодействия объекта со средой При использовании разработанной топологии в разных системах коэффициент эффективности должен вычисляться по-разному КЭ вычисляется в отдельной компоненте и управляет процессом самообучения

Блок коэффициента эффективности хранит историю изменения КЭ Это необходимо для вычисления динамики изменения КЭ На каждом из нескольких периодов вычисляются средние величины КЭ, и сравниваются для соседних периодов Нас интересуют нечеткие величины динамики

- КЭ снизился,

- КЭ вырос,

- КЭ не изменился

Далее эти показатели поступают на вход учителя, который, согласно правилам самообучения, определяет, необходима ли модификация правил управления и модифицирует их в случае необходимости Длина истории, а также параметры подсчета среднего КЭ должны быть модифицируемыми, и подстраиваться в зависимости от среды и объекта В ходе работы СУ желательно выполнения следующего условия Я(г)<1(г + 1)< <Я(( + п)

Таким образом, за счет политики самообучения, должен обеспечиваться рост КЭ во время работы системы Но роста подкрепления алгоритм не гарантирует

Входы учителя - изменение коэффициента эффективности за последний период времени (или за несколько последних) и изменения основных параметров среды (одного или нескольких) Выход учителя -измененные правила управления, передаваемые решателю Учитель реализуется как традиционная неадаптивная СУ объектом при помощи нейросети, реализующей нечеткую функцию Нечеткая функция принимает на вход динамику КЭ, состояние объекта, на выход выдается изменения адаптационных параметров правил управления В приведенном примере среда упорядочена, но не может быть предсказана мобильным роботом в процессе передвижения Робот адаптируется к характеру среды, будучи способным отработать совершенно другую среду (например, абсолютно хаотическое нагромождение барьеров), при этом затратив ограниченные ресурсы

Внутренним устройством учителя является послойно-полносвязная нейронная сеть, с одним скрытым слоем Входы учителя, как было показано ранее, - изменение КЭ за последний период времени (или за несколько последних), плюс адаптационные параметры (один или несколько) за предыдущий период времени На выход учитель выдает измененные АП (рисунок 2) Учитель реализует политику самообучения СМПа Для реализации принципа обучения самообучению введем общий вид функций вычисляющих АП и КЭ

АП, = 2{АП1А,КЭ„КЭ1А, ),

У "

щ.

Ач

• п

А- /

\ X ' /

\ N /

в «

} / ^ 1 <\ #

и / - ^ '// \\ •

с в с е в в в в е е

-а

о?

О 1 ч

\ \

©-1

Ч V

7©

:Ь

\ Л 7 Л >

^ «

Рисунок 2 - Учитель в нейросетевой реализации

Отметим, что Р не является функцией обратной 2 и наоборот Т е имеет место декомпозиция функций Таким образом, политики СМПа и СМПк зависят от я,, а,, КЭ, АП и, возможно других параметров

Правила самообучения учителя изменяют АП и сформулированы следующим образом (нечеткие правила)

- если снизилось значение КЭ, то изменяем АП в противоположном направлении от предыдущих изменений,

- если значение выросло, то продолжаем изменять АП в направлении от предыдущих изменений,

- если значение не изменилось, то в зависимости от КЭ либо оставляем текущие правила (если КЭ устраивает), либо хаотически изменяем применяемое правило

Представим правила изменения АП в виде продукций, в случае одного адаптационного параметра системы и т(КЭ) = 2, т(АП) = 1

4- КЭ( 0 & (4- АПЦ -1)) & (4, КЭ(1 -1)) =>Т АП(1) I КЭ(0 & (4 АП{1 -1» & (4. КЭЦ - ? КЭ(Г -1)) =>Т АПЦ), итд

Шаг изменения АП нужно уменьшать в зависимости от относительной величины изменения КЭ, чтобы максимизировать его при реализации поиска глобального максимума КЭ

При разработке прикладной реализации необходимо проанализировать проблему и сформулировать правила самообучения Система должна адаптироваться к изменениям среды Среда ведет себя недетерминировано Но, хотя присутствует недетерминированность, нужно выделить такие классы воздействий среды, которые система будет отрабатывать

Управляемый объект имеет несколько АП, эффективно управляя всеми параметрами при любых воздействиях среды, можно говорить о том, что управление эффективно в целом Но управление такого рода, в общем случае, невозможно Таким образом, необходимо выделить такие АП объекта, которыми необходимо управлять, для эффективного управления в таких классах воздействия среды, о которых мы говорили ранее Таким образом, первоначальная задача

- выделение критичных для системы классов воздействия недетерминированной среды на объект,

- выделение АП объекта, которыми СУ будет адаптивно управлять, реализуя задачу и отрабатывая воздействия среды

Далее, необходимо сформулировать правила управления объектом (необходимыми АП объекта) без адаптации Правила (предикаты, нечеткие правила и т д) будут описывать управление объектом

Решателем без адаптации Следующим шагом будет доработка правил управления (политики управления)

- необходимо выделить компоненты правил управления, которые будут адаптивно подстраиваться под среду,

- необходимо предусмотреть такое поведение Решателя и предложенного набора правил, когда некоторые правила добавляются или удаляются (те при адаптации некоторые правила могут появиться, а также исчезнуть)

Вышеперечисленное необходимо для того, что сформулировать политику самообучения Политика должна заключаться в том, что недетерминированное воздействие среды влияет на сами правила управления При этом

- воздействие среды, не носящее характер кардинальной новизны, должно отрабатываться правилами управления без изменения их самих,

- воздействие среды, являющееся новым, неизвестным для системы управления, должно приводить к корректировке набора правил управления (изменению, добавлению и удалению правил)

Далее необходимо разработать правила самообучения Уже выделенные ранее характеры изменения среды, а также разработанные для их отработки способы изменения правил требуют правил самообучения На выходе правил самообучения мы должны иметь параметры (все необходимые) изменения правил управления На входе -динамика изменения подкрепления (коэффициента эффективности) Таким образом, получим два набора правил - модифицируемые правила управления и правила самообучения

Нечеткий вывод Используем нейро - нечеткую систему ANFIS (Adaptive Neuro - Fuzzy Inference System) в компоненте Учитель Рассмотрим случай, когда в системе один АП, т(КЭ) = 2 и т(ЛП) = 1 Пусть входными переменными будут K3(t), K3(t-\) и .4/7(7-1) Выходной переменной будет AIT(t) Для лингвистической оценки будем использовать 3 терма снизимся, неизменен, увеличился Сформулируем правила самообучения (16 - 131) в нечетких терминах Увеличился, Неизменен, Уменшился - некоторые нечеткие множества с функциями принадлежности сигмоидного типа

Увеличился(t) = -—

Неизменен(г) = j Vo

Уиеныиился{1) = -—

Таким образом, базу знаний образуют нечеткие правила, при этом КЭ(1), А'Э(г-1) и АП{ь-1) - имена входных переменных, AU(t) - имя переменной вывода Далее алгоритм опишем математически

1) фаззификация находятся степени истинности для предпосылок каждого правила K3(t), K3(t-1), Ail(t-1)

2) нечеткий вывод находятся уровни отсечения для предпосылок каждого из правил (с использованием операции минимума)

а, = низкий(КЭ(1)) л HU3Kuü{AiI{t -1)) л низкий(КЭ(1 -1)) Затем

находятся усеченные функции принадлежности

С1(/}Я(0) = (ог,АС1(^Я(0))>

3) композиция с использованием операции max производится объединением найденных усеченных функций, что приводит к

получению итогового нечеткого подмножества для переменной вывода с функцией принадлежности

4) приведение к четкости можно производит, например, центроидным

В третьей главе приведена реализация СУ комплексом лифтов и СУ мобильного робота с применением метода обучения самообучению Также приведен анализ применимости подхода при построении автоматических автоматизированных банковских систем (АБС)

СУ комплексом лифтов Комплекс лифтов действует в недетерминированной среде - количество людей перемещающихся в лифтах в разные моменты времени и с разных этажей непредсказуемы Обучающаяся система после определенного времени работы может подстроиться к изменяющимся пассажиропотокам, и будет подстраиваться постоянно Структурная схема будет выглядеть следующим образом (рисунок 3)

(АЛ«)) = С(АЛ(0) = Сх(АП«))\гС1(АЛ«)) V

методом

кст

• / /^Уу^, АС* (1-1)

КСУ(г)

Рисунок 3 - Структура СУ

Как было сказано выше, КЭ □ формулируется для каждого конкретного случая применения предложенного метода В случае разработки системы управления комплексом лифтов предложим КЭ в виде

где

г, - время, прошедшее от момента вызова лифта пассажиром до прибытия лифта на этаж,

/ - количество этажей, пройденных лифтом к пассажиру,

Т - максимально возможное время прибытия лифта на этаж (время прибытия лифта на последний этаж, отправление с первого, остановки на всех этажах),

F - максимально возможное количество пройденных этажей (с первого по последний)

Для данной системы сформулируем целевую функцию

Пассажиры должны быть перевезены на указанные ими этажи При этом, СУ комплексом лифтов должна работать таким образом, чтобы КЭ не убывал с течением времени и, если возможно, рос

Таким образом, сформулируем правила адаптации

- При отсутствии вызовов, лифт перемещается к самому массовому этажу на определенное количество этажей,

- Количество этажей, которое нужно проехать, является параметром адаптации

Правило самообучения заключается в следующем

- Если понизилось значение КЭ, то КСУ изменяется в противоположном направлении от предыдущих изменений,

- Если значение выросло, то КСУ продолжает изменяться в направлении от предыдущих изменений,

- Если значение на протяжении нескольких шагов не меняется, то КСУ случайным образом изменяется

По результатам исследования видно, что в случае относительно детерминированного поведения среды СУ адаптируется и действует в целом более успешно, чем неадаптивная система В случае недетерминированного поведения среды адаптивная и неадаптивная СУ действуют одинаково успешно или одинаково неуспешно

Адаптивные АБС АБС полно автоматизируют банковские процессы и решают поставленные задачи, однако существует класс систем, который выделяется из общего ряда Это системы автоматизации недетерминированной активности человека, действующие в реальном времени Таковы системы автоматизации работы трейдеров на фондовых рынках Потребность в таких системах возникает в связи с чрезвычайно высокой ценой ошибки работы человека на таких рынках (например, дневной объем торгов на NYSE составляет порядка $40 млрд долларов) Автотрейдеры управляют ордерами и портфелями ордеров по определенным алгоритмам Управление заключается в отправке ордера на рынок, изменения параметров ордера, а также отмене ордера Например, достаточной простой пример простейшего автотрейдера это VWAP-алгоритм (VWAP - value-weighed average pnce) Алгоритм применяется для торговли ордерами на покупку/продажу большого (больше половины среднего дневного объема) количества акций определенного символа В то время как алгоритмы работы автотрейдеров хорошо описаны и существую их «канонические» реализации, параметризация этих

алгоритмов достаточна непроста и содержит в себе элемент know-how при каждом конкретном внедрении Обычно алгоритмы параметризуются множеством параметров, собираемых при статистической обработке данных с рынков, результатов работы автотрейдера при предыдущих запусков, а также экспертных оценках трейдеров Сильно волатильные рынки ценных бумаг требуют вмешательства в работу автоматической системы в реальном режиме времени Подобные системы еще не существуют на рынке и их создание позволит достичь конкурентного преимущества владеющей ими организации Таким образом, речь идет о системах управления (автотрейдерах) настраивающихся под изменения внешней среды в реальном режиме времени (Pair algorithmic trading, VWAP algorithmic trading)

При построении адаптивного автотрейдера, сформулируем КЭ

где 1 - номер цикла управления,

Р' - доход, полученный на итерации управления,

затраты, произведенные на итерации управления, ^ - объем рынка

В качестве Решателя выступают канонические алгоритмы управления Так как эти правила уже параметризуются, эти параметры будут выступать в виде адаптационных параметров БКЭ должен реализовываться в виде компоненты подсчета Р&Ь При этом необходимо помнить о том, что прибыли и убытки кроме алгоритма дилинга еще зависят от текущей конъюнктуры рынка Чтобы вычислить чистое подкрепление, необходимо вычислить Р&Ь других участников рынка и сравнить текущий собственный Р&Ь с другими Вычисляя среднюю

динамику других успешных участников и сравнивая ее с динамикой собственного, можно сделать вывод об эффективности управления и необходимости корректировки параметров Разница между динамикой собственного и динамикой среднего Р&Ь даст динамику чистого Р&Ь для принятия решения о дообучении Дообучение будет проводиться согласно описанного в предыдущих работах самообучения

В четвертой главе приведен анализ результатов исследования методики К методологическим преимуществам метода «внутреннего учителя» можно отнести следующие метод «внутреннего учителя», по сравнению с СМП, не нуждается в постоянных рекурсивных возвратах к предыдущим изменениям Т е система управления не должна «вспоминать» о прошлых изменениях, и о том, к чему они привели Система управления оперирует лишь последними поступлениями подкрепления Такое поведение системы влечет за собой меньшие требования к вычислительным ресурсам

Для СМП-систем существует вероятность зацикливания системы по наилучшей, с точки зрения самой системы, контрольной точке Система может быть не в состоянии выйти из локального минимума функции подкрепления Для топологии Внутреннего учителя эта проблема обходится тем, что среди правил самообучения есть такие, которые произвольно изменяют адаптационные параметры правил управления при достаточно долгом относительном не изменении поступающего подкрепления

Методика Внутреннего учителя органично реализуется для таких систем управления и сред, в которых время бесконечно Блок аудита (учитель) и блок управления (решатель) строятся на основе нейросетей, что позволяет реализовывать правила управления и самообучения в виде нечетких и неточно заданных функций Нейросети сами классифицируют

ситуацию, в которой находится система, и выберут наиболее подходящее правила

Недостаток сетей адаптивной критики, в сравнении с внутренним учителем, состоит в том, что этот алгоритм не является обобщенным и достаточным для построения универсальной самонастраивающейся системы управления, чтобы убедиться в этом, достаточно взглянуть на количество методов реализаций и структур В алгоритме HDP также важно, чтобы система оставалась устойчивой, пока обе нейросети адаптировались (если система выйдет из устойчивого состояния, то вероятность адаптации крайне мала) Также недостатком (так как система должна управляться в on-line) является большее количество вычислений

Главное отличие сети адаптивной критики от топологии внутреннего учителя состоит в том, что в первом известна конечная точка (либо задается сверху), где окажется система, и за счет этого строится обучение с использованием принципа Беллмана Но в большинстве задач конечная точка не известна, есть только текущее состояние системы и внешней среды, история и нужно строить управление так, чтобы состояние системы не ухудшилось в следующий момент времени Топология внутреннего учителя предназначена для более широкого круга задач, чем сети адаптивной критики, в качестве параметров управления используются только то, что есть на данный момент Универсальность второго метода также заключается в том, что надо переписать только формулу вычисления коэффициента эффективности, в отличие от построения функции Беллмана (в которой также приходится убирать зависимость от некоторых параметров, в связи со сложностью представления и вычислительными затратами в динамическом программировании) Также нет прямой аналогии блоку аудита (учителю), который дает базовые знания нейросети и вырабатывает новые правила обучения

Необходимо отметить также то, что топология внутреннего учителя строится изначально для систем, действующих в недетерминированной среде Невозможно построить адекватную модель среды И, следовательно, невозможно предсказать подкрепление, которое поступит, как результат того или иного управляющего воздействия Большинство систем, обучаемых с подкреплением, могут действовать только в детерминированной среде с имеющейся моделью этой среды (например сети адаптивной критики)

В заключении перечислены научные и практические результаты, полученные автором в ходе исследований

В приложениях представлен список правил самообучения, правила Решателя для комплекса лифтов, исходные коды программ, процедуры управления комплексом лифтов по расписанию

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Проделанная в рамках диссертации работа позволила ответить на поставленные вопросы, цели и задачи исследования В диссертации предложены, разработаны, апробированы на практике и внедрены новые методики. Выполненные исследования и разработки позволили получить следующие выводы

- метод обучения самообучению в применении в СУ в недетерминированных средах выполняет задачу с достаточным качеством Система способна адаптироваться в процессе управления,

- СУ, построенная с применением «внутреннего учителя» действует более эффективно, чем классические системы,

- адаптивный автотрейдер фондового рынка позволяет достичь существенных преимуществ в сравнении с классическими решениямиж

экспериментальные результаты действия СУ, построенных с применением «внутреннего учителя», больше классических на 515% (в зависимости от применения и потенциала адаптации)

ПЕРЕЧЕНЬ РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Клгочко В И, Стасевич В П, Шумков Е А Патент №20031338197/09(041224) «Интеллектуальный контроллер с нейронной сетью и правилами самомодификации», ФИПС, 2006

2 Стасевич В П, Воротников С А Использование нейросетевых структур для управления динамическими объектами в недетерминированной среде // Экстремальная робототехника Материалы XII Научно-технической конференции - Санкт-Петербург СПбГТУ, 2002

3 Стасевич В П, Шумков Е А, Ключко В И, Воротников С А Адаптивные системы на основе самообучающихся нейросетей // Труды КубГТУ -2002 -Вып2 - С 192-198

4 Стасевич В П, Шумков Е А Новый принцип построения самообучаемых систем управления // Нейрокомпьютеры и их применение Труды VIII конференции. - Москва, 2002 - С 1037 -1039

5. Стасевич В П, Шумков Е А Построение адаптивных систем управления на основе топологии «Внутренний учитель» // Инновационные процессы в высшей школе Материалы IX Всероссийской научно - практической конференции - Краснодар КубГТУ,2003 -С 136

6 Ключко В И, Стасевич В П, Шумков Е А Сети адаптивной критики//Труды КубГТУ -2003 -№2 - С 86-91

7 Стасевич В П Новый принцип построения самообучаемых систем управления // Экстремальная робототехника Материалы XIV Научно-технической конференции - Санкт-Петербург СПбГТУ, 2004

8 Стасевич В П, Зуева В Н, Шумков Е А Обучение и самообучение в адаптивных системах управления // Известия вузов СевероКавказский регион Технические науки -2006 -Вып июнь - С 134 -137

9 Стасевич В П, Зуева В Н, Шумков Е А Построение адаптивных АБС // Интеллектуальные системы Труды Седьмого международного симпозиума / под ред К А Пупкова - Краснодар, 2006

10 Стасевич В П , Зуева В Н , Шумков Е А Построение адаптивных АБС с применением обуче-ния самообучению // Известия вузов Северо-Кавказский регион Технические науки - 2006 - №2 - С 76 -79

Подписано в печать 20 04 07 Печать трафаретная Формат 60x84 1/16 Уч-изд л 1,36 Тираж 100 экз Заказ №23

ООО «Издательский Дом-ЮГ» 350072, г Краснодар, ул Московская 2, корп «В», оф В-120 тел/факс (861)274-68-37

Оглавление автор диссертации — кандидата технических наук Стасевич, Владимир Павлович

Определения.

Введение.

Глава 1 Способы построения самообучающихся систем управления объектами в недетерминированной среде.

1.1 Постановка задачи синтеза адаптивной системы управления.

1.1.1 Принятие решений об управляющих воздействиях.

1.2 Классификация адаптивных систем управления.

1.3 Системы управления объектами в недетерминированной среде.

1.3.1 Обучение с подкреплением. Основные положения.

1.3.2 Q- обучение.

1.3.3 Сети адаптивной критики.

1.3.4 Достоинства и недостатки существующих алгоритмов обучения с подкреплением.

1.4 Самообучаемые системы с самомодифицирующимися правилами.

1.4.1 Методика самомодифицирующихся правил.

1.4.2 Базовый алгоритм самомодифицирующихся правил.

1.4.3 Применение «Внутреннего учителя» Шумковым Е. А.

1.5 Выводы.

Глава 2 Метод построения самонастраивающейся системы управления на основе топологии «внутренний учитель».

2.1 Исходные условия.

2.2 Пример задачи.

2.3 Принцип обучение самообучению.

2.3.1 Структура.

2.3.2 Решатель.

2.3.3 Компонента обратной связи.

2.3.4 Учитель.

2.3.5 Реактивные правила самообучения.

2.3.6 Про-активные правила самообучения.

2.3.7 Взаимодействие компонент.

2.4 Способы реализации метода в прикладных задачах.

2.4.1 Алгоритм разработки правил самообучения.

2.4.2 Приоритетность адаптационных параметров.

2.4.3 Коэффициент степени уверенности.

2.5 Топология «внутренний учитель» с использованием нечеткого вывода.

2.5.1 Начальные данные.

2.5.2 Использование нечеткого вывода Мамдани.

2.6 Топология «внутреннего учителя» в сравнении с известными методиками.

2.7 Выводы.

Глава 3 Самообучающиеся системы управления на основе топологии «внутренний учитель».

3.1 Система управления комплексом лифтов.

3.1.1 Комплекс лифтов.

3.1.2 Алгоритм управления лифтами по расписанию.

3.1.3 Адаптивная система управления комплексом лифтов.

3.1.4 Результаты функционирования адаптивной системы управления комплекса лифтов.

3.2 Система управления мобильным роботом.

3.2.1 Разработка СУ.

3.2.2 Адаптивная система управления мобильным роботом.

3.2.3 Результаты функционирования адаптивной системы управления мобильным роботом.

3.3 Адаптивные автоматизированные банковские системы.

3.3.1 Предпосылки построения автотрейдера.

3.3.2 Адаптивный автотрейдер.

3.4 Выводы.

Глава 4 Исследование результатов функционирования систем управления.

4.1 Анализ результатов, преимущества и недостатки методики.

4.1.1 Методологические преимущества.

4.1.2 Недостатки методики.

4.2 Пути дальнейшего совершенствования.

4.3 Выводы.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Стасевич, Владимир Павлович

В последнее время одними из актуальных становятся задачи связанные с объектами или комплексами объектов, действующих в недетерминированных средах. Актуальность обуславливается развитием технологий, усложнением объектов, а также стремлением автоматизировать процессы, ранее производимые с помощью человека. Разработка автоматизированных систем позволяет снизить риски, связанные с непосредственным участием человека в процессах (когда речь идет об опасных средах), удешевить эти процессы, а также уменьшить ошибки, связанные с участием человека. Существует большой класс задач, при решении которых недетерминированным характером среды пренебрегали, - среды рассматривались как детерминированные. При рассмотрении среды как недетерминированной открывается потенциал для улучшения решения задач за счет ранее неиспользуемых возможностей (подстройка к среде и т.д.). Участие человека в указанных выше процессах возможно как в непосредственном виде (например, выполнение каких-либо погрузочных операций, задачи сборочных операций и т.д.), так и в виде оператора объектом управления (например, оператор мобильного робота, оператор манипулятора и т.д.). Таким образом, возникают две задачи: роботизация процессов и автоматизация управления. Задачи роботизации успешно решаются внедрением мехатронных систем в производства, технологические процессы и непроизводственные установки. Задачи автоматизации приобретают актуальность по следующим причинам. В большинстве случаев, управление объектами в недетерминированных средах выполняется людьми-операторами. Однако существуют задачи, при которых человек-оператор справляется с управлением недостаточно хорошо. Один из примеров таких задач являются задачи, в которых оператор не имеет право на ошибку (операции спасения людей, боевые роботы, медицинские роботы). Второй пример, - задачи, в которых невозможно обеспечить достаточную пропускную способность канала связи управления (некоторые мобильные роботы, боевые роботы, автономные роботы). Третий пример, - задачи, в которых невозможно обеспечить достаточное количество людей-операторов или использование людей-операторов будет неоправданно дорогим (системы распределения ресурсов, программные агенты). Таким образом, задача создания систем автоматического управления (СУ) объектами в недетерминированных средах является актуальной.

Приведем примеры задач, в которых прослеживаются вышеназванные нами черты.

Мобильные автономные роботы (рисунок В.1).

Мобильные автономные роботы, действующие в опасных средах без предварительного их исследования, сталкиваются в процессе работы с заранее непредсказуемыми обстоятельствами. Примерами являются роботы, действующие в зараженных областях, роботы-саперы и т.д. Полная автономность робота может быть достигнута лишь в случае применения автономной СУ. Задачи построения автоматизированных СУ мобильными автономными роботами решались ранее [29,35].

Мобильные роботы-грузчики (рисунок В.2).

СУ мобильными роботами-грузчиками должна отрабатывать несколько одновременных запросов потребителей склада, с возможностью ограничения различных потребителей по приоритетам. Непредсказуемость порядка и моментов поступления запросов потребителей относят эту задачу к разряду рассматриваемых в данной работе. Автоматизация управления роботами-грузчиками необходима для удешевления процесса обслуживания потребителей. Подобные задачи решались ранее в работах [14,29].

Комплекс лифтов в многоэтажном здании (рисунок В.З).

1 j * ч \ j i • i — — "■"'I' " i j j — i 4 j ! 1 i ■ i

Рисунок В.З - Комплекс лифтов в многоэтажном здании

СУ комплексом лифтов в больших зданиях, перевозящих множество пассажиров, должна иметь способность адаптироваться к изменению пассажиропотока в течение дня, затрачивать минимальное время на перевозку каждого пассажира. Пассажиропоток является недетерминированной величиной. Применение автоматизированная СУ необходимо для удешевления поддержки системы. Задачи подобного рода решались в работах [70].

Программные роботы-агенты, собирающие необходимую информацию в сети Internet (рисунок В.4).

Рисунок В.4 - Программные роботы-агенты

Агенты, собирающие информацию в глобальных информационных сетях должны адаптироваться к заранее неизвестным структурам сетей и предоставлять сервис оптимального поиска информации. Применение неавтоматизированной СУ в данном классе задач невозможно. Недетерминированность глобальных сетей относит эту задачу в класс задач, находящихся в рассмотрении данной работы. Подобные задачи решались в работах [32,55], однако адаптируемых агентов, рассматривающих среду как недетерминированную, предложено не было.

Комплекс светофоров на сложных перекрестках (рисунок В.5). I

Рисунок В.5 - Комплекс светофоров

Сложные перекрестки регулируются комплексом светофоров. Поток автотранспорта в принципе непредсказуем, следовательно СУ должна действовать в недетерминированной среде. Применение неавтоматизированной СУ (милиционер-постовой) не всегда оправданно с точки зрения эффективности управления, а также дорого.

Система распределения ограниченных ресурсов (рисунок В.6).

Рисунок В.6 - Система распределения ограниченных ресурсов

Распределение ограниченных ресурсов между заранее неизвестным количеством клиентов накладывает ограничение на СУ компонентом распределения ресурсов. Проблемой при управлении подобными системами является дороговизна применения человека-оператора. Задачи подобного класса решались в работах [22,52,125,127,151].

Таким образом, основная проблема при создании автоматизированной СУ для рассматриваемого класса задач заключается в невозможности построить математическую модель среды.

Однако, недетерминированные среды, не обладая свойствами предсказуемости, обладают, тем не менее, некоторыми закономерностями. В выявлении этих закономерностей в процессе работы системы заключен потенциал адаптации СУ к среде. СУ будет адаптироваться к среде (рисунок В.7), накапливая опыт управления и анализируя влияния управляющих воздействий на объект и на реакции среды. Таким образом, данная работа рассматривает недетерминированные среды, обладающими выявляемыми закономерностями (среды, воздействие которых нельзя предсказать заранее, но характер воздействия которых определен). В связи с тем, что подстройка СУ занимает определенное время, необходимо, чтобы закономерности среды менялись медленнее, чем система успевает подстраиваться под эти изменения.

Процесс управления в подобных средах может быть оценен при помощи критериев эффективности. Максимизация критерия эффективности является задачей СУ. При этом СУ должна выполнять конкретную задачу управления. Данная работа ставит перед собой цель разработать метод построения таких адаптивных СУ, которые выполняют задачу управления и максимизируют критерий качества управления, выявляя закономерности недетерминированной среды в процессе работы.

СУ

Рисунок В.7 - СУ - среда Задачами данной работы являются: а) Исследование существующих методик построения адаптивных СУ объектами в недетерминированных средах; б) Разработка метода адаптивного управления объектами в недетерминированных средах с такими свойствами:

1) гарантированным выполнением задачи управления (отсутствие права на ошибку, метод проб и ошибок не применим);

2) автономность (отсутствие дообучения экспертом в процессе работы);

3) режим работы в реальном времени.

4) Провести экспериментальные исследования результатов работы СУ; выявить достоинства и недостатки метода; оценить эффективность предложенных метода обучения и топологии.

В качестве модельной задачи будет рассмотрен мобильный робот, с составным гусеничным движителем.

Актуальность этой диссертационной работы заключается в следующем:

- Метод построения СУ позволит строить адаптируемые системы управления в недетерминированных средах;

- Результаты проведенного в работе исследования позволяют отработать подходы к созданию адаптивных СУ.

Содержание диссертационной работы отражает реализацию поставленных задач. В первой главе проведено исследование существующих СУ. Показана целесообразность использования метода обучения обучения с подкреплением и проведен анализ существующих методов этого типа (Q-обучение, сети адаптивной критики и других), методов, основанных на использовании нейронных сетей, рассмотрена методика построения самомодифицирующихся правил - СМП. Выявлены достоинства и недостатки существующих методов. Предложено в качестве реализации использовать аппарат нечеткой логики, построенный на нейронных сетях.

Во второй главе обоснован и описан метод создания топологии «внутренний учитель». Разработанный метод обучения самообучения позволяет обучить нейросеть на небольшом количестве примеров, а также дообучать (переобучать) в режиме реального времени по мере поступления новой информации, без участия эксперта (впрочем, последний может корректировать процесс обучения). Это позволяет использовать данный метод для моделирования динамических процессов, в которых наибольшую достоверность имеют наиболее актуальные данные, или процессов, для которых, на начальном этапе, не представляется возможным создать обучающее множество необходимого размера. За счет использования принципов обучения с подкреплением система выполняет задачу с заданным показателем качества. Использование метода обучения самообучению предоставляет системе уникальную возможность изменения стратегии и тактики поведения в зависимости от совокупного влияния среды и объекта друг на друга, основываясь на информации о подкреплении.

В третьей главе разработана система управления мобильным роботом в недетерминированной среде. Спроектирована топология системы. Исследована проблематика управления мобильным роботом, сформулированы правила управления объектом и их адаптационные параметры. Разработаны правила самообучения системы. Сформулированы описания правил управления и самообучения в терминах нечеткой логики. Спроектирована топология нейросетей, реализующая эти правила. Выбран алгоритм обучения нейросетей. Спроектирован макет СУ и описана ее реализация. Спроектирована СУ комплексом лифтов. Разработаны правила управления и самообучения. Спроектированы топологии нейросетей, выбран алгоритм обучения нейросетей. Спроектирована СУ автотрейдером фондового рынка.

В четвертой главе проведено сравнение результатов анализа функционирования СУ, построенной при помощи топологии «внутренний учитель», классической нейронной сети с алгоритмом СМП и традиционных методов управления. Также рассмотрены возможные пути дальнейшего развития метода. Показано, что использование топологии «внутренний учитель» позволит поднять средний уровень подкрепления СУ на 15-20%, что повышает качество работы СУ в целом.

В заключении описаны выводы и результаты проделанной работы.

Задачи исследования решены с использованием методов теории искусственных нейронных сетей, системного анализа, нечеткой логики.

Научная новизна исследования заключается в следующем:

- разработано решение по применению метода обучения самообучению в системах управления в недетерминированных средах;

- нейросетевая топология «внутренний учитель» адаптирована к использованию в управлении в недетерминированных средах;

- предложена модель топологии «внутренний учитель» на основе нечеткой логики;

- разработана схема управления комплексом лифтов многоэтажного здания с применением «внутреннего учителя»;

- разработан адаптивный автотрейдер фондового рынка с применением метода обучение самообучению и «внутреннего учителя».

Практическая значимость работы заключается в создании практического метода построения адаптивных СУ в недетерминированных средах. Разработан адаптивный автотрейдер фондового рынка.

Эффективность метода подтверждена при разработке СУ мобильным роботом и СУ комплексом лифтов.

Основной материал работы опубликован в 6 научных статьях и 3 тезисах докладов. Имеется патент на изобретение.

Диссертация состоит из введения, четырех разделов, заключения, списка использованной литературы и приложений. Ее общий объем составляет 170 страниц текста, содержащего 3 таблицы и 38 рисунков.

Заключение диссертация на тему "Анализ и адаптивное управление в недетерминированных средах на основе самообучения"

4.3 Выводы

Преимущества метода построения СУ с использованием метода обучения самообучению заключаются в выявлении и использовании потенциала адаптации среды и ОУ. При этом метод обучения самообучения наиболее полно реализует свой потенциал при управлении в недетерминированных средах. Важным достоинством метода является возможность его достаточно широкого применения в разных классах задач.

Выявлены следующие недостатки метода: отсутствие гарантированного роста подкрепления, трудоемкость внедрения в конкретных реализациях.

Экспериментально выявлено, что подкрепления СУ, построенных с использованием обучения самообучения, больше подкрепления классических СУ в среднем на 5-15%.

Заключение

В данной диссертационной работе ставились несколько задач. Объект в недетерминированной среде должен вести себя указанным способом:

- метод обучения самообучению в применении в СУ в недетерминированных средах выполняет задачу с достаточным качеством. Система способна адаптироваться в процессе управления;

- топология Внутреннего учителя, использованная в работе, дополненная про-активными правилами самообучения, позволяет строить адаптивные СУ, выполняющие задачи управления;

- СУ, построенная с применением «внутреннего учителя» действует более эффективно, чем классические системы;

- адаптивный автотрейдер фондового рынка позволяет достичь существенных преимуществ в сравнении с классическими решениями;

- экспериментальные результаты действия СУ, построенных с применением «внутреннего учителя», больше классических на 515% (в зависимости от применения и потенциала адаптации).

Предложенная топология «внутреннего учителя» позволяет реализовать такое поведение СУ объектом.

Предложенная методика позволяет использовать системный подход при построении СУ. Процессы адаптации и управления рассматриваются как единые процессы жизни системы. Система не разбивается искусственно на отдельные части. Недостаток того, что обычно обучением системы занимаются эксплуатирующие специалисты, мы также преодолели. Система самообучается в процессе работы. Методика обучения самообучению более выигрышна, по сравнению с существующими методиками построения систем управления, что показывает анализ результатов работы СУ.

Результаты данной диссертационной работы могут быть использованы для решения различных научных и технических задач, связанных с управлением в недетерминированных средах, в области робототехники и в смежных областях.

Библиография Стасевич, Владимир Павлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Аджиев В. MineSet визуальный инструмент аналитика // Открытые системы. - 1997. - № 3. - С. 72-77.

2. Анил К. Джейн, Жианчанг Мао, К.М. Моуддин. Введение в искусственные нейронные сети // Открытые системы. 1997. - № 4. - С. 16 - 24.

3. Ариб М. Алгебраическая теория автоматов, языков и полугрупп: Пер. с англ. М.: Статистика, 1975. - 254 с.

4. Армстронг Р. Семь этапов оптимизации производительности хранилища данных // Открытые системы. 2002. - № 1. - С. 51 - 54.

5. Беседы по автоматике / Под ред. д.т.н. П.И. Чинаева. Киев: 1971. - 278 с.

6. Брауэр Б. Введение в теорию конечных автоматов: Пер. с англ. М.: Радио и связь, 1987. - 272 с.

7. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++. М.: "Издательство Бином", 1999. - 560 с.

8. Бэстенс Д.Э., Ван ден Берг В.М., Вуд Д. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. Москва: ТВП, 1997. -236 с.

9. Вайну Я. Ф. Корреляция рядов динамики. М.: Статистика, 1977. - 119 с.

10. Волькштейн М. В. Биофизика: Учебное руководство. М: Наука, Гл. ред. физ. - мат. лит., 1988. - 592 с.

11. Воротников С. А. Информационные устройства и системы. Часть I. Учебное пособие. М.: Изд. МГТУ, 1995. - 64 с.

12. Вукобратович М., Стокич Д., Кирчински Н. Неадаптивное и адаптивное управление манипуляционными роботами. М.: Мир, 1989. - 376 с.

13. Галушкин А.И. О Современных направлениях развития нейрокомпьютеров // Информационные технологии. 1997. - № 5. - С. 2-5.

14. Галушкин А.И., Кирсанов Э.Ю. Нейронные системы памяти. Часть 1. М.: Изд-воМАИ, 1991.- 178 с.

15. Галушкин А.И., Кирсанов Э.Ю. Нейронные системы памяти. Часть 2. М.: Изд-воМАИ, 1991.-214 с.

16. Галушкин. А.И. Нейрокомпьютерные системы. М.: Издательское предприятие журнала "Радиотехника", 2000. - 205 с.

17. Гарбар П. Организация отказоустойчивого хранилища // Открытые системы. 2002. - № 4. - С. 56 - 61.

18. Глушков В. М. Теория автоматов и вопросы проектирования структур цифровых машин // Кибернетика. 1965. - № 1. - С. 3 -11.

19. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере Новосибирск: Наука, Сибирская издательская фирма РАН, 1996. - 276 с.

20. Гупал А. М., Пономарев А. А., Цветков А. М. Об одном методе индуктивного вывода с подрезанием деревьев решений // Кибернетика и системный анализ. 1993. - № 5. - С. 174 - 178.

21. Де Марк Т. Технический анализ новая наука. - М.: Диаграмма, 1997. - 122 с.

22. Джейн А. К., Мао Ж., Моиудцин К. М. Введение в искусственные нейронные сети // Открытые системы. 1997. - № 4. - С. 16 - 24.

23. Долматова JI.M. Что считать результатами обучения: интерполяция зависимостей посредством анализа топологии обученной нейронной сети // Известия РАН. Теория и системы управления. 1996. - № 5. - С. 71 - 75.

24. Доререр М.Г. Психологическая интуиция искусственных нейронных сетей: Дис. канд. техн. наук. Красноярск, 1998. - 126 с.

25. Ежов А., Чечеткин В. Нейронные сети в медицине // Открытые системы. -1997.-№4.-С. 34-37.

26. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. М: ФИАН, 1998. - 222 с.

27. Елисеева И. И., Юзбашев М. М. Общая теория статистики / Под ред. чл.-корр. РАН И. И. Елисеевой. М.: Финансы и статистика, 1996. - 368 с.

28. Ермоленко В.В. Разработка нейросетевой базы знаний интеллектуальной автоматизированной системы мониторинга образовательного процесса: Дис. канд. техн. наук. Краснодар, 1996. - 130 с.

29. Заенцев И. В. Нейронные сети: основные модели. Учебное пособие. -Воронеж: ВГУ, 1998. 76 с.

30. Зенкевич С. Л., Ющенко А. С., Управление роботами. М.: Изд. МГТУ, 2000. - 400 с.

31. Змиртович А.И. Интеллектуальные информационные системы. Мн.: НТООО "ТетраСистемс", 1997. - 368 с.

32. К.М. Моуддин // Открытые системы. 1997. - № 4. - С. 16 - 24.

33. Каляев И.А., Гайдук А.Р., Капустян С.Г. Распределенные системы планирования действий коллективов роботов. 1997. - 114 с.

34. Капица С. П., Курдюмов С. П., Малинецкий Г. Г. Синергетика и прогнозы будущего. М.: Наука, 1997. - 286 с.

35. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. - № 4. - С. 41 - 44.

36. Ключко В. И., Стасевич В. П., Шумков Е. А. Патент №20031338197/09(041224). "Интеллектуальный контроллер с нейронной сетью и правилами самомодификации"

37. Ключко В. И., Стасевич В. П., Шумков Е. А. Сети адаптивной критики // Труды КубГТУ. 2003. - №2. - С. 86 - 91.

38. Конечные автоматы: эквивалентность и поведение / Иванов Н. Н., Михайлов Г. И., Руднев В. В., Таль А. А. М.: Наука, 1984. - 278 с.

39. Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. Рига: Зинатне, 1983. - 156 с.

40. Кречетов Н. Продукты для интеллектуального анализа данных // Рынок программных средств. 1997. - № 14-15. - С. 32-39.

41. Крыжановский М.В. Принципы нейроподобной реализации систем Автономного Адаптивного Управления / ИПУ РАН. Москва, 2004. - 15 с.

42. Кузнецов С. Хранилища данных в начале века // Открытые системы. 2002. - №1.-С. 35-36.

43. Кузьминов О.А., Смолицкий X.JL,Франков М.Ф. Сравнительный анализ линейных методов обучения нейронных сетей // Известия ВУЗов. 1996. -№1. - С. 15-17.

44. Лиховидов В.Н., Сафин В.И. Технический анализ валютных рынков. -Владивосток: Изд-во ДВГАЭУ, 1998. 200 с.

45. Лобов Н.А. Пассажирские лифты грузоподъемностью 400 и 630 кг. М.: Издательство МГТУ им. Н.Э. Баумана, 1999. - 351 с.

46. Марчук Г.И. Методы вычислительной математики. 3-е изд. М.:Наука,1989- 608 с.

47. Меладзе В. Курс технического анализа М.: Серебряные нити, 1997. - 272 с.

48. Методы анализа нелинейных динамических моделей / Холодниок М. и др. -М.: Высшая школа, 1994. 256 с.

49. Мкртчян С. О. Нейроны и нейронные сети. М: Энергия, 1971. - 232 с.

50. Мошков М.Ю. О глубине деревьев решений // Доклады РАН. М., 1998. -С. 26.

51. Наговицин А.Г., Иванов В.В. Валютный курс. Факторы. Динамика. Прогнозирование. М.: Инфра-М, 1995. - 176 с.

52. Обучение нейронной сети при помощи алгоритма фильтра Калмана // VIII Всероссийская конференция "Нейрокомпьютеры и их применение", НКП -2002: Труды конференции / Бутенко А. А. и др. Москва, 2002. - С. 105.

53. Педерсен Т., Йенсен К. Технология многомерных баз данных // Открытые системы. 2002. - № 1. - С. 45 - 50.

54. Питерсон Дж. Л. Теория сетей Петри и моделирование систем: Пер. с англ.- М.: Мир, 1984.-264 с.

55. Соколов Е.Н., Вайткявичюс Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. М.: Наука, 1989. - 238 с.

56. Сорос Дж. Алхимия финансов: Пер. с англ. Аристова Т.С. М.: ИНФРА-М, 1999.-416 с.

57. Стасевич В. П., Шумков Е. А. Построение адаптивных систем управления на основе топологии "Внутренний учитель". // Инновационные процессы в высшей школе: Материалы IX Всероссийской научно практической конференции. - Краснодар: КубГТУ, 2003. - С. 136.

58. Стасевич В. П., Шумков Е. А., Ключко В, И., Воротников С. А. Адаптивные системы на основе самообучающихся нейросетей // Труды КубГТУ. 2002. - Вып.2. - С. 192 - 198.

59. Стасевич В.П. Новый принцип построения самообучаемых систем управления // Экстремальная робототехника: Материалы XIV Научно-технической конференции. Санкт-Петербург: СПбГТУ, 2004.

60. Стасевич В.П., Воротников С.А. Использование нейросетевых структур для управления динамическими объектами в недетерминированной среде // Экстремальная робототехника: Материалы XII Научно-технической конференции. Санкт-Петербург: СПбГТУ, 2002.

61. Стасевич В.П., Зуева В.Н., Шумков Е.А. Обучение и самообучение в адаптивных системах управления // Известия вузов. Северо-Кавказский регион. Технические науки. 2006. - Вып. июнь. - С. 134 - 137.

62. Стасевич В.П., Зуева В.Н., Шумков Е.А. Построение адаптивных АБС // Интеллектуальные системы: Труды Седьмого международного симпозиума / под ред. К. А. Пупкова. Краснодар, 2006.

63. Стасевич В.П., Зуева В.Н., Шумков Е.А. Построение адаптивных АБС с применением обучения самообучению // Известия вузов. СевероКавказский регион. Технические науки. 2006 - №2. - С. 76 - 79.

64. Стасевич В.П., Шумков Е.А. Новый принцип построения самообучаемых систем управления // Нейрокомпьютеры и их применение: Труды VIII конференции. Москва, 2002 - С. 1037 - 1039.

65. Степанов В. Фондовый рынок и нейросети // Мир ПК. 1998. - №12. - С. 40 -46.

66. Страуструп Б. Язык программирования С++. 3-е изд. - СПб.: "Невский диалект", 1999. - 991 с.

67. Сураджит Чаудхури, Умешвар Дайал, Венкатеш Гаити. Технология баз данных в системах поддержки принятия решений // Открытые системы -2002.-№1.-С. 37-44.

68. Суровцев И. С., Клюкин В. И., Пивоварова Р. П. Нейронные сети. -Воронеж: ВГУ, 1994. 224 с.

69. Тимофеев А. В. Адаптивные робототехнические комплексы. Л.: Машиностроение, 1988. - 332 с.

70. Уоссермен. Ф. Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992.-240 с.

71. Цуприков С. Нейронные вычисления берутся на вооружение финансистами // Банковские системы. 1995. - №7. - С. 57 - 58.

72. Шумков Е. А., Семенов С. С. Нейросетевая моделирующая система NNWizard. Инновационные системы в высшей школе // VIII Всероссийская научно-практическая конференция: Материалы. -Краснодар: Изд. КубГТУ, 2002. С. 129.

73. Шустер Г. Детерминированный хаос. Введение. М.: Мир, 1988. - 240 с.

74. Эрлих А. Технический анализ товарных и фондовых рынков. М.: Юнити, 1996.-215 с.

75. Яковлев B.JL, Яковлева Г.Л., Лисицкий Л.А. Применение нейросетевых алгоритмов к анализу финансовых рынков // Информационные технологии. 1997.-№8.-С. 35 -36.

76. Яковлев B.JI., Яковлева Г.Л., Малиевский Д.А. Нейросетевая экспертная система управления портфелем банка // V Всероссийская конференция "Нейрокомпьютеры и их применение": Сборник докладов. М., 1999. - С. 291 -294.

77. Berry D.A., Fristedt В. Bandit Problems: Sequential Allocation of Experiments.- London: Chapman and Hall. 1985.

78. Brand E., Gerritsen R. Data Mining and Knowledge Discovery // DBMS. 1998. -N.11(9). -P.52.

79. Campos J., Lewis F.L. Adaptive critic neural network for feedforward compensation // American control conference: In Proc. June 1999. San Diego, California, 1999.

80. Chaitin G.J. On the length of programs for computing finite binary sequences: statistical considerations // Journal of the ACM. N.16. - 1969. - P. 145 - 159.

81. Classification and Regression Trees / L. Breiman et al. Boca Raton, Fla.: Chapman & Hall/CRC, 1984.

82. Cliff D., Ross S. Adding temporary memory to ZCS // Adaptive Behavior. N.3.- 1994.-P. 101-150.

83. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (on-line analytical processing) to user-analysts: An IT Mandate: Technical report / Arbor Software White Paper. 1993.

84. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tabb, and Sub Totals / Gray J. et al. // Data Mining and Knowledge Discovery J.: Apr. 1997. 1997.

85. Declarative Data Cleaning: Model, Language, and Algorithms / H. Galhardas et al. // VLDB Conf., Morgan Kaufmann. San Francisco, 2001.

86. Donnart J.Y., Meyer J.A. Learning Reactive and Planning Rules in a Motivationally Autonomous Animat // IEEE Transactions on Systems, Man and Cybernetics. N.26(3). - 1996. - P. 381 - 395.

87. Gallant S.I. Neural Network Learning and Expert Systems. Cambridge: MA, 1993.

88. Gaskett C., Fletcher L., Zelinsky A. Reinforcement Learning for Visual Servoing of a Mobile Robot. Canberra: ANU, ACT, 2000.

89. Gittins J. C. Multi-armed Bandit Allocation Indices. Wiley-Interscience series in systems and opti-mization. NY: Wiley, Chichester, 1989.

90. Han J. OLAP Mining: An Integration of OLAP with Data Mining // IFIP Conf. Data Semantics: Proc. Fla.: Chapman & Hall/CRC, Boca Raton, 1997.

91. Han J., Kamber M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kauffinann, 2001.

92. Hernandez M., Stolfo S. The Merge/Purge Problem for Large Databases // Proc. SIGMOD Conf. 1995. New York: ACM Press, 1995.

93. Implementing Data Cubes Efficiently // SIGMOD Conf.: In Proc. / V. Harinarayan et al. New York: CAN Press, 1996.

94. Induction: Processes of Inference, Learning, and Discovery / Holland J.H., Holyoak K.J., Nisbett R.E., Thagard P. Cambridge: MIT Press, 1986. - 416 p.

95. Intelligent Systems for Finance and Business; Edited By Suran Goonatilake and Philip Treleaven. John Wiley & Sons Inc., 1995.

96. J. Schmidhuber. A neural network that embeds its own meta-levels // International Conference on Neural Networks: In Proc. 1993. San Francisco: IEEE, 1993.

97. J. Schmidhuber. A self-referential weight matrix // International Conference on Artificial Neural Networks: In Proceedings 1993. Amsterdam: Springer, 1993. -P. 446-451.

98. J. Schmidhuber. Discovering neural nets with low Kolmogorov complexity and high generalization capability // Neural Networks. 1997.

99. J. Schmidhuber. Evolutionary principles in self-referential learning, or on learning how to learn: the meta-meta-. Hook / Institut fur Informatik, Technische Universitat Munchen. Munchen, 1987.

100. J. Schmidhuber. On learning how to learn learning strategies // Technical Report FKI-198-94 / Fakultat fur Informatik, Technische Universitat Munchen. 1994.

101. J. Schmidhuber. Reinforcement learning in Markovian and non-Markovian environments // Advances in Neural Information Processing Systems 3 / Editors Lippman D. S., Moody J. E., Touretzky D. S. San Mateo, CA: Morgan Kaufmann, 1991.-P. 500-506.

102. Kimball R., Merz R. The Date Webhouse Tookit: Building the Web-Enabled Data Warehouse. New York: John Wiley & Sons, 2000.

103. Kolmogorov A.N. Three approaches to the quantitative definition of information // Problems of Information Transmission. 1965. - N.l. - C. 4-7.

104. L. A. Levin. Randomness conservation inequalities: Information and independence in mathematical theories // Information and Control. 1984. -N.61.-P. 15-37.

105. L. A. Levin. Universal sequential search problems // Problems of Information Transmission. 1973. - N.9(3). - P. 265 - 266.

106. L. Chrisman. Reinforcement learning with perceptual aliasing: The perceptual distinctions approach // In Proceedings of the Tenth International Conference on Artificial Intelligence. San Jose, California: AAAI Press, 1992. - P. 183-188.

107. L.J. Lin. Reinforcement Learning for Robots Using Neural Networks: PhD thesis. Pittsburgh: Carnegie Mellon University, 1993.

108. L.P. Kaelbling, M.L. Littman, A.R. Cassandra. Planning and acting in partially observable stochastic domains // Technical report / Brown University, Providence RI. 1995.

109. Learning to learn: knowledge consolidation and transfer in inductive systems / R. Caruana, D. L. Silver, J. Baxter, Т. M. Mitchell, L. Y. Pratt, S. Thrun. -Workshop held at NIPS-95. Vail, CO, 1995.

110. Lenat D. Theory formation by heuristic search // Maching Learning. N.21. -1983.

111. Li M., Vit? anyi P. M. B. An Introduction to Kolmogorov Complexity and its Applications. Springer, 1993.

112. Loading Databases Using Dataflow Parallelism / Barclay Т., Barnes R., Gray J., Sundaresan P.: Vol.23, No.4 SIGMOD Record, 1994.

113. M. B. Ring. Continual Learning in Reinforcement Environments: PhD thesis. -Austin, Texas: University of Texas at Austin, 1994.

114. M. Boddy and T. L. Dean. Deliberation scheduling for problem solving in time-constrained environments // Artificial Intelligence. 1994. - N.67. - P. 245 - 285.

115. M. Wiering, J. Schmidhuber. HQ-Learning: Discovering Markovian subgoals for non-Markovian reinforcement learning // Technical Report: IDSIA-95-96, IDSIA. 1996.

116. M.A. Wiering, J. Schmidhuber. Solving POMDPs with Levin search and EIRA // Thirteenth International Conference: In Proc. / L. Saitta, editor. San Francisco, CA: Morgan Kaufmann Publishers, 1996. - P. 534 - 542.

117. On the Computation of Multidimensional Aggregates / S. Agrawal et al. // VLDB Conf.: In Proc. San Francisco: Morgan Kaufmann, 1996.

118. P. R. Kumar, P. Varaiya. Stochastic Systems: Estimation, Identification, and Adaptive Control / Prentice Hall. 1986.

119. P. S. Rosenbloom, J. E. Laird, A. Newell. The SOAR Papers / MIT Press. -1993.

120. P. Utgoff. Shift of bias for inductive concept learning // Machine Learning, volume 2 / R. Michalski, J. Carbonell, T. Mitchell, editors. Los Altos, CA: Morgan Kaufmann, 1986. - P. 163 - 190.

121. Parsaye K. A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing. 1998. - N.l.

122. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. 1997.-N.2.

123. Piaget J. Genetic Epistemology. New York: Colambia University Press, 1970.

124. Prokhorov D., L. A. Feldcamp. Generalized adaptive critic and their applications // IJCNN'99, session 6.5. Washington D. C., 1999.

125. Prokhorov D., Wanch D. Adaptive critic designs // IEEE transactions on Neural Ne.tworks: September 1997. 1997. - P. 997 - 1007

126. R. Greiner. PALO: A probabilistic hill-climbing algorithm // Artificial Intelligence. 1996. -N.83(2).

127. R. S. Sutton. Learning to predict by the methods of temporal differences // Machine Learning. 1988. - N3. - P. 9 - 44.

128. R. Sutton and A. Barto. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998. - 432 p.

129. R.H. Crites, A.G. Barto. Improving elevator performance using reinforcement learning // Advances in Neural Information Processing Systems 8 / D.S. Touretzky, M.C. Mozer, M.E. Hasselmo, editors. Cambridge MA: MIT Press, 1996.-P. 1017- 1023.

130. R.J. Solomonoff. A formal theory of inductive inference. Part I. // Information and Control. 1964. - N.7. - P. 1 - 22.

131. R.J. Solomonoff. An application of algorithmic probability to problems in artificial intelligence // Uncertainty in Artificial Intelligence / L. N. Kanal, J. F. Lemmer, editors. Elsevier Science Publishers, 1986. - P. 473 - 491.

132. Ralph Kimball. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. John Wiley & Sons, 1996.

133. S. Russell, E. Wefald. Principles of Metareasoning // Artificial Intelligence. -1991. N.49. - P. 361 -395.

134. S. Sarawagi. User Adaptive Exploration of OLAP Data Cubes // VLDB Conf.: In Proc. San Francisco: Morgan Kaufmann, 2000.

135. S.D. Whitehead, D. H. Ballard. Active perception and reinforcement learning // Neural Computation. 1990. - N.2(4). - P. 409 - 419.

136. Schmidhuber J., Zhao J., Schraudolph. Reinforcement Learning with self -modifying policies // Learning to learn / S. Thrun, L. Pratt, eds. Kluwer, 1997. - P. 293 - 309.

137. Shavlik J. W. An overview of research at Wisconsin on knowledge-based neural networks // Int. conf. on neural networks: In Proc. Washington, DC, 1996. - P. 65 - 69.

138. Touzet C.F. Neural networks and Q-learning for robotics // International Joi.nt Conference on Neural Networks: 10-16 July 1999. Washington, DC, 1999

139. Tsitolovsky L.E. A model of motivation with chaotic neuronal dynamics // Journ. of Biological Systems, V. 5. 1997. - N.2. - P. 301 - 323.

140. V. Ganti, J. Gehrke, R. Ramakrishann. Mining Very Large Data Sets / Computer. Aug. 1999.

141. Watkins C.J.C.H., Dayan P. Q-learning // Machine learning. N.8. - 1992. - P. 279 - 292.

142. Werbos P. J. Stable adaptive controlusing new critic design // In The handbook of applied computational intelligence / Karayiannis, Padgett, Zadeh, eds. CRC Press.

143. Wolpert D.H. The lack of a priori distinctions between learning algorithms // Neural Computation. N8(7). - 1996. - P. 1341 - 1390.

144. ЖДАЮ: це-президент Ситибанк > Попов А. А. августа 2006г.1. АКТвнедрения результатов диссертации на соискание ученой степени кандидата технических наук Стасевича Владимира Павловича1. Состав комиссии:

145. Попов Андрей Александрович заместитель главного бухгалтера ЗАО «КБ Ситибанк», Вице-президент, председатель комиссии

146. Хромченко Георгий Яковлевич бизнес-аналитик ЗАО «КБ Ситибанк», член комиссии

147. Быков Олег Михайлович руководитель группы разработки приложений ЗАО «КБ Ситибанк», член комиссии

148. Практическое внедрение научных результатов по теме диссертации осуществлялось Стасевичем В.П. под научным руководством к. т. н., доцента Шумкова Е.А.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00