Адаптивный критик с использованием фильтра Калмана

Ботин, Валерий Александрович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Адаптивный критик с использованием фильтра Калмана

кандидата технических наук: Ботин, Валерий Александрович
город: Краснодар
год: 2012
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Адаптивный критик с использованием фильтра Калмана»

Автореферат диссертации по теме "Адаптивный критик с использованием фильтра Калмана"

На правах рукописи

ООбитэ*^

Ботин Валерий Александрович

, / I/

АДАПТИВНЫМ КРИТИКС ИСПОЛЬЗОВАНИЕМ ФИЛЬТРА

КАЛМАНА

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (информационные и технические системы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 2 ЩР 2012

Краснодар - 2012

005015264

Работа выполнена в ФГБОУ ВПО «Кубанский государственный технологический университет»

Научный руководитель: кандидат технических наук

Шумков Евгений Александрович

Официальные оппоненты: доктор технических наук, профессор

Лойко Валерий Иванович

кандидат технических наук Стасевич Владимир Павлович

Ведущая организация ФГБОУ ВПО «Морская

государственная академия имени адмирала Ф.Ф. Ушакова», г. Новороссийск

Защита состоится 21 марта 2012 г. в 1400 на заседании диссертационного совета Д 212.100.04 в Кубанском государственном технологическом университете по адресу 350072, г. Краснодар, ул. Московская 2, ауд. Г-251.

С диссертацией можно ознакомиться в научной библиотеке КубГ'ГУ.

Автореферат диссертации разослан 18 февраля 2012 г.

Ученый секретарь диссертационного совета, канд. техн, наук, доцент

Власенко А.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность исследования. Рациональное управление во многих прикладных задачах, например, ведение хозяйств, использование ресурсов, организация деловой активности, является многошаговой задачей, часто с бесконечным горизонтом. В данных задачах необходимо на каждой итерации выбирать некоторое управление, возможно неоптимальное на данном шаге, но оптимальное с точки зрения конечной цели. Другими словами, оптимальным должен быть весь многоэтапный процесс смены состояний системы. Однако зачастую построить такое управление классическими способами не представляется возможным в силу сложности решаемой задачи, и для решения таких задач в последнее время все чаще стали применять нейронные сети и топологии с подкреплением, в частности сети адаптивной критики и системы на базе 9 - обучения. В то же время такие системы обладают недостатками, такими как необходимость переобучения, длительное пошаговое исследование среды, негарантированное поступление подкрепления и др.

Целыо работы является разработка топологии модифицированного адаптивного критика с использованием фильтра Калмана, построение механической торговой системы на базе новой топологии и её программная реализация, разработка системы поддержки принятия решений ИТ - отдела крупного предприятия на базе новой топологии.

Публикации. По материалам выполненных исследований опубликовано 5 научных работ, в том числе 3 статьи в журналах, рекомендованных ВАК РФ и 2 тезиса докладов, получено решение о выдаче патента на изобретение «Модифицированный интеллектуальный контроллер».

Структура и объем диссертации. Диссертация состоит из введения, четырёх разделов, заключения, списка использованной литературы и приложения. Её общий объем составляет 123 страниц текста, содержащего 39 рисунков и 8 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность и сформулирована научная проблема исследования, определены его объект и предмет, поставлены цель и задачи исследования.

В первой главе рассмотрены:

• обучение с подкреплением и топологии с обучением с подкреплением, рассмотрено 0 - обучение и системы на основе О - обучения;

• проведён анализ современных топологий сетей адаптивной критики, предназначенных для построения систем управления объектами, работающих в режиме реального времени. Отмечены достоинства и недостатки данных систем. В частности, недостатком таких систем является то, что с другой стороны

3. разработана и программно реализована механическая торговая система на базе модифицированного адаптивного критика с фильтром Калмана;

4. разработана и программно реализована система поддержки принятия решений ИТ - отдела с использованием модифицированного адаптивного критика с фильтром Калмана.

Практическая ценность работы заключается в разработке и апробации топологии модифицированного адаптивного критика с фильтром Калмана (далее АКФК), реализации программной библиотеки ^РМ1егТоо1 для создания, исследования и применения разработанной топологии, программной реализации механической торговой системы (далее МТС) на базе АКФК, программной реализации системы поддержки принятия решений (далее СППР) ИТ - отдела крупной компании с использованием АКФК.

Реализация и внедрение результатов работы. Разработанная система поддержки принятия решений внедрена в ООО «Кубнет».

Основные положения, выносимые на защиту: -топология АКФК;

- модель МТС на базе АКФК;

- модель СППР ИТ - подразделения крупного предприятия с использованием АКФК и методологии 1Т1Ь;

- результаты экспериментов с разработанными моделями.

Задачи исследования:

• провести анализ топологий, использующих принцип обучения с подкреплением;

• провести сравнительный анализ методов прогнозирования;

• разработать топологию, обучающуюся с подкреплением, отличающуюся высокими скоростными характеристиками работы;

• разработать модель механической торговой системы на базе предлагаемой топологии, реализовать и протестировать её;

• разработать модель управления ИТ - отделом крупной организации с использованием методологии IIIЬ и предлагаемой топологии, реализовать и протестировать её.

Методы исследования. Задачи исследования решены с использованием методов системного анализа, искусственного интеллекта, математической статистики, теории операций и теории фильтрации.

Научная новизна:

1. разработана топология модифицированного адаптивного критика с фильтром Калмана;

2. разработана топология модифицированного адаптивного критика с каскадом фильтров Калмана;

является их достоинством, - использование нейронной сети в качестве критика.

• сделан обзор методов прогнозирования. Отмечено, что каждый метод прогнозирования имеет свою нишу. В частности, скользящие средние эффективны в некритических задачах, решаемых в режиме реального времени. Линейные регрессионные модели используются для простых моделей, в которых известны влияющие факторы и в которых в первую очередь важно спрогнозировать направление тренда. Нелинейные регрессионные модели хорошо описывают прогнозную переменную, но только если количество влияющих факторов невелико. Нейросетевые модели показывают преимущество в тех случаях, когда невозможно построить математическую модель объекта управления, данные зашумлены и с пробелами в истории, модель описывается большим количеством переменных;

• приведён анализ существующих реализаций фильтра Калмана.

Во второй главе предложена топология модифицированного адаптивного критика, где в качестве критика введён фильтр Калмана. Использование фильтра Калмана как решающее ядро Критика позволяет значительно снизить время перенастройки Критика в случае поступления новых, неизвестных ранее системе данных, что критически важно для систем управления, работающих в режиме реального времени. Использование фильтра Калмана позволяет системе проходить новые,

неизвестные ситуации без перенастройки, в аналогичных ситуациях в нейронной сети будет вызван процесс переобучения. Принцип работы дискретного фильтра Кагшана при этом стандартный (в оценке подкрепления).

Принципиальная схема предлагаемого устройства представлена на рисунке!.

Рисунок 1 - Модифицированный адаптивный критик с фильтром Калмана

В качестве объекта управления 1 может быть выбрано практически любое устройство или программная модель, например, веб - сайг или мобильный робот.

Решатель 2 - это устройство, которое реализует математическую формулу (или несколько формул), описывающую те переменные объекта управления, которые можно непосредственно вычислить.

Блок расчета подкрепления (БРП) 3, реализует математическую формулу, рассчитывающую реальное значение подкрепления, после того, как сигнал действия (управления) 17.2 отработан объектом управления I.

Блок действий 4 хранит таблицу возможных действий в конкретных ситуациях. Действия и ситуации могут добавляться и удаляться в ходе работы системы.

Фильтр Калмана 5 предназначен для вычисления ненаблюдаемой величины. Фильтр Калмана выполняется в стандартном исполнении для одношагового предсказания.

Память фильтра Калмана (ПФК) 6 предназначена для временного хранения параметров блока фильтра Калмана 5. Блок хранит столько наборов параметров фильтра Калмана, сколько выбрано возможных действий в блоке действий 4.

Блок выбора действий 7 предназначен для выбора действия из возможных действий в данной ситуации на базе "жадного правила", которое можно записать как: с вероятностью (1-е) выбирается то

действие, которому соответствует максимальное значение подкрепления К"' (I +1), при ЭТОМ 0 <£« 1 ..

Цепочка работы системы следующая:

... ~> .4(1) -> /и) > -> а(!) -> Н(1) - > + О -»/с + 1) -» Л,™ > а(' + 1) ->...

Алгоритм работы устройства следующий (цифрами указаны только сигналы):

1. Объект управления вычисляет сигнал своего состояния 8 (как на базе информации о внешней среде, так и по собственным показателям) и подает его 8.1 - на решатель, 8.2 - на блок действий и 8.3 - на блок расчета подкрепления.

2. Решатель вычисляет наблюдаемый параметр1 II системы.

3. Блок расчета подкрепления рассчитывает получившееся (реальное) подкрепление 9 и подает его значение на 9.1 - блок действий и 9.2 - фильтр Калмана.

4. Блок действий, учитывая последнее поступившее подкрепление 9.1, выбирает возможные действия в данной конкретной ситуации 12.

5. Блок действий последовательно подает выбранные действия на 12.2 - фильтр Калмана и синхронизирующий сигнал 10 на решатель, по которому решатель синхронно подает наблюдаемый параметр II на фильтр Калмана.

1 Ппрамефои может быть несколько

6. При первом поданном сигнале на вычисление 12.2, перед тем как начать работу, фильтр Калмана сохраняет свои параметры по 13 в памяти фильтра Калмана.

7. Фильтр Калмана последовательно получает пары значений {наблюдаемый сигнал 11; возможное действие 12.2} и вычисляет прогноз подкрепления (ненаблюдаемый сигнал) 15.

8. После вычисления прогноза подкрепления для каждого возможного действия 12.2 фильтр Калмана сохраняет свои параметры в памяти фильтра Калмана по 13 и выдает значение прогнозируемого подкрепления 15 на блок выбора действий.

9. Блок выбора действий накапливает пары значений {возможное действие 12.1; прогнозируемое подкрепление 15}.

10. После того, как рассчитаны подкрепления для всех возможных действий, от блока действий идет сигнал 12.1 на блок выбора действий об окончании прогнозирования. После получения этого сигнала блок выбора действий выбирает действие на основе "жадного правила" и подает его по 17.1 на объект управления, по 17.2 на блок действий, а также по 16 на память фильтра Калмана. На блок действий также подается по 17.2 прогнозируемое подкрепление для выбранного действия.

11. Блок действий сохраняет выбранный сигнал 17.1, возможное подкрепление 17.1, состояние объекта управления 8.2, реальное

подкрепление 9.1, тем самым накапливая историю для дальнейшего выбора действий в возможных ситуациях.

12. Память фильтра Калмана восстанавливает по 14 параметры фильтра Калмана для выбранного действия.

13. Объект управления отрабатывает поданное действие 17.2. Далее цикл на шаг 1.

Также во второй главе предложены варианты модифицированных - критика и V - критика на базе фильтра Калмана. Покажем, как работает V- критик на базе фильтра Калмана. В качестве инструмента прогнозирования оценки качества К'" (1 + 1) состояния 5'" (/ + 1) вследствие применения сигнала управления «(/) на данной итерации ( используется дискретный фильтр Калмана. Дискретизация по времени в общем случае не равномерна, что вполне допустимо для несмещенного фильтра Калмана.

Пусть модель сообщения задана линейным разностным уравнением: У[1 + 1]=А (-'[/] + В-м|/| + С-и{/] (1)

где »■(!)' представляет собой белый шум с нулевым средним и ковариационной матрицей:

еот{ИО, п'(У)} АГ„,(0 • Зк (I - }) (2)

Модель наблюдения (или измерения) задается дискретным соотношением:

х(1) = С-У{1\ + Р-и[1}+И ■¡АЧ + А'Г (3) где шум измерения V представляет собой белый шум с нулевым средним и

соуМ/),У(У)} = А:,.(/)-Й-,(/-7) (4)

Предлагаемая схема показана на рисунке 2.

Рисунок 2 - Общая схема У-критика с фильтром Калмана

В этом случае фильтр Калмана, описывается уравнениями:

У{1 + !)=/(■ ("[/] + О ■ »1/] + Цх{11 - С ■ К|/] - О • ф|) (5)

й'] С(1 - М ■ С)" л (1-е

■т+

¿и 1-М с - м

Ф]

(6)

где матрица коэффициентов обратных связей £ и новая матрица коэффициентов обратных связей М определяется на основе решения матричного алгебраического уравнения Риккати. «Наблюдатель»

' При згом х(1) » нашей схеме сеть прогноите т.пение рабочего параметра", то есть по сути )ТО + 1), чтобы ие нводить [1упшицы и не отступать от принычных нотаций формул фильтра Калмана.

объединяет объект управления и фильтр Каммана, используя известные входы ф| и результаты измерений искаженные случайной помехой, для вычисления оценки вектора переменных состояния V[i] и выходов. Обновленная матрица коэффициентов обратных связей М применяется для того, чтобы уточнить предсказание l'[t\ на основе измерения xl<]:

Г[/ + 1| = У[1\ + М(Х[!\-С ■ m-D ■ ф|) (7)

В третьей главе предложены реализации разработанной топологии АКФК для двух актуальных и востребованных задач - МТС, торгующей на фондовом рынке, и СППР ИТ - отдела.

МТС все более востребованы на финансовых рынках и им в последнее время уделяется значительное внимание, как в научных журналах, так и в сети Интернет. Построение МТС на базе разработанной топологии АКФК позволяет использовать набор мощных технологий в "коробочной" версии, необходимо, по сути, только выбрать входы и выходы. Наличие фильтра Калмана качественно улучшает работу МТС за счет использования проверенного, надежного механизма прогнозирования состояния системы».

11а рисунке 3 представлена разработанная М'ГС на базе АКФ.

Рисунок 3 - МТС на базе АКФК

На схеме введены следующие обозначения: ПФК - память фильтра Калмана, БРП - блок расчета подкрепления, Б( ГГ - блок правил торговли, БВД - блок выбора действия, БД - база данных (хранилище данных), БКР - блок корректировки решателя, ФК - фильтр Калмана. В качестве решателя могут быть: нейронная сеть, технический индикатор, уравнение регрессии и т.д. Фильтр Калмана в М'ГС на базе АКФК работает по стандартной схеме, описанной выше.

Предложенная схема МТС, кроме всего прочего, отличается несколькими контурами отслеживания правильности работы системы и несколькими уровнями защиты от ошибочных сигналов.

Использование разработанной топологии в процессе управления ИТ - отделом большого предприятия позволяет получить схему, которая

рекурсивно перенастраивается в зависимости от случившейся ситуации, в то же время используя историю работы отдела. Наличие такой системы, по экспериментальным данным, позволяет избежать нагромождения инцидентов и правильно реагировать на потоки заданий, обеспечивая качественный сервис, предоставляемый всем отделом. Система была построена с соблюдением правил и рекомендаций 1TIL.

Одним из процессов ITIL является "Управление непрерывностью сервисов" ("Service continuity management"), главные задачи которого: анализ рисков, подготовка плана восстановления сервисов, предоставление требуемых средств, плакирование профилактических работ, тестирование текущей инфраструктуры, обучение специалистов для работы в нештатных ситуациях и т.д.

Учитывая специфику и направленность отдела ИТ организации, основной задачей стало распределение СППР специалистов rio сервисам и инцидентам. Основным проводником между пользователями и специалистам отдела ИТ является служба поддержки пользователей (Service Desk) - сервисная структура, разрешающая проблемы пользователей с компьютерами (как аппаратным, так и программным обеспечением), информационными системами и оргтехникой. На момент внедрения разработанной системы организация уже владела программным продуктом компании Hewlett Packard Open View Service Desk, что значительно упростило работу по сбору данных о предоставляемых пользователям сервисам.

На практике было доказано, что разработанная система может полностью автоматически получать данные, анализировать их для последующей обработки среда нами АКФК и дальнейшего прогноза качества сервиса, выполняемого сотрудниками групп ИТ - отдела вне зависимости от приоритетности отношения определённого сотрудника к определённой группе отдела. На рисунке 4 схематически отражён процесс работы АКФК в реализованной СППР.

Отдел N9 1 \

Отдел

Отдел №3 к

О О 6

Отдел №К

Отделы офиса/

филиала

Реализация

клиента «еЬ

арр проворена:

\№пс1ош&ХР/7

У№п(1ои/$М5/6

116/7/8/9

ОрсчаЬ/М

Г ¡го Го X

6иов1е Окоте

Рисунок 4 - принцип работы СППР на базе АКФК

Как видно из рисунка 4 основным результативным процессом работы системы является перемещение взаимозаменяемых сотрудников в группах отдела ИТ. Такой подход перестановки даёт наилучший результат оперативного решения инцидентов и поступающих обращений от сотрудников организации.

Отделы организации vveb-upp/VoiP/Sü Clten(/mail

Клиентская часть программы / GUI средствами Delphi 8

\ I 1

Директории выгружаемой отчетности сервера SD / Microsoft Office xml document База данных значений и переменных импортируемых из отчетов SD / Miciosuft Access Database База данных для хранения прогнозируемых аеличин системы и служебной информации /duilutxl Database F inj ine

Фий/ты конфигурации найрониой атш и с луж е6> юй (оспомога m ельнои) информации / ini4 M, xml, mdb Файлы конфигурации роботы АНФН, памяти ФИ, дополнительной информации /¡'ni, txt, xml, mrffa

Истории интоптн] системы (iio.'1/n-nl lime access: ixt, archive: mlb

ЦОД/HI' service Oes к Open View Winduw, Svrvei ?008 lU/aiJiamjc/SQI/rS

Omàen m

SD ilient/Wm Xp 7/Unix/Mobilii _OeWce/SMS_

Рисунок 5 - Общая схема работы программного комплекса

Рисунок 5 схематически отображает программную реализацию СП ПР. Не смотря на простоту системы, результативность её работ ы остаётся на высоком уровне. Использование двух баз данных позволило разгрузить аппаратную часть предприятия при выполнении одновременных запросов системы к необходимым данным, а простота соединения с СУБД посредствам ADO компонентов позволило СППР мгновенно производить подключение к хранилищу и отправлять на выполнение необходимые запросы.

происходящие процессы и корректировать «на лету» даже с мобильных телефонов, оснащённых мобильными браузерами. За время эксплуатации системы количество закупаемых единиц новой техники и комплектующих снизилось, а по истечении трёх месяцев закупки приостановились из-за своевременного анализа парка компьютерной техники «свободными» сотрудниками ИТ - отдела. Таким образов внедрение СППР оказалось продуктивным и экономически эффективным для предприятия.

В заключении перечислены научные и практические результаты, полученные автором в ходе исследований.

В приложениях перечислены основные программные продукты, реализующие или в которых можно реализовать: нейронные сети, фильтр Калмана и сети адаптивной критики.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Проделанная в рамках диссертации работа позволила ответить на поставленные вопросы, цели и задачи исследования. Основными задачами исследования являлись: создание новой топологии адаптивного критика и алгоритма его обучения, создание обоснованной методики и её апробация в важных прикладных проблемах. В рамках диссертационной работы цели исследования были достигнуты, задачи реализованы: создана новая топология адаптивного критика с фильтром Калмана, /разработан

• V - критику необходимо значительно большее количество итераций для обучения, АКФК «понимает» стуацию за 10 -20 временных итераций. При этом в случае финансовых временных рядов обычно существует значительная история для инициализации системы;

• при старте работы системы «с нуля», но со знанием математической модели среды и объекта, АКФК имеет неоспоримое преимущество перед V - критиком по временным характеристикам.

Результаты экспериментов с разработанным комплексом управления ИТ - отделом позволили сделать следующие выводы: размещение разработанного ПО на серверных комплексах организации привело к снижению времени обработки поступающих в систему данных, что улучшило скорость реагирование СППР на изменение входящих данных. По . завершении обучения системы и её запуске в полном автоматическом режиме разница показателей прогнозируемых и реальных данных на определённый отчётный период составляла всего 1,43%. За время эксплуатации системы уровень нагрузки на сотрудников ИТ -отдела снизился до уровня, позволяющего определённым специалистам заниматься пополнением базы знаний по инцидентам и проблемам для их устранения в будущем. Реализация удалённого доступа к управлению системой и разграничение прав доступа позволило контролировать

В четвертой главе приведены результаты функционирования предложенной топологии адаптивного критика с фильтром Калмана к двум разноплановым задачам.

Полученные результаты использования предложенных МТС можно интерпретировать следующим образом:

• V - критик обучается дольше, чем АКФК, однако, если в АКФК в качестве Решателя используется нейронная сеть, то это преимущество зачастую нивелируется, так как операционный интервал времени рассчитывается по самому медленному звену, которым и является нейронная. Если в качестве ядра решателя АКФК используется другой инструмент, то АКФК имеет скоростные характеристики на несколько порядков выше, чем V - критик (в зависимости от выбранного инструмента);

• при «экстремальных» условиях работы, как например, в случае минутного графика рынка Г'огех, АКФК, даже используя нейронную сеть в качестве ядра Модели, имеет преимущество по скорости расчетов. Это связано с тем, что нейросеть критика может переобучаться в те временные итерации, когда не переобучается нейросеть решателя. По характеристикам работы МТС АКФК также имеет, пусть и незначительное, преимущество перед V - критиком;

алгоритм его обучения, создана обоснованная методика, проведена ее апробация в прикладных областях деятельности»

Разработанную топологию АКФК рекомендуется использовать в случаях, когда известна математическая модель рабочей системы, либо когда на основе исторических данных (по предыдущим результатам работы системы) можно построить априорную модель среды. Данная модель разработана на двух хорошо зарекомендовавших себя моделях. При этом в ряде задач, когда необходима быстрая реакция критика, то есть стратегической компоненты, на новую ситуацию, предложенная система имеет значительное преимущество по быстродействию. Разработанная топология, как наследник адаптивных критиков, несёт в себе большой потенциал развития, в частности при использовании на разных уровнях топологии различных моделей и алгоритмов прогнозирования и выбора действий.

Созданная топология является инвариантной по отношению к моделируемой задаче и может применяться при построении различных систем управления, в том числе и для недетерминированных сред.

ПЕРЕЧЕНЬ РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Ботин В.А., Шумков Е.А. Создание универсальной тестирующей системы для технических индикаторов. Материалы I Межвузовской

научно - практической конференции "Автоматизированные информационные и электроэнергетические системы". КубГТУ, 2010. С. 129-131.

2. Ботин В.А., Шумков Е.А. Управление ИТ-подразделением ВУЗа. // Материалы XVII Всероссийской научно - практической конференции "Инновационные процессы в высшей школе". КубГТУ. 2011.

3. Шумков Е.А., Ботин В.А. Исследование технического индикатора МАСЭ. // Политематический научный журнал КубГАУ [Электронный ресурс]. Краснодар : Куб-ГАУ, 2010. № 64.

4. Шумков Е.А., Ботин В.А. Статистический анализ технических индикаторов. // Политематический научный журнал КубГАУ [Электронный ресурс]. Краснодар : Куб-ГАУ, 2010. № 64.

5. Ботин В.А., Шумков Е.А., Кардалов Д.Н. Распознавание фигур технического анализа с помощью нейронных сетей. // Политематический научный журнал КубГАУ [Электронный ресурс]. Краснодар : КубГАУ, 2011. №65.

6. Решение о выдаче патента на изобретение. Заявка № 2011113129/08(019414) от 6 декабря 2011 года.

Подписано в печать 17.02.2012. Печать трафаретная. Формат 60x84 '/к,. Усл. печ. л. 1,35. Тираж 100 экз. Заказ № 607. От печатано в ООО «Издательский Дом-Юг» 350072, г. Краснодар, ул. Московская 2, корп. «В», оф. В-120, тел. 8-918-41-50-571

e-mail: olfomenko@yandex.ru Сайг: hUp://id-yug.narod2.ru

Текст работы Ботин, Валерий Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

61 12-5/2222

ФГБОУ ВПО «Кубанский государственный технологический

университет»

На правах рукописи

Ботин Валерий Александрович

АДАПТИВНЫЙ КРИТИК С ИСПОЛЬЗОВАНИЕМ

ФИЛЬТРА КАЛМАНА

Специальность 05.13.01 - «Системный анализ, управление и обработка информации (информационные и технические системы)»

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель:

канд. техн. наук Е. А. Шумков

Краснодар - 2012

Содержание

Введение...................................................................................................................4

Глава 1. Топологии с подкреплением, фильтр Калмана и нейронные сети.

Обзор и анализ современного состояния...........................................................11

Обучение с подкреплением..............................................................................12

Адаптивные критики....................................................................................12

Алгоритм SARS А..........................................................................................16

Обобщенная схема адаптивных критиков..................................................19

Варианты расчета подкрепления.................................................................21

Достоинства и недостатки сетей адаптивной критики.............................23

Нейронные сети.................................................................................................24

Нейронные сети для прогнозирования.......................................................26

Общий принцип решения задач прогнозирования с помощью нейронных

сетей...............................................................................................................28

Фильтр Калмана................................................................................................30

Фильтр Калмана для прогнозирования.......................................................32

Фильтр Калмана для цветного шума помех...............................................35

Некоторые замечания к теории фильтров Калмана..................................36

Ансамбль фильтров Калмана.......................................................................37

Скользящая средняя......................................................................................37

Метод МГУ А....................................................................................................38

Выводы к главе 1...............................................................................................40

Глава 2. Модифицированный адаптивный критик с фильтром Калмана.......41

Объект управления...........................................................................................43

Модуль прогнозирования рабочего параметра (Решатель)..........................43

Блок переобучения прогнозирующей нейронной сети.................................46

Одномерная, простая система с подкреплением на базе фильтра Калмана 49

Модуль критика на базе фильтра Калмана (вариант Q-критика)................54

Модуль критики на базе фильтра Калмана (вариант V-критика)................56

Выводы к главе 2...............................................................................................60

Глава 3. Модельные задачи с разработанной топологией................................61

Введение............................................................................................................61

Построение механической торговой системы...............................................61

Особенности финансовых рынков..............................................................61

Основные принципы построения МТС......................................................63

Модель МТС финансового рынка на базе АКФК.....................................68

Модель ITIL + адаптивный критик на базе ФК.............................................71

Выводы к главе 3...............................................................................................92

Глава 4. Экспериментальная часть......................................................................94

Исследование МТС на базе АКФК.................................................................94

Исследование системы управления ИТ - отделом......................................103

Выводы к главе 4.............................................................................................110

Заключение..........................................................................................................112

Приложение А (программные продукты)........................................................113

Приложение Б (справочное)............................................................................1135

Список литературы:..........................................................................................1157

Введение

Рациональная деятельность во многих прикладных задачах, например, ведение хозяйств, использование ресурсов, организация деловой активности является многошаговой задачей, часто с бесконечным горизонтом. В данных задачах необходимо на каждой итерации выбирать некоторое управление, возможно неоптимальное на данном шаге, но оптимальное с точки зрения конечной цели. Другими словами - оптимальным должен быть весь многоэтапный процесс смены состояний системы. Данной проблеме посвящено много работ и над ней трудились известные ученые со всего мира, отметим следующий ряд ученых: Р. Беллман, Е.С. Вентцель, Г. Вагнер, Кофман А., Крюон Р., Т.Л. Саати и др. [8,19,20,47,62,63,76].

Приведем несколько примеров многоэтапных задач:

а) Управление проектом (Менеджмент проекта). Обычно есть конечная цель проекта, например, выпуск законченной версии программного продукта. И есть этапы проекта, на каждом из которых необходимо принятие управленческих решений, которые должны, как можно скорее привести к конечной цели проекта с заданным показателем качества. При этом управленческие решения могут быть разнообразны по своей природе, например, изменение количества специалистов на определенном этапе, вопрос премирования за опережение графика, использование различных ресурсов, в том числе аутсорсинг и т.д.

б) Управление закупками в торговых сетях (логистическая задача). В данной задаче необходимо принимать решение - сколько и какого товара закупать на каждый операционный момент времени (обычно на неделю). При этом должны учитываться: остатки товаров на складах, сезонность, тренд и многое другое. Управления закупками происходит периодически, и процесс их оптимальной выборки является многошаговым.

в) Управление инвестиционным портфелем. Регулярное участие в торгах и периодическая реструктуризация активов портфеля позволяют

рассматривать задачу управления им, как многошаговую. При этом необходимо учитывать огромное количество моментов, как в плане фундаментального анализа, так и технического анализа. Управляющие воздействия состоят в покупке и продаже некоторых активов портфеля с целью достижения некоторого критерия качества, например максимальной доходности за выбранный период.

г) Управление сервисной службой (задача методологии 1Т1Ь). В данной задаче имеется набор обслуживаемых ресурсов (сервисов), потребители ресурсов и специалисты, обслуживающие данные ресурсы. Задача управления состоит в том, чтобы так спланировать плановый ремонт ресурсов и их профилактическое обслуживание, чтобы потребители ресурсов, как можно меньше посылали заявок на внеочередное обслуживание и соответственно, как можно меньше простаивали сами. Данная задача очевидно многошаговая.

д) Задача динамического планирования загрузки вычислительных ресурсов распределенной сети (динамическое составление расписаний). Сложность данной задачи состоит в том, чтобы обоснованно иметь некоторый резерв мощностей под задачи с высоким приоритетом, которые могут поступить в следующие моменты времени (а могут и не поступить).

е) Задача управления мобильным роботом в автономном режиме. В таких задачах может быть неизвестна карта местности, и робот может "видеть" только в пределах видимости своих сенсорных устройств и видеокамер. Таким образом, робот в режиме пошагового исследования окружающей среды должен выполнить поставленную задачу.

Можно привести еще большое количество примеров пошаговых задач, например: поиск информации в распределенной сети, динамическое планирование загрузки каналов сотовой связи, обучение в многошаговых играх и т.д. [18,19,31,47,62,63,73,76,71].

В последние полтора десятка лет все большую популярность для решения вышеописанных задач приобретают методы, базирующиеся на

обучении с подкреплением [85,97,98,101,102,104]. Существует несколько корневых направлений реализации обучения с подкреплением, это Р -обучение, сети адаптивной критики и с использованием нечеткой логики. Наиболее перспективными, на наш взгляд, являются сети адаптивной критики [98], которые обладают следующими несомненными достоинствами:

• работа системы возможна без первоначального обучения и обучающей выборки;

• система пошагово адаптируется к окружающей среде (задаче);

• использование нейросетей позволяет описывать задачи любого уровня сложности.

В тоже время сети адаптивной критики обладают и некоторыми недостатками, которые ограничивают область их применения:

• сложность реализации;

• неустойчивость поступления подкрепления;

• строгий алгоритм работы1.

Актуальность данной диссертационной работы заключается в следующих выводах:

• разработка новой топологии обучения с подкреплением является серьезным вкладом в развитие направления интеллектуальных систем;

• программная реализация разработанной топологии для задач автоматической торговли и управления ИТ - отделом позволило получить мощные и надежные средства управления данными объектами управления;

• реализация моделей управления работающих без участия специалистов (или с минимальным их участием), позволяет значительно повысить интерес к нейросетевым моделям, фильтру Калмана и обучению с подкреплением.

1 в том смысле, что наперед задано количество входов, выходов, слоев и нейронов в них. Если нейросеть критики аппроксимирует решение дифференциального уравнения, то уравнение задается заранее.

На основании вышеперечисленного, сформулируем вопросы, отражающие научную новизну:

1. Возможно ли создать более быстродействующую топологию обучения с подкреплением, чем существующие, с теми же показателями качества работы системы?

2. Каким образом реализовать доступность моделирования систем с обучением с подкреплением для конечного пользователя?

3. Можно ли создать скоростную модель механической торговой системы на базе адаптивного критика?

4. Можно ли создать систему управления ИТ - отделом на базе прогнозирования инцидентов (методология ITIL)?

Целью работы является разработка топологии модифицированного адаптивного критика с использованием фильтра Калмана, построение механической торговой системы на новой топологии адаптивного критика и ее программная реализация, разработка системы управления ИТ - отделом крупного предприятия на базе новой топологии адаптивного критика и ее программная реализация.

С помощью моделирующего комплекса необходимо создать имитационную модель для проверки предложенной топологии. Модели должны включать возможность проведения различных экспериментов с данными. При работе с моделью исследователю (пользователю) должна предоставляться возможность устанавливать зависимости, соотношения и допущения, выражающие взаимосвязи различных элементов системы, возможность оценивать их влияние на функциональное состояние системы. При этом - для всестороннего анализа и проверки подхода в работе созданы две имитационные модели. Первая в среде Matlab в связке с торговым терминалом Quik позволяет управлять инвестиционным портфелем на российском фондовом рынке. Вторая модель, реализованная на Delphi 8 в связке с HP OpenView, осуществляет поддержку принятия решений при управлении отделом информационных технологий.

Для достижения указанных целей были поставлены и реализованы следующие задачи:

• анализ топологий использующих принцип обучения с подкреплением;

• анализ современного состояния теории систем управления обучающихся с подкреплением;

• провести сравнительный анализ методов построения систем управления обучающихся с подкреплением;

• разработать модель торгового робота на базе предлагаемой топологии, реализовать и протестировать ее;

• разработать модель управления ИТ - отделом крупной организации с использованием методологии 1Т1Ь и предлагаемой топологии, реализовать и протестировать ее.

Содержание диссертационной работы отражает реализацию поставленных задач.

В первой главе выполнен приведен обзор методов и алгоритмов использующих обучение с подкреплением, анализ возможных применений фильтра Калмана, а также различных методов прогнозирования.

Во второй главе обоснован и описан метод создания топологии модифицированного адаптивного критика с фильтром Калмана (АКФК).

В третьей главе приведены разработанные модели торгового робота и системы управления ИТ - подразделением с использованием разработанной топологии АКФК.

В четвертой главе приведены результаты экспериментов, а также анализ применения разработанных механических торговых систем для торговли на финансовых рынках, а также системы поддержки принятия решений для управления ИТ - подразделением крупного предприятия на базе АКФК и методологии 1Т1Ь.

В заключении приведены выводы и результаты проделанной работы.

В приложении 1 приведен список наиболее распространенных программных продуктов реализующих нейронные сети, фильтр Калмана и обучение с подкреплением.

Задачи исследования решены с использованием методов системного анализа, искусственного интеллекта, математической статистики, теории операций.

Научная новизна заключается в следующих результатах:

1. разработана топология модифицированного адаптивного критика с фильтром Калмана;

2. разработана топология модифицированного адаптивного критика с каскадом фильтров Калмана;

Практическая значимость работы заключается в разработке и апробации топологии АКФК, разработки информационной моделирующей системы ККРШегТоо1 для создания, исследования и применения разработанной топологии.

Основные положения, выносимые на защиту:

- топология модифицированного адаптивного критика с фильтром Калмана;

- модель механической торговой системы на базе модифицированного адаптивного критика с фильтром Калмана;

- модель системы поддержки принятия решений ИТ - подразделения крупного предприятия на базе модифицированного адаптивного критика с фильтром Калмана и методологии 1Т1Ь;

- результаты экспериментов с разработанными моделями.

Разработанная система №№П1егТоо1 реализована в системе поддержки принятия решения для достижения качества ИТ сервиса и внедрена в ООО «Кубнет».

Основной материал работы опубликован в 3 научных статьях в журналах рекомендованных ВАК и 2 тезисах докладов. Подана заявка о выдаче патента на изобретение.

Диссертация состоит из введения, четырех разделов, заключения, списка использованной литературы и приложения. Ее общий объем составляет 123 страниц текста, содержащего 39 рисунков и 8 таблиц.

Глава 1. Топологии с подкреплением, фильтр Калмана и нейронные сети. Обзор и анализ современного состояния.

В данной главе приводятся основные топологии с подкреплением, при этом упор делается на те, которые можно использовать в качестве ядра различных систем управления. В качестве основного решающего механизма топологий с подкреплением используются различные математические модели, но наибольших успехов исследователи и разработчики достигли с помощью нейронных сетей, на которых строятся основные компоненты таких топологий. Однако нейронные сети, несмотря на свои несомненные достоинства, обладают и существенными недостатками, в частности их необходимо переобучать под новые данные и этот процесс может быть достаточно долгим, что неприемлемо для систем управления работающих в режиме реального времени. Также существуют выборки на которых невозможно обучить нейронную сеть с достаточной точностью в приемлемое время [79]. Существующие скоростные методы обучения нейронных сетей обычно проигрывают в точности стандартному методу обратного распространения ошибки и имеют существенные ограничения [61]. Существующие методы, использующие априорную информацию о процессе, требуют собственно наличие как можно большей информации о протекающих в системе процессах, как внутренних, так и внешних [24,79].

В качестве инструмента прогнозирующего будущее подкрепление в сетях адаптивной критики также можно выбрать, например, простую скользящую среднюю (SMA) - простой и быстрый способ расчета, можно использовать различные ARCH и GARCH фильтры [12,30]. Но в обучении с подкреплением и в адаптивных критиках в частности необходим дополнительный вход, который означает предпринимаемое действие, а такому условию удовлетворяют далеко не все алгоритмы прогнозирования.

Поэтому логичным выглядит использование проверенного временем фильтра Калмана в режиме прогнозирования [29,64].

Обучение с подкреплением

Обучение с подкреплением является отдельной ветвью искусственного интеллекта и ведет свое начало с работы [102]. Данный принцип обучения применяется в следующих областях: нейрофизиология, биология, психология, инженерные науки и т.д.. Рассмотрим передовое направление обучения с подкреплением - адаптивных критиков, которые обычно используют нейронные сети в качестве основных компонент.

Ада�

Похожие работы

Информатика, вычислительная техника и управление
05.13.00