автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях
Автореферат диссертации по теме "Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях"
На правах рукописи
Выборное Андрей Олегович
Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях
05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Автор:
Москва-2005
Работа выполнена в Московском инженерно-физическом институте (государственном университете)
Научный руководитель: доктор технических наук, профессор
Попов Юрий Алексеевич Официальные оппоненты: доктор технических наук, профессор
А.С. Селиванов Арнольд Сергеевич, кандидат технических наук, старший научный сотрудник Гольдин Дмитрий Алексееевич
Ведущая организация: ФГУП «Центральный научно-исследовательский институт машиностроения»
Защита диссертации состоится «1» июня 2005 г. в 14 час. 00 мин. на заседании диссертационного совета Д 212.130.03 в МИФИ по адресу: 115409, Москва, Каширское шоссе, 31. Телефоны: 324-84-98, 323-91-67.
С диссертацией можно ознакомиться в библиотеке МИФИ. Автореферат разослан «XI 2005 г.
Просим принять участие в работе совета или прислать отзыв в одном экземпляре, заверенный печатью организации.
Ученый секретарь диссертационного совета д.т.н., профессор
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Создание автоматизированных производств предполагает автоматизацию не только физического, но и интеллектуального труда человека. Для выполнения
труднопрограммируемых операций приходится создавать
комбинированные человеко-машинные комплексы, в которых управляющее воздействие при решении не запрограммированных задач принимает человек. Однако, во многих областях деятельности присутствие человека нежелательно или невозможно. К ним можно отнести атомную энергетику, космические исследования, работу в удаленных регионах. Дополнительно задача усложняется тем, что работа устройств протекает в неизвестных условиях, которые могут изменяться. В этой связи, на стадии проектирования и разработки не представляется возможным реализация полной программы работы такого устройства, которое должно демонстрировать интеллектуальное поведение.
Таким образом, актуальной научной задачей является исследование и разработка алгоритмов и программного обеспечения, позволяющих организовать работу автономных технических устройств в изменяющихся условиях, а также задача проверки разработанных алгоритмов.
В данной работе ставилась задача охватить круг вопросов, связанных с программным управлением автономными транспортными устройствами, движение которых осуществляется за счет перемещения отдельных частей устройства в заданном направлении. Основные исследования, которые проведены в рамках представленной работы, можно свести к трем направлениям :
1 .Представление знаний и работа с ними. Это создание специализированных алгоритмов и программных компонентов для представления и накопления знаний в ЭВМ, а также алгоритмов для их преобразования. Проведены исследования по созданию специальных методов, позволяющих пополнять и обобщать знания, хранимые в машине.
2.Планирование целесообразного поведения. Исследования по созданию алгоритмов формирования целей и решения задач планирования действий транспортного устройства для достижения цели, функционирующего в изменяющихся условиях.
3.Исследования по накоплению и обобщению информации, алгоритмов ее обработки и способов адаптации программной системы управления к среде функционирования путем обучения.
Целью диссертационной работы является исследование и разработка алгоритмов и методов построения программных систем для управления и обучения автономных транспортных устройств, а также проверка алгоритмов с использованием компьютерного имитационного моделирования при отсутствии реальных условий для испытания.
Основными задачами, решаемыми в рамках данной работы, являются:
1.Анализ и оценка современных методов построения программного обеспечения для обучения и управления автономными интеллектуальными устройствами.
2.Разработка алгоритмов обучения и управления, позволяющих реализовать программное обеспечение интеллектуальных устройств для работы в неопределенных или изменяющихся условиях.
3.Создание имитационной модели для проведения функциональной проверки методик построения алгоритмов обучения и управления. Выбор прототипа для моделирования.
4. Анализ и оценка результатов моделирования.
Научная новизна данной работы заключается в том, что:
1. Предложена и исследована оригинальная методика построения программных систем управления техническим устройством, основанная на обучении во взаимодействии со средой функционирования и получении вознаграждений от работы. При этом отличительной особенностью является отсутствие предварительной информации о среде работы устройства управления.
2.Разработан способ накопления знаний, в основе которого лежат новые алгоритмы обработки вознаграждений, полученных от взаимодействия со средой.
3.Впервые предложена и реализована компьютерная имитационная модель работы выбранного прототипа. Проведена проверка работоспособности созданных методов обучения и управления на соответствующих тестах в рамках имитационного моделирования.
На защиту выносятся следующие положения, представляющие научную новизну:
1 .Разработанные алгоритмы обучения (накопления знаний) управляющего программного обеспечения технического устройства.
2. Алгоритмы управления на базе накопленных знаний, обеспечивающие построение рациональных планов достижения цели согласно определенным критериям.
3.Программная имитационная модель работы выбранного прототипа устройства в соответствии с разработанными алгоритмами обучения и управления.
Практическую ценность представляют математические методы и алгоритмы обучения и управления автономными устройствами, созданные в рамках данной работы, а также результаты имитационного моделирования прототипа такого устройства. Разработанные методы построения программных систем управления на базе алгоритмов обучения и методика апробации алгоритмов в рамках имитационного моделирования могут быть использованы в различных областях народного хозяйства, требующих полной автоматизации труда человека.
Основные положения диссертации докладывались и обсуждались на семи Международных научных конференциях и семинарах в рамках Научных сессии МИФИ -1997,1998,1999,2000,2001. 2002 и 2005 годах. По
результатам конференций работа многократно премирована дипломами Научных сессий МИФИ. По теме диссертации опубликованы четыре статьи и три доклада.
Разработанная программная система моделирования процесса управления прототипами транспортных устройств внедрена в научно-техническом центре мониторинга и оперативного управления ФГУП «Российский научно-исследовательский институт космического приборостроения».
Структура и объем работы. Текст диссертации состоит из введения, трех глав, заключения, списка литературы и приложения. Основной материал изложен на 126 страницах и содержит 14 рисунков. Список литературы включает 80 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, определены цели и задачи исследований, представлены основные положения диссертационной работы, выносимые на защиту.
В первой главе ставится задача определения методик и алгоритмов построения программных средств, реализующих автономную работу транспортных технических устройств в неопределенных или изменяющихся условиях. Основной задачей программной системы управления подобным устройством является выработка последовательности действий для достижения определенной заранее цели. Таким образом, программа представляет собой планирующую систему, которая, исходя из условий задачи и работы устройства, автоматически строит план или последовательность действий, приводящих его в целевое состояние. Такая последовательность не является единственной. Программа должна обладать способностью принимать решения о выборе рационального по некоторым критериям плана.
Определенны основные задачи программной системы автономного устройства:
1. Накопление и корректировка знания на основе восприятия
информации об условиях работы и обобщенного опыта.
2. Целенаправленное поведение на основе накопленных знаний для
достижения цели.
Программная система управления устройством должна уметь оценить состояние, в котором находится устройство, и выбрать нужное действие для данного состояния. Поскольку условия работы неизвестны, то данный выбор невозможно задать на этапе проектирования. Это возможно только на основе обучения или сбора информации программой управления.
Таким образом, определены основные задачи диссертации как построение методик и алгоритмов программных средств управления транспортными устройствами, основным функциональным назначением которых является:
1. Оценка состояния пары среда-устройство управления.
2. Выбор реализуемого действия для определенного программой состояния.
3. Построение последовательности действий для достижения целевого положения.
4. Сбор информации или обучение для реализации рационального поведения устройства управления.
Определена общая структура программной системы управления интеллектуальным устройством, состоящая из системы восприятия, хранения и накопления знаний, а также планирования и исполнения действий (рис. 1).
В работе проведен анализ существующих способов представления знаний в программных системах управления: декларативное, процедуральное, семантическое и в теории обучения с подкреплением. Показано, что декларативное представление является универсальным способом накопления знаний, в то время как процедуральное и семантическое представления допускают лишь использование в достаточно специфических проблемно-зависимых областях. Основным подходом к представлению знаний выбран способ, определенный в рамках обучения с подкреплением.
В основе обучения с подкреплением лежит идея нахождения рационального поведения, выбора наилучшего действия в каждой из возможных ситуаций или состояний устройство-среда. Нахождение такого поведения проводится путем проб различных действий для каждого из состояний и оценки и анализа вознаграждений получаемых от принятых действий с целью нахождения рационального поведения в зависимости от заданных критериев. Программа управления обучается на основе собственного опыта.
В предлагаемом подходе к обучению участвуют три компонента:
Политика - определяет выбор программы действия в каждом из состояний. Такая политика может быть представлена правилами вывода или простой таблицей поиска.
Вознаграждение - задает отображение каждого действия для заданного состояния, в числовую меру, определяющую степень эффективности принятия действия в данном состоянии для достижения цели. В процессе обучения с подкреплением ставится цель максимизации общего вознаграждения, получаемого в результате решения задачи.
Функция стоимости, или ценности - это числовая величина определяемая для каждого состояния среда - устройство, которая задает общую величину вознаграждения, на которое может рассчитывать устройство, продолжая действовать из этого состояния.
Система восприятия
Синтаксическая интерпретация
Семантическая интерпретация
Модеть состоя? ра текущего гая среды боты
Рис 1 Функциональная структура программной системы интеллектуального устройства
Система представ тения знаний
Накопление и корректировка знаний
Модель среды работы
Знание о целях
Система планирования и ис по тения действий
Планирование действий
Планирование действий исполните тьного устройства
Управление приводом
Привод
Исночнителыгое
усгройство
Если функция вознаграждения определяет сиюминутную эффективность пары "состояние-отклик", то функция ценности задает долговременную перспективность состояния устройства.
Таким образом, для каждого из состояний среда-устройство система хранит значения функции стоимости нахождения в данном состоянии с точки зрения эффективности достижения целевого положения из заданного состояния.
Чем выше стоимость, тем лучше данное состояние для достижения цели. Программа должна выбирать такие действия, которые приводят в состояния с более высокой стоимостью.
Далее рассмотрен способ построения планирующих систем при обучении с подкреплением. Показано, что программная система обучения и управления (ПСОиУ) и среда взаимодействуют друг с другом в определенные дискретные моменты времени t = 0, 1, 2, 3 .. (временные шаги). В каждый временной шаг t программа получает представление о состоянии устройство-среда, .¥,е Л1, где Л- набор всех возможных состояний и на основании полученных данных выбирает оействие а,е A(s), где A(S(), - набор действий, доступных или возможных в состоянии . На следующем шаге далее, в момент t+1, программа получает значение вознаграждения г,+/6 R и переходит в новое состояние st+1
Рис 2 Диаграмма взаимодействия ПСОиУ -среда
На каждом временном шаге реализуется выбор или отображение состояния s, в вероятность выбора каждого из разрешенных действий. Данное отображение определено как почитика принятия действия А, где IJ(s,a) - вероятность того, что в состоянии s, = s будет выбрано действие п/=а . Обучение с подкреплением определяет, каким образом алгоритм ПСОиУ изменяет политику выбора действий в результате опыта взаимодействия со средой. Целью обучения является максимизация полного вознаграждения, полученного в течение долгого времени работы
При этом взаимодействие ПСОиУ - среда разбивается на последовательность, называемую эпизодами.
Каждый эпизод завершается специальным состоянием, определенным как терминальное, за которым следует переход к
стандартному начальному состоянию или к стандартному распределению начальных состояний Для выявления терминального состояния используется следующий принцип если в заранее определенное число шагов N устройство достигло цели, то эпизод заканчивается, если нет, то эпизод заканчивается по выполнении N шагов Задачи с эпизодами назовем эпизодичными задачами В эпизодичных задачах необходимо выделить множество состояний При этом множество является конечным
Определено полное вознаграждение Последовательность вознаграждений, полученных после временного шага í обозначим В общем случае ПСОиУ пытается максимизировать полное вознаграждение Я,, в простейшем случае, определяемом как
где Т- последний временной шаг, 0 <у< 1- степень уменьшения Степень уменьшения определяет значение будущих вознаграждений Вознаграждение, полученное через к временных шагов в будущем оценивается в раз по сравнению с немедленным получением данного вознаграждения
Зная состояние ,5 и действие а, вероятность перехода в каждое возможное следующие состояние ,' определяется как
= Рт = = в, ^ = а}
(2)
Аналогично, зная текущее состояние в и действие я, совместно со
следующим состоянием s, вознаграждения определяется как
ожидаемое значение следующего
= £{п+1|б4 = 8, = в'}
(3)
VI,.. К
полностью определяют
Представленные величины наиболее важные аспекты динамики переходов между состояниями
В работе определено, что политика П для состояния ¡е и действий определяет вероятность ¥Т(в,а) принятия действия а в случае нахождения в состоянии , Значение функции стоимости состояния , при использовании политики П, у(э) можно определить как величину ожидаемого полного вознаграждения, начиная с состояния , и следуя далее, политике П во всех дальнейших состояниях
Т
где t - произвольный временной шаг
Функция г(в) названа функцией стоимости состояния для политики П
Аналогичным образом определяется стоимость принятия действия а в состоянии ,5 при следовании политике Я, Ол(я,а ), как ожидаемое полное вознаграждение, начиная с состояния , , в котором принято действие а и далее следование политике Я:
$ названа функцией стоимости действия для политики П. Возможно точное определение рациональной политики следующим образом Политика Я определяется лучшей по отношению к политике Я', если ожидаемое полное вознаграждение при следовании политики Я больше или равно полному вознаграждению при использовании политики П' для всех состояний Другими словами Я > Я', если ¥"(.5) > V7 (,) для всех ,е 8. Рациональная политика обозначена как Я . Определим понятие рациональной функции стоимости как:
(6)
(7)
В работе показано, что справедливо следующие выражение:
Выражение (8) представляет собой систему равенств по одному для каждого из состояний. Таким образом, выражение (8) определяет систему из N равенств для N состояний с N неизвестными (определяется количеством состояний) В случае, если динамика среды известна, представляется возможным решение данной системы уравнений, используя любой из множества подходов решения системы нелинейных уравнений. Аналогично возможно решение системы уравнений для $ .
Решив систему (8) и определив V, возможно найти рациональную политику. Для каждого состояния , в этом случае имеется одно или более действий, для которых достигается максимум в выражении (8). Любая политика, которая определяет не нулевые вероятности принятия в состоянии только для этих действий, является рациональной.
Определив значение рациональной функции в каждом из состояний, и выбрав наилучшую политику, устройство работает рациональным образом Однако, для большинства прикладных задач основным условием является работа устройства в изменяющихся и, соответственно, заранее неизвестных условиях Таким образом, возникает актуальная задача определения новых алгоритмов управления в рамках теории обучения с подкреплением Это позволяет реализовать программную систему транспортного устройства без наличия знаний об условиях работы и поиска решения в пространстве возможных состояний
Предметом рассмотрения второй главы являются предлагаемые способы обучения автономных устройств, названные обучением с подкреплением Отличием предлагаемого способа обучения от существующих в настоящее время является отсутствие полной информации об условиях работы и, соответственно, знание величин (!?,< и и необходимости поиска решения в пространстве возможных
состояний Программная система управления определяет управляющее воздействие (выбирает действие), исходя из знаний, накопленных в результате реальной или моделируемой работы К предлагаемым методам относятся1
1 Метод полного программирования
2 Метод обучения на основе эксперимента
3 Метод временных разностей Метод полного программирования (ПП)
Основная идея метода ПП состоит в использовании функции стоимости для организации поиска рациональной политики принятия решения Для использования алгоритмов ПП необходимо наличие полной модели среды, то есть знание всех вероятностей переходов
для каждого из состояний , при выборе каждого из действий а Основной идеей метода полного программирования является использование итеративного подхода к оценке значений функции стоимости V Первоначальное значение ¥о выбирается произвольным образом (за исключением терминальных состояний, для которых V,, принимается равным 0) При этом на каждом шаге итерации новое значение функции стоимости получается как
= +714(84+1)^=8}
(9)
для всех $ е $ Данный алгоритм назван итеративной оценкой по штики При проведении каждого шага аппроксимации алгоритм итеративной оценки применяет аналогичные действия ко всем состояниям Новое значение функции стоимости определяется на основании старого
значения стоимости Vk(s), состояний, последующих за и полученного
немедленного вознаграждения для всех одношаговых переходов, возможных при использовании политики П. Одним их возможных способов останова алгоритма является нахождение максимальной разности maxi6s\Vk+i{s) - Vit(s)|
после каждого шага итерации. Останов алгоритма оценки производится, когда данная разность существенно мала.
Оценив значения Vй, необходимо рассмотреть вопрос улучшения политики. Возможно получение наилучшей политики П\ исходя из
■are шах,
где выражение означает действие а, для которого
аргумент под выражением имеет максимальное значение. Представленный подход выявления новой наилучшей политики П'. исходя из значений функций стоимости при использовании старой политики П, назван процессом улучшения политики. Таким образом, полный алгоритм итерации политик может быть представлен как:
1.Инициализация V(s)е R и [J(s) е A (s) произвольны Оля se S п <- О число выполненных шагов
2. Оценка политики Повтор
А <-()
Для каждого \e S
Пока А ' в (малое положительное шачение) или п<,\'
3. Улучшение политики политика неменяется <— true
Для каждого S
tt(s) ^ arg max, [Щ,, 4 '№)]
Ecjufh*fl(s) то политиканеменяется (-false Если политиканеменяется то останов иначе переход на 2 (Алгоритм I)
Метод обучения на основе эксперимента (МЭ)
Отличием от рассмотренных методов, метод на основе эксперимента (МЭ) не предполагает наличие полного знания динамики среды. В рассматриваемом классе методов обучение происходит на основе эксперимента, выборочной последовательности состояний, действии и получаемых вознаграждений от действительного или симулированного взаимодействия со средой. Обучение на базе реального взаимодействия является важным с точки зрения функционирования реальных устройств. При этом не требуется предварительных знаний о динамике среды. Однако, в процессе работы может быть достигнуто рациональное поведение устройства. Обучение на основе модели также представляется важным. На модель возлагается функциональная обязанность генерации примеров среды для работы устройства, без знания полного распределения вероятности всех возможных переходов, как в случае обучения методами ПП.
Для оценки V" для заданной политики П используется подход оценки, исходя из эксперимента, как простое усреднение полных вознаграждений, полученных в результате прохождения устройства через заданное состояние. По окончании очередного эпизода функция стоимости и политика подвергаются оценке и изменению. Алгоритм оценки значения функции стоимости, выраженный в процедурной форме, приведем ниже:
Инициализация
V <- произвольное значение функции стоимости ЛеШгпзф пустые значения для всех se Я
б. Для каждого состояния .9 в рамках эпизода
Я <- полное вознаграждение, полученное после первого
Важное свойство приведенного алгоритма состоит в том, что оценка каждого состояния производится независимо, а не строится на базе оценок других состояний, как в случае метода ПП. Это делает изложенный подход в методе МЭ применимым в случаях необходимости оценки значения функции стоимости частного подмножества полного количества состояний.
Единственным ограничением является то, что многие требуемые пары состояние-действие никогда не будут выбраны. Одним из способов разрешения данной проблемы - определение в первом шаге каждого эпизода случайным образом выбранной пары состояние-действие. При том, что каждая пара имеет не нулевую вероятность быть выбранной в качестве стартовой. Другой альтернативой является рассмотрение таких
политик, которые гарантируют для каждого из состояний не нулевую вероятность выбора всех возможных действий.
Улучшение политики производится с учетом текущих значений функций стоимости. Для каждой пары состояние-действие имеется значение Q и выбирается та политика, при которой для каждого состояния
детерминировано выбирается действие с максимальным значением
а
В работе рассматриваются политики, при которых вероятность п(5,а) >0 , для всех Уе Я и а£А(я). Одной из возможных вариаций является е -политика, при к о П (я а) - 1 -е +е/[4(з)\, для в и я , имеющего максимальное значение для всех
остальных действий. Полный алгоритм нахождения наилучшей политики среды £ - политик представлен как:
б. Для каждого состояния я в рамках эпизода
И <— полное вознаграждение, полученное после первого
(Алгоритм 3)
Данный алгоритм основан на изменении той же политики, которая использовалась при оценке значения функции стоимости 5,а)Т поэтом}' назовем данный алгоритм алгоритмом управления МЭ в политике. Кроме того, в диссертационной работе представлен алгоритм управления методами на основе эксперимента вне политики. В отличие от изложенного подхода, где одна политика используется как для оценки значений функции стоимости, так и для управления, в представленном управлении вне политики даются две функции разделения. Таким образом, реализуются две политики:
1. Политика поведения - используется для управления.
2. Политика оценки - используется для оценки значений ф'(5,а).
Преимуществом данного разделения является то, что политика
оценки может быть детерминированной, выбирающей наилучшие действия в зависимости от Q (,,а), при том, что политика поведения продолжает выбирать все возможные действия для каждого из состояний, то есть продолжать обучение.
Метод временных разностей (ВР)
Алгоритмы временных разностей являются комбинацией идей алгоритмов МЭ и ПП. Подобно алгоритмам МЭ, используя алгоритмы временных разностей (ВР), программная система может обучаться на основе прямого взаимодействия со средой, в отсутствии модели динамики среды. Подобно алгоритмам ПП, алгоритмы ВР обновляют оценочные, промежуточные величины, основываясь на других оценочных величинах, не дожидаясь завершения очередного эпизода.
Как и метод МЭ, алгоритмы ВР используют экспериментальные данные для решения проблемы оценки политики. Зная результаты работы в рамках политики Я. оба метода обновляют оценочные значения v .
В работе определен способ оценки V(s) как •
аК*)«- v{h) + «[rí+1 + ^(et+o - v(*)]
где - константа.
Для оценки Q1 необходимо рассмотреть переходы между парами состояние-действие.
Q{st, о«) <- Q(sf, at) + ct [rf+i + 4Q(s»+i, ot+i) - Q{sí. of)] (12)
Данное обновление выполняется при каждом переходе из нетерминального состояния s,. Если терминальное, то Q(St+i,K<+l)= 0.
Как и в случае методов МЭ возникнет проблема компромисса между эксплуатацией и исследованием и реализуются два алгоритма управления: в политике и вне политики.
При этом общий алгоритм обучения методом временных разностей представлен как:
Инициализация Q(s,a) произвольными значениями
Повтор(бля каждого эпизооа): Инициализация s
Выбрать действие a dw s согласно П, полученной из Q (т.е. П е -политика)
Повтор (для каждого шага эпизода)
Принять действие а, получить значение г и переход в аедующее состояние s'
Выбрать действие а' опя s' согласно П, полученной из Q (то есть П с -по штика)
В политике
Q{s, а) <- Q(s, а) + а[г 4- -/Q{s', а') - Q{s; а)] s <— s' a i—а'
Вне политики
<5(в, а) «- п) + « [г + 7 тах!1' о') - о)]
Пока 5 нетер чина чьное
В третьей главе с целью апробации практического применения рассматривается задача проверки ранее разработанных алгоритмов обучения во взаимодействии со средой В силу сложности построения реального полигона для испытания, определено требование к применению компьютерного моделирования и созданию имитационных условий для устройства управления При построении программы моделирования обучения и управления выбран прототип транспортного устройства, которым является «Автоматизированный самоходный агрегат» АСА (Рис 3) Реализована оригинальная компьютерная модель АСА, модель среды работы (виртуальный полигон), позволяющие производить проверку работоспособности предложенных алгоритмов обучения и управления
Рис 3
Лотоматиэироваиныя самоходный агрегат АСА функциональная модификация шя прокладхи магиорзпьнмх трубопроводов
В рамках созданной модели определенны программные компоненты, необходимые для обучения агрегата В программе модели обучения и управления АСА можно логически выделить несколько функциональных блоков
1 Блок задания входных параметров для моделирования В этот блок входят подблоки
1 1 подблок задания параметров АСА, 1 2 подблок задания параметров виртуального полигона, 1 3 подблок задания расщелин на виртуальном полигоне, 1 4 подблок задания траектории движения
2 Блок определения текущего положения АСА на виртуальном полигоне в процессе моделирования
3 Блок обучения и реализации движения АСА
4 Блок сценария движения по заранее заданной траектории
5 Блок рисования
Синхронизацию работы программных блоков осуществляет компонент среды таймер Задавая частоту пересчета и переполнения таймера возможно изменение скорости работы модели, что позволяет моделировать функционирование АСА в реальном масштабе времени
Схема согласованного взаимодействия блоков программы в процессе моделирования приведена ниже (рис 4)
Таймер
I , 2 „ . " . 1
Ь юк апреле гения по южении АСА на Шф1\ч) 1ЬН0М пошит. Блок реа инации оГ\чипш АСА Ьток реалийции ушжишуАСА Ьюк рисования
к 1 к 1 " \
1 3 4
Вводные параметр!I моде ш Парамитрп состояния АСА Команды гю 1ь ювате 1я
Рис 4 Ь ючная сфукпра программы мою ш
Где
1 -Входные параметры модели
2-Параметры текущего положения относительно полигона
моделирования
3-Текущие параметры положения и состояния АСА
4-Вид действия принятого к исполнению
В работе заданы критерии оценки значений вознаграждений Реализованы возможности задания целевых состояний и траектории движения агрегата
В процессе исследования применялся алгоритм обучения на основе эксперимента и метод временных разностей к обучению агрегата Представлен анализ результатов моделирования АСА по перемещению по виртуальному полигону и сравнение результатов обучения АСА различными методами (рис 5,6,7,8,9)
Первоначально проводилось обучение устройства в рамках модели виртуального полигона, при перемещении по которому заранее известен выбор рационального действия в каждом из состояний Оценивалось количество эпизодов нахождения рациональных действий при обучении
Определено, что все исследованные методы обеспечивают положительные результаты. Установлено, что методы временных разностей требуют меньшего числа эпизодов, чем обучение на основе эксперимента. Однако, при использовании любого из приведенных методов поведение агрегата становится правильным после максимум ста эпизодов, а при использовании метода ВР после нескольких, например пяти. Схематичная информация о результатах обучения приведена на рис. 5
Рис 5 Результаты моделирования перемещения по почт от без препятствий
Проведено исследование по обучению АСА при перемещении от левой к правой границе виртуального полигона при расположении преодолимых и непреодолимых расщелин, местоположение и глубина которых определяется случайным образом. Определены временные затраты на достижение конечной точки траектории движения (параметр Time) и общее количество различных видов движения, выполненных АСА для достижения конечной точки (Sa) (рис 6,7).
25001
Рис 6 Результаты обучения АСА при обучении методом МЭ
Рис 7 Pci\ платы об\чения ЛСЛ при об\чеиии методом HP
На виртуальном полигоне также задавались всевозможные препятствия и траектории движения, проверялась правильность и эффективность работы различных сценариев алгоритмов обучения
Согласно экспериментальным данным (рис 6.7) с ростом числа эпизодов значения сохраняемые в статистических переменных Time и Sa уменьшается, что показывает сокращение временных затрат и выполняемых видов движения АСА для достижения целевого положения Это экспериментально доказывает правильность предложенных видов обучения и управления
В тоже время методы МЭ показывают более медленное обучение в сравнение с методами ВР При использовании методов ВР временные затраты и количество выполняемых движений перестает изменятся при выполнении 20 эпизодов, а при использовании методов МЭ аналогичная тенденция начинает наблюдаться после выполнения ] 00 эпизодов
В качестве примера приведен образец модели ВП, используемый в процессе комплексного обучения АСА при продвижении по заданному полигону (Рис 8)
Заданная траоеторня
Рис 8 Полигон для обучения АСА
Результаты моделирования обучения АСА при перемещении по заданной модели ВП приведены на рис. 9.
Рис 9 Результаты обучения АСА при движении по чаданной траектории
После проведения моделирования обучения траектория перемещения агрегата по виртуальному полигону совпадает с линией АСБЕЕМ, приведенной на рис. 8. При этом наблюдается тенденция сокращения затрат на перемещение по траектории (временные затраты и количество выполняемых движений) с выполнением определенного количества эпизодов. Согласно экспериментальным данным для методов МЭ достаточным количеством эпизодов является 100 эпизодов, для методов ВР 20 эпизодов.
Необходимо отметить, что для проверки достоверности было задано множество подобных тестов, позволяющих моделировать различные ситуации, связанные с движением АСА.
В заключении подведены итоги проделанной работы и сформулированы основные научные и практические результаты. В диссертации решена задача разработки алгоритмов программных систем обучения и управления транспортным устройством при работе в неизвестных, изменяющихся условиях, отличительной особенностью которых является накопление знаний в результате реального или моделируемого взаимодействия со средой функционирования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В результате проведенных автором исследований полученны следующие основные научно-технические результаты:
1.Определена общая структура программной системы обучения и управления, определены основные блоки, составляющие структуру интеллектуальной системы. Сформулирована основная задача диссертации - разработка методов управления для достижения цели автономным устройством в неизвестных изменяющихся условиях.
2.Разработаны новые методы построения программных систем обучения и управления на базе теории обучения с подкрештением как способ реализации интеллектуальной составляющей транспортных устройств. Обучение с подкреплением при этом реализует концепцию обучения во взаимодействии со средой функционирования и накопления знаний на основе реального или модельного опыта. Отличительной особенностью предложенной методики является отсутствие
необходимости как поиска решающего пути в пространстве состояний, так и полных знаний условий работы устройства.
3.Определены оригинальные методы и критерии рационального управления устройством на основе знаний, полученных во время обучения. Обучающая программа сохраняет данные о вознаграждениях во всех посещаемых в процессе обучения состояниях. Понятие полного вознаграждения определяет всю совокупность вознаграждений, полученных до терминального (целевого) состояния. Таким образом, система максимизирует полное вознаграждение, полученное за все время работы. Доказана сходимость и, соответственно, практическая применимость полученных методов.
4. Реализована компьютерная имитационная модель функционирования выбранного прототипа устройства (АСА). Реализовано обучение агрегата созданными алгоритмами обучения с подкреплением при различных условиях функционирования. Показано, что применение компьютерного моделирования является целесообразным при предварительном обучении программной системы устройства в отсутствии полной информации о среде предполагаемой эксплуатации.
5.На базе результатов моделирования проведен анализ правильности и эффективности работоспособности созданных алгоритмов обучения с подкреплением. По результатам моделирования можно сделать вывод, что представленные алгоритмы обеспечивают обучение выбранного прототипа
при малом объеме вычислений. При этом не требуется реализация поиска в пространстве возможных состояний системы устройство-среда и полное знание условий работы. Согласно проведенным исследованиям, представленные методы требуют от 5 до 50 эпизодов обучения, после которых действия устройства становятся рациональными и соответствуют заданным критериям эффективной работы.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Выборное А. О., Попов ЮА. Автоматизированные самоходные агрегаты. Научная сессия МИФИ-98. Сборник научных трудов. Часть 7,М.:МИФИ,1998.
2. Выборное А.О., Попов Ю.А. Создание и испытание компьютерной функциональной модели АСА. Научная сессия МИФИ-98. Сборник научных трудов. Часть 9,М.:МИФИ,1998.
3. Выборное А.О., Попов ЮА. Инструментальные средства точного функционального моделирования автоматизированных агрегатов. Научная сессия МИФИ-99. Сборник научных трудов. Т. 9,М.:МИФИ,1999.
4. Выборное А.О., Попов ЮА. Реализация системы управления автоматизированного самоходного агрегата (АСА). Научная сессия МИФИ-2001. Сборник научных трудов. Т. 11,М.:МИФИ,2001.
5. Выборное А. О. Техническая имитация интеллекта при построении систем управления роботизированных комплексов. Научная сессия МИФИ-2004. Сборник научных трудов. М.:МИФИ,2004.
6. Выборное А.О. Обучение автоматического агрегата для работы в изменяющихся условиях. Научная сессия МИФИ-2004. Сборник научных трудов. М. :МИФИ,2005.
OS.té-CSÍi
Г 959
/ £ > i
1 ï'' : isшж f-. '
Оглавление автор диссертации — кандидата технических наук Выборнов, Андрей Олегович
Введение.
1. Аналитический обзор возможных способов построения программных средств обучения и управления интеллектуальными транспортными устройствами.
1.1. Описание области исследования.
1.2. Анализ общей структуры программной системы управления интеллектуальным устройством.
1.3. Методы представления знаний в программных системах управления транспортными устройствами.
1.4. Построение планирующих систем в программах управления транспортными устройствами.
1.5. Обучение с подкреплением. Основные понятия.
1.5.1 Интерфейс программная система обучения и управления (ПСОиУ) - среда.
1.5.2 Цель, вознаграждение, полное вознаграждение.
1.5.3 Функция стоимости. Рациональная функция стоимости.
1.6 Постановка задачи исследования.
1.7 Выводы и результаты.
2. Методы обучения и управления с подкреплением для работы в изменяющихся условиях.
2.1 Метод полного программирования.
2.1.1 Оценка политики.
2.1.2. Улучшение политики.
2.1.3 Итерация политик.
2.1.4 Итерация функции стоимости.
2.2 Методы обучения на основе эксперимента.
2.2.1. Оценка политики.
2.2.2 Управление методом на основе эксперимента.
2.2.3 Алгоритм управления методами на основе эксперимента в политике.
2.2.4 Алгоритм управления методами на основе эксперимента вне политики.
2.3 Методы временных разностей.
2.3.1 Оценка политики алгоритмом временных разностей.
2.3.2 Управление методам временных разностей в политике.
2.3.3 Управление методом временных разностей вне политики.
2.4 Выводы и результаты.
3. Применение методов обучения с подкреплением, к обучению автоматизированного самоходного агрегата.
3.1 Цели создания модели АСА.
3.2 Реализация модели.
3.2.1 Состав и содержание модели.
3.2.2 Блочная структура модели. Основные параметры и переменные модели. Согласованное взаимодействие блоков программы в процессе моделирования.
3.2.3 Блок обучения и реализации движения АСА.
3.2.4 Реализация блока обучения на основе алгоритма обучения на эксперименте.
3.2.5 Реализация блока обучения на основе алгоритма временных разностей.
3.2.6 Блок сценария движения по заранее заданной траектории.
3.3. Анализ результатов моделирования. Оценка эффективности обучения.
3.4 Выводы и результаты.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Выборнов, Андрей Олегович
Создание автоматизированных производств предполагает автоматизацию не только физического, но и интеллектуального труда человека. Для выполнения труднопрограммируемых операций приходится создавать комбинированные человеко-машинные комплексы, в которых управляющее воздействие при решении не запрограммированных задач принимает человек. Однако, во многих областях деятельности присутствие человека нежелательно или невозможно. К ним можно отнести атомную энергетику, космические . исследования, работу в удаленных регионах. Дополнительно задача усложняется тем, что работа устройств протекает в неизвестных условиях, которые могут изменяться. В этой связи, на стадии проектирования и разработки не представляется возможным реализация полной программы работы такого устройства, которое должно демонстрировать интеллектуальное поведение.
Таким образом, актуальной научной задачей является исследование и разработка алгоритмов и программного обеспечения, позволяющих организовать работу автономных технических устройств в изменяющихся условиях, а также проверка разработанных алгоритмов.
В данной работе ставилась задача охватить круг вопросов, связанных с программным управлением автономными транспортными устройствами, движение которых осуществляется за счет перемещения его отдельных частей в заданном направлении движения.
Основные исследования, которые проведены в рамках представленной работы, можно свести к трем направлениям :
1 .Представление знаний и работа с ними. Это - создание специализированных алгоритмов и программных компонентов для представления и накопления знаний в ЭВМ, а также алгоритмов для их преобразования. Проведены исследования по созданию специальных методов, позволяющих пополнять и обобщать знания, хранимые в машине.
2.Планирование целесообразного поведения. Исследования по созданию алгоритмов формирования целей и решения задач планирования действий транспортного устройства для достижения цели, функционирующего в изменяющихся условиях.
3.Исследования по накоплению и обобщению информации, алгоритмов ее обработки и способов адаптации программной системы управления к среде функционирования путем обучения.
Работа посвящена методам построения программных систем управления и обучения транспортных технических устройств.
Основной задачей программной системы управления подобными устройствами является выработка последовательности действий для достижения заранее определенной цели. Таким образом, программа представляет собой планирующую систему, которая, исходя из условий задачи и условий работы устройства, автоматически строит план, или последовательность действий, приводящих устройство в целевое состояние.
Такая последовательность не является единственной. Программа должна обладать способностью принимать решения о выборе плана, возможно, рационального по некоторым критериям [58,61].
Таким образом, основными задачами программной системы автономного устройства являются:
1. Накопление и корректировка знаний на основе восприятия информации об условиях работы и обобщенного опыта.
2. Целенаправленное поведение на основе накопленных знаний для достижения цели.
Необходимо отметить, что рассматриваемый класс устройств обладает возможностью совершать различные виды действий в процессе своей работы. При этом, в зависимости от условий работы устройство может находиться в различных ситуациях, связанных с положением относительно местности работы и внутреннего расположения узлов и механизмов самого устройства, что определяет множество возможных состояний пары среда-устройство. Поскольку условия работы могут изменяться или быть не полностью известны, то возникает задача выбора в каждом из возможных состояний одного из действий таким образом, чтобы данный выбор обеспечивал достижение целевого положения некоторым рациональным образом.
Под изменяющимися условиями автор понимает необходимость изменения выбора одного из возможных действий в каждом из состояний с точки зрения достижения целевого положения рациональным образом.
Программная система управления устройством должна уметь оценить состояние, в котором находится управляемое устройство, выбрать нужное действие для данного состояния. Данный выбор должен осуществляться на основе обучения или сбора информации программой управления.
Таким образом, возникают задачи построения методик и алгоритмов программных средств управления транспортными устройствами, основным функциональным назначением которых являются:
1. Оценка состояния пары среда-устройство управления.
2. Выбор реализуемого действия для определенного программой состояния.
3. Построение последовательности действий с целью достижения целевого положения.
4. Сбор информации или обучение для реализации рационального поведения механизма.
Задачи построения программных планирующих систем рассматривались многими авторами. Упомянем в этой связи имена Попова Э.В., Фридмана Г.Р., Скурихина В.И., Feigenbaum Е.А., McCorduck М.С., Winston P.N., Mitchell T.M., Sutton R.S., Quinlan J.R.
Задачи построения программных систем обучения и управления трудно поддаются обобщению и классификации. В настоящее время сформировалось три направления в теории обучения. Первый - на основе символьного представления информации, второй - на основе связей и третий основан на принципах генетики или эволюционной теории.
Первый из подходов к обучению сводится к явному представлению в системе знаний об области определения решаемой задачи. На основе своего опыта обучаемая система строит или модифицирует выражение на формальном языке и сохраняет эти знания для последующего использования. Символьные подходы строятся на предположении, что основное влияние на поведение системы оказывают знания об области определения в их явном представлении. К числу наиболее известных программных систем символьного представления знания можно отнести системы LEX [Mitchel Т.М.], ID3 [Quinlan J.R.], Meta-Dendral [Mitchel T.M.], COB-WEB [Fisher D.H.].
Нейронные сети, или сети связей, обучаются на основе символьного языка. Знания программы не явно представлены в общей организации и взаимодействии этих нейронов. Нейронные сети обучаются не за счет добавления новой информации в базу знаний, а за счет модификации своей общей структуры в ответ на получаемую извне информацию. Можно выделить модели Кохонена [Kohonen Т. ] и Хехта-Нильсена [Hecht-Nielsen R.] и конкурентные методы их обучения, алгоритм обучения Хебба [Невв D.O.].
Эмерджентный подход к обучению, основанный на адаптации, отражен в генетических алгоритмах, генетическом программировании и исследовании искусственной жизни. [Conway J.H., Brooks R.A., Holland J.H.]
Машинное обучение - это обширная область исследований, охватывающая большое количество проблем и алгоритмов их решения. Эти алгоритмы различаются своими задачами, исходными данными, стратегиями обучения и способами представления знаний. Однако, все они сводятся к поиску полезной информации в пространстве возможных понятий и ее корректному обобщению. Можно выделить ряд обзоров, посвященных машинному обучению [41,42, 56, 58, 67].
В работе предлагаются новые алгоритмы построения программной системы обучения, в основе которых лежит идея обучения на принципе взаимодействия со средой функционирования устройства [55].
Предлагаемый способ обучения можно сравнить с обучением человека. Человек обычно обучается в процессе взаимодействия с окружающим миром. Однако обратная связь, вызванная действиями человека, не всегда проявляется сразу и в явной форме. Например, в человеческих взаимоотношениях результаты наших действий сказываются лишь по прошествии некоторого времени. На примере взаимодействия с миром всегда можно проследить причинно-следственные связи, а также последовательности действий, приводящие к реализации сложных целей.
Соединение программы обучения и управления и среды функционирования позволяет получить требуемую информацию об эффективности действий, их последовательности для достижения цели. В работе используется оценочный подход к проблеме обучения во взаимодействии со средой, названный обучением с подкреплением [56, 58].
Базовая идея алгоритмов обучения с подкреплением - собрать наиболее важные аспекты реальной задачи, возникающие перед программной системой устройства в процессе взаимодействия со средой и достижения цели. Очевидно, что программа управления должна уметь определить и оценить состояние, в котором находится устройство, и принять действия, которые повлияют на это состояние. Кроме того, у устройства должна быть поставлена цель, которую необходимо достичь.
В процессе обучения с подкреплением вырабатывается вычислительный алгоритм перехода от ситуации к действиям, которые максимизируют величину полученного вознаграждения или выигрыша. В отличие от большинства форм машинного обучения, обучение с подкреплением не определяет явно какое действие выбрать в конкретной ситуации или состоянии, а исследует действия на предмет вознаграждения, которое может быть получено в случае их выполнения. При этом в большинстве случаев выбор действия влияет не только на непосредственное вознаграждение, но и возможно на последующие ситуации и, таким образом, на все дальнейшие вознаграждения. Действия определяются не только сиюминутным результатом, но и последующими действиями и случайными вознаграждениями. Эти два свойства (метод "проб и ошибок" и подкрепление с задержкой) являются основными характеристиками обучения с подкреплением.
Таким образом, в терминологии обучения с подкреплением можно выделить три важных компонента: действие, вознаграждение и цель. Важно отметить, что устройство работает на основе собственного опыта, что позволяет использовать представленный способ машинного обучения для построения программных систем автономных устройств .
Один из вопросов, возникающих при использовании обучения с подкреплением - это нахождение компромисса между исследованием и эксплуатацией [33]. Для получения большего вознаграждения устройство в каждой ситуации должно предпочесть действие, которое уже использовалось в прошлом и оказалось наиболее эффективным или приносящим наибольшее вознаграждение. Но для этого программа должна выбирать действия, которые еще не были проверены в данной ситуации или состоянии. Для достижения наибольшего вознаграждения необходимо использовать (эксплуатировать) то, что уже известно, при этом исследовать наиболее выигрышные действия в будущем. Проблема в том, что ни эксплуатация, ни исследование не могут быть использованы отдельно, в отрыве друг от друга.
Другая ключевая особенность обучения с подкреплением - наличие определенной цели [35,54], к достижению которой должны вести все действия устройства. В задачах обучения с подкреплением также возможно использование понятия планирования, но в контексте выбора или компромисса между самим планированием и выбором действий в различных состояниях в режиме реального времени.
В обучении с подкреплением участвуют четыре компонента: политика, функция вознаграждения, функция стоимости и модель внешней среды.
Политика определяет выбор программной системы управления в каждом из возможных состояний одного из действий и, соответственно, способ действия устройства в определенное время. Такая политика может быть представлена правилами вывода или простой таблицей поиска.
Функция вознаграждения задает отображение каждого действия для заданного состояния в числовую меру, определяющую степень эффективности принятия действия в данном состоянии для достижения цели. В процессе обучения с подкреплением ставится цель максимизации общего вознаграждения, получаемого в результате решения задачи.
Функция стоимости, или ценности это числовая величина определяемая для каждого состояния среда - устройство, задающая величину вознаграждения, на которое может рассчитывать устройство, продолжая действовать из этого состояния. Если функция вознаграждения определяет сиюминутную эффективность пары "состояние-отклик", то функция ценности задает долговременную перспективу всех дальнейших состояний. Например, пара "состояние-действие" может приводить к низкому сиюминутному вознаграждению, но иметь высокую ценность, поскольку за ней обычно следуют другие состояния с высоким вознаграждением. Низкая ценность соответствует состояниям, не приводящим к успешному решению задачи.
Без функции вознаграждения нельзя определить значение ценности, которую необходимо оценить для получения более высокого вознаграждения. Однако в процессе принятия решений в первую очередь интересует ценность, поскольку она определяет состояния и их комбинации, приводящие к максимальному вознаграждению. Вознаграждение предоставляется непосредственно внешней средой, а стоимость может многократно оцениваться со временем на основе успешного и ошибочного опыта. На самом деле, наиболее критичным и сложным моментом обучения с подкреплением является создание метода эффективного определения ценности.
Последним и необязательным элементом обучения с подкреплением является модель внешней среды. Модель — это механизм реализации аспектов поведения внешней среды. Модели можно использовать не только для выявления сбоев, как в диагностике, но и при определении плана действий. Модели позволяют оценить результаты возможных действий без их реального выполнения. Планирование на основе моделей является дополнением к парадигме обучения с подкреплением, которое позволяет реализовывать возможности обучения без проведения натурных испытаний при физическом отсутствии объекта обучения, что значительно расширяет сферу применения предлагаемого подхода к обучению [4,54,29].
Целью диссертационной работы является исследование и разработка алгоритмов и методов построения программных систем для управления и обучения автономных транспортных устройств при работе в изменяющихся условиях, а также проверка алгоритмов с использованием компьютерного имитационного моделирования при отсутствии реальных условий для испытания.
Основными задачами, решаемыми в рамках данной работы, являются:
1.Анализ и оценка современных методов построения программного обеспечения для обучения и управления автономными интеллектуальными устройствами.
2.Разработка алгоритмов обучения и управления, позволяющих реализовать программное обеспечение интеллектуальных устройств для работы в неопределенных или изменяющихся условиях.
3.Создание имитационной модели для проведения функциональной проверки методик построения алгоритмов обучения и управления. Выбор прототипа для моделирования.
4.Анализ и оценка результатов моделирования.
Научная новизна данной работы заключается в том, что:
1. Предложена и исследована оригинальная методика построения программных систем управления техническим устройством, основанная на обучении во взаимодействии со средой функционирования и получении вознаграждений от работы. При этом отличительной особенностью является отсутствие предварительной информации о среде работы устройства управления.
2.Разработан способ накопления знаний, в основе которого лежат новые алгоритмы обработки вознаграждений принятия устройством действий, полученных от взаимодействия со средой.
3.В первые предложена и реализована компьютерная имитационная модель работы выбранного прототипа. Проведена проверка работоспособности созданных методов обучения и управления на соответствующих тестах в рамках имитационного моделирования.
На защиту выносятся следующие положения, представляющие научную новизну:
1 .Разработанные алгоритмы обучения (накопления знаний) управляющего программного обеспечения технического устройства.
2.Алгоритмы управления на базе накопленных знаний, обеспечивающие построение рациональных планов достижении цели согласно определенным критериям.
3.Программная имитационная модель работы выбранного прототипа устройства в соответствии с разработанными алгоритмами обучения и управления.
Практическую ценность представляют математические методы и алгоритмы обучения и управления автономными устройствами, созданные в рамках данной работы, а также результаты имитационного моделирования прототипа такого устройства. Разработанные методы построения программных систем управления на базе алгоритмов обучения и методика апробации алгоритмов в рамках имитационного моделирования могут быть использованы в различных областях народного хозяйства, требующих полной автоматизации труда человека. В том числе, в космической технике, а также при организации работ в удаленных и труднодоступных регионах, в условиях, при которых присутствие человека невозможно.
Диссертационная работа состоит из введения, трех глав, заключения, списка литературы и приложения.
Заключение диссертация на тему "Анализ и разработка алгоритмов и программного обеспечения для компьютерных систем управления транспортными техническими устройствами в изменяющихся условиях"
3.5 Выводы и результаты
1. Для анализа и оценки работоспособности алгоритмов обучения с подкреплением выбран объект - автоматизированный самоходный агрегат. Определены основные состояния, в которых может пребывать агрегат, и действия, которые он может реализовывать.
2. Построена оригинальная компьютерная модель АСА, модель среды работы и виртуальный полигон, позволяющие проводить проверку работоспособности выбранных алгоритмов обучения и управления.
3. Впервые определены и реализованы способы задания входных параметров моделирования, параметров виртуального полигона, режимов работы АСА. Заданы критерии оценки значений вознаграждений. Реализованы возможности задания целевых состояний и траектории движения агрегата.
4. В рамках созданной модели определены оригинальные программные компоненты, необходимые для обучения агрегата, блоки накопления и хранения результатов обучения (база знаний) и блок принятия решения на основе накопленных знаний.
5. Реализовано обучение агрегата алгоритмами обучения с подкреплением, новыми методами обучения на основе эксперимента и методом временных разностей.
6. Проведен анализ правильности и эффективности работоспособности алгоритмов обучения. Согласно результатам моделирования можно сделать вывод о том, что апробированные методы обеспечивают правильность при обучении. Методы временных разностей требуют малого числа эпизодов (5) для обучения. Методы МЭ большего числа эпизодов (50-100), после которых действия агрегата становятся правильными.
Заключение
Содержанием работы является теоретическая разработка, анализ и исследование, а также практическая реализация в рамках компьютерного моделирования алгоритмов обучения и управления автономными транспортными устройствами. В результате проведенных автором исследований получены следующие основные научно-технические результаты:
1.Определена общая структура программной системы обучения и управления, выявлены основные блоки, составляющие структуру интеллектуальной системы. Сформулирована основная задача - управление для достижения цели автономным устройством в неизвестных изменяющихся условиях.
2.Разработаны новые методы построения программных систем обучения и управления на базе теории обучения с подкреплением как способ реализации интеллектуальной составляющей транспортных устройств. Обучение с подкреплением при этом реализует концепцию обучения во взаимодействии со средой функционирования и накопление знаний на основе реального или модельного опыта. Отличительной особенностью предложенной методики является отсутствие необходимости как поиска решающего пути в пространстве состояний, так и полных знаний условий работы устройства.
3.Определены оригинальные методы и критерии рационального управления устройством согласно знаниям, полученным во время обучения. Обучающая программа сохраняет данные о вознаграждениях во всех посещаемых в процессе обучения состояниях. Понятие полного вознаграждения определяет всю совокупность вознаграждений, полученных до терминального (целевого) состояния. Таким образом, система максимизирует полное вознаграждение, полученное за все время работы. Доказана сходимость и, соответственно, практическая применимость полученных методов.
4.Реализована компьютерная имитационная модель функционирования выбранного прототипа устройства (АСА). Реализовано обучение агрегата созданными алгоритмами обучения с подкреплением при различных условиях функционирования агрегата. Показано, что применение компьютерного моделирования является целесообразным при предварительном обучении программной системы устройства в отсутствии полной информации о среде предполагаемой эксплуатации.
5.На базе результатов моделирования проведен анализ правильности и эффективности работоспособности созданных алгоритмов обучения с подкреплением. По результатам моделирования можно сделать вывод о том, что представленные алгоритмы обеспечивают обучение выбранного прототипа при низком объеме вычислений. При этом не требуются реализация поиска в пространстве возможных состояний системы устройство-среда и полного знания условий работы. Согласно проведенным исследованиям, представленные методы требуют от 5 до 50 эпизодов обучения, после которых действия устройства становятся правильными согласно заданным критериям эффективной работы.
Библиография Выборнов, Андрей Олегович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Ахо А., Хопкрофт Д., Ульман Д. Структуры данных и алгоритмы. Пер. с англ. М.: Издательский дом «Вильяме», 2000. - 384 е., ил.
2. Бесакер Р., Саати Т. Конечные графы и сети: Пер. с англ. М.: Наука, 1984.
3. Бобровский С. Delphi 5:учебный курс. СПб:Питер,2001 640 с.
4. Бусленко Н. П. Моделирование сложных систем. —М.: Наука, 1978. 384 с.
5. Гальперин Г. А., Чернов Н. И. Биллиарды и хаос. — Серия "Математика, кибернетика"; 5. —М.: Знание, 1991. 48 с.
6. Выборное А.О., Попов Ю.А. Автоматизированные самоходные агрегаты. Научная сессия МИФИ-98. Сборник научных трудов. Часть 7,М.:МИФИ,1998.
7. Выборнов А.О., Попов Ю.А. Создание и испытание компьютерной функциональной модели АСА. Научная сессия МИФИ-98. Сборник научных трудов. Часть 9,М.:МИФИ,1998.
8. Выборнов А.О., Попов Ю.А. Инструментальные средства точного функционального моделирования автоматизированных агрегатов. Научная сессия МИФИ-99. Сборник научных трудов.Т. 9,М.:МИФИ,1999.
9. Выборнов А.О., Попов Ю.А. Реализация системы управления автоматизированного самоходного агрегата (АСА). Научная сессия МИФИ-2001. Сборник научных трудов. Т. 11,М.:МИФИ,2001.
10. Ю.Выборнов А.О. Техническая имитация интеллекта при построении систем управления роботизированных комплексов. Научная сессия МИФИ-2004. Сборник научных трудов. М.:МИФИ,2004.
11. П.Горбатов В.А. Схемы управления ЦВМ и графы. М.: Энергия, 1971.-152 е., ил.
12. Горбатов В.А. Фундаментальные основы дискретной математики. М.: Наука. Физматлит, 2000. 544 е., ил.
13. З.Гофман В.Э., Хомоненко А.Д. Delphi 5. СПб.:БХВ-Петербург, 2001. 800 с.
14. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2000. 475 е., ил.
15. Ефимов Е. И. Решатели интеллектуальных задач. М.: Наука, 1982.
16. Де Гроот М. Оптимальные статистические решения. М. : Мир, 1984
17. Йодан Э. Структурное проектирование и конструирование программ. Пер. с англ. М.: Мир, 1979.-416 е., ил.
18. Калверт Ч. Освой самостоятельно программирование в Windows 95. Пер. с англ. -М.: Бином, 1996. 1008 е., ил.
19. Кастер X. Основы Windows NT и NTFS. Пер. с англ. М.: Издательский отдел «Русская редакция», 1996. - 440 е., ил.
20. Каханер Д., Моулер К., Неш С. Численные методы и программное обеёпечение. — М.: Мир, 1998. 575 с.
21. Киндлер Е. Языки моделирования. М.: Энергоатомиздат, 1985.
22. Клейнрок JL Теория массового обслуживания. Пер. с англ. М.: машиностроение, 1979.-432 е., ил.
23. Колесов Ю. Б., Сениченков Ю. Б. Визуальное моделирование сложных динамических систем. — СПб.: Изд-во Мир и Семья 8 Интерлайн, 2000. 242 с.
24. Компьютерные системы и технологии. — Под ред. Забродина Л.Д. М.: Диалог-МИФИ, 2001. 336 е., ил.
25. Коутс Р., Влейминк И. Интерфейс «человек-компьютер». Пер. с англ. М.: Мир, 1990.-501 е., ил.
26. Кузин JI. Т. Основы кибернетики. Т. 2. Основы кибернетических моделей. М. : Энергия, 1989
27. Мартин Ф. Моделирование на вычислительных машинах. М.: Сов. радио, 1972.
28. Мендельсон Э. Введение в математическую логику. М.: Наука, 1984.
29. Максимей И. В. Имитационное моделирование на ЭВМ. М.:
30. Радио и связь, 1988. Нильсон Н. Искусственный интеллект. Методы поиска решений: Пер. с англ. — М.: Мир, 1989.
31. Математические модели технических объектов/Трудошин В. А., Пивоварова Н. В. САПР, т. 4, — Минск: Вышэйшая школа, 1988. 195 с.
32. Новиков П. С. Элементы математической логики. — М.: Наука, 1983.
33. Пилыциков В. Н. Язык ПЛЭНЕР. — М.: Наука, 1989.
34. Попов Э. В., Фридман Г. Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. — М.: Наука, 1986.
35. Пупырев Е. И. Перестраиваемые автоматы и микропроцессорные системы. — М.: Наука, 1984.
36. Слэйгл Дж. Искусственный интеллект. — М.: Мир, 1993.
37. Советов Б.Я, Яковлев С.А. Моделирование систем. 2-е изд., перераб. и доп. М. : Высшая школа, 1998.
38. Финогенов К.Г. Самоучитель по системным функциям MS-DOS. М.: Радио и связь, Энтроп, 1995. 382 е., ил.
39. Фролов А.В., Фролов Г.В. Операционная система Windows 95 для программистов. М.: Диалог-МИФИ, 1996. - 288 е., ил.
40. Шеннон Р. Имитационное моделирование систем: искусство и наука. М.: Мир, 1978.
41. Шрайбер Т. Моделирование на GPSS. М.: Машиностроение, 1980.
42. Хант Э. Искусственный интеллект. — М.: Мир, 1998 42.Эндрю А. Искусственный интеллект. — М.: Мир, 1989.
43. Ackley D. Н., Littman М. Interactions between learning and evolution. In Langton Ctal. (1992), 1992.
44. Adler M. R., Davis А. В., Weihmayer R. and Worrest R. W. Conflict resolution strategies for nonhierarchical distributed agents. Distributed Artificial Intelligence, Vol. 1 12. San
45. Francisco: Morgan Kaufmann, 1989.
46. Allen J., Hendler I. and Tate A. Readings in Planning. Los Altos, CA: Morgan Kaufmann, 1990.
47. Anderson J. A., Silverstein J. W., Ritz, S. A. and Jones R. S. Distinctive features, categoricalperception and probability learning: Some applications ofa neural model.
48. Psychological Review, 1987.
49. Auer P Holte R С and Maass W Theory and application ofagnostic рас learning with smalldecision trees. Proceedings of the Twelfth International Conference on Machine Learning,pp. 21—29. San Francisco: Morgan Kaufmann, 1995
50. Austin 3 L How to Do Things with Words Cambridge MA Harvard University Press 1962
51. Bach E. and Harms R., ed. Universals of Linguistic Theory. New York: Holt, Rinehart and Winston, 1968.
52. Ballard D An introduction to Natural Computation Cambridge MA MIT Press 1997
53. Bareiss E. R., Porter, B. W. and Weir С. C. Protos: An exemplar-based learning apprentice.1.ternational Journal of Man-Machine Studies, 29:, 1988.
54. Barr A. and Feigenbaum E., ed. Handbook ofArtificial Intelligence. Los Altos, CA: William1. Kaufman, 1989.
55. Bartlett F Remembering London Cambridge University Press 1932
56. Bellman R. E. Dynamic Programming. Princeton, NJ: Princeton University Press, 1956.
57. Benson S. Action Model Learning and Action Execution in a Reactive Agent. Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI 95) 1995
58. Benson S. and Nilsson N. Reacting, Planning and Learning in an Autonomous Agent. Machine Intelligence 14. Edited by K. Furukawa, D. Michie and S. Muggleton. Oxford: Clarendon Press, 1995.
59. Bertsekas D. P. and Tsitsiklis J. N. Neuro-Dynamic Programming. Belmont, MA: Athena, 1996.
60. Bhaskar R. and Simon H. A. Problem solving in semantically rich domains. Cog. Sci. 1, 1977.
61. Chen L. and Sycara K. A personal agent for browsing and searching. Cambridge, Ma: MIT Press 1996/
62. Chung K.T. and Wu C.H. Dynamic scheduling with intelligent agent. Metra Application/ Palo Alto: Metra 1990.
63. Brooks R.A. Intelligence without reason. San Mateo, CA: Morgan Kaufman, 1991.
64. Dennet D.C. Consciousness Explained. Boston: Little, Brown, 1991.
65. Fodor J.A. The Modularity of Mind. Cambridge, MA: MIT Press 1993.
66. Feigenbaum E.A., McCorduck M.C. Computers and Thought. New York: McGraw-Hill, 1963
67. Fisher D.H. Unsupervised Learning. San Mateo. Cambridge, MA: MIT Press, 1983.
68. Hebb D.O. The Organisation of Behavior. New York: Wiley, 1949.
69. Hecht-Nielsen R. Neurocomputing. New York: Addison-Wesley,1990.
70. Holland J.H. Hidden order: How adaptation builds complexity. Reading Ma: Addison-Wesley, 1995.
71. Jordan M. Learning in Graphical Models. Boston: Kluwer Academic, 1999.
72. Kohonen T. Self-Organization and Associative Memory. Berlin: Springer-Verlag, 1984.
73. Kowalski R. Logic for Problem Solving. Amsterdam: North-holland, 1998.
74. McDermott. Planning and acting. Cognitive Sceence, 1978.
75. Mitchel T.M. Machine Learning. New York: McGraw Hill, 1997.
76. Quinplan J.R. Programs for Machine Learning. San Francisco: Morgan Kaufman, 1993.
77. Russel S.J. Artificial Intelligence. A modem approach. Englewood Cliffs, NJ: Prentice-Hall, 1995.
78. Treisman A. The binding problem. In Squire and Kosslyn, 1998.
79. Winston P.H. Artificial Intelligence, MA: Addison Wesley, 1992.
80. WooIddridge M. Agent-based computing. Cambridge, MA:MIT Press,2000.78.http://www.module.ru79.http://www.informika.ru80.http://www.ccas.ru
-
Похожие работы
- Разработка системы поддержки принятия решений при управлении бестраншейной прокладкой трубопровода на основе вибрационных воздействий
- Информационно-эвристическо-вычислительные модели и алгоритмы принятия решений по интегрированной логистической поддержке трубопроводных систем нефтехимических предприятий
- Теория и принципы построения систем автоматизированного управления трубоукладочными колоннами
- Методология создания машин для прокладки гибких подземных коммуникаций
- Повышение производительности комплекса агрегатов для бестраншейного ремонта трубопроводов способом комбинированного торообразного рукава
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность