欢迎来到天天文库
浏览记录
ID:56010160
大小:454.61 KB
页数:5页
时间:2020-06-19
《基于Tile Coding编码和模型学习的Actor-Critic算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第41卷第6期计算机科学VoI.41No.62014年6月ComputerScienceJune2014基于TileCoding编码和模型学习的Actor-Critic算法金玉净朱文文伏玉琛刘全(苏州大学计算机科学与技术学院苏州215006)摘要Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-C
2、ritic方法有重要的影响。TileCoding编码具有简单易用、计算时间复杂度较低等优点,因此,将TileCoding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。关键词强化学习,TileCoding,Actor-Critic,模型学习,函数逼近中图法分类号TP181文献标识码AActor-CriticAlgorithmBasedOilTileCodingandModelI~arningJiNYu-jingZHUWen-wenFUYu-chenLIUQuan(Sch
3、o0lofComputerScienceandTechnology,SooehowUniversity,Suzhou215006,Chim)AbstractTheActor-Critic(AC)approachisaclassofreinforcementlearningmethodwhichhasgoodperformanceandensuresconvergence,buttheAgentdoesnotstudythedynamicofenvironmentintheprocessoflearningandimprovingpolicy,w
4、hichcausestheperformanceoftheACmethodtoberestrictedtoacertainextent.Inaddition,theACmethodneedstorepresentthepolicyandvaluefunctionapproximately,andtheencodingmethodsofstateandactionandpara-metershaveimportantinfluenceonACmethod.TileCodinghasadvantagesofsimpleand1OWcomputing
5、timecomplexi—ty,SOwecombinedtheTileCodingwithActor-Criticmethodbasedonmodelandappliedthealgorithmtothesimula—tionexperimentonreinforcementlearning,andtheresultsshowthatthealgorithmhasgoodperformance.KeywordsReinforcement1earning,TileCoding,Actor-Critic,Modellearning,Function
6、approximation题时,值函数方法需要借助函数逼近器来解决“维数灾”问题,1引言从而不能保证收敛,而且算法根据Bellman方程寻找最优值很多工业过程通过控制算法进行优化,这些控制算法学函数,每次都选择使得值函数最大的那个动作。当动作空间习一个使得相关耗费最小或者回报最大的近似函数,然后通为连续时计算量巨大,因此Critic-oNy算法通常将连续的动过调整该函数的相关参数来控制工业过程。强化学习(RL)作空间离散化后枚举得到最优策略_3]。就是一种基于经验、模拟或者搜索来学习和估计值函数的最最早的Actor-Critic(AC)架构思想
7、由Bartol6提出,为了优控制方法,在缺乏模型信息的情况下通过采样来解决马尔加快学习速度,Kondac]等人提出了具体的AC算法及其改可夫决策过程,在优化和控制中具有广泛的应用[-1,2]。进算法。AC架构结合了Actor-only算法和Critic-only算法强化学习的缺点是收敛速度慢,因而学习时间长。近年的优点,在连续的动作空间上应用参数化策略产生连续的动来对强化学习方法的研究总体可以分为3类:Actor-o~y算作范围而不需要寻找最优值函数对应的动作。在函数逼近的法,Critic-only算法,Actor-Critic算法。Actor
8、-oNy算法用一基础上Critic和Actor分别学习值函数和策略,Critic可以提系列参数化的策略使得过程最优,将策略参数化的优势在于供小方差的值
此文档下载收益归作者所有