基于Tile Coding编码和模型学习的Actor-Critic算法.pdf

基于Tile Coding编码和模型学习的Actor-Critic算法.pdf

ID:56010160

大小:454.61 KB

页数:5页

时间:2020-06-19

基于Tile Coding编码和模型学习的Actor-Critic算法.pdf_第1页
基于Tile Coding编码和模型学习的Actor-Critic算法.pdf_第2页
基于Tile Coding编码和模型学习的Actor-Critic算法.pdf_第3页
基于Tile Coding编码和模型学习的Actor-Critic算法.pdf_第4页
基于Tile Coding编码和模型学习的Actor-Critic算法.pdf_第5页
资源描述:

《基于Tile Coding编码和模型学习的Actor-Critic算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第41卷第6期计算机科学VoI.41No.62014年6月ComputerScienceJune2014基于TileCoding编码和模型学习的Actor-Critic算法金玉净朱文文伏玉琛刘全(苏州大学计算机科学与技术学院苏州215006)摘要Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-C

2、ritic方法有重要的影响。TileCoding编码具有简单易用、计算时间复杂度较低等优点,因此,将TileCoding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。关键词强化学习,TileCoding,Actor-Critic,模型学习,函数逼近中图法分类号TP181文献标识码AActor-CriticAlgorithmBasedOilTileCodingandModelI~arningJiNYu-jingZHUWen-wenFUYu-chenLIUQuan(Sch

3、o0lofComputerScienceandTechnology,SooehowUniversity,Suzhou215006,Chim)AbstractTheActor-Critic(AC)approachisaclassofreinforcementlearningmethodwhichhasgoodperformanceandensuresconvergence,buttheAgentdoesnotstudythedynamicofenvironmentintheprocessoflearningandimprovingpolicy,w

4、hichcausestheperformanceoftheACmethodtoberestrictedtoacertainextent.Inaddition,theACmethodneedstorepresentthepolicyandvaluefunctionapproximately,andtheencodingmethodsofstateandactionandpara-metershaveimportantinfluenceonACmethod.TileCodinghasadvantagesofsimpleand1OWcomputing

5、timecomplexi—ty,SOwecombinedtheTileCodingwithActor-Criticmethodbasedonmodelandappliedthealgorithmtothesimula—tionexperimentonreinforcementlearning,andtheresultsshowthatthealgorithmhasgoodperformance.KeywordsReinforcement1earning,TileCoding,Actor-Critic,Modellearning,Function

6、approximation题时,值函数方法需要借助函数逼近器来解决“维数灾”问题,1引言从而不能保证收敛,而且算法根据Bellman方程寻找最优值很多工业过程通过控制算法进行优化,这些控制算法学函数,每次都选择使得值函数最大的那个动作。当动作空间习一个使得相关耗费最小或者回报最大的近似函数,然后通为连续时计算量巨大,因此Critic-oNy算法通常将连续的动过调整该函数的相关参数来控制工业过程。强化学习(RL)作空间离散化后枚举得到最优策略_3]。就是一种基于经验、模拟或者搜索来学习和估计值函数的最最早的Actor-Critic(AC)架构思想

7、由Bartol6提出,为了优控制方法,在缺乏模型信息的情况下通过采样来解决马尔加快学习速度,Kondac]等人提出了具体的AC算法及其改可夫决策过程,在优化和控制中具有广泛的应用[-1,2]。进算法。AC架构结合了Actor-only算法和Critic-only算法强化学习的缺点是收敛速度慢,因而学习时间长。近年的优点,在连续的动作空间上应用参数化策略产生连续的动来对强化学习方法的研究总体可以分为3类:Actor-o~y算作范围而不需要寻找最优值函数对应的动作。在函数逼近的法,Critic-only算法,Actor-Critic算法。Actor

8、-oNy算法用一基础上Critic和Actor分别学习值函数和策略,Critic可以提系列参数化的策略使得过程最优,将策略参数化的优势在于供小方差的值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。