强化学习原理_算法及应用

强化学习原理_算法及应用

ID:38190929

大小:78.13 KB

页数:5页

时间:2019-05-26

强化学习原理_算法及应用_第1页
强化学习原理_算法及应用_第2页
强化学习原理_算法及应用_第3页
强化学习原理_算法及应用_第4页
强化学习原理_算法及应用_第5页
资源描述:

《强化学习原理_算法及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第35卷第6期河北工业大学学报2006年12月Vol.35No.6JOURNALOFHEBEIUNIVERSITYOFTECHNOLOGYDecember2006文章编号:1007-2373(2006)06-0034-05强化学习原理、算法及应用黄炳强1,曹广益1,王占全2(1.上海交通大学自动化系,上海200030;2.华东理工大学计算机系,上海200237)摘要强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机

2、器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.关键词强化学习;TD算法;Q-学习;R-学习中图分类号TP24文献标识码AReinforcementLearningTheory,AlgorithmsandApplicationHUANGBing-qiang1,CAOGuang-yi1,WANGZhan-quan2(1.DepartmentofAutomation,ShanghaiJiaotongUniversity,Shanghai

3、200030,China;2.DepartmentofComputerScience,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)AbstractReinforcementLearningdevelopsfromtheanimallearningtheory.RLdoesnotneedpriorknowledge,anditcanautonomouslyimproveitsbehaviorpolicywiththeknowledgeobtainedbycontin

4、uouslyinteractingwiththeenvi-ronment.ThemainreinforcementlearningalgorithmincludingTDalgorithm,Q-learningandR-learningareroundlyin-troduced.Finally,theresearchanddevelopmentonthemultiplemobilerobotssystemarepresented.KeywordsreinforcementLearning;TDalgorithm;Q-learning;R-lea

5、rning0引言强化学习技术有着相当长的历史,但直到80年代末90年代初,强化学习技术才在人工智能,机器[1]学习中得到广泛应用,强化学习是一种从环境状态到行为映射的学习技术.强化学习的思想来自于条件反射理论和动物学习理论.它是受到动物学习过程启发而得到的一种仿[2]生算法,是一种重要的机器学习方法.Agent通过对感知到的环境状态采取各种试探动作,获得环境状态的适合度评价值(通常是一个奖励或惩罚信号),从而修改自身的动作策略以获得较大的奖励或较小的惩罚,强化学习就是这样一种赋予Agent学习自适应性能力的方法.本文全面介绍了强化学习的基本原理

6、,学习算法及其应用情况,最后讨论了多机器人系统中强化学习的研究热点问题.1强化学习的基本原理1.1强化学习的原理和结构强化学习把学习看作试探过程,基本模型如图1所示.在强化学习中,Agent选择一个动作作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent,Agent再根据强化信号和环境的当前状态再选择下一个动作,选择的原则是使受到正的报酬的概率增大.选择的动作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值.强化学习的目的就是寻找一个最优策收稿日期:2006-08-05作者简介:黄炳强(1975-),男(汉

7、族),博士生.第6期黄炳强,等:强化学习原理、算法及应用35[3]略,使得Agent在运行中所获得的累计报酬值最大.1.2马尔可夫决策过程(MDP)很多强化学习问题基于的一个关键假设就是Agent与环境之间的交互可以被看成一个马尔可夫决策过程(MDP),因此强化学习的研究主要集中于对Markov的问题处理.Markov决策过程的模型可以用一个四元组(,,,)表示:为可能的状态集合,为可能的动作集状态合,:×是状态转移函数;:×是奖赏函数.在每一个时间步,环境处于状态集合中的某一奖赏状态,Agent选择动作集合中的一个动作,收到Agent即时奖赏

8、,并转移至下一状态.状态转移函数,,表示在状态执行动作转移到状态的概动作率,可以用,表示.状态转移函数和奖赏函数都是随机的.Agent目标就是寻求一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。