开题报告提交版

开题报告提交版

ID:39297917

大小:138.50 KB

页数:5页

时间:2019-06-29

开题报告提交版_第1页
开题报告提交版_第2页
开题报告提交版_第3页
开题报告提交版_第4页
开题报告提交版_第5页
资源描述:

《开题报告提交版》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、摘要强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型

2、进行算法改进。关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型;HRL模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。一.强化学习的理论基础:1.强化学习问题的框架:我们将有智能的学习体称为agent,将系统分成若干个状态,每个状态S可以有不同的动作选择,对应的每个选择也就有一个值函数Q(s,a)。Agent选择一个动作a作用于环境,环境接收该动作后状态发

3、生变化(S’),同时产生一个强化信号r(奖赏)给agent,agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值,并选择下一动作a’。对于一个强化学习系统来讲,其目标是学习一个行为策略:π:S->A,使系统选择的动作能够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。【10,11】强化学习的框架如图:2.环境的描述:通常,我们从五个角度对环境进行分析:【4】角度一:离散状态vs连续状态角度

4、二:状态完全可感知vs状态部分可感知角度三:插曲式vs非插曲式角度四:确定性vs不确定性角度五:静态vs动态在强化学习中,我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马尔科夫模型:马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。马儿科夫决策过程(MDP)【2】:MDP的本质是:当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。用rt+1表示t时刻的即时奖赏【

5、7】,用Rt表示t时刻的累计奖赏,则Rt为t时刻开始到最后的所有奖赏和,而越后续的动作对当前影响要比t时刻奖赏逐渐减小,因此越往后的奖赏加上了一个折扣γ,这样,t时刻的奖赏总和就是Rt=rt+1+γrt+2+γ2rt+3+…=rt+1+γRt+1(1)t时刻状态s的状态值(表示状态s如何优秀)用Vπ(s)表示,它用t时刻选择各个动作的奖赏的数学期望来表示。Vπ(s)=Eπ{Rt

6、st=s}=Eπ{rt+1+γV(st+1)

7、st=s}=Vπ(s’)](2)注意到这里两式都是一个递推式,称为Bellman等式,写

8、成这种形式非常便于从状态s转换到s’时计算状态值。强化学习问题是要寻求一个最优的策略π*,在上面的等式中表现为寻求状态值的最优值,在不断学习强化的过程中对状态s获得一个最优值V*(s),它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略π*下,状态s的最优值定义为:V*(s)=E{rt+1+γV(st+1)

9、st=s}=Vπ(s’)](3)各种算法的最终目的便是计算各状态的最优值,并根据最优值去指导动作。一.经典的强化学习算法回顾:1.动态规划算法【1】:动态规划的思想,根据2式去不断

10、由V(s’)估计V(s)的值,估计完成后下一次可以继续选择最优的动作,这样迭代到一定程度后算法收敛,每个V(s)都会收敛到一个稳定值,从而学习到一个最优的策略。用公式表示为:Vk+1(s)=Eπ{Rt

11、st=s}=Eπ{rt+1+γV(st+1)

12、st=s}=Vk(s’)](4)1.蒙特卡诺算法:在强化学习中,P和R开始都是未知的,系统无法直接通过(4)式进行值函数的估计,因此常常是是在完整的学习一次后才将学习中各步的奖赏累计用于计算经过的状态的值函数估计。称为蒙特卡诺方法。如式(5),保持π策略不变,在每次学

13、习循环中重复的使用(5)式,将(5)式逼近于(3)式。V(st)<-V(st)+α[Rt-V(st)](5)2.TD算法:【13】结合动态规划和蒙特卡诺算法,Sutton提出基于时间差分的TD算法,它在每一步的学习中利用下式更新状态值:V(st)<-V(st)+α[rt+1+γV(st+1)-V(st)](6)TD法是一类专门用于预测问题的渐进学习过程,传统的学习预测方法是由预测值和实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。