资源描述:
《开题报告--开题报告原稿》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要随着智能系统FI新月益的发展和使用,其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽彖成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。
2、本次论文首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍冃前解决若干问题而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型提出一种新的算法。关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型;HRL模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而來的,最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初,强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的
3、核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。一.强化学习的理论基础:1.强化学习问题的框架:强化学习将学习当作是一个不断试探并评价的过程。我们将有智能的学习体称为agent,将系统分成若干个状态,每个状态S可以有不同的动作选择,对应的每个选择也就有一个值函数Q(s,a)。Agent选择一个动作a作用于环境,环境接收该动作后状态发生变化(SJ,同时产生一个强化信号r(奖赏)给agent,agent根据这个奖赏评价刚才的动
4、作的好坏进而修改该动作值,并选择下一动作H。对于一个强化学习系统来讲,其目标是学习一个行为策略:Ti:S->A,使系统选择的动作能够获得环境奖赏的累计值艺r最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强,反Z则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。【10,11]这和生理学中的条件反射原理是接近的。强化学习的框架如图:新状态S'环境奖惩反馈A强化学习系统动作a1.环境的描述:通常,我们从五个角度对环境进行分析:【4】角度一:离散状态vs连续状态角度二:状态完全可感
5、知vs状态部分可感知角度三:插曲式vs非插曲式角度四:确定性vs不确定性角度五:静态VS动态其中的插曲式是指智能系统在每个场景中学习的知识对下一场景中的学习是有用的。确定性是指状态在选择动作后迁移是确定的,而不是依赖某种概率。进一步,如果状态迁移的概率是不变的则是静态环境,否则为动态环境。在强化学习中,我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马尔科夫模型:马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。马儿科夫决策过程(MDP)[2]:由四元组vS,A,R,
6、P>定义。包含一个环境状态集S,系统行为集合A,奖赏函数:SXA->R和状态转移函数P:SXAoPD(S)。记R(s,a,s')为系统在状态s采用a动作使环境状态转移到V获得的瞬时奖赏值;记P(s,a,sJ为系统在状态s采用动作a使环境转移到V的概率。MDP的本质是:当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。用rt+1表示t时刻的即时奖赏[71用Rt表示t时刻的累计奖赏,则Rt为t时刻开始到最后的所
7、有奖赏和,而越后续的动作对当前影响要比t时刻奖赏逐渐减小,因此越往后的奖赏加上了一个折扣丫,这样,t时刻的奖赏总和就是R(=rt+i+Yrt+2+YH+3+…=rt+i+YR(+i(1)t时刻状态s的状态值(表示状态s如何优秀)用V"(s)表示,它用t时刻选择各个动作的奖赏的数学期望來表示。Vn(s)=E7I{R(lsl=s)=E{r【+i+YV(s【+i)ls(=s}=2>(站)工梯1心・+丫/(门](2)a$'注意到这里两式都是一个递推式,称为Bellman等式,写成这种形式非常便于从状态s转换到V时计算状
8、态值。强化学习问题是要寻求一个最优的策略n在上面的等式中表现为寻求状态值的最优值,在不断学习强化的过程中对状态s获得一个最优值V*(s),它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略兀*下,状态s的最优值定义为:*V(s)二maxE{n+i+yV(sl+i)lst=s}=max工墨[殆+YV(S')](3)各种算法的最终0的便是计算各状态的最优值,并根据