强化学习方法及其应用研究

强化学习方法及其应用研究

ID:32470014

大小:3.83 MB

页数:128页

时间:2019-02-06

强化学习方法及其应用研究_第1页
强化学习方法及其应用研究_第2页
强化学习方法及其应用研究_第3页
强化学习方法及其应用研究_第4页
强化学习方法及其应用研究_第5页
资源描述:

《强化学习方法及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学博士学位论文摘要强化学习方法及其应用研究摘要强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式,因此在智能控制,机器学习等领域得到了广泛研究。强化学习的任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态一动作”的映射关系。强化学习中常用算法如Q一学习、TD学习、Sarsa学习的一个共同特点是仅对值函数进行估计,动作选择策略

2、则由值函数的估计完全确定。同时进行值函数和策略空间逼近的泛化方法基本上都是采用Barto提出的自适应启发评价方法(AHC)。该方法在处理具有连续状态空间的问题时,将连续状态空问划分为确定数量的子空间,子空间之间不进行泛化,因而会产生状态组合爆炸,即“维数灾难”问题。因此需要采取量化的方法,将连续输入空间变为离散输入空问,以降低输入空间的复杂度。本文采用归一化径向基函数(NRBF)作为局部函数逼近器用来表示连续输入状态空间并提出了一种基于NRBF的自适应状态空间构建策略。模糊控制系统具有可读性强和简单易行的优点,近

3、年来在各个领域获得了广泛的应用。在模糊控制器的设计过程中,如何获得好的模糊规则和隶属度函数一直是个瓶颈问题。模糊规则和隶属度函数一般根据经验获得,这使得模糊控制效果往往无法达到最优或次优。遗传算法作为一种全局优化算法,在优化模糊控制器上已得到许多学者的关注,并且在优化模糊规则和隶属函数方面取得了成功。本文提出了一种基于递阶遗传算法的模糊强化学习系统,自适应的调整模糊规则和隶属度函数,提高了强化学习系统的效率。Agent是对人类个体的仿生,而多Agent系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,

4、所以对多Agent系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文也对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。本论文的主要创新点:(1)针对连续高维输入状态空间组合爆炸问题,提出一种基于归一化径向基函数(NRBF)的自适应状空间构建策略。采用归一化径向基函数(NI出F)上海交通入学博L-学位论文摘要作为局部函数逼近器用来表示状态空『自J,结合AHC强化学习方法

5、,根据delta规则自动的调整径向基函数的大小和数目,直到可以满足任务的要求。与传统的状态空间构建策略相比,采用较少的基函数可以达到很高的性能,该方法具有速度快,稳定性高,鲁棒性强等优点。(2)提出了一种基于递阶遗传算法的模糊强化学习系统(HGAFRL),它是一个基于评价预测的强化学习系统。该强化学习系统由自适应评价网络AEN,动作选择网络ASN和随机动作修改器(SAM)组成,动作选择网络ASN采用基于递阶遗传算法(HGA)的模糊自适应控制器,它可以利用控制基因删除多余的模糊集合和控制规则,并可以增加隶属函数的弹

6、性,优化了模糊自适应控制网络的结构和参数。(3)提出了一种应用于多Agent系统的改进的分布式Q一学习算法。Agent在学习过程中对其它Agent的行为进行观察与统计,可学习其它Agent的策略并获知该策略对环境的影响,确定其报酬函数和状态后继函数。改进后的分布式Q一学习算法通过对联合动作的统计来学习其它Agent的策略,并利用对其它Agent行动概率估计的方法保证了对联合最优动作的选择,在理论上保证了算法的收敛性。(4)提出了一种多Agent环境下,通过共享经验策略构建环境模型(状态转移函数和报酬函数)的强化学

7、习方法。Agent可以根据经验估计独立于任务的环境模型,通过使用环境模型加快学习速度。对多Agent分布式系统,Agent间通过共享经验策略加快了环境模型的构建,最后掇格环境下实验仿真证明了该算法是有效的和收敛的。关键词:强化学习(RL),归一化径向基函数(NRBF),函数逼近,模糊控制,递阶遗传算法(HGA),神经网络,Multi-Agent,分布式Q一学习,联合动作上海交通丈学博j:学位论文AbsttactRESEARCHoNTHEREINFORCEMENTLEARNINGMETHODANDITSAPPLIC

8、ATIoNABSTRACTReinforcementlearningisallimportantmachinelearningmethod.Reinforcementlearningcouldlearntheoptimalpolicyofthedynamicsystemthroughenvironmentstateobservationandimproveitsbehav

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。