最小二乘策略迭代算法研究

最小二乘策略迭代算法研究

ID:36631717

大小:1.35 MB

页数:68页

时间:2019-05-13

最小二乘策略迭代算法研究_第1页
最小二乘策略迭代算法研究_第2页
最小二乘策略迭代算法研究_第3页
最小二乘策略迭代算法研究_第4页
最小二乘策略迭代算法研究_第5页
资源描述:

《最小二乘策略迭代算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文论文题目最小二乘策略迭代算法研究研究生姓名周鑫指导教师姓名刘全(教授)专业名称计算机应用技术研究方向智能信息处理论文提交日期2014年5月最小二乘策略迭代算法研究中文摘要最小二乘策略迭代算法研究中文摘要强化学习是一种通过与环境的交互,将状态映射到动作,以获取最大累积奖赏的机器学习方法。在大规模和连续状态或动作空间强化学习问题中,通过使用函数逼近方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学习方法,其最小二乘逼近可以从样本中获取更多有效信息,并可以应用到在线算法中。本文着眼于在线最小二乘策略迭代算

2、法,对其进行了以下几方面的扩展,提出了相应的算法:(1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保存生成的样本数据,多次重复使用这些样本数据以更新控制策略,可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。(2)针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动性的问题,提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长参数评估方法,高效地利用样本数据和策略动态调整步长参数,进一步提高

3、了经验利用率,加快了收敛速度,并提高了学习过程的稳定性。(3)将BLSPI算法扩展到连续动作空间,并针对状态空间维数较大状态特征较多时算法收敛速度较慢的问题,提出一种应用于连续动作空间的快速特征选择批量最小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作搜索方法减少了动作搜索的复杂度,并自动选择较优的状态特征评估策略,降低了状态空间的维数,减少了运算量,提高了算法的执行效率。关键词:强化学习,最小二乘策略迭代,批量更新,自动步长评估,特征选择作者:周鑫指导老师:刘全(教授)IAbstractResearchonLeast

4、-SquaresPolicyIterationAlgorithmsResearchonLeast-SquaresPolicyIterationAlgorithmsAbstractReinforcementlearningisakindofmachinelearningmethodswhichmapsthestatetotheactioninordertoobtainthemaximumcumulativerewardsthroughinteractingwiththeenvironment.Inreinforcementlearnin

5、gproblemswithlarge-scaleandcontinuousstateoractionspaces,theapproximatereinforcementlearningmethodsareproposedbyusingthefunctionapproximationmethodstofitthepolicy.Least-squarespolicyiterationisastate-of-the-artapproximatereinforcementlearningmethod.Theleast-squaresappro

6、ximationcanextractmoreusefulinformationfromthesamplesandcanbeappliedtotheonlinealgorithmseffectively.Thisarticlefocusesontheonlineleast-squarespolicyiterationalgorithm,thefollowingextensionshavebeendone,andthecorrespondingalgorithmshavebeenproposed:i.Fortheinsufficientu

7、seofsampledataofonlineleast-squarespolicyiterationalgorithm,abatchleast-squarespolicyiteration(BLSPI)algorithmisproposed.Thealgorithmgeneratessamplesandstoresthemonline,thenreusethesesamplestoupdatethecontrolpolicy,whichcaneffectivelyutilizepriorexperience,improvetheexp

8、erimentalutilizationrateandtheconvergencespeed.ii.Forthesingleformandthelackofautomaticityofstep-sizeparameter

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。