结合核方法的强化学习问题研究

结合核方法的强化学习问题研究

ID:36748824

大小:6.81 MB

页数:58页

时间:2019-05-14

结合核方法的强化学习问题研究_第1页
结合核方法的强化学习问题研究_第2页
结合核方法的强化学习问题研究_第3页
结合核方法的强化学习问题研究_第4页
结合核方法的强化学习问题研究_第5页
资源描述:

《结合核方法的强化学习问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、白赢犬落研究生毕业论文(申请硕士学位)论文题目:结合核方法的强化学习问题研究作者:解宇专业:计算机应用技术研究方向:机器学习指导教师:高阳教授南京大学计算机科学与技术系二。一一年五月ResearchonKernelmethodsinReinforcementLearningPresentedbyYuXieSupervisedbyProfessorYangGaoADissertationsubmittedtotheGraduateSchoolofNanjingUniversityfortheDegreeofMasterDepartmentofComputerSciencean

2、dTechnologyNanjingUniversityNanjing,May2011南京大学研究生毕业论文摘要强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估计中,特征的抽取比较复杂和耗时,针对这个问题我们提出了可以自动构造特征的基于距离的核稀疏化方法。其次对于迁移方法中的多源迁移问题,本文提出了能够融合多个源任务的迁移方法和衡量任务之间相似度的方法。首先针对函数估计中特征抽取比较困难的问题,本文提出了基于距离的核稀疏化方法。该方法能够在线的,自动的构造特征

3、。它通过选择历史样本中部分的样本集合作为核心状态集,然后用核心状态集去表示问题的特征。与近似线性相关算法相比,近似线性相关方法在Agent学习的每一步的复杂度20(n2)(其中n为核心状态的个数),而我们的算法的复杂度20(n)。实验表明,基于距离的核稀疏化方法的函数估计收敛速率与得到的最优策略优于近似线性相关方法。在该方法的基础上,本文提出了结合核方法的线性函数估计的算法框架,以及在该框架下的三个具体的实例。在MountainCar和50状态链上的实验表明了我们方法的有效性。其次本文对强化学习迁移方法中的多源迁移问题初步研究。受到核方法中表示定理的启发,我们提出了同时从多

4、个源任务中迁移策略的方法,该方法能够融合多个源任务上的知识,并从状态转移函数和奖赏函数这两个任务的本质属性方面定义了衡量任务之间相似度的核函数。迷宫上的实验表明我们的迁移方法可以有效的提高Agent的学习速率。关键词:核方法,强化学习,迁移学习,函数估计第i页ABSTRACTToapplyreinfo.,rcementlearningtorealtaskswhichalwayshavelargescaleorcontinuousstate.,/space.weo‰usefunctionapproximationandtransferlearningmethodstosolv

5、ethegeneraliza-tion,lowlearningrateandlearningreuseproblem.Butinfunctionapproximationmethods,thefeature’Sconstructionisacomplexanddifficultproblem.Tosolvethefeatureconstructionprob-lem,inthisthesisweapplykernelmethodstoconstructthefeatureandweproposeDBSfeatureconstructionmethodswhichcancon

6、structtheproblem’Sfeatureonlinelyandautomatically.Wealsopresenttransfermethodfrommultiplesourcetaskandthemethodthatmeasurethesimilaritybetweentasks.First,tosolvethefeatureconstructionproblem,wepresentdistancebasedsparsity(DBS)proceduretosolvethefeatureconstructionprobleminfunctionapproxima

7、tion.DBSprocedurefirstselectssubsetofstatesinlearninghistoryascoreStatesbasedOildistance,thenrepresentsthestate’SfeaturebythesecoreStates.DBSprocedureconstructsthestate’Sfeatureonlinelyandauto-matically.Ithaslowercomputecomplexitycomparedwithapproximatelineard

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。