欢迎来到天天文库
浏览记录
ID:35065270
大小:6.67 MB
页数:73页
时间:2019-03-17
《基于搜索熵的强化学习搜索策略分析及算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、研究生毕业论文(申请硕去学位)论文题目基于搜索備的强化学习搜索策略分析及算法研究作者姓名陈竺宏专业名静控制科学与工程研究方向智能信息处理与智能系统指导教师朱张青邑。教授2016年5月24日学号;MG1315006论文答辩日期2016524日:年月指导教师(签字)Theanalsisandresearchofeloratio凸s化ateiesy邱gandalorithmsinReinforcementlearninggADissertationSubmited化Nanjing
2、UniversityFortheAcademicDereeofMasterofEnineeringggBYCHENZhuhongSupervisedbyAssociateProfessorZHUZhangqingSchoolofManagementandEngineeringNaninUniv郑sitjgyMay2016南京大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本论文不包含任何其他
3、个人或集体已经发表或撰写过的作品成果。对本文的研巧做出重要贡献的个人和集体,均己在文中W明确方式说明并且表达了谢意。本.公.:研究生签名:^隻暮曰期政《|南京大学学位论文使用授权声明本学位论文作者同意学校保留并向国家有关部口或机构送交学位论文的复印件和电子文档,可采用影印、缩印或扫描等复制手段保存论文。本文电子文一挡的内容和纸质论文的内容相致。除在保密期内的保密论文外,允许论文被查)阅和借阅,可W公布(包括刊登论文的全部或者部分内容。论文的公布(包括刊登)授权南京大学研巧生院办理。‘王导师签名研巧生签名、v>:婪重期y南京大学硕
4、±学位论文摘要南京大学研究生毕业论文中文摘要首页用纸毕业论文题目:基于搜索瞒的强化学习搜索策略分析及算法研究控制科学与工程专业2013绞硕去生姓名:陈空宏指导教师(姓名、耳只称);朱张青副教授摘要强化学习和大部分机器学习不同的地方,在于强化学习系统不是哲诉智能体--如何产生正确的动作landrror,而是通过试错(TriaE)来发现哪些动作会产生最大的回报。这种非精确信息形式的反馈,更能满足在信息缺乏的环境或者动态环境中的控制要求。强化学习不仅是人工智能和机器人学习领域的重点研究方向,■也在运动控制、移动机器人
5、路径规划等领域具有相当强的适用性。,目标为导向强化学习模仿人类在未知环境中自然的学习方式,在智能体与环境的交互的过程中,通过试错式的动作和感知环境响应的反馈来学习到最优解。强化学习的过程,本质上也是与环境交互来进行知识完备的过程。而在这个,过程中,动作选择机制既需要利用己经学习到的知识也需要探索未知的知识。搜索(Exploration)和利用(Exploitation)各有利弊,送二者之间的平衡是影响一智能体对环境的理解程度及对算法性能优化程度的关键之。、本文详尽分析了强化学习中的经典捜索策略:随机游走、贪屯算法、Softmax方法レ义及概率
6、动作选择机制。针对目前缺少捜索策略分析工具的问题,基于强化tEnt学习是降低选择动作不确定度的过程,提出搜索搁化xploraionropy,EE)概念,来对强化学习的搜索策略进行定量的分析与描述,并给出基于EE判定算法终止的条件一个定量分析工具对捜。并在实际案例应用中,演示了搜索摘作为索和利用之间的平衡W及算法性能的分析作用。一,采用不同搜索策略在实验部分,分别对个确定马尔可夫过程状志转移问一题和个较为复杂的微观自旋量子系统的学习控制问题进行数值仿真,从宏观和微观两方面的应用来验证搜索烦的适用性一。进步论证了搜索烟作为分析强化学I
7、南京大学硕±学位论文摘要习搜索策略的工具一,可l^Jl为分析算法性能提供个有效的参考指标。关键词:强化学习;搜索策略;搜索贿II南京大学硕±学位论文ABSTRACT南京大学研究生毕业论文莫文摘要首页用纸THESIS:Theanalsisandresearchofexlorato打strateiesanypigdalorithmsinReinforcementlearninggSPECIALIZATION:ControlScienceandEngineeringP
此文档下载收益归作者所有