强化学习算法的研究与实验

强化学习算法的研究与实验

ID:34626976

大小:1009.60 KB

页数:74页

时间:2019-03-08

强化学习算法的研究与实验_第1页
强化学习算法的研究与实验_第2页
强化学习算法的研究与实验_第3页
强化学习算法的研究与实验_第4页
强化学习算法的研究与实验_第5页
资源描述:

《强化学习算法的研究与实验》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、强化学习算法的研究与实验作者姓名田苗导师姓名、职称保宏教授一级学科控制科学与工程二级学科控制理论与控制工程申请学位类别工学硕士提交学位论文日期2014年12月学校代码10701学号1204122062分类TN82号TP273密级公开西安电子科技大学硕士研究生学位论文强化学习算法的研究与实验作者姓名:田苗一级学科:控制科学与工程二级学科:控制理论与控制工程学位类别:工学硕士指导教师姓名、职称:保宏教授提交日期:2014年12月StudyandExperimentofReinforcementLearningAlgorithmAthesissubmittedto

2、XIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinControlTheoryandControlEngineeringByTianmiaoSupervisor:Prof.BaohongDecember2014西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;

3、也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,署名

4、单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要近年来,射电望远镜口径的设计越来越大,观测波段的宽度也越来越大,对其跟踪精度和指向精度的要求也越来越高。因此,如何对天线的震动问题进行抑制,变的非常的重要。本文的目的就是设计控制器使得大口径反射面天线底部良好跟踪的同时还尽可能的减少末端的柔性振动量。通过对强化学习的深入研究,搭建了一种基于Q-learning算法的柔性结构控制器,该控制器很好的解决了当奖赏函数和状态转移函数无法准确知道的情况下价值函数的具体计算问题。其次,搭建的基于Q-learning算法柔

5、性结构控制器,会存在连续状态到离散状态的转换问题,因而会存在维数灾等问题。此外,考虑到强化学习是通过与环境的相互作用而学习,智能体可以利用的有效信息比较少。所以,本文中对基于Q-learning算法的柔性结构控制器进行了改进,设计了一种PD+Q-learning型柔性结构控制器,该控制器先通过PD控制,可以为智能体提供有效的先验知识,从而,使得算法加快收敛。最后,通过Matlab软件,针对本文的被控对象,分别验证了基于Q-learning算法和PD+Q-learning算法的柔性结构控制器的有效性和可行性,通过实验结果的对比,表明PD+Q-learning型

6、柔性结构控制器,不管是在底部的跟踪性能还是尖端的振动量抑制方面都有很大的改进。关键词:大口径天线,强化学习,Q-learning算法,PD+Q-learning控制算法论文类型:应用基础研究类I西安电子科技大学硕士研究生毕业论文IIABSTRACTABSTRACTInrecentyears,thedesignofapertureradiotelescopeismuchbigger,theobservationbandismuchwiderthanbefore.Therequirementsofthetrackingprecisionandpointingac

7、curacybecomehighereither.Therefore,howtorestrainthevibrationproblemoftheantenna,becomingveryimportant.Thepurposeofthispaperistodesignthecontrollermakesthelargeaperturereflectorantennaahigherpointingaccuracyandtrackingaccuracy.Throughin-depthstudyonreinforcementlearning,buildakindof

8、flexiblestructurecontrolle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。