q_learning强化学习算法的改进及应用研究

q_learning强化学习算法的改进及应用研究

ID:35033892

大小:5.48 MB

页数:56页

时间:2019-03-16

q_learning强化学习算法的改进及应用研究_第1页
q_learning强化学习算法的改进及应用研究_第2页
q_learning强化学习算法的改进及应用研究_第3页
q_learning强化学习算法的改进及应用研究_第4页
q_learning强化学习算法的改进及应用研究_第5页
资源描述:

《q_learning强化学习算法的改进及应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、..号分类:TP39单位代码:10361?姜获化义乂學ANHUIUNIVERSITYOFSC化:NCE&TECHNOLOGY论文题目;QJeaming强化学习算法的改进及应用妍究作者姓名;巧朋委专业名称:软件工程导师姓名:潘地林教授完成时间—:二〇六年六月中图分类号;了P巧论文编号:学科分粪号:520察级:公开安徽理工大学硕击学位论文QJeaming强化学习算法的改进及应用研究作者姓名:马朋寒专业名称:软件工程研究方向:人工智能导师

2、巧名:潘化化教巧导师单位;巧徽理工大学答辩委巧会主席:何留讲论文答辩日期:是减年(月日安徽理工大学研究生处201(年(月(日ADissertationinSoftwareEngineeringTheImrovementandAlica杜onofReinforcementpppLearninAlorithmResearchggCandidate:MaPenWeigSupervisor:PanDiLinSchoolofConputerScienceandTe

3、chnologyAnHuiUniversitofScienceandTechnoloygyNo.168,Shungeng民oadHuainan32001P.R.CHINA,^,独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及i取得的研究成果。据我所知,除了文中特别加Ul标注和致谢的地方夕h,论文中不包含其他人已经发表或撰写过的研巧成果,也不包含为获得安徽理工大学或其他教育机构的学位或证书而使用过的材料。与我一同王作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示

4、谢意。学位论文作者签名:马舶#日期;威年(月日_^学位论文版权使用授权书本学位论文作者完全了解安徽理工大学有保留、使用学位论文的规定,目P;研巧生在校攻读学位期间论文工作的知识产权单位属于安徽理工大学。学校有权保留并向国家有关部口或机构送交论文。的复印件和磁盘,允许论文被查阅和借阅本人授权安徽理工大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:3目目签字日期:也f(年(月(日f导师

5、签名;签字日期;M(年6月备日摘要20世纪90年代强化学习通过与运筹学、控制理论的交叉结合,在控制理论和算法方面取得若干突破性的研巧成果,奠定了强化学习的理论基础,并在智能控制、机器人系统规划及分析预测等序贯决策中取得了成功的应用一种无导师的机器学习方。强化学习作为法,通过与环境不断的试错学习,完善自己对环境的认知能力。虽然强化学习算法在很多重大的成功,但在解决问题中仍面临着探索和利用两难、维数灾难、收敛缓慢等问题,仍有许多问题值得研巧。本课题选用强化学习算法中经典的QJeaming算法,对原有算法进行改进,提巧

6、自己的模型和见解,引入启发式奖赏函数,将改进算法应用与路径规划,并通过实验仿真验证了算法的有效性。一、文章介绍了强化学习的发展历史,并对国内外的研究现状做W介绍,指出强化学习现阶段中存在主要问题,简单介绍了本文的主要内容W及章节框架。二、针对本文用到的强化学习算法相关理论、技术化及相关模型进行介绍,并对强化学习常用的一些算法化及流程做了初步的介绍。eamnH、对本文用到的QJig学习算法介绍并给出详细的证明,指出了CLleaming算法的学习时间过长、收敛速度慢的缺陷。提出从环境中提取特征,借助人的经验和问题的

7、背景知识可W很好的巧计启发函数并融入到强化学习中,提高算法的学习效率,加快算法的收敛,改进智能体从环境中学习知识的能力,并进行仿真验证。四一、对本文的工作进斤总结,结合相关文献和书籍,给出了下步的发展方向。图[16表脚参37][]:强化学习eamn关键词;QJig;启发函数;路径规划分类号:TP3952020()--IAbstractRenforcemenlearnnnthe1990weineranoeraionresearcitigisith化tgtioofptshcontrol,

8、theory,madesomebreakthroughintermsofcontroltheoryandalgorithmres

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。