基于强化学习的gambler策略研究与评价正文大学学位论文.doc

基于强化学习的gambler策略研究与评价正文大学学位论文.doc

ID:11486065

大小:731.00 KB

页数:38页

时间:2018-07-12

基于强化学习的gambler策略研究与评价正文大学学位论文.doc_第1页
基于强化学习的gambler策略研究与评价正文大学学位论文.doc_第2页
基于强化学习的gambler策略研究与评价正文大学学位论文.doc_第3页
基于强化学习的gambler策略研究与评价正文大学学位论文.doc_第4页
基于强化学习的gambler策略研究与评价正文大学学位论文.doc_第5页
资源描述:

《基于强化学习的gambler策略研究与评价正文大学学位论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科生毕业设计(论文www.16paper.com)本科毕业设计(论文)学院(部)计算机科学与技术学院题目基于强化学习的Gambler策略研究与评价年级专业软件工程(嵌入式)班级学号姓名指导教师职称论文提交日期I本科生毕业设计(论文www.16paper.com)目录摘要1ABSTRACT2第一章前言31.1背景概述31.2强化学习的应用31.3论文结构安排4第二章强化学习52.1强化学习的原理和模型52.2强化学习系统的主要组成要素62.3马尔可夫决策过程(MDP)72.4强化学习的基本算法82.4.1动态规划(DynamicProgramming,DP)82.4.2蒙特卡罗算法(Mo

2、nteCarlomethod,MC)92.5强化学习中有待解决的问题92.6本章小结9第三章动态规划分析103.1动态规划的适用条件103.1.1最优化原理103.1.2无后向性103.1.3子问题的重叠性103.2算法流程113.2.1策略评估11II本科生毕业设计(论文www.16paper.com)3.2.2策略改进113.3寻找最优策略123.3.1策略迭代123.3.2值迭代123.4动态规划的效率133.5本章小结13第四章实验平台分析与实现144.1实验平台描述144.1.1系统概述144.1.2系统运行环境144.2Gambler问题仿真144.3实验平台概要设计154.

3、3.1底层框架模型154.3.2Gambler问题模型174.3.3界面设计174.4实验平台的详细设计194.4.1类和接口194.4.2核心算法示例224.5本章小结25第五章实验结果分析265.1实验结果265.2Gambler仿真结果分析275.2.1Gambler在不同P值下的策略27II本科生毕业设计(论文www.16paper.com)5.2.2策略分析与评价275.2.3计算误差对策略的影响285.3本章小结29第六章总结与展望306.1课题总结306.2进一步的研究与展望30参考文献32致谢34II本科生毕业设计(论文www.16paper.com)摘要强化学习是一种重

4、要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断地与环境进行交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式。因此在智能控制,机器学习等领域中强化学习得到了广泛研究。强化学习的任务就是学习从状态空间到动作空间的映射。环境对不同动作做出的评价性反馈信号决定了强化学习系统的动作选择策略。如果一个动作得到了最多的奖励,则该动作就会被采取。本文的特点是在强化学习理论研究的基础上,以Gambler问题为仿真实验平台,对强化学习中的动态规划算法进行实现,并对不同P值下的实验结果进行分析。关键词:强化学习,机器学习

5、,动态规划,Gambler作者:李天琳指导老师:刘全1本科生毕业设计(论文www.16paper.com)ABSTRACTReinforcementlearningisanimportantmachinelearningmethod.Itcouldlearntheoptimalpolicyofthedynamicsystemthroughenvironmentstateobservationandimproveitsbehaviorthroughtrialanderrorwiththeenvironment.Reinforcementlearninghasthequalityoflowr

6、equirementforaprioriknowledgeandisalsoakindofonlinelearningmethodforthereal-timeenvironment,whichisextensivelyexploredinthefieldofintelligentcontrolandmachinelearning.Theaimofreinforcementlearningistolearnthemappingfromthestatespacetotheactionspace.Theselectionpolicyofactionsinthereinforcementlea

7、rningsystemisdeterminedbytheevaluativefeedbacksignalwhichismadebyenvironmentondifferentactions.Ifoneactionleadingtothelargestreward,itwillbetaken.Thefeatureofthispaperisthatbasedonthebasictheoriesandmethodsofreinforcem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。