欢迎来到天天文库
浏览记录
ID:28835712
大小:771.03 KB
页数:38页
时间:2018-12-14
《基于强化学习的gambler策略研究与评价设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科生毕业设计(论文www.16paper.com)本科毕业设计(论文)学院(部)计算机科学与技术学院题目基于强化学习的Gambler策略研究与评价年级专业软件工程(嵌入式)班级学号姓名指导教师职称论文提交日期I本科生毕业设计(论文www.16paper.com)目录摘要1ABSTRACT2第一章前言31.1背景概述31.2强化学习的应用31.3论文结构安排4第二章强化学习52.1强化学习的原理和模型52.2强化学习系统的主要组成要素62.3马尔可夫决策过程(MDP)72.4强化学习的基本算法82.4.1动态
2、规划(DynamicProgramming,DP)82.4.2蒙特卡罗算法(MonteCarlomethod,MC)92.5强化学习中有待解决的问题92.6本章小结9第三章动态规划分析103.1动态规划的适用条件103.1.1最优化原理103.1.2无后向性103.1.3子问题的重叠性103.2算法流程113.2.1策略评估11II本科生毕业设计(论文www.16paper.com)3.2.2策略改进113.3寻找最优策略123.3.1策略迭代123.3.2值迭代123.4动态规划的效率133.5本章小结13
3、第四章实验平台分析与实现144.1实验平台描述144.1.1系统概述144.1.2系统运行环境144.2Gambler问题仿真144.3实验平台概要设计154.3.1底层框架模型154.3.2Gambler问题模型174.3.3界面设计174.4实验平台的详细设计194.4.1类和接口194.4.2核心算法示例224.5本章小结25第五章实验结果分析265.1实验结果265.2Gambler仿真结果分析275.2.1Gambler在不同P值下的策略27II本科生毕业设计(论文www.16paper.com)5
4、.2.2策略分析与评价275.2.3计算误差对策略的影响285.3本章小结29第六章总结与展望306.1课题总结306.2进一步的研究与展望30参考文献32致谢34II本科生毕业设计(论文www.16paper.com)摘要强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断地与环境进行交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式。因此在智能控制,机器学习等领域中强化学习得到了广泛研究。强化学习的任务就是学
5、习从状态空间到动作空间的映射。环境对不同动作做出的评价性反馈信号决定了强化学习系统的动作选择策略。如果一个动作得到了最多的奖励,则该动作就会被采取。本文的特点是在强化学习理论研究的基础上,以Gambler问题为仿真实验平台,对强化学习中的动态规划算法进行实现,并对不同P值下的实验结果进行分析。关键词:强化学习,机器学习,动态规划,Gambler作者:李天琳指导老师:刘全1本科生毕业设计(论文www.16paper.com)ABSTRACTReinforcementlearningisanimportantma
6、chinelearningmethod.Itcouldlearntheoptimalpolicyofthedynamicsystemthroughenvironmentstateobservationandimproveitsbehaviorthroughtrialanderrorwiththeenvironment.Reinforcementlearninghasthequalityoflowrequirementforaprioriknowledgeandisalsoakindofonlinelearni
7、ngmethodforthereal-timeenvironment,whichisextensivelyexploredinthefieldofintelligentcontrolandmachinelearning.Theaimofreinforcementlearningistolearnthemappingfromthestatespacetotheactionspace.Theselectionpolicyofactionsinthereinforcementlearningsystemisdete
8、rminedbytheevaluativefeedbacksignalwhichismadebyenvironmentondifferentactions.Ifoneactionleadingtothelargestreward,itwillbetaken.Thefeatureofthispaperisthatbasedonthebasictheoriesandmethodsofreinforcem
此文档下载收益归作者所有