半Markov决策过程强化学习算法研究

半Markov决策过程强化学习算法研究

ID:37044318

大小:5.54 MB

页数:64页

时间:2019-05-17

半Markov决策过程强化学习算法研究_第1页
半Markov决策过程强化学习算法研究_第2页
半Markov决策过程强化学习算法研究_第3页
半Markov决策过程强化学习算法研究_第4页
半Markov决策过程强化学习算法研究_第5页
资源描述:

《半Markov决策过程强化学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文半Markov决策过程强化学习算法研究REINFORCEMENTLEARNINGALGORITHMSFORSEMI-MARKOVDECISIONPROCESSES杨家源哈尔滨工业大学2018年1月国内图书分类号:TP181学校代码:10213国际图书分类号:621密级:公开工程硕士学位论文半Markov决策过程强化学习算法研究硕士研究生:杨家源导师:李衍杰副教授申请学位:工程硕士学科:控制工程所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP181U.D.C:621Adissertationsubmitte

2、dinpartialfulfillmentoftherequirementsfortheprofessionaldegreeofMasterofEngineeringREINFORCEMENTLEARNINGALGORITHMSFORSEMI-MARKOVDECISIONPROCESSESCandidate:YangJiayuanSupervisor:AssociateProf.LiYanjieAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ControlEngineeringAffiliation:ShenzhenG

3、raduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要强化学习作为机器学习领域中的一种主要算法,在智能决策和行为认知等领域有着重要作用,也是解决随机序贯决策问题的有效方法。虽然强化学习算法在基础理论研究和应用等方面取得了显著的成果,但大部分研究将系统所处环境都建模为Markov决策过程,而在实际应用中存在着大量系统,其环境难于用Markov决策过程精确描述,用半Markov决策过程代替Markov决策过程为系

4、统所处环境建模可以有效克服上述缺点。由于半Markov决策过程为描绘时间因素提供了有效模型,半马氏强化学习算法在无人驾驶,工业控制、金融分析等领域有着广阔的研究前景和应用需求。针对当前Markov决策过程强化学习算法的不足,给出了一种将马氏强化学习算法拓展到半Markov决策过程的统一分析框架。该框架在平均报酬准则下通过性能灵敏度分析方法推导出连续时间型和离散时间型贝尔曼最优性方程,利用贝尔曼最优性方程的迭代形式得出半马氏强化学习算法状态动作对Q-值的更新公式。MATLAB仿真实验证明了本文拓展出的半马氏无模型强化学习算法的收敛性,进而验证了分析框架的有效性与实用性。此外结合增量

5、值迭代算法和随机最短路值迭代算法,本文得出了两种新型的半马氏强化学习算法,并在此基础上引入二分法,得到基于二分法的半马氏强化学习算法。本文给出的统一分析框架可以使半马氏强化学习算法的拓展变的简单直观,对半Markov决策过程强化学习算法的研究也具有积极的指导作用。通过半马氏过程仿真实验,本文验证了半马氏强化学习算法的收敛性和寻找最优策略的有效性。仿真结果显示本课题所得出算法的收敛速度相比其它半马氏无模型强化学习算法至少有成倍的提升,其中增量值迭代强化学习算法的收敛速度最快。在无人车仿真实验中,使用增量值迭代强化学习算法和随机最短路值迭代强化学习算法得出的策略进行无人驾驶,无人车发

6、生事故的次数为零次。无人车公路驾驶问题应用实例证明了理论的有效性和算法的实用性,通过该研究拓展了半Markov决策过程强化学习算法的适用范围。关键词:半马尔可夫决策过程;平均报酬准则;性能灵敏度;强化学习算法-I-哈尔滨工业大学工程硕士学位论文AbstractAsthemainalgorithminmachinelearning,reinforcementlearning(RL)playsanimportantroleinthefieldsofintelligentdecision-makingandbehaviorcognition.Itisalsoaneffectiveway

7、tosolvethestochasticsequentialdecisionproblem.AlthoughtheRLalgorithmshavemadenotableachievementsinbasictheoryresearchesandapplications,mostresearchesuseMarkovdecisionprocesses(MDP)asthesystem’senvironmentalmodel.However,manysystematicenvironm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。