折扣准则下的ctmdp最优方程

折扣准则下的ctmdp最优方程

ID:32084901

大小:1.85 MB

页数:46页

时间:2019-01-31

折扣准则下的ctmdp最优方程_第1页
折扣准则下的ctmdp最优方程_第2页
折扣准则下的ctmdp最优方程_第3页
折扣准则下的ctmdp最优方程_第4页
折扣准则下的ctmdp最优方程_第5页
资源描述:

《折扣准则下的ctmdp最优方程》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学位论文独创性声明本人声明所呈交的破士学位论文《籼趁酗蛐玉碰纽型娅鞋五旌二.》是我个人在导师指导下进行的研究工作I及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果。与我一同工作的同志对本研究学位论文作者签名:鹰d纨签字日期:∥哼.f·刁学位论文使用授权书本人完全了解重庆大学有关保留、使用学位论文的规定。本人完全同意《中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库出版章程》(以下简称“章程”),愿意将本人的础学位论文缅担酗幽玉豇q出继蠡

2、鱼么签提交中国学术期刊(光盘版)电子杂志社(CNKI)在’《中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据库》以及《重庆大学博硕学位论文全文数据库》中全文发表。《中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据库》可以以电子、网络及其他数字媒体形式公开出版,并同意编入CNKI《中国知识资源总库》,在《中国博硕士学位论文评价数据库》中使用和在互联网上传播,同意按“章程"规定享受相关权益和承担相应义务。本人授权重庆大学可以采用影印、缩印或其他复制手段保存论文,可以公开论文的全部或部分

3、内容。作者签名:礁垫氩:导师签各注。审核通过的涉密论文不得签署_授权书一,该论文属于涉密论文,其密级是——,涉密期限至——年一月一日。说明:本声明及授权书!逝装订在提交的学位论文最后一页。重庆人学硕十学倪论文1绪论1.1研究问题及研究意义马尔可夫决策过程(MDP)在社会和生活中有着极其广泛的应用和重要的作用,它可以应用到隐性安全系统的识别过程,解决集装箱调配问题,库存问题,人力资源问题等等,对经济和科研有关键意义。而最优方程的形式以及对应的最优策略的存在性和算法则一直是马氏决策过程的核心。因为对每个决策时

4、刻f,最优方程的解就是从时刻t到结束时可以得到的最优报酬值,它提供了确定策略是否为最优的方法,也就是说,对于一切决策时刻t,该策略从f时刻到决策结束时刻的期望总报酬满足t=0,l,⋯,甩的方程组,那么它就是最优的。它是计算最优报酬和最优策略的最基本的东西,还可以被应用于确定最优报酬和最优策略的结构性质。可以说最优方程决定了整个过程的可行性,因此对于这一部分内容的研究具有尤其重要的意义和价值。针对决策时刻而言,马尔可夫决策过程可以被分为离散型和连续型两类,离散型是指决策时刻成离散分布,相互之间具有一定的独立

5、性。在实际生活中,离散型的马尔可夫决策问题也是存在的,许多学者也对这一类决策问题做了很多研究,在针对不同准则时最优方程的形式和最优策略的存在性,以及对系统数据的处理方面都得出许多重要的结论。这些结论其中一部分对于连续时间马尔可夫决策过程的研究也有着非常重要的意义。现在,由于越来越多的决策问题都是基于一个连续时间的过程,例如通信网络,计算机网络,制作过程以及排队系统等,它要求决策者在这个过程中连续的做出一系列的决策,且各决策之间互相影响。那么决策者如何保证自己做出的决策是最优的,这就使得连续时间的马尔可夫决

6、策过程(CTMDP)受到更多的关注,关注的焦点则是如何找到对应准则下的一个最优策略,其主要途径则是通过建立最优方程并求解。基于不同的准则,对于最优的定义当然也有所不同,平均期望报酬准则是目前使用的最为广泛的一种准则。很多学者对它做了深入的研究,研究的方向主要集中在寻找最优化条件。除去平均期望报酬准则,折扣报酬准则也是目前应用的较多的一种准则,对于解决~类考虑报酬折现问题的经济案例有不可替代的作用,因此对于折扣准则下的连续时间马尔可夫决策的最优方程的研究具有一定的现实意义。又由于同样基于连续时间,都针对一般

7、的状态空间和行动空间,对于折扣准则下的CTMDP问题的讨论和平均期望报酬准则下的讨论有许多相似之处,这使得很多在以前文献中提出的关于平均期望报酬准则下的CTMDP最优化的结论可以被借用,为研究提供了便利。重庆大学硕十学位论文1绪论文章的主要目的则是希望通过查阅文献,了解、学习和掌握有关马尔可夫决策的相关知识,利用已学习的马尔可夫链,最优化控制理论,离散时间马尔可夫决策问题和连续时问马尔可夫决策,泛函分析,多元统计分析等统计学知识和经济学知识,结合部份参考文献的结论和学习,对连续时问的马尔可夫决策问题,在折

8、扣准则下建立一个最优方程,并且证明方程在Polish空间中的存在性,确定方程中的参数的存在性和具体形式。然后根据文献中提出的改进过的策略迭代法对所建立方程求得最优解,从而寻找到对应的最优策略并研究其特殊的策略性质。再将以上理论结果用以解决实际经济活动中涉及到总报酬值折现的连续时间马尔可夫决策问题,同时为折扣报酬准则下的最优策略寻找提供有力的依据,为连续时间马尔可夫决策问题提供一类新的解决方法。1.2国内外研究现状1.2.1最优

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。