马尔可夫决策规划1

马尔可夫决策规划1

ID:14280397

大小:355.00 KB

页数:16页

时间:2018-07-27

马尔可夫决策规划1_第1页
马尔可夫决策规划1_第2页
马尔可夫决策规划1_第3页
马尔可夫决策规划1_第4页
马尔可夫决策规划1_第5页
资源描述:

《马尔可夫决策规划1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、运筹学概述:为什么要学《运筹学》?运筹学(OperationalResearch)是一类“以定量化为基础、服务于系统管理和决策”的科学方法,其强调的是“最优性”、“若不这样,则不会好于现在这样做”(即非劣性)或“满意性”;其使用的工具是各种模型,尤其是定量数学模型;研究处理的对象是社会经济系统。它是系统工程的理论基础。(OperationsResearch(美)orOperationalResearch(英),运筹学(大陆)or作业研究(香港和台湾))《TheMethodsofOperationsResearch》,P.M.Morse和G.E.Kimball(

2、1946):“运筹学是为领导机关对其控制下的事务、活动采取策略而提供定量依据的科学方法,它是在实行管理的领域,运用数学的方法,对需要进行管理的问题进行统筹规划、做出决策的一门应用学科”。152009.10也有人将其定义为“运筹学是一种适用于系统运行的方法和工具,它是一种科学方法,能对运行管理人员的问题提供最合适的解答。”(放松了“定量”要求)。另外,还可定义为“将科学技术具体、并最佳运用于生产和生活实践的一门学科”,如OperationResearch。一般的线性规划运筹学线性规划对策论决策论排队论图与网络库存论可靠性理论非线性规划动态规划整数规划目标规划数学

3、规划……随机规划与马氏规划确定随机静态LP、NP、IP排队多目标规划库存图与网络对策决策随机规划动态DPM152009.10本课主要内容:线性规划、非线性规划、整数规划、多目标规划----最优化理论对策论----经济博弈论决策论----决策的理论和方法本课主讲内容第一部分马尔科夫决策规划(10-14)第二部分排队论(8-10)第三部分可靠性理论(10-12)第四部分随机规划(4-6)第五部分存储论(6-8)第六部分蒙特卡洛仿真(2-4)学习基础:线性代数、概率论和随机过程、数学规划主要参考书:1.运筹学(修订版),钱颂迪主编,清华大学出版社,19902.排队论

4、及其应用,陆凤山编著,湖南科学技术出版社,19843.排队论与随机服务系统,华兴(美)编著,上海翻译出版公司,1987.7152009.101.随机运筹学,赵玮、王荫清,高等教育出版社,1993年2.运筹学随机模型,严颖、成世学、程侃编著,中国人民大学出版社,19953.实用网络计划技术,程国平、黄沛均,华中理工大学出版社,1991.64.运筹学,李军、徐玖平编著,科学出版社,2003.115.运筹学手册,[美]J.J.摩特、S.E.爱尔玛拉巴主编,上海科学技术出版社,19876.运筹学的理论与实践,[美]菲利普斯等著,刘泉、万敏译,中国商业出版社,1987年

5、7.运筹学题库,美国教育协会编,晓园出版社,1993.6英文参考书:IntroductiontoQueuingTheory,R.B.Cooper(1998)OperationsResearch:AnIntroduction,HamdyA.Taha(2007)152009.10马尔可夫决策规划所谓决策,是指在若干个可行的行动方案中按照某种准则选出一个方案。其中,有一类多阶段决策问题称为序贯决策,即在系统的运行过程中,它不是作一次决策就结束,而是在一系列观察的时刻点上都要做出决策。例如,一家商店各种商品每月的进货量;一台机器定期的维修;一家工厂每月的生产计划等。在

6、每个观察时刻点上,决策者首先根据所得的系统状态,从其所有被选方案中选择一个方案(即做出决策)执行,其结果是:(1)将获得一定效益;(2)能确定以后系统状态发展的概率规律。然后,再观察下一时刻点上系统出现的状态,据此再做出新的决策,如此一步一步地进行下去……。如果在序贯决策过程中,系统状态的转移服从已知的概率规律且与系统以前的发展历史无关,即具有无后效性(或Markov性),称此类序贯决策问题的数学模型为Markov决策规划(以下简称MDP)。Markov决策规划是解决随机性序贯决策问题的重要分支学科。它可以应用于许多领域,是解决随机动态最优化问题的重要工具,如

7、排队系统的最优运行控制;随机库存系统的最优定货策略;设备的最优更换维修策略;水库的优化调度等均可以转化为一定的MDP来解决。可以说,凡是以Markov过程作为数学模型的问题,只要能够引入“行动”与“报酬”结构,均可以应用Markov决策规划。152009.10主要讲授内容:第一讲概率与随机过程第二讲马尔可夫链与马尔可夫过程第三讲离散时间的马尔可夫决策规划第四讲F有限折扣模型第五讲有限阶段模型及其他152009.10第一讲概率与随机过程§1.1概率空间随机试验是概率论的基本概念,试验的结果事先不能准确地预言,但具有如下三个特性:(1)可以在相同的条件下重复进行;

8、(2)每次试验的结果不止一个,但预先知

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。