欢迎来到天天文库
浏览记录
ID:46220688
大小:69.48 KB
页数:16页
时间:2019-11-21
《马尔可夫决策规划【精选】》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、运筹学概述:为什么要学《运筹学》?运筹学(OperationalResearch)是一类"以定量化为基础、服务于系统管理和决策”的科学方法,其强调的是“最优性”、“若不这样,则不会好于现在这样做”(即非劣性)或“满意性”;其使用的工具是各种模型,尤其是定量数学模型;研究处理的对象是社会经济系统。它是系统工程的理论基础o(OperationsResearch(美)orOperationalResearch(英),运筹学(大陆)or作业研究(香港和台湾))《TheMethodsofOperationsResearch》,P.M.M
2、orse和GE.Kimball(1946):“运筹学是为领导机关对其控制下的事务、活动采取策略而提供定量依据的科学方法,它是在实行管理的领域,运用数学的方法,对需要进行管理的问题进行统筹规划、做出决策的一门应用学科”。也有人将其定义为“运筹学是一种适用丁•系统运行的方法和工具,它是一种科学方法,能对运行管理人员的问题提供最合适的解答。”(放松T淀量,要求)。另外,还可定义为“将科学技术具体、并最佳运用于生产和生活实践的一门学科",如OperationResearch。数学规划对策论决策论排队论图与网络库存论可靠性理论确定随机静
3、态LP、NP、IP排队多目标规划库存图与网络对策决策随机规划动态DPM本课主要内容:线性规划、非线性规划、整数规划、多目标规划-…最优化理论对策论--经济博弈论决策论--决策的理论和方法第一部分马尔科夫决策规划(10—14)、本课主r讲内容第二部分排队论(8-10)第三部分可靠性理论(10—12)第四部分随机规划(4-6)第五部分存储论(6-8)第六部分蒙特卡洛仿真(2-4)学习基础:线性代数、概率论和随机过稈、数学规划主要参考书:1.运筹学(修订版),钱颂迪主编,清华大学出版社,19902.排队论及其应用,陆凤山编著,湖南科
4、学技术出版社,19843.排队论与随机服务系统,华兴(美)编著,上海翻译出版公司,1987.71.随机运筹学,赵玮、王荫清,高等教育出版社,1993年2.运筹学随机模型,严颖、成世学、程侃编著,中国人民大学出版社,19953.实用网络计划技术,程国平、黄沛均,华中理工大学出版社,1991.64.运筹学,李军、徐玖平编著,科学出版社,2003.11&运筹学手册,[美]J.J.摩特、S.E.爱尔玛拉巴主编,上海科学技术出版社,19879.运筹学的理论与实践,[美]菲利普斯等著,刘泉、万敏译,中国商业出版社,1987年10.运筹学题
5、库,美国教育协会编,晓园出版社,1993.6英文参考书:IntroductiontoQueuingTheory,R.B.Cooper(1998)OperationsResearch:AnIntroduction,HamdyA.Taha(2007)马余可夫决策规划所谓决策,是指在若干个可行的行动方案中按照某种准则选出一个方案。其中,有一类多阶段决策问题称为序贯决策,即在系统的运行过程中,它不是作一次决策就结束,而是在一系列观察的时刻点上都要做出决策。例如,一家商店各种商品每月的进货量;一台机器定期的维修;一家丁厂每月的生产计划等
6、。在每个观察时刻点上,决策者首先根据所得的系统状态,从其所有被选方案中选择一个方案(即做出决策)执行,其结果是:(1)将获得一定效益;(2)能确定以后系统状态发展的概率规律。然后,再观察下一时刻点上系统出现的状态,据此再做出新的决策,如此一步一步地进行下去……。如果在序贯决策过程中,系统状态的转移服从已知的概率规律且与系统以前的发展历史无关,即具有无后效性(或Markov性),称此类序贯决策问题的数学模型为Markov决策规划(以下简称MDP)。Markov决策规划是解决随机性序贯决策问题的重要分支学科。它可以应用于许多领域,
7、是解决随机动态最优化问题的重要工具,如排队系统的最优运行控制;随机库存系统的最优定货策略;设备的最优更换维修策略;水库的优化调度等均可以转化为一定的MDP来解决。可以说,凡是以Markov过程作为数学模型的问题,只要能够引入“行动'与“报酬”结构,均可以应用Markov决策规划。主要讲授内容:第一讲第二讲第三讲第四讲概率与随机过程马尔可夫链与马尔可夫过程离散时间的马尔可夫决策规划F有限折扣模型第五讲有限阶段模型及其他第一讲概率与随机过程§1.1概率空间随机试验是概率论的基本概念,试验的结果事先不能准确地预言,但具有如下三个特性
8、:(1)可以在相同的条件下重复进行;(2)每次试验的结果不止一个,但预先知道试验的所有可能结果;(3)每次试验前不能确定哪个结果会岀现。随机试验所有可能结果组成的集合称为这个试验的样本空间或基本事件空间,记为0。Q中的元素e称为样本点或样本事件,Q的子集A称为事件,样本空间Q
此文档下载收益归作者所有