马尔可夫决策规划3

马尔可夫决策规划3

ID:46687598

大小:71.00 KB

页数:12页

时间:2019-11-26

马尔可夫决策规划3_第1页
马尔可夫决策规划3_第2页
马尔可夫决策规划3_第3页
马尔可夫决策规划3_第4页
马尔可夫决策规划3_第5页
资源描述:

《马尔可夫决策规划3》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、马余可夫决策规划第三讲离散时间的马尔可夫决策规划§3.1机器维修问题例3.1(机器维修最优策略问题)设等周期(如一天)地考虑一台运行的机器,在每周期初始时刻观察它的运行情况。每次观察时,机器可处于以下两个状态之一:正常运行(记作「=1)或出了故障(记作「=2)。在任一周期,若机器正常运行可得收益10元,且到下一周期初,仍处于正常运行的概率为0.7,处于出故障的概率为0.3o处于正常运行状态时,可用的行动只有一个,即继续生产(记作若处于故障状态,则有两个行动可供选择:快修(记作。2)和常规修理(记作色)。在

2、快修时,需付费用5元(即收益为-5元),而该时段能修复为正常运行状态的概率为0.6;在常规修理时,需付费用2元,且在该时段能修复的概率为0.4。问题是:在各个周期初根据观察到的系统实际所处的状态,如何选取行动才能使整个考察期内的某种期望收益达到最大。[解]:容易看出,机器可处于两种状态,记状态空间S={1,2},每种状态下可采用行动方案有A(1)={^},A⑵=血,他}。这里,用P(j^a)表示在时刻t观察到系统状态为i,选用方案a,于r+1时刻转移到状态j的概率;厂表示在时刻t观察到系统状态为i,选用

3、方案。时获得的收益。其中,P(ji"与厂卩卫)都与时刻f以前系统的历史无关,具体取值见表3.1。表3.1转移概率与报酬状态(T)行动(a)-转移概率a)报酬(元)心a)丿=1丿=21Cl[0.70.31020.60.4-5°30.40.6-2决策规则(或称方案选择规则)/如下:当观察到系统状态为1时,选择方案向;当观察到系统状态为2时,选择方案勺。即/(1)=V(2)=«2o类似地,可令决策规则g表示如下映射g(l)=a^(2)=a3。当》=0时,从规则f,g中选用一个决策,记为九(相应得出选用的方案),

4、从状态Z出发获得收益心办⑴);当心1时,机器转移到状态j的概率为戸(川i,仏⑴)亿Ji,2),同样从/,g中选用一个决策,记为£。由于状态转移是随机的,因而获得的收2益也是随机的,其期望收益为工户(川,九⑴)厂仃』(丿))。当心2戶1时,机器转移到状态k的概率为卩伙UJiO))=1,2)。再从/,g中选用一个决策,记为,2。依次下去,得一决策序列(■/oJ也/,…)(相应可得到方案序列),将其记为兀,称为策略。由丁•收益是从f=o开始计算的,考虑到经济上利率的影响,则在t时段的单位收益可折合成初始时刻心0

5、时的值0,其中Q10=屁。因此'=0时从状态i出发,长期的期望折扣总收益为7卩S,咆办(D)+0工附J。(0)rU/i(;))7=122+02££pQMo(D)腺1“⑺驱a伙))+k=ly=l就是衡量本问题策略优劣的准则。当系统状态转移律已知时,它显然就是初始状态,和策略兀的函数。本问题就是寻求这样的方案序列乃,使^(^0获得最大值。§3.2受控的马氏链1、一个库存问题的讨论假设有一个电视机经销商店,根据历史资料,已知在不缺货的情况下,每日销售比台的概率为几,^=0,1,2,......o如果该店每月初进

6、货M台,记尙表示第斤个月底库存的电视机台数,贝叽心,«=0,1,2,......}为齐次马氏链。一步转移概率矩阵为P=SJ。对Poo,第斤月底是0台、第斤+1月底也是0台,实际销售M台,并售完,所以QCPoo=工久k=M乞Pkk=M□0k=M+iPi+M-ji>0J=00<7/+M于是,上述就得到了一个受控马氏链{PMw{0丄2,……,N}}。2、模型描述通常,一个受控的马氏链可表述为如下四个元素组成的系统:{兀wA,心(勺(D),虫:T={0,1,2,・・・・}}。其屮,兀表示时刻f系统的状

7、态,S是被观察系统的所有可能状态的集合,这里假定S有限或可列;了={0丄2,......}表示所有观测系统的时刻的集合;A(或4)为所有(决策)行动方案。的集合;{為(%)4为所有可能的转移概率的集合;PijM=P^,+x=jx,=^a,^记%t={io,Qo(io);iiMi(ii);;itW)},称人为直到时刻t的一个历史。记Ht={ht}={ikeS,ak(ik)eA},称乩为系统直到时刻t的全部历史集合。注:共有Qs

8、・

9、a

10、)‘个历史。受控马氏链,简单来说具备条件:1)时刻t选用的决策只与时刻

11、t系统的状态托有关,而与屮的元素无关。1)系统在时刻t+l的状态屯+1的分布只与时刻t系统的状态易以及选用的决策偽有关,而与乩一1中的元素无关。定义3.1决策函数(也称决策):对于时刻f的决策偽⑴,当i跑遍整个S时,我们得到函数X:S-A为询才⑴,所以一个决策函数与一个决策实际是等价的。记F为所有决策函数的集合。3、再论模型一个受控的马氏链是由如下四个元素组成的系统:頁卫他力訂}』}。其中:P,为系统在时刻r选用决策函数时,系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。