马尔可夫决策规划3

ID：46687598

大小：71.00 KB

页数：12页

时间：2019-11-26

资源描述：

《马尔可夫决策规划3》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、马余可夫决策规划第三讲离散时间的马尔可夫决策规划§3.1机器维修问题例3.1（机器维修最优策略问题）设等周期（如一天）地考虑一台运行的机器，在每周期初始时刻观察它的运行情况。每次观察时,机器可处于以下两个状态之一：正常运行（记作「=1）或出了故障（记作「=2）。在任一周期，若机器正常运行可得收益10元，且到下一周期初，仍处于正常运行的概率为0.7,处于出故障的概率为0.3o处于正常运行状态时，可用的行动只有一个，即继续生产（记作若处于故障状态，则有两个行动可供选择：快修（记作。2）和常规修理（记作色）。在

2、快修时，需付费用5元（即收益为-5元）,而该时段能修复为正常运行状态的概率为0.6；在常规修理时，需付费用2元，且在该时段能修复的概率为0.4。问题是：在各个周期初根据观察到的系统实际所处的状态,如何选取行动才能使整个考察期内的某种期望收益达到最大。［解］：容易看出，机器可处于两种状态，记状态空间S={1,2},每种状态下可采用行动方案有A（1）={^},A⑵=血，他}。这里，用P（j^a）表示在时刻t观察到系统状态为i,选用方案a,于r+1时刻转移到状态j的概率；厂表示在时刻t观察到系统状态为i,选用

3、方案。时获得的收益。其中，P（ji"与厂卩卫）都与时刻f以前系统的历史无关，具体取值见表3.1。表3.1转移概率与报酬状态（T）行动（a）-转移概率a）报酬（元）心a）丿=1丿=21Cl[0.70.31020.60.4-5°30.40.6-2决策规则（或称方案选择规则）/如下：当观察到系统状态为1时，选择方案向；当观察到系统状态为2时，选择方案勺。即/（1）=V（2）=«2o类似地，可令决策规则g表示如下映射g（l）=a^（2）=a3。当》=0时，从规则f,g中选用一个决策，记为九（相应得出选用的方案），

4、从状态Z出发获得收益心办⑴）；当心1时，机器转移到状态j的概率为戸（川i，仏⑴）亿Ji，2）,同样从/,g中选用一个决策，记为£。由于状态转移是随机的，因而获得的收2益也是随机的，其期望收益为工户（川，九⑴）厂仃』（丿））。当心2戶1时，机器转移到状态k的概率为卩伙UJiO））=1,2）。再从/，g中选用一个决策，记为,2。依次下去，得一决策序列（■/oJ也/，…）（相应可得到方案序列），将其记为兀，称为策略。由丁•收益是从f=o开始计算的，考虑到经济上利率的影响，则在t时段的单位收益可折合成初始时刻心0

5、时的值0，其中Q10=屁。因此'=0时从状态i出发，长期的期望折扣总收益为7卩S，咆办(D)+0工附J。(0)rU/i(；))7=122+02££pQMo(D)腺1“⑺驱a伙))+k=ly=l就是衡量本问题策略优劣的准则。当系统状态转移律已知时，它显然就是初始状态，和策略兀的函数。本问题就是寻求这样的方案序列乃，使^(^0获得最大值。§3.2受控的马氏链1、一个库存问题的讨论假设有一个电视机经销商店，根据历史资料，已知在不缺货的情况下，每日销售比台的概率为几，^=0,1,2,......o如果该店每月初进

6、货M台，记尙表示第斤个月底库存的电视机台数，贝叽心,«=0,1,2,......｝为齐次马氏链。一步转移概率矩阵为P=SJ。对Poo,第斤月底是0台、第斤+1月底也是0台，实际销售M台，并售完，所以QCPoo=工久k=M乞Pkk=M□0k=M+iPi+M-ji>0J=00<7/+M于是，上述就得到了一个受控马氏链{PMw{0丄2,……,N}}。2、模型描述通常，一个受控的马氏链可表述为如下四个元素组成的系统：{兀wA,心(勺(D),虫：T={0,1,2,・・・・}}。其屮，兀表示时刻f系统的状

7、态，S是被观察系统的所有可能状态的集合，这里假定S有限或可列；了={0丄2,......}表示所有观测系统的时刻的集合；A(或4)为所有(决策)行动方案。的集合；{為(％)4为所有可能的转移概率的集合；PijM=P^,+x=jx,=^a,^记%t={io,Qo(io)；iiMi(ii)；；itW)}，称人为直到时刻t的一个历史。记Ht={ht}={ikeS,ak(ik)eA},称乩为系统直到时刻t的全部历史集合。注：共有Qs

8、・

9、a

10、)‘个历史。受控马氏链，简单来说具备条件：1)时刻t选用的决策只与时刻

11、t系统的状态托有关，而与屮的元素无关。1)系统在时刻t+l的状态屯+1的分布只与时刻t系统的状态易以及选用的决策偽有关，而与乩一1中的元素无关。定义3.1决策函数（也称决策）：对于时刻f的决策偽⑴，当i跑遍整个S时，我们得到函数X：S-A为询才⑴,所以一个决策函数与一个决策实际是等价的。记F为所有决策函数的集合。3、再论模型一个受控的马氏链是由如下四个元素组成的系统：頁卫他力訂｝』｝。其中：P,为系统在时刻r选用决策函数时,系

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 12



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

马尔可夫决策规划3

马尔可夫决策规划3

相关文章

相关标签