马尔可夫决策规划2

马尔可夫决策规划2

ID:35452411

大小:586.50 KB

页数:20页

时间:2019-03-24

马尔可夫决策规划2_第1页
马尔可夫决策规划2_第2页
马尔可夫决策规划2_第3页
马尔可夫决策规划2_第4页
马尔可夫决策规划2_第5页
资源描述:

《马尔可夫决策规划2》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、马尔可夫决策规划第二讲马尔可夫链与马尔可夫过程§2.1马尔可夫链为书写方便,下面用X表示随机变量(ξ)。定义2.1:随机变量序列{Xn,n=0,1,2,......}称为是一个马尔科夫(Markov)链,如果等式p{Xm+k=j

2、Xm=i,XkL=iL,......,Xk2=i2,Xk1=i1}=p{Xm+k=j

3、Xm=i}对任意整数k、L、m以及非负整数m>kL>…k2>k1均成立。其中,Xm=i表示马尔科夫链在第m步(时刻m)位于状态i,状态i的集合S称为状态空间;p(k)ij(m)=p{Xm+k=j

4、Xm=i}称为在时刻m位于状态

5、i经k步转移到达状态j的k步转移概率,而pij(m)=p(1)ij(m)称为时刻m的1步转移概率;P(k)(m)=(p(k)ij(m))称为时刻m的k步转移概率矩阵,而P(m)=(p(1)ij(m))=(pij(m))称为时刻m的1步转移概率矩阵。Markov满足的K-C方程如下:A.P(k)(m)=P(l)(m)P(k-l)(m+l),其中0≤l≤k约定:P(0)(m)=I202009.10B.约定:定义2.2:马尔科夫链{Xn,n=0,1,2,......}称为是齐次的,是指它在时刻m的1步转移概率矩阵P(m)与m无关,它等价于P(

6、k)(m)与m无关。其中,P(k)=(p(k)ij)称为齐次马氏链的k步转移概率矩阵,而P=(pij)称为齐次马氏链的1步转移概率矩阵。相应地有,A.K-C方程:P(k)=P(l)P(k-l),其中0≤l≤kB.P(k)=PkC.马尔科夫链的概率分布:设{Xn,n=0,1,2,......}为一马尔科夫链,X0的分布列(初始分布)为(约定马尔科夫链的概率分布列为行向量),记为Xn的分布列或Markov链在时刻n的瞬时分布列,{P(n),n=0,1,2,......}为一步转移概率矩阵的集合,则有:C1:(非齐次)C2:(齐次)关于马氏链

7、的存在性:对任意给定的分布列和一束随机矩阵{P(n),n=0,1,2,......},a.s唯一地存在某概率空间(Ω,F,P)上的马氏链,恰以为初始分布列、以{P(n),n=0,1,2,......}为转移概率矩阵的集合。因此,齐次马氏链由它的初始分布和一步转移概率矩阵唯一决定。202009.10例2.1假设三个食品公司分别生产三种不同牌子的方便面。它们除通过改进成品口味、美化包装以增强在市场的竞争力外,还各自开展了广告攻势促销本公司的产品。因此,各公司所占的市场比例是随时间有所变化的,可以根据个别人的行为来推断多数人的行为。比如,随机

8、选择的个人若以概率1/2偏爱公司1生产的方便面,则表明公司1占有50%的市场比例。以表示随机选择的个人(样本空间的一个元素)在第n周所偏爱的公司。有理由认为,当给定现在的偏爱,将来的偏爱与过去的选择无关。于是,便构成一个以为状态空间的Markov链。假设在任一时刻,公司1能留住它1/2的老顾客,其余的则对半购买另两个公司的产品。公司2的一半顾客在下周改买公司1的产品,其余的仍购买公司2的产品。公司3能维持其3/4的老顾客,其余的则在下周流向公司2。即Markov链的转移概率矩阵可表示为(2.1)公司对第n周它所占有的市场份额感兴趣,即概

9、率。再者当n趋于无穷时,若这一概率的极限存在,则此极限概率也是令各公司感兴趣的,它刻画了公司i占有市场的稳态概率。例2.2继续考虑例2.1的三个食品公司之间的竞争问题,202009.10描述顾客偏爱变化情形的转移概率矩阵P已由(2.1)式给出,(1)求出;(2)假设已知任一初始分布,求。[解]:利用关系式计算首先,求出与转移概率矩阵P对应的特征值及特征向量。由得即转移概率矩阵P的三个特征值分别为,,。为求特征向量,令与特征值对应的特征向量为,由于,列出方程组即可求得,此处不再详述。取为相应于特征值1的特征值向量,再分别求出与特征值及相对

10、应的特征向量与。鉴于特征值、与互不相同,故可知与必线性无关。若令,202009.10则可逆,且有,可以算出,于是于是有(2)设是任一初始分布,则由分布概率与转移概率的关系有。这表明,不管初始时三个食品公司所占的市场份额如何,在经过充分长的一段时间的竞争后,每个公司所占的市场份额趋于稳定,均为左右。§2.2状态的分类及状态空间的分解202009.101、状态的常返性定义2.3:设{Xn,n=0,1,2,......}是一马尔科夫链,状态空间为S,称为由状态i出发经n步首次到达状态j的概率,其中,;称为由状态i出发经有限步到达状态j的概率。

11、显然,。进一步地,当n取∞时,表示从状态i出发永不到达状态j的概率,即。对,称为Markov链X首次到达状态j的时刻,也就是首次到达状态j的间隔。显然,对任意的有,lll定义2.4:若,则称状态i是常返的;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。