资源描述:
《马尔科夫决策.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第一节基本原理一、基本概念1.随机变量、随机函数与随机过程一变量x,能随机地取数据(但不能准确地预言它取何值),而对于每一个数值或某一个范围内的值有一定的概率,那么称x为随机变量。假定随机变量的可能值xi发生概率为Pi即P(x=xi)=Pi对于xi的所有n个可能值,有离散型随机变量分布列:∑Pi=1对于连续型随机变量,有∫P(x)dx=1在试验过程中,随机变量可能随某一参数(不一定是时间)的变化而变化.如测量大气中空气温度变化x=x(h),随高度变化。这种随参变量而变化的随机变量称为随机函数。而以时间t作参变量的随机函数称为随机过程。也就是说:随机过程是这样
2、一个函数,在每次试验结果中,它以一定的概率取某一个确定的,但预先未知的时间函数。2、马尔科夫过程随机过程中,有一类具有“无后效性性质”,即当随机过程在某一时刻to所处的状态已知的条件下,过程在时刻t>to时所处的状态只和to时刻有关,而与to以前的状态无关,则这种随机过程称为马尔科夫过程。即是:ito为确知,it(t>to)只与ito有关,这种性质为无后效性,又叫马尔科夫假设。3、马尔科夫链时间和状态都是离散的马尔科夫过程称为马尔科夫链。例:蛙跳问题假定池中有N张荷叶,编号为1,2,3,……,N,即蛙跳可能有N个状态(状态确知且离散)。青蛙所属荷叶,为它目前
3、所处的状态;因此它未来的状态,只与现在所处状态有关,而与以前的状态无关(无后效性成立)写成数学表达式为:P(xt+1=j
4、xt=it,xt-1=it―1,……x1=i1)=P(xt+1=j
5、xt=it)定义:Pij=P(xt+1=j
6、xt=i)即在xt=i的条件下,使xt+1=j的条件概率,是从i状态一步转移到j状态的概率,因此它又称一步状态转移概率。由状态转移图,由于共有N个状态,所以有1234P33P22P44P41P42P31P32二.状态转移矩阵1.一步状态转移矩阵系统有N个状态,描述各种状态下向其他状态转移的概率矩阵P11P12……P1N定义为P2
7、1P22……P2N:::PN1PN2……PNN这是一个N阶方阵,满足概率矩阵性质1)Pij≥0,i,j=1,2,……,N非负性性质2)∑Pij=1行元素和为1,i=1,2,…NN×NP=如:W1=[1/4,1/4,1/2,0]W2=[1/3,0,2/3]W3=[1/4,1/4,1/4,1/2]W4=[1/3,1/3,-1/3,0,2/3]3)若A和B分别为概率矩阵时,则AB为概率矩阵。概率向量非概率向量2.稳定性假设若系统的一步状态转移概率不随时间变化,即转移矩阵在各个时刻都相同,称该系统是稳定的。这个假设称为稳定性假设。蛙跳问题属于此类,后面的讨论均假定满
8、足稳定性条件。3.k步状态转移矩阵经过k步转移由状态i转移到状态j的概率记为P(xt+k=j
9、xt=i)=Pij(k)i,j=1,2,……,N定义:k步状态转移矩阵为:P11(k)P12(k)……P1N(k)P=:::PN1(k)PN2(k)……PNN(k)当系统满足稳定性假设时P=P=P•P•……P其中P为一步状态转移矩阵。即当系统满足稳定性假设时,k步状态转移矩阵为一步状态转移矩阵的k次方.[k][k]k例:设系统状态为N=3,求从状态1转移到状态2的二步状态转移概率.解:作状态转移图解法一:由状态转移图:1——1——2:P11•P121——2——2:P
10、12•P221——3——2:P13•P32P12=P11•P12+P12•P22+P13•P32=∑P1i•Pi2132P13P32P11P12P12P22解法二:k=2,N=3P11(2)P12(2)P13(2)P=P21(2)P22(2)P23(2)P31(2)P32(2)P33(2)P11P12P13P11P12P13=P•P=P21P22P23P21P22P23P31P32P33P31P32P33得:P12(2)=P11•P12+P12•P22+P13•P32=∑P1i•Pi2例:味精销售问题已连续统计六年共24个季度,确定畅销,滞销界限,即只允许出
11、现两种状态,且具备无后效性。。设状态1为畅销,状态2为滞销,作出状态转移图:图中:P11为当前畅销,连续畅销概率;P12为当前畅销,转滞销概率;P22为当前滞销,连续滞销概率;P21为当前滞销,转畅销概率。12P22P11P12P21数据在确定盈亏量化界限后的统计表如下:t12345678910111213状态①①②①②②①①①②①②①t1415161718192021222324状态①②②①①②①②①①①进行概率计算时,第二十四个季度为畅销,但后续是什么状态不知,故计算时不能采用,只用于第二十三季度统计。有:P11=7/(7+7)=0.5;P12=7/(7
12、+7)=0.5;P21=7/(7+2)=0.78;P