资源描述:
《1数学模型讲义》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一章多元分布的基本概念、随机向量我们所讨论的是多个变量的总休,所研究的数据是同时观测P个指标(即变量),又进行了n次观测得到的,常用向量表示:^变量样品、XiX7•••Xp12nXllX21XnlX21X22Xn2•••••••••XpiXP2Xpn样本资料矩阵可用矩阵语言表达:X\X2…xp兀21X22…X2p•••••••••=(尤,匕,…,Xp)=X;2)•••心百2…X“pX;E分布函数与密度函数1.随机向量的分布函数:F(x)=F(xr与…,x/>)=P(Ar11
2、_Eg)■■—“2■■•_E(XP)■1.随机向量X自协方差阵:工=cov(X,X)=E(X-EX)(X-EX)'=D(X)_cov(X1?X2)…cov(X1?X/?)=covUG,XJD(X2)…cov(X2,Jf/?)•••••••••covCX^X,)cov(兀,/)…D(Xp)~©)2.随机向量X和Y的协方差阵设X=(«,匕,…,X,)和Y=(Yf与…,牟)'分别为n维和P维随机向量,则:cov(X,Y)=(cov(Xj,片),i=1,…,n;j=1,p)若cov(X,Y)=0,称X和Y是不相关的3.随机向量X的相关阵R=(corr(Xi,Xj))=(i;j)pxpcov
3、(Xj,Xj).…峙二「—/:、,i,j=l,2,・・・,pJd(xjJd(xj在数据处理时,为了克服由于指标的量纲不同对统计分析结果带來的影响,往往在实用某种统计分析方法Z前,常需将每个指标“标准化”,即作如下变换:多兀:Xj*X厂E(Xj)于是:£(%)*=0,D(X*)=corrCX)=R即标准化数据的协方差阵正好是原指标的相关阵!1!多元正态分布1.一元止态分布的密度函数为:f(x)=^^e2丁,eo陌o1.多元正态分布的密度函数为:Q爲2工1/2exp{_mCx_//)'XT(x_//)}记为:XNpQiQ2.定理1设X〜N(u,S),贝lj:E(X)=n,D(X)=S3
4、.定理2正态分布的条件分布仍为止态分布五、均值向量和协方差阵的估计在实际问题屮,通常可以假定被研究对彖是多元正态分布,但分布屮的参数U和另是未知的,一般的做法是通过样木来估计。设样本资料为:兀11…叮x=X2••■X22■■■…f■■■=(如心…,Xp)=<2)■■■百2…x”p.则总体参数均值卩的佔计量鳧••"=叫孰4■■■=•■■2X-即均值向量卩的估计量,就是样本均值向量。总体参数协方差阵艺的极大似然估计毘:六、n-1均值向量和协方差阵的检验在一元统计中,对正态总体均值和方差检验时常用的分布有:z分布,t分布,F分布,x2分布o那么对于多元正态总体的均值向量和协方差阵的检验
5、也会用到相应的分布:X2分布t分布->Wishart(维希特)分布->HotellingT2分布F分布->Wilks分布七、统计软件SPSS使用说明(此处略)第二章聚类分析一、分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、□照、湿度等各方面;也叮以考虑收入、教育水准、医疗条件、基础设施等指标。聚类分析概述市于不同的指标项对重耍程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的
6、聚类分析是由考占学家在对考占分类中研究中发展起來的,同时又应用于昆虫的分类中,此后乂广泛地应用在天气、生物等方面。对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没冇什么不同。三、聚类中选择变量的要求1.和聚类分析的目标密切相关2.反映了要分类对彖的特征3.变量之间不应该高度相关。!1!如何聚类?聚类分析就是耍找岀具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,
7、凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。第一节距离和相似系数、距离什么是距离?X11X21X12X22XlpXXnlXn2.2p,即x={xj■xnnnpnxp设:d“表示第i个样品与第/个样品之间的距离首先我们看样本数据:一般满足以下四个条件时,就称为距离:d..>0,对一切i,j;djj=0,等价于7,丿;dq=dji,对一切i,j;如