资源描述:
《协方差矩阵基础》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、、统计学的基本概念统计学里最基木的概念就是样本的均值、方差、标准差。甘先,我们给定一个含冇n个样本的集合,下面给出这些概念的公式描述:均值:n标准差:S2=工二(Xi-乂)2n-l方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合的差别是很人的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准羌描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较
2、小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。八为什么需要协方差标准差和方差一般是川來描述一维数据的,但现实牛活中我们常常会遇到含有多维数据的数据集,最简单的是人家上学时免不了耍统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方羌,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩了的欢迎程度是否存在一些联系。协方爰就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:T=曲一沪)来度量各个维度偏离其均値的程度,协方差町以这样来定义:协方差的结果有什么意义呢?如果结來为止值,则说
3、明两者是止相关的(从协方差可以引出“相关系数”的定义),也就是说--个人越猥琐越受女孩欢迎。如果结果为负值,就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者Z间没有关系,猥琐不猥琐和女孩子喜不喜欢Z间没有关联,就是统计上说的“相互独立”。从协方差的定义上我们也可以看出一些显而易见的性质,如:1.covOCX:=varCX^2.oo7(XY)=covrY.X)二、协方差矩阵前而提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了n!口然就需耍计算多个协方差,比如n维的数据集就需耍计算(n"2)!*2个协方差,那自然而然我们会想到使用矩阵来组织这
4、些数据。给岀协方并矩阵的定义:Cztxn=Clj=covCDimpDimp)这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集右三个维度,则协方差矩阵为:cov(x,x)cov(y;x)cov(z,x)cov(x2y)cov(x;z)covO.y)cov(yfz)cov(z,y)cov(z,z)可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。四、Matlab协方差实战必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数:首先,随机牛成一个3维的整
5、数矩阵作为样本集,10为样本的个数,3为样本的维数。>>MySample=fix(randdOj3)*50)MySample=49129819161281419372234321341717203427491437202621314121图1使用Matlab生成样本集根据公式,计算协方差需要计算均值,前面特别强调了,协方差矩阵是计算不同维度Z间的协方差,耍时刻牢记这一点。样本矩阵的每行是一个样本,每列是一个维度,因此我们要按列计算均值。为了描述方便,我们先将三个维度的数据分別赋值:>>diml=MySample(:,1):>>dim2=MySample(:,2):>>dim3=
6、MySample(:,3);图2将三个维度的数据分别赋值计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:>>covl2=sum((diml-mean(diml)).*(dim2-mean(dim2)))/(size(MySample?1)-1):>>cov13=sum((diml-mean(dim1))・*(dim3-mean(dim3)))/(size(MySample?1)-1):>>cov23=sum((dim2-mean(dim2)).*(dim3-mean(dim3)))/(size(MySample?1)-1):图3计算三个协方差协方差矩阵的
7、对角线上的元素就是各个维度的方差,下而我们依次计算这些方差:»var1-std(dial)*2:»var2=std(dia2)*2:»var3=std(dia3)"2:图4计算对角线上的方差这样,我们就得到了计算协方差矩阵所需要的所有数据,可以调用Matlab的cov函数宜接得到协方差雉阵:>>cov(MySample)ans=254.9444-96.555676.3889-96.5556182.0444-7.444476.3889-7.444447.1667图5使用Matlab的cov函数