资源描述:
《建模教程各种函数——第九章相关分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第九章相关分析在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不仅会增加计算的复杂性,而且也给合理地分析问题带来困难。一般说來,虽然每个变量都提供一定的信息,但其重要性有所不同。在很多情况下,众多变量间存在一定的相关关系,人们希望利用这种相关性对这些变呈加以改造,用为数较少的新变量来反映原变量所提供的大部分信息,然后通过对新变量作统计分析达到解决问题的目的。本章介绍随机向量的各个分量之间的相关性研究常用的统计方法一主成分分析;以及研究随机向量与随机向量之间的相关性常用的统计方法一典型相关分析。§9.1主成分分析主成分分析的基本思想是通过构造原变量的适当的线性组合,以
2、产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽对能多地包含原变量的信息(降维),从而使得用这儿个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的加个变量屮求出儿个新变量,它们能综合原有变量的信息,相互之间乂尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。设有"个样品,加个变量(指标)的数据矩阵兀21X]2…轧、/'X⑴兀22•••…兀2加••••••—兀(2)■■£2…兀")•宀)丿寻找R个新变量儿力,…,%伙5加),使得1、%=幼內+al2x2+•・・+almxm,(Z=1,2,・・・,£)2、
3、y,y2,yk彼此不相关这便是主成分分析。主成分的系数向量a严(山,知,…,%)的分量勺刻划出第/个变塑关于第/个主成分的重要性。可以证明,若兀=(西,兀2,・・・,兀”)丁为加维随机向量,它的协方差矩阵W的加个特征值为/11>/12>--->4,>0,相应的标准正交化的特征向量为坷川2,,则兀=(坷,兀2,xm)T的第i主成分为X=w/x(i=1,2,…,m)ok拠称&/》易为主成分X-=xQ=1,2,…,加)的贡献率,为主成分7=1J=lJ=l儿,…%的累计贡献率,它表达了前*个主成分中包含原变量石,兀2,…,兀加的信息量大小,通常取比使累计贡献率在85%以上即可。当然这不是一个绝对不变
4、的标准,可以根据实际效果作取舍,例如当后面儿个主成分的贡献率较接近时,只选取其屮一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。计算步骤如下:1、由已知的原始数据矩阵计算样本均值向量〃=丘=(环耳…,易八X..(z=1,2,•••,/??)、12、计算样本协方差矩阵——(5,)=(<7,)n-其屮sij=S闪一E)(勺-耳)Q,丿=1,2,…,加)/=1兀—%3、把原始数据标准化,即/卫尸丄,记乂“=(鬲)。形成样本相关矩阵R=XTX;4、求斤的特征根^>^>-.->4^0及相应的标准正交化的特征向量%,◎,•••,%,可得主成分为X=uTx(i=1,2,…,加)。关
5、于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。例1下表是10名初屮男学生的身高(西),胸围(£),体重(X、)的数据,试进行主成分分析。身高(x,)/cm胸围(兀,)/cm体重(禺)/kg149.569.53&5162.577.055.5162.77&550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5由表中数据计算得到〃=元=(161・2,77.3,51.2)/17.0930.98、21.1132.5855.53,(46.57八1
6、V=——S=n-解出V的三个特征值和相应的三个标准止交化的特征向量为人=99.00,人=22.79,入=1.41终=(0.56,0.42,0.71/◎=(0.83,-0.33,-0.45)7冷=(0.05,0.84,—0.54)/由于三个主成分的贡献率分别为9902279141^^=80.36%,—=18.50%,——=1.14%123.20123.20123.20当保留前两个主成分吋,累计贡献率已达98.86%,因此第三个主成分可以舍去。得到的前两个样本主成分的表达式为y{=0.56兀]+0.42兀2+0.7lx3y2=0.83^-0.33兀2-0.45兀3现在我们来解释这两个主成分的意义
7、,从必的表达式可以看出,必是身高、胸圉、体重三个变量的加权和,当一个学生的x数值较大时,可以推断其或较高或较胖或又高又胖,故必是反映学生身材魁梧与否的综合指标。力的表达式中系数的符号为一正(壬)两负(勺,疋),当一个学生的力数值较大时,表明其壬大,而兀2,兀3小,即为瘦高个,故X是反映学生体形特征的综合指标。需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不