常用多元统计分析

常用多元统计分析

ID:3923697

大小:832.63 KB

页数:81页

时间:2017-11-25

常用多元统计分析_第1页
常用多元统计分析_第2页
常用多元统计分析_第3页
常用多元统计分析_第4页
常用多元统计分析_第5页
资源描述:

《常用多元统计分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、常用多元统计分析吴孟书中国人民大学统计学院Jan.9,2006RUC1大纲主成份分析与因子分析聚类分析•K-means聚类•分层聚类•2-steps聚类混合效应模型(多水平模型)2主成份分析与因子分析在医学的研究中经常会遇到多个指标的实际问题。例如在临床医学研究中,衡量甲状腺机能的可能有21个指标,鉴别阑尾炎病型的可以有27个指标等。指标较多的时给资料的分析增加了很多麻烦,并且在实际中,许多指标之间都存在相关性,比如:描述儿童生长发育的指标中的身高,腿长和臂长这三个长度指标变量可能是相关的。如果分别用每一个指标对儿童的生长发育作评价,那么这种评

2、价只能是孤立的,而不是综合的,而如果仅仅选取几个独立的指标来评价,虽然简单,但是却失去了很多信息,容易得出片面的结论。如何寻找一种合理的综合方法,即可以减少指标变量的个数,又尽可能不损失或少损失原指标变量所包含的信息,且对资料做出全面的分析呢?主成份分析(principalcomponentanalysis)和因子分析(factoranalysis)就是把变量维数降低以便于描述、理解和分析的方法。实际上主成份分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的简单例子。3主成份分析假设指标x,x分别表示儿童的身高和腿长,现观测了N1

3、2个儿童的身高和腿长,可以得到一个散点图,由于身高和腿长这两个指标变量是线性相关的,因此这些点分布在一条斜率的直线周围。如果我们取此直线为新坐标系的横轴y1,取一条与y1轴垂直的直线为新坐标的纵轴y2。y那么在新坐标系中,N个点集中分布在1周围,且纵坐标y2的变异很小,及其方差很小,一个变量提供的信息量常常用其方差来衡量,方差越小,提供的信息就越少,如果将y2忽略不计,那么研究这个N个儿童的身高和腿长,就可以只考虑y1这个新变量了。这就是主成份分析。4儿童身高与腿长的散点图主成份分析从数学角度可见:yxx=cosθ++sinθc1121yxx=

4、−++sinθθcosc2122新坐标是原坐标的线性组合的形式6主成份分析主成份分析的基本思想就是寻找一个适当的线性或非线性变换,将若干个彼此相关的变量转变为彼此的独立的新变量,然后根据新变量的方差大小,选取几个方差最大的新变量替代原变量,使得较少的几个新变量就能综合反映原变量中所包含的主要信息。下面我主要讨论的是线性关系的变量的主成份分析。7主成份分析正如二维有两个主轴,三维有三个主轴一样,有几个变量,就有几个主成分。选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议

5、,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。820例肝病患者肝功能指标调查数据(部分)病人编号转氨酶肝大指数磷酸锌浊度胎甲球1402.05202101.552031202.0135042504.5184051203.59206101.512507401.0194082704.0135092803.51160101703.09309...…...……对于肝病患者的数据,SPSS输出DescriptiveStatisticsMeanStd.DeviationAnalysisN转氨酶

6、138.0088.88820肝大指数2.2751.044720磷酸锌浊度15.007.42020胎甲球36.5014.2442010TotalVarianceExplainedInitialEigenvaluesractionSumsofSquaredLoadiontationSumsofSquaredLoadingComponeTotal%ofVariancCeumulative%Total%ofVariancCeumulative%Total%ofVariancCeumulative%11.89547.38247.3821.89547.38

7、247.3821.73243.30243.30221.38834.70282.0841.38834.70282.0841.55138.78282.0843.51612.90494.9884.2005.012100.000ExtractionMethod:PrincipalComponentAnalysis.这里的InitialEigenvalues就是这里的4个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的82.084%。后面的特征值的贡献越来越少。11特征值的贡献还可以从SPSS的所谓碎石图看出12怎么解释这两个

8、主成分。前面说过主成分是原始4个变量的线性组合。是怎么样的组合呢?SPSS可以输出下面的表。ComponentMatrixaComponent12转氨

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。