资源描述:
《《主成分分析讲解》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、主成分分析PrincipalComponentAnalysis统计学研究的核心问题?没有变异就没有统计学变异VARIATION变异性的度量?方差Variance10/7/20212Dept.ofEpidemio&Biostat,SPH方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小10/7/20213Dept.ofEpidemio&Biostat,SPH10/7/20214Dept.ofEpidemio&Bios
2、tat,SPH两组变量:AB10/7/20215Dept.ofEpidemio&Biostat,SPH10/7/20216Dept.ofEpidemio&Biostat,SPH10/7/20217Dept.ofEpidemio&Biostat,SPH10/7/20218Dept.ofEpidemio&Biostat,SPH协方差矩阵样本的方差-协方差矩阵(variance-covariancematrix)如果有p个观测变量,则样本的协方差矩阵记为10/7/20219Dept.ofEpidemi
3、o&Biostat,SPH相关矩阵如果有p个观测变量,其相关阵(correlationmatrix)记为10/7/202110Dept.ofEpidemio&Biostat,SPH矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,使Ax=λx则λ为A的一个特征值,x为与λ对应的矩阵A的特征向量。n介方阵有n对特征值和特征向量10/7/202111Dept.ofEpidemio&Biostat,SPH正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’,b=(b1,…,bp)’如果
4、a’b=a1b1+…+apbp=0,则称a、b正交单位向量:向量a=(a1,…,ap)’,如果则称a为单位向量正交阵:n阶方阵A,如果AA’=A’A=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A’=A-110/7/202112Dept.ofEpidemio&Biostat,SPH10/7/202113Dept.ofEpidemio&Biostat,SPH10/7/202114Dept.ofEpidemio&Biostat,SPH10/7/202115Dept.ofEpidem
5、io&Biostat,SPH10/7/202116Dept.ofEpidemio&Biostat,SPH10/7/202117Dept.ofEpidemio&Biostat,SPH主成分的概念1设x1,x2,…xp为p维随机变量X1,X2,…,Xp的标准化变换如果其线性组合满足则称C1为第一主成分。10/7/202118Dept.ofEpidemio&Biostat,SPH主成分的概念2若满足则称C2为第二主成分。类似地,共可得到至多p个主成分。10/7/202119Dept.ofEpidemi
6、o&Biostat,SPH主成分的性质主成分C1,C2,…,Cp具有以下性质:(1)主成分间互不相关Corr(Ci,Cj)=0ij(2)组合系数(ai1,ai2,…,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,即Var(C1)≥Var(C2)≥…≥Var(Cp)(4)总方差不增不减,即Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p10/7/202120Dept.ofEpidemio&Biostat,SPH主成分的计算
7、1设R为X1,X2,…,Xp的相关矩阵,则存在1≥2≥…≥p≥0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1ai2…aip)’则是相关矩阵R的第i个特征值对应的特征向量。i是第i个主成分的方差10/7/202121Dept.ofEpidemio&Biostat,SPH主成分的计算2记主成分C=(C1C2…Cp)’,则C=A’x即10/7/202122Dept.ofEpidemio&Biostat,SPH主成分的计算3因子模型(全分量模型)表达形式x
8、=AC即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。10/7/202123Dept.ofEpidemio&Biostat,SPH主成分的计算4因子模型(全分量模型)表达--主成分标准化变换10/7/202124Dept.ofEpidemio&Biostat,SPHx=Lclij是xj和ci的相关系数SPSS输出的系数矩阵是L矩阵10/7/202125Dept.ofEpidemio&Biostat,SPH实例城市男生形态资料数据来自方积乾《医学统计学与电脑试验》第2版10/7/20