资源描述:
《多元数据分析概要.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《生物医学应用数学》AppliedMathematicsinBiomedicine§8多元数据分析概要ZhihuHuaiqiiuBME@PekingUniversity人们一直宣称,世界会由数字来统治。但我所知道的是,数字会告诉我们,它被利用得是好还是坏。(《歌德对话录》,1836年)横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。——苏轼生命现象多样性生命科学重复性复杂性随机性统计分析方法多元统计分析方法多元回归分析方法多方多元判别分析方法聚类分析方法主成分分析方法相关性分析方法因子分析方法……随机现象的多变量、多因素医学病症诊断生态环境
2、生物的进化……运用数理统计方法研究多变量、多因素问题Æ多元统计分析理论和方法多元统计分析研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题。多元统计分析的主要研究内容和方法1928年,WihWishart《多元正态总体样本协方差阵的精确分布》1、降维问题(简化数据结构)(1)将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的变量(2)把高维空间的数据投影到低维空间,使问题得到简化同时损失的信息不太多。主成分分析因子分析对应分析2、归类问题对所考察的观测样本(或变量)按照相似程度进行分类、归类聚类分析判别分析3、
3、变量间的相互联系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变量间的定量关系,并用于预测或控制回归分析(2)变量间的相互关系:分析两组变量间的相互关系典型相关性分析4、多元数据的统计推断参数估计假设检验5、多元统计分析的数学理论基础多维随机向量多维正态随机向量多元统计量§818.1判别分析方法判别分析(DiscriminantDiscriminantanalysisanalysis)V用于判别样品所属类型的统计分析方法V基因识别:根据某一DNA序列的核苷酸组分、功能信号特征等指标,判别是否编码蛋白序列?V医学诊断:某一病人肺
4、部存在阴影,判别:V肺结核?良性肿瘤?肺癌?V……判别分析问题的数学描述设有k个m维的总体G,G,…,G,12k(1).它们的分布特征已知,可以表示为F(x),F(x),…,F(x)12k(2).或者知道来自各个总体的样本(训练样本)。对于给定的一个未知样品X(检测样本),判别X属于哪个总体。•多元的、复杂的、高度综合的统计分析问题训练样本检测样本LearningsetTestset→训练集→检测集检测(Test)评价学习(Learning)(()Evaluation)判别准则判别效率Fisher判别法距离判别法判别分析的原理Bayes判别法逐步判别法……
5、§8.1.1Fisher线性判别法Fisher判别的基本思想将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。x2L:c1x1+c2x2-c=0G1令:F(x,x)=cx+cx121122F(x,x):判别函数12c:判别值G2x1平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L)已知:数据属性有n个,每个数据点为n维向量X:X(x,x,...,x)12n已知总体数据分为两类:G和G,总体G有p个样本点,总121体G有q个样本点。2属性(分量)12…n1X1(1)x11(1)x12(1)…x1n(1)……………
6、总体G1iX(1)x(1)x(1)…x(1)ii1i2in(i=1,…,p)……………pXp(()1)xp1(()1)xp2(()1)…xpn(()1)1X1(2)x11(2)x12(2)…x1n(2)……………总体G2iXiX(2)x(2)x(2)…x(2)ii1i2in(i=1,…,q)……………qXq(2)xq1(2)xq2(2)…xqn(2)目标:求解在n维空间中总体G和总体G的最优分界平面。12定义线性判别函数为:F(x,x,...,x)=Cx+Cx+...+Cx12n1122nn其中{C}(i=1,2,…,n)为常数(待定系数)。i若判别值为C
7、,对于任何未知数据点X(x,x,…,x),代入12n判别函数,依据F(F(x,x,…,x)与C值的比较,可以判别点X12n属于哪一类。1、确定待定系数C(i=1,2,…,n)i2、确定判别值C一、确定待定系数Ci将类G的p个点、类G的q个点分别代入判别函数:12(1)(1)(1)(1)y=Cx+Cx+...+Cxi=1,...,pi1i12i2nin(2)(2)(2)(2)y=Cx+Cx+...+Cxi=1,...,qi1i12i2nin记pq(1)1(1)(2)1(2)xi=∑xkii=1,2,,,...,nxi=∑xkii=1,2,,,...,npk=
8、1qk=1pq(1)1(1)(2)1(2)y=∑yiy=∑yipi