正文描述:《多元统计分析之判别分析(精品)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第六章判别分析§6.1什么是判别分析判别分析是判别样品所属类型的一种统计方法,具应用之广可与回归分析媲美。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调杳所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性來判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到汕层、水层、
2、干层或汕水混合层;在农林害虫预报中,根据以往的虫情、多种气象因了来判别一个刀后的虫情是大发生、中发生或正常;在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是口由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)來判别此人是有病还是无病。总之,在实际问题中需要判别的问题儿乎到处可见。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批C知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品耍划分的类型事先并不知道,正需
3、要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往往联合起來使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚吋,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型來分,有线性判别和非线性判别;按判別时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度捉出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准
4、则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同乂提出多种判别方法。木章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。§6.2距离判别法基本思想:首先根据已知分类的数据,分别计算各类的璽心即分组(类)的均值,判别准则是对任给的一次观测,若它与第/类的重心距离最近,就认为它来白第,类。距离判别法,对各类(或总体)的分布,并无特定的要求。1两个总体的距离判别法设有两个总体(或称两类)G】、G2,从第一个总体屮抽取山个样品,从第二个总体屮抽取血个样品,每个样品测量卩个指标如下页表。今任取一个样品
5、,实测指标值为X=(坷,…,兀丿',问X应判归为哪一类?首先计算X到G】、G2总体的距离,分别记为D(X,GJ和D(X,G2),按距离最近准则判别归类,则可写成:XwG],当D(X,GJD(XG)待判,当D(X9Gl)=D(X,G2)Gi总体:量样后兀1…6好)堵)•••■■■•••X?■••疋)•••■■•“1W1均值戶X2•••兀⑴xpG总体:7®样品、(22均值42)42)记乂⑴如果距离定义采用欧氏距离,则可计算出D(X,GJ=J(X-0》(X-壬⑴)腐Va=lD(X,G2)=y/(X-X(2))
6、'(X-X<2>)=歹j然后比较D(X,GJ和Q(X,G2)人小,按距离最近准则判别归类。由于马氏距离在多元统计分析中经常用到,这里斟对马氏距离对上述准则做较详细的讨论。设“⑴、“⑵,E⑴、工⑵分别为G】、G2的均值向量和协方差矩阵。如果距离定义采用马氏距离即£>2(X,GJ=(X—“⑴y(X(i))7(X—〃⑴)i=1,2这时判别准则可分以下两种情况给岀:(1)当E⑴=2⑵=2时考察D2(X,G2)及£>2(x,g])的差,就有:D2(X,G2)-D2(X,G1)=XS'1X-2XS_IX^⑵+“⑵士1“⑵-[X0X-2X£T“⑴+“⑴“⑴]=2
7、XH(“⑴-“⑵)-(“⑴+“⑵(“⑴-“⑵)f=2X_丄(“⑴+“⑵)⑴-“⑵)2令万=*(“⑴+“⑵)W(X)=(X一万)空"(“⑴一“⑵)则判别准则可写成:XwG],当W(X)>0即d2(X,G2)>£>2(x,GJ
8、(兀I_“1)+・••+£,(兀p显然,W(X)是州,…,©的线性函数
9、,称W(X)为线性判别函数,Q为判别系数。当工,“⑴,“⑵未知时,可通过样本来估计。设xy),xy,・・・,x::)来口g
显示全部收起