欢迎来到天天文库
浏览记录
ID:43394040
大小:289.08 KB
页数:11页
时间:2019-10-01
《判别分析终结》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、判别分析定义:判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样
2、品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚吋,可先用聚类分析对原來的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析的目的是得到充分体现分类的函数关系式,即判别函数。判别分析法在气候分类、农业规划、土地类型划分中有着广泛的应用,在生产、科研和日常生活屮经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标來判定一个国家的经济发展程
3、度所屈类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油tn开发屮,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因了来判别一个月后的虫情是大发生、中发生或止常;在体育运动屮,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、述是自由泳等;在医疗诊断中,根据某人多种体验指标(如休温、血压、口血球等)来判别此人是有病还是无病。总之,在实际问题屮需要判别的问
4、题几乎到处可见。其基本思想是在一直观测对象的分类和特征变量值的前提下,从中筛选出能够提供较多信息的变量,并建立判别函数,冃标使得到的判别函数在对观测量进行判别其所屈类别时的错判率最小。判别函数的一般形式是:T=01X1+02X2十…十°其中Y为判别函数判别值,兀讥2,••讥”为反映研究对象特征的变量,0,02,…,Q”为个变量的系数即判别系数•常用的判别法:马氏距离判别法、Bayes(贝叶斯)判别法、Fisher(费希尔)判别法,此外还包括极大似然法,Logistic判别法、逐步判别法等1、概念:设有m个P维的总体GrGz……Gj分别服从一定的分布。现在冇一个新的样
5、品X=(%1,%2,……出),它可能來口于这H1个总体中的某一个,依据该样品的P项指标,从而判别它最可能來自于哪个总体。2、判别分析的一般步骤:已知分类的训练样本判別分析旦>判别函数建也"别准绷'考核T未知样品判别归类二、三种常用判别分析方法:(1)距离判别法:(马氏距离判别)两个总体判别法:印度统计学家马哈拉诺比斯提出了用D(x,G)=作为样甜X到总体Gi的距离。其小“(和工匚分别是总体Gi的均值向量的协矩阵。如此定义的距离D(x,Gi)称为X到总体Gi的马氏距离。取样品x到总体Gi和G?距离为马氏距离,并按照规则若d(x,(7,)6、9)>/)(心)则判xe(721若》(心)"(心)则不判进行的判别,这种方法称为距离判别法。多个总体判别法:假设共有n个指标,第i个指标共测得m个数据(耍求m>n):于是,我们得到加"阶的数据矩阵X=(%1,%2,...,Xi),每一行是一个样本数据。mxn阶的数据矩阵X的〃xn阶协方差矩阵记着cov(X):求n维向量厂=(八,心,…,几)到阶的矩阵X的马氏距离定义厂-尢=(八-云…,几-£),则n维向量厂=(八,心…,几)到加"阶的矩阵X的马氏距离的公式如下:、mahal(r,X)=(r-X)cov(X)l(r-X)其中,£表示第i个指标尢的算术平均值。(2)贝叶7、斯判别法:设m个总体G,G2……Gj其概率密度分别为/0),…,于少)根据历史数据(或经验)给岀这ni个总体各自出现的概率分别为q「・.q「这个概率分布叫先验分布。在观测到一个样品x的情况下,可用著名的Bayes公式计算它来自笫g总休的后验概率(相对于先验概率来说,将它又称为后验概率):PD=.g=l,--,k£必(兀)<=1并且当P(h/x)=maxP(g/x)时,则判X来自第力总体。假定已量化了各种错判的损失大小,将木该属于G』勺样品错判到G,所造成的损失记为c(yIi)寻求样品取值的范围的一个划分R=R〜R42Rj使得将一个来历不明的新样品x作出各种错判的
6、9)>/)(心)则判xe(721若》(心)"(心)则不判进行的判别,这种方法称为距离判别法。多个总体判别法:假设共有n个指标,第i个指标共测得m个数据(耍求m>n):于是,我们得到加"阶的数据矩阵X=(%1,%2,...,Xi),每一行是一个样本数据。mxn阶的数据矩阵X的〃xn阶协方差矩阵记着cov(X):求n维向量厂=(八,心,…,几)到阶的矩阵X的马氏距离定义厂-尢=(八-云…,几-£),则n维向量厂=(八,心…,几)到加"阶的矩阵X的马氏距离的公式如下:、mahal(r,X)=(r-X)cov(X)l(r-X)其中,£表示第i个指标尢的算术平均值。(2)贝叶
7、斯判别法:设m个总体G,G2……Gj其概率密度分别为/0),…,于少)根据历史数据(或经验)给岀这ni个总体各自出现的概率分别为q「・.q「这个概率分布叫先验分布。在观测到一个样品x的情况下,可用著名的Bayes公式计算它来自笫g总休的后验概率(相对于先验概率来说,将它又称为后验概率):PD=.g=l,--,k£必(兀)<=1并且当P(h/x)=maxP(g/x)时,则判X来自第力总体。假定已量化了各种错判的损失大小,将木该属于G』勺样品错判到G,所造成的损失记为c(yIi)寻求样品取值的范围的一个划分R=R〜R42Rj使得将一个来历不明的新样品x作出各种错判的
此文档下载收益归作者所有