欢迎来到天天文库
浏览记录
ID:41342568
大小:251.50 KB
页数:4页
时间:2019-08-22
《第9章判别分析和聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第9章判别分析和聚类分析§9.1判别分析问题的一般形式在生产、科研和日常生活中,我们经常会遇到判别分类的问题。在这些问题中,已经知道研究对象可以分为几个类别,而且对这些类别已经作了一些观测,取得了一批样本数据。要求从已知的样本观测数据出发,建立一种判别方法,当我们取得一个新的样品时,可以根据这个样品的观测值,判定它属于哪一类,这种做法就称为判别分析(DiscriminantAnalysis)。例1岩石分类从某矿床取得14块已知是铀矿石的样品和14块已知是围岩的样品,分别测定其中7种成分的含量,取得了一批观测数据:已知类别样品编号铀矿石10.00490.488
2、0.220.00984.0713.9761.6220.00300.1140.070.00771.5111.4769.69140.00290.2320.030.00901.8313.3566.96围岩150.00230.01340.140.00651.3911.8873.58160.00190.00990.100.00821.5313.8965.93280.00140.01460.030.00731.8712.7965.85要求建立一种判别方法,当我们从这个矿床取得一个新的岩石样品时,可以通过测定这个样品中7种成分的含量,判定它是铀矿石还是围岩。例2精神病的诊
3、断(Rao和Slater,1949)对114个处于焦虑状态的病人,33个患癔病的病人,32个有精神变态的病人,17个有强迫观念的病人,5个有变态人格的病人,以及55个正常人,分别进行3种精神病测试,得到测试分数,和。要求根据上述已知的测试数据,建立一种诊断方法,使得我们可以对一个新来的求诊者进行这3种精神病测试,根据测试得到的分数,和,判断出求诊者是否正常,如果不正常,诊断出他患有哪一类精神病。例3(全国数学建模竞赛2000年A题)DNA序列分类对于A,B两种不同的DNA,给出了20个类别已知的DNA序列样品,其中1号~10号序列属于A类,11号~20号序列
4、属于B类。另外还有20个类别未知的DNA序列样品。要求建立一种判别方法,判别出类别未知的DNA序列样品属于哪一类。209由此可以归纳出判别分析问题的一般形式:设有个已知的类别:,对各个类别分别取样,共得到个样品,已知其中有个属于,个属于,…,个属于。对每一个样品进行观测检验,得到个变量的观测值,,:已知类别样品个数样品编号变量变量…变量…………要求建立一种判别方法,当我们取得一个新的样品时,可以对这个样品进行观测检验,测得个变量的观测值,根据观测值判定它属于哪一类。§9.2一些常用的判别分析方法9.2.1距离判别设有一个要判别类型的样品,是对这个样品的个变量
5、测得的观测值,。定义一种从样品到第类的距离,。例如,可以定义它是普通的几何距离(欧氏距离),209其中是已知属于的样品的样本均值向量,。也可以定义它是Mahalanobis距离(马氏距离),其中是已知属于的样品的样本协方差矩阵,。对各类,比较到各类距离的大小,到哪一类的距离最近,就将这个样品判别为哪一类。9.2.2Fisher(费歇,费希尔)判别设是观测值数据矩阵,,,。是对角块为的矩阵。是矩阵的最大特征值对应的特征向量。设要判别类型的样品观测值为,计算下列判别函数值。对类的样本均值,也计算判别函数值,。比较距离的大小,到哪一类的距离最近,就将这个样品判别为
6、哪一类。Fisher判别的基本思想是:在空间作一条方向为的直线,把待判样品和各类的样本均值都投影到这条直线上,得到投影和。看投影之间的距离,209到哪一个的距离最近,就将样品判别为哪一类。可以证明,按上述方法求出的投影方向,从某种意义上说,是能够最好地将各类别区分开来的方向。9.2.3回归判别把类别已知的样本观测值作为自变量的观测值。对每一类,人为地给定一个因变量,设它的观测值为,,,。从这些数据出发,通过回归分析,对每一类建立一个线性回归方程:,。将待判别的样品的观测值代入各个回归方程,求出因变量的估计值,看哪一个最接近1,就把这个样品判别为哪一类。特别,
7、如果,只有两类,则只需要对第1类建立一个线性回归方程。将代入回归方程,求出,如果,就把这个样品判别为第1类,如果,就把这个样品判别为第2类。除了上面介绍的几种判别分析方法以外,最常用的、相对来说更好的一种判别方法是Bayes判别。209
此文档下载收益归作者所有