资源描述:
《第4章 判别分析及matlab实现(2013)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第4章判别分析(discriminantanalysis)§4.1距离判别及MATLAB实现§4.2Bayes判别§4.3判别分析总结计算与应用数学系,中国石油大学(华东)理学院丁永臻2013统计方法(判别分析):判别分析—在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。距离判别法—首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)Fisher判别法—利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判
2、别式的值判断新个体的类别Bayes判别法—计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体例(1989年国际数学竞赛A题)蠓的分类蠓是一种昆虫,分为很多类型,其中有一种名为Af,是能传播花粉的益虫;另一种名为Apf,是会传播疾病的害虫,这两种类型的蠓在形态上十分相似,很难区别.现测得6只Apf和9只Af蠓虫的触角长度和翅膀长度数据Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96);Af:(1.24,1.72),(1.36,1.7
3、4),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08).试判别以下的三个蠓虫属于哪一类?(1.24,1.8),(1.28,1.84),(1.4,2.04)第4章判别分析判别分析的基本思想是根据已知类别的样本所提供的信息,总结出分类的规律性,建立判别公式和判别准则,判别新的样本点所属类型。本章介绍距离判别分析、Bayes判别分析及其MATLAB软件的实现。4.1距离判别分析4.1.1判别分析的概念在一些自然科学和社会科学的研究中,研究对象用某种方法已
4、划分为若干类型,当得到的一个新样品数据(通常是多元的),要确定该样品属于已知类型中的哪一类,这样的问题属于判别分析.从统计数据分析的角度,可概括为如下模型:设有k个总体,它们都是p元总体,其数量指标是1)若总体的分布函数是已知,对于任一新样品数据,判断它来自哪一个总体。2)通常各个总体的分布是未知的,由从各个总体取得的样本(训练样本)来估计。一般,先估计各个总体的均值向量与协方差矩阵。原则:1.从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小等。2.根据不同的判别准则,有不同的判别方法,这里主要介绍距离判别和Bayes判别4.1.2距离的定义1
5、.闵可夫斯基距离设有n维向量称绝对距离称称为n维向量x,y之间的闵可夫斯基距离,其中为常数。欧氏距离显然,当r=2和1时闵可夫斯基距离分别为欧氏距离和绝对距离.(1)同一总体的两个向量之间的马氏距离其中为总体协方差矩阵,通常取为实对称正定矩阵.显然,当为单位矩阵时马氏距离就是欧氏距离.设有n维向量,则称为n维向量x,y之间的马氏距离.2.马氏距离马氏距离是由印度统计学家马哈拉诺比斯(PCMahalanobis)提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离:(4.1.1)(2)一个向量到一个总体的马氏距离总体G的均值向量为μ,协方差矩阵为
6、Σ.则称为n维向量x与总体G的马氏距离.MATLAB中有一个命令:d=mahal(Y,X),计算X矩阵每一个点(行)至Y矩阵中每一个点(行)的马氏距离。其中Y的列数必须等于X的列数,但它们的行数可以不同。X的行数必须大于列数。输出d是距离向量。(4.1.2)(3)两个总体之间的马氏距离设有两个总体G1,G2,两个总体的均值向量分别为,协方差矩阵相等,皆为Σ,则两个总体之间的马氏距离为通常,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关.例如平面上有A,B,C,D四个点,横坐标为代表重量(单位:kg),纵坐标代表长度(单位:cm),如下页图。(4.1.3)这
7、时显然AB>CD如果现在长度用mm为单位,重量的单位保持不变,于是A点的坐标为(0,50),B点的坐标为(0,100),此时计算线段的长度为此时,AB8、总体的协方