应用多元统计分析-第六章 判别分析ppt课件.ppt

应用多元统计分析-第六章 判别分析ppt课件.ppt

ID:58797853

大小:796.00 KB

页数:63页

时间:2020-10-03

应用多元统计分析-第六章 判别分析ppt课件.ppt_第1页
应用多元统计分析-第六章 判别分析ppt课件.ppt_第2页
应用多元统计分析-第六章 判别分析ppt课件.ppt_第3页
应用多元统计分析-第六章 判别分析ppt课件.ppt_第4页
应用多元统计分析-第六章 判别分析ppt课件.ppt_第5页
资源描述:

《应用多元统计分析-第六章 判别分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、判别分析1第六章把对象归类——判别分析2为什么判别?有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。3判别分析(discriminantanalysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人

2、们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。4判别分析例子例10.1数据“企业评价.sav”:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模、服务、雇员工资比例、利润增长、市场份额、市场份额增长、流动资金比例、资金周转速度等等。5Disc.sav数据6判别分析例子另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降

3、企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。7判别分析的基本思路设有G1、G2、…GK个总体从不同的总体中抽出不同的样本根据样本建立判别法则判别新的样品属于哪一个总体当然,根据不同的方法,建立的判别法则也是不同的。常用的判别方法有:距离判别、Fishe

4、r判别、Bayes判别8根据距离的判别(不用投影)企业评价.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。9根据距离的判别(不用投影)显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。用来比较到各个中心距离

5、的数学函数称为判别函数(discriminantfunction).这种根据远近判别的方法,原理简单,直观易懂。10距离判别法假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)

6、个判别法有时会得出错误的判别。距离判别法17当两总体靠的很近时,无论用何种判别方法,错判概率都会很大,这是判别分析是没有意义的。因此只有当两个总体的均值有显著差异时(即两个总体的均值差异很大时),做判别分析才有意义。距离判别法18距离判别法19Fisher判别法(先进行投影)所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原

7、来的变量(横坐标和纵坐标),很难将这两种点分开。202122Fisher判别法于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。23Fisher判别分析的基本模型判别分析的基本模型是判别函数:其中:y是判别值;xi为各判别变量;bi为相应的判别系数,它表示p个判别变量对于判别函数值的影响确定bi的原则是使两组

8、间的区别最大,而是每个组内部的离差最小。24判别函数的导出假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下:x1x2xpX1X2Xn1x1x2xpX1X2Xn125判别函数的导出分别计算两样本的的重心:26判

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。