判别分析与聚类分析.doc

判别分析与聚类分析.doc

ID:55688214

大小:953.50 KB

页数:29页

时间:2020-05-24

判别分析与聚类分析.doc_第1页
判别分析与聚类分析.doc_第2页
判别分析与聚类分析.doc_第3页
判别分析与聚类分析.doc_第4页
判别分析与聚类分析.doc_第5页
资源描述:

《判别分析与聚类分析.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、判别分析(DiscriminantAnalysis)一、概述:判别问题又称识别问题,或者归类问题。判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如

2、果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离

3、大。距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattandistance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为,类似地可以定义个体X与总体(类别)A的距离为明考斯基距离(Minkowskidistance):明科夫斯基距离欧几里德距离(欧氏距离)二、Fisher两类判别一、训练样本的测量值A类训练样本编号12均数B类训练样本编号12均数二、建立判

4、别函数(DiscriminantAnalysisFunction)为:其中:、和为判别系数(DiscriminantCoefficient)可解如下方程组得判别系数。各类的离差阵分别以、表示类内离差阵为、之和三、Y值的判别界值将、、、代入判别函数,得到相应的,将、、、代入判别函数,得到相应的,两类的判别界值为:当两类的样本含量相差较多时应加权,用下式计算判别界值将每个个体的、、、代入判别函数计算,根据判别界值判别归类。四、对判别函数检验为训练样本中两类和在一起的离差阵(注意与的区别)计算Wilks统计量,

5、,五、回代观察判别函数的判别效果举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。X1:床位使用率X2:治愈率X3:诊断指数判别指标如下两表:A类医院编号X1X2X3Y198.8285.4993.187.9839285.3779.1099.657.9879386.6480.6496.947.9391473.0886.8298.708.1008578.7380.4497.617.88366103.4480.4093.757.8807791.9980.7793.937.8161

6、887.5082.5094.107.3665981.8288.4597.908.18021073.1682.9492.127.65921186.1983.5593.307.8919均数89.337382.827394.70737.8781B类医院编号X1X2X3Y172.4878.1282.387.0300258.8186.2073.466.7616372.4884.8774.096.8505490.5682.0777.157.0413573.7366.6393.987.2244672.7987.5977

7、.157.0550774.2793.9185.546.7346893.6285.8979.807.3152978.6977.0186.797.2522均数76.381179.143381.14897.0331合计均数81.85781.17088.6061.计算各类中的变量值均数2.计算各类的离差阵及两类的离差阵之和3.=86.3376-76.3811=9.9562=82.8273-79.1433=3.6840=94.7073-81.1489=13.55844.解此方程组得=0.=0.=0.判别函数为5.求

8、=7.8781=7.0331=7.4556=7.49786.检验==0.=22.3085、为相应矩阵的行列式的值7.回代(internalvalidation)判别效果原分类判别函数的判别归类ABA101B00A正确率=90.9%B正确率=100%总正确率(符合率)=91%A误判率=B误判率=总误判率=5%符合率的高低取决于所选判别指标的特异性以及训练样本中各个体分类的可靠性。组内回代组外回代剔除回代Bayes多类判别注意总体

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。