资源描述:
《数学实验06判别分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、判别分析§3.1判别分析(discriminantanalysis)某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。这样虽非100%准确的判别至少大部分是对的,而且用不着杀生。此即判别分析。判别分析(discriminantanalysis)判别分析和聚类分析有何异同?判别分析和聚类分析都是分类.但判别分析是在已知对象有若干类型和一批已知样品的观测数据(训练样本)后的基础上根据某些准则建立判别式.在聚类分析中,人们一般事先并
2、不知道应该分成几类及哪几类,全根据数据确定。可以先聚类以得知类型,再进行判别.判别分析例子数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等.另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对
3、尚未被分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。判别分析例子Disc.sav数据1.根据距离判别的思想Disc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据在8维空间有90个点,由于已知所有点的类别,可以求得每个类型的中心。这样只要定义了距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。最简单的办法就是:某点离哪个中心距离最近,就属于哪一类。一个常用距离是Ma
4、halanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction).这种根据远近判别的思想,原理简单,直观易懂。为判别分析的基础1.根据距离判别的思想距离判别法假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)5、x,Gi)=(x-m(i))’(S(i))-1(x-m(i))其他一些距离为马氏距离的特殊情况,因此我们着重讨论马氏距离.马氏距离的好处是可以克服变量之间的相关性干扰,并且消除各变量量纲的影响.线性判别函数:当S(1)=S(2)=S时记如果W(x)>0即D(x,G1)D(x,G2)则x∈G2如果W(x)=0即D(x,G1)=D(x,G2)则待判当m(1),m(2),S已知时,令a=S-1(m(1)-m(2))≡(a1,…,ap)’,则显然W(x)为x1,…,xp的线性函数,称为线性判别函数;a称为判别系数.当m(1)
6、,m(2),S未知时,可通过样本来估计:判别函数为为来自Gi的样本为(i=1,2)非线性判别函数:当S(1)≠S(2)时这是x的一个二次函数,按照距离最近原则,判别准则仍然为如果W(x)>0即D(x,G1)D(x,G2)则x∈G2如果W(x)=0即D(x,G1)=D(x,G2)则待判多总体时的线性判别函数:当S(1)=…=S(k)=S时记相应的准则为:如果对一切j≠i,Wij(x)<0,则x∈Gi如果有某一个Wij(x)=0,则待判非线性判别函数:当S(1),…,S(k)不等时相应的准则为:如果对一切j≠i,Wij(
7、x)>0,则x∈Gi如果有某一个Wij(x)=0,则待判.当m(i),S(i)未知时,可通过样本来估计2.Fisher判别法(先进行投影)Fisher判别法是一种先投影的方法。考虑只有两个(预测)变量的判别问题。假定只有两类。数据中的每个观测值是二维空间的一个点。见下页图。这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。-4-20246-4-3-2-10123于是就寻找一个方向,下页图上的虚线方向,沿该方