资源描述:
《二阶判别分析新算法及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、二阶判别分析新算法及应用丁跃潮(集美大学计算机工程学院,福建,厦门361021)[摘要]本文介绍多元数据二阶判别分析新方法的原理、建模流程、应用流程和应用实例。这种判别分析分两个层次进行判别分析,先进行大类分析建模,再建立每个类的次级分类模型,解决了层次分类问题。二阶判别分析反映了大类特点,也突出了次级类型的数量规律,减少了信息损失,符合事物的层次分类归律。这种方法优于直接进行多类判别,在实际应用中取得了良好的效果,解决了重大难题。[关键词]判别分析多元数据二阶判别建模k-均值聚类OnNewAri
2、thmeticMethodofTwo-stepDiscriminantAnalysisanditsApplicationDingYuechao(ComputerEngneeringInstitue,JimeiUniversity,Xiamen361021,China)Abstract:Thispaperintroducestheprinciple,modelingflowchart,applyingflowchartandapracticalexampleofnewarithmeticmethod
3、calledTwo-stepDiscriminantAnalysis(TDA)whichmaybeusedinmultivariatedata.Theanalysisismadeintwostrata:theclassesaremodeledfirst,andthen,child-classesaremodeledforeachclass.Thusthedendriformclassificationhasgotsolution.TDAbothreflectsthecharacteristican
4、dgivesprominencetothechild-classes’numericspeciality,whichdecreasesthelossofinformationandaccordswiththedendriformcompartmentalizationruleofthings.TDAexceedsthemethodofdirectmulti-classdiscriminantanalysis.Inpracticalapplication,wehaveachievedalotandg
5、ivenimportantproblemsapprovingsolutions.Keywords:discriminantanalysis,multivariatedata,two-stepdiscriminant,modeling,k-meancluster0引言判别分析是根据多指标来判断个体所属类别的一种多元统计分析方法,其本质是利用多指标进行综合判断。根据变量取舍情况又分为多组判别和逐步判别[1][2]。目前,在经济、气象、地质、冶金、生物、农业和医学等需要处理多元数据的诸多领域得到广泛应用
6、。笔者在这些领域的应用中,对逐步判别分析方法进行扩充,提出了二阶判别、定向判别和有序判别等新方法,这里引入其中一种新的分析方法——二阶判别,以解决样本按层次分类判别的问题,并为数据挖掘提供新的途径。1逐步判别分析原理简介对于一个多元数据矩阵,在数据库领域表现为多字段二维表。假设有来自G个母体的n个已知分类样本,每个样本有m个变量,则在数据库中加上样品标识和已知分类,共有m+2个字段、n条记录。每个样本被看着是m维欧氏空间R上的一个点,每个母体都是R中的一个子空间Rg,这些子空间是互相排斥的,组成了
7、R。需要找出一个办法,即找到判别函数,把空间R划分为G个子空间Rg(g=1,2,…,G)。已知的样本有了空间归属和函数,就能对未知归属的样本进行判别,确定其归属,即判别归类或预测。人们总是希望用较少的变量去划分空间R,因为采集数据记录时,字段越少越好,成本越低。这就需要衡量每个变量参与划分G个母体的能力。这就需要用F检验,给出引入变量的F值和剔除变量的F值,作为引入和剔除变量的门限值。在一个母体内样本间的差异应当较小,不同母体的样本差异应当较大。根据Wilks准则,组内离差越小、组间离差越大,越有
8、利于G个母体的分类。通过计算组间离差B和组内离差W,然后进行F检验,就可以确定变量的取舍。逐步引入和剔除,最终得到区分能力较大的变量组合。求得区分能力显著的k个变量组合后,计算判别系数,最终建立G个子空间的判别函数:g=1,2,…G其中qg是第g组的先验概率,一般采用样品频率代替(qg=ng/n)。cig是判别系数。对于某一待判别归属的样本,如果则把该样本划归g*类。也就是把样本中变量的观察值分别代入G个判别函数,哪个函数取值最大,就划归那一组。可以将用来建模(求得判别函数)的原始