蠓虫分类论文

蠓虫分类论文

ID:46891139

大小:188.00 KB

页数:14页

时间:2019-11-28

蠓虫分类论文_第1页
蠓虫分类论文_第2页
蠓虫分类论文_第3页
蠓虫分类论文_第4页
蠓虫分类论文_第5页
资源描述:

《蠓虫分类论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要现实生活中,我们要对许多事物分类,有了新的事物,我们要将其划入已知的类别,这就需要建立相关的模型和规则。有两种螺虫Af和Apf巳由生物学家W.LGrogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。对已知的18组数据(6只Apf和9只Af螺虫的触角长度和翼长,3只待分类的螺虫数据)本文分别用距离判别模型和Bayes判别模型对竦虫的分类问题进行了讨论,用误判概率对模型的好坏进行了讨论,冋代误判率和交叉确认误判率分别为0和6.67%,得到合理的结果,并且用两种方法分别对未知的3只螺虫分

2、了类,模型是在总体是二维正太总体假设下建立的,所以最后还对总体的正态性做了统计检验。关键字:判别分析距离判别Bayes判别一、问题重述两种嫁虫Af和ApfB由生物学家W・LGrogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。现测得6只Apf和9只Af嫁虫的触角长度和翼长识别的依据是螺虫的触角和翅膀的长度的数据(见附录一),现在要根据数据,制定一种方法,止确区分两类嫁虫;并且将建立的模型将用于已知触角长和翼长三个待定的样本进行识别。且在假设Af是宝贵的传粉益虫,而Apf是某种疾病的载体

3、的情况下,对模型加以改进。二、模型假设1、假设两个螳虫总体都服从二维正太分布;2、假设两总体协方差矩阵相等;3、两总体的先验概率“按比例分配”,即各口的容量与总容量的比值;4、误判后造成的损失相等。三、符号约定与说明1、Gj:表不总体,i=l,2;2、工(:总体协方差,i=l,2,该符号上面打尖角符表示估计值;3、/V总体均值向量,i=l,2;4、d"兀,GJ:x到q的马氏平方距离,i=l,2;5、(%):判别函数,i=l,2;6、/?,.:G,的先验概率,p严且,其中®是G,的训练样木的容量;n7、P(G,I

4、x):G,的后验概率,;8、P(/IJ,/?):在判别准则R下,将来自q•的样品误判来自于q的概率:9、/.(X):总体G,的概率密度函数;10、c(iI;):将来自q•的样品误判来自丁q后带来的损失。其它需要用到的符号,在后面再做说明。四、模型建立1、模型一——距离判别模型(1):下面给出相关定义:定义:若X、y来自均值向量为“、I办方差矩阵为工的总体的两个样木,则X、y之间的马氏平方距离为:,(兀G)=(x—“)T工一匕_刃,X与G的马氏平方距离为:d~(x,G)=(x-(x-//)o(2):距离判别的思想

5、:有两个总体,给定一个待判样品,我们要判断它来口哪个总休,通过比较样本到总体的距离大小,距哪个总体距离小就属于哪个总体。这里都是基于马氏平方距离。(3):距离判别模型:因为两总体协方差相等,即有为严工2二工'所以X到两总体马氏平方距离的差为:d2(x,Gl)-d2(x,G2)=-2^^+工Z+2“/工「-才工J(W1(x)=a17,x+/?1,其中ay工'內,^二一*“/工i{记:

6、w2(x)=a2rx+/?2,其中幻£,2'b2=~i/^X匕2再结合上面距离判别思想很容易有下面的距离判别准则:fxeGj,

7、若Wj(x)>W2(x)IxwG?,若W2(x)vW](x)实际生活中,总体的分布往往是不知道的,我们只有根据样木去推断总体,所以我们只有用估计值代替上面各个式子屮的相关变量,假设刃),i=1,2・・・,厲是来口G的样木,兀⑵,i=l,2,•••,n2的样木,我们用几、厶、S「S?、S分别来估计总体的均值、协方差,即用它们分别替换上面式子中的"、“2、纭、工2、工,其中:4=十£咱=丹),02=右£卅2)=尹),Si=1ZI2-F(1))(x,(1)(2)_r(2))(x(2)_-(2))rS=f_1)S]+(

8、〃2_])S2n

9、+〃j—2(1):判别准则的评价在一定的准则下,将一个样品判错的概率称为该准则的误判概率,简称误判率。误判率是评价判别准则好坏的标准。常用的误判率又两种,冋代误判率、交叉确认误判率。%1、冋代误判率对已知类别的样品用线性判别函数进行判别归类,即冋判,用以估计误判率。误判率的冋代估计:”:=%+%,%表示G1判为G2,知表示G2判为G1+n2%1、交叉确认误判率为了判断第i个样品的判别正确与否,用删除第i个样品的样本数据集计算出判别函数,然后用此判别函数来判别第i个样品。对毎一个样品都这样进行分

10、析,然后以其误判的比例作为误判概率的估计。求交叉确认误判率的步骤:%1从总体GI的容量为nl的训练样本开始,依次剔除其中的一个样品,用剩余的容量为nl-1的训练样本和总休G2的容量为n2的训练样本建立相应的判别函数。%1用建立的判别函数对剔除的那个样品作判别。%1重复步骤①和②,直到的练样本屮的nl个样品依次被剔除,乂依次进行判别,其误判的样品个数记为嘉%1对总体G2的训练样本重复步骤

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。