资源描述:
《判别和聚类分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、判别分析与聚类分析多元统计方法之二主讲:何仁斌实际应用问题1、蠓虫的分类问题两种蠓虫——Af和Apf,根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据,即9只Af蠓虫和6只Apf蠓虫的数据。若给定一只蠓虫,如何正确地区分它属于哪一类?已知蠓虫类别的数据Af触角1.241.361.381.381.381.41.481.541.56翼长1.721.741.641.821.91.71.821.822.08Apf触角1.141.181.21.261.281.3翼长1.781.961.862.02.01.96未知类别的三个样本数据:(1.24,1.8)、(1.28,1.84)
2、、(1.4,2.04)2、乳腺癌的诊断问题通过某种医学手段——利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性(benign)哪些为恶性(malignant)。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径x1,质地x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。2、乳腺癌的诊断问题现需要根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型,由此诊断另外69名已做穿刺采样的患者。3、DNA序列的分类模型假定已知两组人工已分类的DN
3、A序列(20个已知类别的人工制造的序列),其中序列标号1—10为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。例如A类:a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg';b1='gttagatttaacgttt
4、tttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……需要进行特征提取,将字符转换成数据。上述两个问题极其相似,都属于分类问题。有关的分类方法有:判别分析、聚类分析、神经网络分析、粗集理论……方法概述判别分析主成分分析因子分析聚类分析现代统计分析方法与应用判别分析目的:对某一种研究对象的归属作出判断。例如:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型(高、中、低等)。设有k个类别
5、G1,G2,…,Gk(总体),对任意样品x,希望建立一个准则能判定它属于哪个总体?G1G2Gkx关键是建立什么样的判别准则,判断x的归属问题。要求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。判别分析的统计模型描述待判点μ1=(μ11,μ12,…,μ1p)数据结构x1x2…xp12∶n1x1x2…xp12∶n2G1G2μ2=(μ21,μ22,…,μ2p)待判数据的数据结构与G1,G2的数据结构一致。1、距离判别xμ1μ2X={x1,x2,…,xp}μ1={a1,…,ap},μ2={b1,…,bp}d2(x,G1)=(x-μ1)’∑1-1(x-μ1)d2(x
6、,G2)=(x-μ2)’∑2-1(x-μ2)其中∑1,∑2分别为协方差矩阵注意:正态性假定马氏距离判别规则如下:①当w(x)>0时,则x∈G2②当w(x)<0时,则x∈G1③当w(x)=0时,则x待判(线性判别法)假设∑1=∑2=∑,可以证明d2(x,G1)-d2(x,G2)=-2(x-(μ1+μ2)/2)’∑-1(μ1-μ2)记为w(x),显然w(x)是x的线性函数。一般地,x=[1.24,1.8];M1=[1.241.361.381.381.381.41.481.541.56;1.721.741.641.821.91.71.821.822.08];M2=[1.141.18
7、1.21.261.281.3;1.781.961.862.02.01.96];G1=M1';G2=M2';u1=mean(G1);u2=mean(G2);S1=cov(G1);S2=cov(G2);S=(9*S1+6*S2)/15;NS=inv(S);W=-2*(x-(u1+u2)/2)*NS*(u1-u2)';ifW>0n=2;elsen=1;endn%n=2plot(G1(:,1),G1(:,2),'*',G2(:,1),G2(:,2),'*',x(1),x(2),'*')这是蠓虫分类的算例mcfl