资源描述:
《医学高级统计学_第十一章判别分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第11章判别分析(DiscriminateAnalysis)姜晶梅流行病学与卫生统计学系北京协和医学院基础学院2018.06.281主要内容概述距离判别Fisher判别判别分析的正确应用22概述3什么是判别分析•有时需要建立一种规则,需要你根据看到性状,来判别个体的属性或类别4举例1、关于乳腺癌的诊断问题通过某种医学手段——利用细针穿刺进行采样,可以确定哪些乳房肿瘤为良性,哪些为恶性。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径X,质地X,周长X,面积X,光滑1234度X,紧密度X,凹陷度X,凹陷点数X,对称度X,断裂度56789X。10现需要根据已获
2、得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例,利用这组数据建立一种分类模型。由此诊断另外69名已做穿刺采样的患者来验证模型。5举例2、6判别分析定义•判别分析:根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。它是一种用于分析组间差异的多元分析方法,用判别分析可以研究针对多个变量的两组或多组的差异,以回答如下类型的问题(1)各组相对各变量是否有显著差异?(2)那些变量适合或不适合用于区分各组?7判别分析定义设有k个p维总体GG12,G,,k,其分布特征已知(如已知分布函数分别为Fx1(),Fx2(),,Fxk(),或知道来自各个总体的一
3、批样本),希望建立一个法则,对给定的任意一个样品X,依据这个法则我们能判断它来自哪个总体。如果把样p品X看成p维样本空间R空间中的一个点xxx()x,,,,则判别分析的目的就是将Rp“合理”12p地划分为k个区域:DD12,,,Dk,且DD12,,,Dk互不相交,pDDDR。如果这个划分得当,正好对应这k个总体,12k若样品X落入区域Di,则判样品X来自总体Gi(ik12,,,)。如何进行“合理”的划分就是判别分析研究的主要问题之一。8判别分析最初由R.A.Fisher于1936年提出,在上世纪50年代出现了Bayes判别,它证明了Fisher判别的合理性.故国际上一般都把这两
4、种判别分析合称为线性判别分析或者Fisher判别分析。近年来,在自然科学、社会学及经济管理学科中判别分析都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。9判别分析步骤•(1)收集训练样本•(2)建立判别函数•(3)估计判别函数•(4)检验判别函数•(5)检验判别变量•(6)将新元素分类10•(1)收集训练样本第一步,收集训练样本。收集一批已知类别的样品作为训练样本(Trainingdataset)。每个样品测量
5、p个指标XX12,,Xp作为判别指标;在定义类别时,要考虑单个类内的样本个数不能太少。此外,组的个数不应大于判别变量的个数。11•(2)建立判别函数在判别分析中,要先建立一个判别函数。然后用此函数实现——组间最优判别——判别变量判别意义的检验判别函数一般形式如下:YbbXbXbX011jjpp其中,Y:判别指标;X:判别变量(j=1,2,…,p);jb:判别变量j的判别系数;jb:常数012•判别函数对应k组(k=1,2,…,K)中每个元素i(i=1,2,…,I)K的测量值X(j=1,…,p)给出一个判别值Yjgi•判别函数又称为典型判别函数,判别指标Y称为典型变量。“典型”
6、一词表示对变量的线性组合。•建立判别函数要先选择判别变量。可以在逻辑思考的基础上,选择那些猜测能区分组和解释组间差异有作用的变量。在估计出判别函数后,在检验这些变量的判别适用性。13•例题1:人造黄油生产商想知道,对”可涂抹性”和保质期重要性的评价是否对人造黄油品牌的选择起到作用,他还特想知道。购买他生产的A品牌的老顾客对这两个特征的评价是否与竞争品牌B的老顾客不同。于是有A:A品牌的老顾客可涂抹性保质期B:B品牌的老顾客YbbXbX01122每个组G都可由其平均判别值来描述,称平均判别值为重心:Ig1YYggiIgi114•G=A,B两组间的差异可由均值差来衡量:Ig1YY
7、ABYYggiIgi1判别函数的值可以从判别轴上获取A组B组Y*YAYB临界标准除了组重心,判别轴还标出了临界判别值Y*.可用它给新元素分类Y21.0X0.5X1215•(3)估计判别函数判别准则a我们已经引入组重心间的距离作为组间差异的标准,但此标准还需再精确化YYABS该判别准则只适用于满足以下前提•只有两组•两组方差几乎相等16•(3)估计判别函数判别准则b若使用如下判别准则,则无须满足上述前提:SSBS