欢迎来到天天文库
浏览记录
ID:55763623
大小:64.50 KB
页数:5页
时间:2020-06-06
《资料采矿中的统计预测与分类方法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、资料采矿中的统计预测与分类方法(二)肾上腺素的过度分泌症候群之分类黄立维郑顺林 一、问题与一般方法:资料采矿是一个蛮当红的专题,但关于定义个人的说法不一,基本上是先给你一个大的资料集,然后下面的问题是从这里你可以得到什么,由于时代不一样了,现在资料的收集来的既多又便宜,多到没有人有时间去看的程度,因此比较中肯的资料采矿定义为我们如何从一个庞大的信息中,找寻我们所感到兴趣且有价值的知识,换言之,如何能快速且有效的从数据库中取得有用的讯息,并将其有效的反应,为我们当今的焦点。[谢邦昌2001] 资料分类的方法在资料采矿中占极为重要的一项议题,在
2、日常生活中,我们常遇到有些资料型态是属于间断型(discrete),而要如何将其分门别类呢,我们通常可以以一些简单且常用的分类方法,来将其分门别类,假设现有一笔观察资料,若将这笔观察资料分类并标示为1,2,…..,K,共K个类别(classes),倘若我们现在要配适的是一组线性模型(linearmodel),而使此模型能将这笔观察资料分成K类,则其第k个分类的应变量预测值为,而决定k与l的判别边界(decisionboundary)则为当时,即集合所成的点。 以下我们将以Cushing’ssyndrome为例,并介绍几种常见的线性与二次的分
3、类方法,资料来源为Aitchison&Dunsmore(1975,Table11.1-3),此资料主要在于诊断病人是否有患有Cushing’ssyndrome,即在诊断病人是否因为肾上腺素的过度分泌造成过度敏感性的失调,在资料中有三种症候群(syndrome)我们分别把它标示为a,b,c(a代表adenoma,b代表bilateralhyperplasia,c代表carcinoma),另外有六个病人属于不知何种症候群(syndrome)的,我们将他们标示为u,而观察值为tetrahydrocortisone与pregnanetriol在尿液
4、中类固醇分泌物的比列(mg/24h)的对数值,以下我们将介绍分类方法。 二、统计的线性与二次分类方法:A、线性判别分析(LinearDiscriminantAnalysis)所谓判别分析法(DiscriminantAnalysis),是在已知的分类之下,一但遇到有新的样本时,可以利用此法选定一判别标准,以判定如何将新样本放置于哪个类别中,而线性判别分析(LinearDiscriminantAnalysis简称LDA),是判别分析中主要的工具。最早由R.A.Fisher(1936)提出,分类的判定理论里告诉我们需要去知道最佳分类下的各类别事
5、后机率Pr(G
6、X),假设为G=k时X的条件密度函数且为类别k时的事前机率(priorprobability)并满足,以贝式理论的观点告诉我们,假设每一类别的密度函数为一多维的常态分配(multivariateGaussian),且这每一类别的多维常态分配(multivariateGaussian)有一样共同的共变异矩阵(covariancematrix)时,在比较类别k跟l时,我们可以容易的由对数概度比(log-ratio)清楚的得到x的线性函数,此线性对数胜算比函数(linearlog-oddsfunction)暗示我们区分k跟l的判别
7、边界(decisionboundary)即为Pr(G=k
8、X=x)=Pr(G=l
9、X=x)所成的集合,此集合在二为空间中则形成一直线,在p维空间中则形成一个超平面(hyperplane),当然这对任意的两个类别的区分都成立且所有的判别边界(decisionboundary)均为一直线或超平面(hyperplane),将此方法用于Cushing’ssyndrome的例子(如下图所示),我们可以清楚的看到,共有两条直线将资料分成三类,其中共有五个分错。B、二次判别分析(QuadraticDiscriminantAnalysis)根据上述所假设的
10、资料型态与模型中,若每一类别的多维常态分配(multivariateGaussian)里的共变异矩阵(covariancematrix)彼此不相同时,则上式中的对数概度比(log-ratio)里的共变异矩阵(covariancematrix)则无法消去,此结果将使判别边界(decisionboundary)为x的二次式(quadraticform),因而我们得到二次判别分析(QuadraticDiscriminantAnalysis简称QDA),,当然这对任意的两个类别区分的判别边界(decisionboundary)均为二次曲线或曲面,将
11、此方法用于Cushing’ssyndrome的例子(如下图所示),我们可以清楚的看到,共有两条曲线将数据分成三类,而其中共有三个分错,在这个例子中,我们可以容易的判断二次似乎比线
此文档下载收益归作者所有