资料采矿中的统计预测与分类方法

资料采矿中的统计预测与分类方法

ID:40961849

大小:61.00 KB

页数:5页

时间:2019-08-12

资料采矿中的统计预测与分类方法_第1页
资料采矿中的统计预测与分类方法_第2页
资料采矿中的统计预测与分类方法_第3页
资料采矿中的统计预测与分类方法_第4页
资料采矿中的统计预测与分类方法_第5页
资源描述:

《资料采矿中的统计预测与分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、资料采矿中的统计预测与分类方法(二)肾上腺素的过度分泌症候群之分类黄立维郑顺林 一、问题与一般方法:资料采矿是一个蛮当红的专题,但关于定义个人的说法不一,基本上是先给你一个大的资料集,然后下面的问题是从这里你可以得到什么,由于时代不一样了,现在资料的收集来的既多又便宜,多到没有人有时间去看的程度,因此比较中肯的资料采矿定义为我们如何从一个庞大的信息中,找寻我们所感到兴趣且有价值的知识,换言之,如何能快速且有效的从数据库中取得有用的讯息,并将其有效的反应,为我们当今的焦点。[谢邦昌2001] 资料分类的方法在资料采矿中占极为重要

2、的一项议题,在日常生活中,我们常遇到有些资料型态是属于间断型(discrete),而要如何将其分门别类呢,我们通常可以以一些简单且常用的分类方法,来将其分门别类,假设现有一笔观察资料,若将这笔观察资料分类并标示为1,2,…..,K,共K个类别(classes),倘若我们现在要配适的是一组线性模型(linearmodel),而使此模型能将这笔观察资料分成K类,则其第k个分类的应变量预测值为,而决定k与l的判别边界(decisionboundary)则为当时,即集合所成的点。 以下我们将以Cushing’ssyndrome为例,并

3、介绍几种常见的线性与二次的分类方法,资料来源为Aitchison&Dunsmore(1975,Table11.1-3),此资料主要在于诊断病人是否有患有Cushing’ssyndrome,即在诊断病人是否因为肾上腺素的过度分泌造成过度敏感性的失调,在资料中有三种症候群(syndrome)我们分别把它标示为a,b,c(a代表adenoma,b代表bilateralhyperplasia,c代表carcinoma),另外有六个病人属于不知何种症候群(syndrome)的,我们将他们标示为u,而观察值为tetrahydrocorti

4、sone与pregnanetriol在尿液中类固醇分泌物的比列(mg/24h)的对数值,以下我们将介绍分类方法。  二、统计的线性与二次分类方法:A、线性判别分析(LinearDiscriminantAnalysis)所谓判别分析法(DiscriminantAnalysis),是在已知的分类之下,一但遇到有新的样本时,可以利用此法选定一判别标准,以判定如何将新样本放置于哪个类别中,而线性判别分析(LinearDiscriminantAnalysis简称LDA),是判别分析中主要的工具。最早由R.A.Fisher(1936)提出

5、,分类的判定理论里告诉我们需要去知道最佳分类下的各类别事后机率Pr(G

6、X),假设为G=k时X的条件密度函数且为类别k时的事前机率(priorprobability)并满足,以贝式理论的观点告诉我们,假设每一类别的密度函数为一多维的常态分配(multivariateGaussian),且这每一类别的多维常态分配(multivariateGaussian)有一样共同的共变异矩阵(covariancematrix)时,在比较类别k跟l时,我们可以容易的由对数概度比(log-ratio)清楚的得到x的线性函数,此线性对数胜算比函数(

7、linearlog-oddsfunction)暗示我们区分k跟l的判别边界(decisionboundary)即为Pr(G=k

8、X=x)=Pr(G=l

9、X=x)所成的集合,此集合在二为空间中则形成一直线,在p维空间中则形成一个超平面(hyperplane),当然这对任意的两个类别的区分都成立且所有的判别边界(decisionboundary)均为一直线或超平面(hyperplane),将此方法用于Cushing’ssyndrome的例子(如下图所示),我们可以清楚的看到,共有两条直线将资料分成三类,其中共有五个分错。B、二次判

10、别分析(QuadraticDiscriminantAnalysis)根据上述所假设的资料型态与模型中,若每一类别的多维常态分配(multivariateGaussian)里的共变异矩阵(covariancematrix)彼此不相同时,则上式中的对数概度比(log-ratio)里的共变异矩阵(covariancematrix)则无法消去,此结果将使判别边界(decisionboundary)为x的二次式(quadraticform),因而我们得到二次判别分析(QuadraticDiscriminantAnalysis简称QDA)

11、,,当然这对任意的两个类别区分的判别边界(decisionboundary)均为二次曲线或曲面,将此方法用于Cushing’ssyndrome的例子(如下图所示),我们可以清楚的看到,共有两条曲线将数据分成三类,而其中共有三个分错,在这个例子中,我们可以容易的判断二次似乎比线

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。