医学科研数据挖掘方法--挖掘技术-3

医学科研数据挖掘方法--挖掘技术-3

ID:19402415

大小:957.00 KB

页数:42页

时间:2018-10-01

医学科研数据挖掘方法--挖掘技术-3_第1页
医学科研数据挖掘方法--挖掘技术-3_第2页
医学科研数据挖掘方法--挖掘技术-3_第3页
医学科研数据挖掘方法--挖掘技术-3_第4页
医学科研数据挖掘方法--挖掘技术-3_第5页
资源描述:

《医学科研数据挖掘方法--挖掘技术-3》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘技术(3)文章错误案例统计分析方法回顾如何正确选择统计分析方法统计分析方法应用案例文章错误案例案例一原文题目:《美喘清和博利康尼治疗支气管哮喘各40例临床疗效与副作用比较》,作者选择80例哮喘病人随机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间(见下表)。所得结果用卡方检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异具有统计学意义(P<0.05)。点评:根据研究目的,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质土讲应为定量资料,表中结果只是为了表达的方便列

2、出不同时点上的频数分布,并不代表此资料的结果变量就为定性资料。原作者采用卡方检验分析定量资料,所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不能得出两组起效时间之间的差别具有统计学意义。案例二原文题目:《地氟醚对老年病人血液动力学的影响》,为研究地氟醚对老年病人血液动力学的影响,选择腹部手术老年病人(年龄60一74岁)30例,所有病人术前肝肾功能检查均正常。在吸入地氟醚前,监测心输出量(CO)、峰流速(PV)、心率(H

3、R)、校正的血流时间(FTC)、中心静脉压(CVP)、心脏指数(CI)、平均动脉压(MAP)、外周血管阻力(SYR)作为基础值,然后分别调整地氟醚浓度至0.5MAC、1.0MAC、1.5MAC、2.0MAC,同时测定以上各参数。结果见表。统计学处理:采用T检验来测定差异显著性,P<0.05为有显著性差异。点评:同一个病人重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量’有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,作者采用T检验进行两两比较,因T检验仅适合分析单因素设计且因素的水个数最

4、多为2的定量资料,因此不适合分析此类资料。根据数据可采用重复测量设计资料的方差分析。统计学四型错误Ⅰ型错误:也称假阳性错误。即当原假设H0客观上成立,但根据假设检验的规则,将有α大小的概率错误地拒绝H0,同时错误地接受备择假设H1。Ⅱ型错误:也称假阴性错误。即当H0客观上不成立,但根据假设检验的规则,将有β大小的概率错误地拒绝H1,同时错误地接受H0。Ⅲ型错误:即最终回答的是1个错误的问题。此错误主要是由于试验设计不周密不完善所致,如在试验设计中未将重要的试验因素包括在内。Ⅳ型错误:即对1个假设进行了多项

5、正确的检验,但在对因果关系的分析时作出了错误的比较和解释,这些比较并非是由被使用的模型所定义的。此错误主要出现在结果的解释阶段。统计分析方法回顾无假设的数据挖掘方法QQQQII123456factor1factor2factorn神经网络聚类分析OpenAccn’tAddNewProductDecreaseUsage???Time时间序列分析Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOI

6、ncome>$40K决策树关联分析H1H2H支持向量机决策树的原理支路从根节点(决策节点)到叶节点(结局节点)为一条支路从一个决策节点放射出来的支路必须互斥且包含一切可能的情况,即每一方案各种状态发生的概率之和为1决策节点机会节点结局节点无强制措施铅中毒诊断有强制措施无中毒中毒P=0.73P=0.27低中高P=0.46P=0.43P=0.11¥0¥75¥150¥350中毒无中毒P=0.38P=0.62¥18低中高P=0.50P=0.46P=0.04¥305¥146¥79决策树的特点优点直观,易于理解及解释

7、对资料分布无特殊要求缺点处理大样本多变量时效率较低分类性能较神经网络与SVM稍差用法:分类预测,回归预测,卫生决策…支持向量机原理H是分类面,H1和H2是平行于H,且分离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔离分类面H最近的样本点,因其构成了H1,H2平面,成为H1、H2的支持向量从数学上可以证明分类面的几何间隔越大,分类误差越小SVM:最大化几何间隔,寻找最优分类面H1H2H几何间隔支持向量机(SVM)本质上是一种分类判别函数SVM的特点优点对样本量需求小高维识别:对大样本量的

8、数据能降低部分运算复杂性很好的“鲁棒性”(数据容错能力)能处理非线性可分样本得到全局最优解缺点对变量数很多的数据计算复杂度很大解决多分类问题效果不好作为分类器,难以解释各因素的影响大小用途分类、回归、异常值检测……人工神经网络输入层中间层(隐含层)输出层神经网络可以分为三个部分——输入层、中间层、输出层中间层可以为单层,也可以为多层一般建模时,输入层的神经元个数为影响因素个数,输出层为结局变量个数,中间层没有固定的个数,需要经

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。