医学数据挖掘第2章

医学数据挖掘第2章

ID:42004127

大小:399.50 KB

页数:10页

时间:2019-09-06

医学数据挖掘第2章_第1页
医学数据挖掘第2章_第2页
医学数据挖掘第2章_第3页
医学数据挖掘第2章_第4页
医学数据挖掘第2章_第5页
资源描述:

《医学数据挖掘第2章》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、(Methodology&Practice)第2章数据挖掘方法和最佳实践一、问题的提出数据挖掘的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。2.1为什么需要方法数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:获取了不真实的知识;

2、获取了真实但无用的知识。这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。2.1.1获取不真实的知识获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。心脏形态B超检查数据的“病变形态分类”是将二维超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(MinimumDistanceClusters)的方法将心脏形态分成不同的类型。例如,高血压病程与心脏形变从聚类分析结果中可以看出,随着高血压病程的持续,心脏的形态变化日益严重,且

3、某些节段的厚度与病程的关系十分密切。都是是向心性肥厚吗?2.1.2获取真实但无用的知识1.获取已知的知识获取已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。建立了一棵决策树嗓子痛链球菌感染咽炎发烧过敏感冒yesyesnono2.获取不能使用的知识卫生监督中的“知信行”模型知:知识和学习,是基础;(信:信念和态度,是动力);行:产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。。培训次数增加以上结果表明经培训后,知识得

4、分下降…数据挖掘方法论的目的是避免获得不真实的知识,以及任何没有用的知识。更积极的理解是,数据挖掘方法论的目标是确保数据挖掘得到稳定的模型,以便将该模型用于要解决的社会、企业和医学问题。2.2假设测试1.产生假设例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均为优秀。2.测试假设假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。(“知信行”模型)2.3数据挖掘的方法

5、进行数据挖掘的时候,首先要将实际问题转化为数据挖掘问题,能否转换为恰当的数据挖掘问题是进行数据挖掘的关键。为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。数据挖掘的方法可以简单的概括为5个步骤定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。数据准备:数据准备包括:选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转

6、换过的数据集上进行数据挖掘。结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。(亦可参照书上细化的11个步骤)小结这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的模型和知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。