欢迎来到天天文库
浏览记录
ID:20006015
大小:604.50 KB
页数:14页
时间:2018-10-08
《第三章 数据挖掘的方法论》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第3章数据挖掘方法论数据挖掘将商业需求和所需要的数据联系在一起,它是对客户和商业前景的理解,理解产品和市场,理解供货方和合作伙伴,理解销售的全过程,并用数据将他们整合到一起。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。数据挖掘方法论CRISP-DM和SEMMACRISP-DM(CRoss-IndustryStandardProcessforDataMining)即为”跨行业数据挖掘过程标准”,该模型将一个KDD工程分为6个不同的,但顺序并非
2、完全不变的阶段:。CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%。SAS数据挖掘方法论─SEMMASAS将数据挖掘过程看成5个阶段Sample─数据取样Explore─数据特征探索、分析和预处理Modify─问题明确化、数据调整和技术选择Model─模型的研发、知识的发现Assess─模型和知识的综合解释和评价CRISP-DM与SEMMA的区别CRISP-DM是从数据挖掘项目执行的角度谈方法论,SEMMA则是从对具体数据集的一次探测和挖掘的角度来谈方法论,CRISP-
3、DM的考虑的范围比SEMMA要大。CRISP-DM关注商业目标、数据的获取和管理,以及模型在商业背景下的有效性;SEMMA不否认商业目标,但更强调数据挖掘是一个探索的过程。SEMMA体现了不同算法在项目过程的不同阶段有不同的重要性,没有如同CRISP-DM一样详细而规范的文本,从项目管理的需要来看CRISP-DM更适用一些。由于CRISP-DM在阶段间可以反馈,整个流程又是循环的,在逻辑上CRISP-DM是可以实现SEMMA的,它们互不矛盾。但由于强调的重点不同,在实践上则会有明显的区别。面向C
4、RM的数据挖掘方法论数据挖掘四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。成功实现数据挖掘需要全部四个过程,每一步产生的结果不断向后传播,由数据不断产生信息。从数据中提炼信息,不断更新建模技术,根据以前努力的结果改进数据挖掘过程,如此往复生成新的有用的知识。1.正确识别业务问题(1)实施数据挖掘是否必要?(2)是否有最让人感兴趣的客户子群或客户细分?(3)相关的行业规则有哪些?(4)关于数据(5)检验领域专家的观点2.数据转换成可操作的决策(2)
5、建立数据挖掘模型是一个互动的过程2.数据转换成可操作的决策(2)(1)确认和获取数据(2)生成有效数据、探索数据以及清洗数据(3)将数据转换成适合的粒度的数据(4)加入衍生变量(5)准备建模数据集(6)选择建模技术和训练模型(7)检测模型的性能3.将结果生成决策(1)新的认知(2)用于特定商业活动的结果(3)可被储存的结果(4)周期性预测结果(5)实时得分(6)修复数据4.评测模型的有效性5.成功建立预测模型的要点(1)预测模型的时间范围第一个时间范围是训练模型的时间间隔。第二个时间范围是模型产
6、生得分的阶段。(2)模型的使用有效期什么是模型使用有效期?什么是模型预测的有效期?预测模型在使用之前必须得到的训练6.建立预测模型的假设假设1:过去是将来的预言家假设2:数据是可以获得的假设3:数据中包括我们的预期目标
此文档下载收益归作者所有