第2章 数据挖掘过程与知识发现

第2章 数据挖掘过程与知识发现

ID:11205892

大小:149.50 KB

页数:6页

时间:2018-07-10

第2章 数据挖掘过程与知识发现_第1页
第2章 数据挖掘过程与知识发现_第2页
第2章 数据挖掘过程与知识发现_第3页
第2章 数据挖掘过程与知识发现_第4页
第2章 数据挖掘过程与知识发现_第5页
资源描述:

《第2章 数据挖掘过程与知识发现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第二章数据挖掘过程与知识发现第一节CRISP_DM介绍跨行业数据挖掘标准流程被行业成员广泛应用,这一模型包括以下六个阶段:一、业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤。二、数据理解:一旦商业对象和计划书确定完备,数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的,不同的商业目的需要不同的数据系列。数据挖掘的第一步是从

2、许多可供使用的数据库中筛选相关数据,来正确描述研究问题;即对问题进行简单描述;识别问题的相关数据;所选择的变量要相互独立,变量独立意味着不涵盖重复信息。三、数据准备:确定可用的数据资源以后,需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行,新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。数据预先处理:1、噪声问题和缺失问题a)数据重复b)数值错误c)数据缺失2、数据的变换a)数据类型的变换b)数据的平滑c)

3、数据的概化d)数据的规范化十进制缩放:将某个数据全部除以10的相同的幂通过极值来转化:新数据=(原数据-最小数值)/(最大数值-最小数值)通过均值和标准差来转化:新数据=(原数据-均值)/标准差通过对数来转化:对每个数据经过自然对数进行数据转换,例如下面的转换可以把数据转换到0-1之间:O=1/(1+exp(-x))四、建立模型:数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同,应用各种不同的模型,如果任务是对数据分组,则运用判别分析;如果任务

4、是估计,在连续数据类型的情况下,回归分析就可以运用,对于不连续的数据则可以运用逻辑回归分析,神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具,在以后的章节中将要进行介绍。数据处理:数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割,一部分成为训练集,另外一部分成为测试集。一部分进行模型开发,另外一部分成为模型检验的部分。数据挖掘就是:数据挖掘可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。五、模型评估:数据解释阶段是至关重要的,要对建立的模型是否能

5、够达到问题解决的目的进行研究,即包括模型是否能够达到研究的目标;模型是否能够用合适的方法显示。评估办法:一般来说,研究中把大规模数据集合分为两个部分:训练集和测试集,分类误差通常运用错差矩阵(干扰矩阵)表现出来,它可以表示出正确分类的案例数目,以及分到不正确类别的案例数。错差矩阵中所揭示的两类错误的损害有时候不是一样的,例如,银行贷款给一个希望偿还但是没有能力偿还的,比起没有把款项贷给实际会偿还的客户更加令人痛苦。运用成本分析方法可以比较不同的预测判别方法的成本,运用错差矩阵来度量,并且计算成本函数,例如:表1

6、:错差矩阵:误分类成本相等电话帐单模型中不能够偿付模型中可以偿付实际不能够偿付501464实际能够偿付76578654126592718总分类正确率等于可用正确分类数量(50+578=628)除以总案例(718)数量而得到,于是,案例中有87.5%的数据得到了正确的分类。这里的成本函数:190×关闭良好帐户+10×保留帐户=190×76+10×14=14580美元实际上,把好的当作不好的比例相当高,是实践中难以接受的。如果充分运用先验概率对此进行研究,则可以得到如下矩阵:表2:错差矩阵:误分类成本不相等电话帐单

7、模型中不能够偿付模型中可以偿付实际不能够偿付362864实际能够偿付2263265458660718案例中93%得到了正确地执行,说明方法得到了显著的改进。六、模型发布:数据挖掘既可以应用于核实先前的假设,也可以应用于知识发现(识别未预期的有用的关系)。显然,这几个步骤不是一成不变的,而是互相作用的。讨论1.将下列客户年龄的数值转换为年轻(40岁以下)、中年(40-60)和老人(60岁以上)的类别。客户年龄(岁)Fred46Herman52George36Frieda39Hermione282.将下列工资转换为

8、数值范围,20000等于0,220000等于1,其他在0-1之间客户工资(美元)Fred120000Herman200000George50000Frieda65000Hermione350003.几种数据挖掘技术应用于数据测试中,哪种结果是最好的?主语实际回归聚类神经网络基于规则Fred好好好好好Herman差好差好差George好好差差差Frieda好好好好差Hermione差好差

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。