欢迎来到天天文库
浏览记录
ID:20085330
大小:56.00 KB
页数:5页
时间:2018-10-08
《合理选择数据挖掘工具》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、合理选择数据挖掘工具>>教育资源库 摘要:数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,它在商业方面的成功应用使得软件开发商不断开发新的数据挖掘工具,改进现有的数据挖掘工具,一时之间数据挖掘工具可谓琳琅满目,于是出现了如何合理选择挖掘工具的问题。鉴于此,本文提出并讨论了五点关于合理选择数据挖掘工具的技巧。 关键词:数据挖掘;数据挖掘工具;数据仓库 随着数据库和计算机网络的广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数
2、据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个以发现为驱动的过程,已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,
3、目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。 数据挖掘技术概述 1、数据挖掘的定义 数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策
4、略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门/机构的问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。 2、数据挖掘的主要方法和途径 数据挖掘有很多种分类方法,如按发现的知识种类,挖掘的数据库类型,挖掘方法,挖掘途径,所采用的技术等等。下面只讨论四个应用比较广泛的方法: 关联规
5、则(AssociationRule) 在数据挖掘领域中,关联规则应用最为广泛,是重要的研究方向。表示数据库中一组对象之间某种关联关系的规则,一般来讲,可以用多个参数来描述一个关联规则的属性,常用的有:可信度,支持度,兴趣度,期望可信度,作用度。 离群数据(Outlier) 离群数据就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据。数据挖掘的大部分研究忽视了离群数据的存在和意义,现有的方法往往研究如何减少离群数据对正常数据的影响,或仅仅把其当作噪音来对待。这些离
6、群数据可能于计算机录入错误、人为错误等,也可能就是数据的真实反映。 基于案例的推理(case-basedreasoning,CBR) 基于案例的推理于人类的认知心理活动,它属于类比推理方法。其基本思想是基于人们在问题求解中习惯于过去处理类似问题的经验和获取的知识,在针对新旧情况的差异作相应的调整,从而得到新问题的解并形成新的案例。CBR方法的应用越来越受到人们的重视,在许多领域都有较好的推广前景,例如,在气象、环保、地震、农业、医疗、商业、CAD等领域;CBR也可用在计算机软硬件的生产中,如
7、软件及硬件的故障检测;CBR方法尤其在不易总结出专家知识的领域中,应用越来越普遍,也越来越深入。 支持向量机(SupportVectorMachine,SVM) 支持向量机是近几年发展起来的新型通用的知识发现方法,在分类方面具有良好的性能。SVM是建立在计算学习理论的结构风险最小化原则之上,主要思想是针对两类分类问题在高位空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。 数据挖掘工具 伴随越来越多的软件供应商加入数据挖掘这一行列,使得现有的挖掘工具的性能得到进一步的增强,使用
8、更加便捷,也使得其价格门槛迅速降低,为应用的普及带来了可能。当然数据仓库技术的发展同样功不可没。数据仓库是将海量复杂的客户行为数据集中起来建立的一个整合的、结构化的数据模型,是实施数据挖掘的基础,这里不作为讨论的重点。 1、数据挖掘工具分类 一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法
此文档下载收益归作者所有