欢迎来到天天文库
浏览记录
ID:36000790
大小:39.00 KB
页数:6页
时间:2019-04-29
《数据挖掘工具》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘工具随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、行政办公、科学研究、信息量的急剧增长,使传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们急切的需要一种去粗存精、去伪存真的技术,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构
2、化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。数据挖掘的常用工具数据挖掘工具的市场一般分为三个组成部分:通用型工具、综合/DSS/OLAP数据挖掘工具和快速发展的面向
3、特定应用的工具。通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统、SASEnterpriseMiner、IBMIntelligentMiner、OracleDarwin、SPSSClementine、UnicaPRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。综合数据挖
4、掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括CognosScenario和BusinessObjects等。面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。 下面简单介绍几种常用的数据挖掘工具: 1.
5、QUEST QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点: 1、提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。 2、各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。 3、算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。 4、为各种发现功能设计了相应的并行算法。 2.MineSet MineSet是由SGI公司和美国Standford
6、大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet2.6有如下特点: 1、MineSet以先进的可视化显示方法闻名于世。MineSet2.6中使用了6种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。MineSet2.6中的可视化工具有SplatVisualize、ScatterVisualize、MapVisualize、TreeVisualize、RecordViewe
7、r、StatisticsVisualize、ClusterVisualizer,其中RecordViewer是二维表,StatisticsVisualize是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。 2、提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。 3、支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。 4、多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,
8、构造表达式由已有数据项生成新的数据项,对数据采样等。
此文档下载收益归作者所有