欢迎来到天天文库
浏览记录
ID:1883508
大小:29.00 KB
页数:3页
时间:2017-11-13
《数据挖掘应用分类及典型工具》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘应用分类及典型工具 一、根据数据挖掘的应用类型不同,大致可分为以下几类: 1.分类模型 分类(Classification)模型的主要功能是根据商业数据的属性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属性,并找出数据的属性模型,确定哪些数据模型属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。 分类模型应用的实例很多,例如,我们可以将银行网点分为好、一般和较差3种类型,并以此分析这3种类型银行网点的各种属性,特别是位置、盈利情况等属性
2、,找出决定它们分类的关键属性及相互间关系,此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。 2.关联模型 关联(Association)模型主要是描述了一组数据项目的密切度或关系。关系或规则总是用一些最小置信度级别来描述的。置信度级别度量了关联规则的强度。关联模型的一个典型例子是市场菜篮分析(MarketingBasketAnalysis),通过挖掘数据派生关联规则,利用此规则可以了解客户的行为。采用关联模型比较典型的案例是"尿布与啤酒"的故事。在美国,一些年轻
3、的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。 3.顺序模型 顺序(Sequence)模型主要用于分析数据仓库中的某类同时间相关的数据,并发现某一时间段内数据的相关处理模型。顺序模型实例也比较多。例如,客户现在定购一台激光打印机,以后还可能定购打印纸,可能在初始购买时有大量定货,在售后服务请求时定货
4、量较小,在服务请求完成后可能又有大量的定货。因此,我们就可以针对上述情况指定相应的促销或营销方法。 顺序模型可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 4.聚簇模型 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚簇(Clustering)模型。聚簇模型是按照某种相近程度度量方法将用户数据分成互不相同的一些分组。聚簇即是一系列相近数据组成的分组的集合。每一个分组中的数据相近,不同分组之间的数据相差较大。聚簇模型是一个很强大的技术,其核心就是将某些明显的相近程度测量方
5、法转换成定量测试方法。 采用聚簇模型,系统可以根据部分数据发现规律,找出对全体数据的描述。例如,我们可以采用聚簇模型对客户现金流进行分析。当用户收到社会保险支票,或月工资存入账户时,他们会很快交付本月的账务。在这个例子中,收到社会保险支票和月工资存入账户可以看作是月支付账务的聚簇模型中的相近数据。 二、数据挖掘采用的典型方法及工具 针对上述应用类型,数据挖掘领域提出了多种实现方式与算法,并推出了相应的商业化软件及工具。这里仅讨论几种常见的典型的实现方法。 1、神经网络(NeuralNetwork) 神
6、经网络建立在可以自学习的数学模型的基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。 神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。 神经网络系统也存在着如下问题:首先,神经网络对分类模型比较适合。但是,神经网络的隐藏层可以说是一个黑盒子,得出结论的因素并不十分明显。同时其输出结果也没有任何解释,这将影响结果的可信度及可接受程度。其次,神经网
7、络需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。 2.决策树(DecisionTree) 决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,其输出结果也容易理解。 决策树方法精确度比较高,不像神经网络那样不易理解,同时系统也不需要长时间的构造过程,因此比较常用。 然而,采用决策树方法也有其缺点。决策数方法很难基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。 3.联机分析处理(OLAP) 联机分析处理(OnLineAnalyticalProcess
8、ing,OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(OnlineTransactionProcessing,OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险
此文档下载收益归作者所有