数据挖掘的并行策略研究

数据挖掘的并行策略研究

ID:36753636

大小:251.05 KB

页数:6页

时间:2019-05-14

数据挖掘的并行策略研究_第1页
数据挖掘的并行策略研究_第2页
数据挖掘的并行策略研究_第3页
数据挖掘的并行策略研究_第4页
数据挖掘的并行策略研究_第5页
资源描述:

《数据挖掘的并行策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘的并行策略研究颜雪松蔡之华周燕叶静(中国地质大学信息工程学院,武汉)#""*))+,-./0:1.234%5556!7#$289摘要文章对数据挖掘算法的并行策略进行了分类,分类技术主要集中在分割训练数据以及在每一个阶段的最后从处理器中抽取属性。这种方法在关联规则和决策树中得到了广泛的研究。在策略应用中,以::算法为例进行了说明。在文章的最后,展望了并行数据挖掘的发展方向。关键词数据挖掘关联规则决策树训练数据文章编号%""!,;##%,(!""#)"#,"%;*,"#文献标识码<中图分类号=>#%%$%#!"#"$%&’()*’"+*%$*",-"#

2、.(%/$%$00"0-1-),2$*$3-)-),4$)56"#(),7$-8’-’6$8’(64$)4"9-),(?2@AB-.9/A2+2C/288B/2CD.EF091,GH/2.I2/J8B4/91A@K8A4E/82E84,LFH.2)#""*)):;#*%$&*:=H/4M.M8BE0.44/@/84M.B.0080/N.9/A249B.98C/84@ABO.9.-/2/2C.0CAB/9H-$=H898EH2/PF84A@E0.44/@/E.9/A2.B8EA2E829B.98OA2M.B9/2C9B./2/2CO.9..2O839B.E9

3、/2C9H8.99B/QF98Q89R882MBAE844AB4.99H882OA@8.EHMH.48$=H/4.MMBA.EHH.4Q882839824/J801/2J849/C.98O@AB.44AE/.9/A2BF084.2OO8E/4/A29B884$?29H8.MM0/E.9/A2A@9H849B.98C/84,9H8M.M8B83M0./249H849B.98C1F4/2C::.0CAB/9H-.4.283.-M08$?29H882O,9H8M.M8B-829/A249H89B82OA@9H8M.B.0080/N/2CO.9.-/2/2C$<"

4、=>(%?#::.9.-/2/2C,<44AE/.9/A2BF084,:8E/4/A29B884,=B./2/2CO.9.%引言能减少。或者说,通过增加每个时刻步的算法复杂性来减少整并行数据挖掘技术不同于其它并行算法的地方在于它需体的时间复杂性。适当增加空间复杂性(如引入较复杂的基底,要处理的数据的规模很大。在并行算法中有一点是不可取的,增加空间维数等),是不少并行算法所实际采用的有效方法。并那就是:算法主要是把磁盘和处理器之间以及各个处理器之间行数据挖掘算法的策略通常有#种,如图%所示。的数据规模尽量减少到最小。人们知道,对于并行而言,交互之间的消耗(即

5、内存的使用)是比执行时间(计算阶段)重要得多的因素。数据挖掘算法已经给出了一系列的例子和学习概念(使例子的特征更简单)。并且概念很容易用谓词来表示,在一些事件中,算法的目的是把这些概念嵌入到一个分类器中,决策树就是这样一个例子。而在其它的事件中,算法的目的是自己定义这些概念,因为它们提供了数据的结构。串行数据挖掘算法对于规模很小的数据也需要大量的运行时间,而且可用于分析的数据增长得很快,这样就需要寻找用于数据挖掘的并行图%数据挖掘并行策略的分类算法,目前并行数据挖掘算法已有了充分的研究&%"’%!(,该文就并行数据挖掘的策略进行探讨。!$%朴素并行类型%的

6、技术表示朴素并行,也就是人们通常说的网络并!并行数据挖掘的策略行。网络并行,就是通过高速信息网络充分利用网上的计算机一个算法的复杂性可以表示为空间复杂性和时间复杂性资源,实现大规模数据上的并行计算。在这种并行类型中用于两个方面。并行算法的目标是尽可能减少时间复杂性,但其代计算的时间会减少(由于计算中运用了多个处理器),但是每一价是通过增加空间复杂性(如增加空间的维数及增加处理器的个处理器都要扫描所有的数据,这样就阻碍了算法性能的提台数)来实现的。从算法树的结构来看,通常的串行算法树“深高。因为数据挖掘是面向海量数据库的,这类数据库通常有上而窄”;而并行算法

7、树的结构截然不同。为了达到把时间复杂性百个属性和数百万个记录,如果每一个处理器都要扫描整个数转化为空间复杂性的目的,并行算法树采用“浅而宽”的结构,据库的话,时间消耗和通信开销都非常大。对于这种类型的并即每个时刻可容纳的计算量相应增加,使整个算法的步数尽可行数据挖掘策略的典型例子是关联规则挖掘的朴素并行、决策基金项目:湖北省自然科学基金资助(编号:!""%

8、的并行。在这种并行类型中需要检查数据库中型!是最常用的技术,而且这

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。