《对多级并行数据挖掘的研究》

《对多级并行数据挖掘的研究》

ID:37541879

大小:410.98 KB

页数:7页

时间:2019-05-25

《对多级并行数据挖掘的研究》_第1页
《对多级并行数据挖掘的研究》_第2页
《对多级并行数据挖掘的研究》_第3页
《对多级并行数据挖掘的研究》_第4页
《对多级并行数据挖掘的研究》_第5页
资源描述:

《《对多级并行数据挖掘的研究》》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2007年全国高性能计算学术年会对多级并行数据挖掘的研究朱定局1,”,樊建平L2,洪学海11(中国科学院计算技术研究所)2(中国科学院深圳先进技术研究院)3(中国科学院硒驾生院)(dj.zhu@siat.ac.cn摘要本文分析了并行数据挖掘的需求及现状,提出了一种新的并行数据挖掘方式一一多级并行数据挖掘。多级并行数据挖掘技术通过从不同的级别上分解数据挖掘的操作将并行数据挖掘的任务从上而下逐级细化,再通过从不同的级别上从下而上逐级融合汇总挖掘结果。实现多级并行数据挖掘时灵活地运用了HPF、MPI、OPENMP等并行编程语言的优点,进行取长补短.多级

2、并行数据挖掘能够最大程度地提高并行数据挖掘的效率和加速度,从而更好地满足遥感、气象、石油等社会重大领域对提高海量数据挖掘速度与规模的迫切需求。关键词数据挖掘;多级并行;海量数据中图法分类号TP338.6;TP301AStudyofMultilevelParallelLargeDataMiningDingjuZhu1,2,3,JianpingFanl’,XuehaiHon911(InstituteofComputingTechnology,ChineseAcademyofSciences,China)2(ShenzhenInstituteofAdv

3、ancedTechnology,ChineseAcademyofSciences,China)3(GraduateSchooloftheChineseAcademyofSciences,China)AbstractInthispaper,weanalyzedthedemandandthesituationofparalleldatamining,broughtforwardanewparalleldataminingtechnologywhichwecalledmultilevelparallellargedatamining.Inthemult

4、ilevelparallellargedataminingtechnology,thedataminingtasksweredividedthroughdividingthedataminingoperationsindifferentlevelsfromuptodown,andthenthedataminingresultswerefusedindifferentlevelsfromdowntoup.WeusedtheparallelprogramminglanguagesuchasⅧ,F'MPI,OPENMPandSOontorealizet

5、hemultilevelparallellargedatamining.ItenhancedthespeedofparallellargedatamininginthebesttomeetthedemandofmanyimportantdomainssuchasRS,weatherandpetroleumapplications.Keywordsdatamining;multilevelparallel;largedata在遥感、气象、石油等社会重大领域,随着数据的日积月累和更加精细化。这些领域的专家往往需要从海量的数据中挖掘出有用的信息i1.8

6、1,如果用传统串行数据挖掘的方法,需要数分钟,甚至数小时,严重影响了总体工作的进度。从而如何提高海量数据挖掘速度已成为刻不容缓、亟待解决的问题。正是这些需求刺激了并行计算在数据挖掘方面的应用[9.18]。目前并行数据挖掘还不成熟,已有的并行数据挖掘采用的都是单级并行。单级并行有两种方式,一种方式是将要挖掘的数据分成多个数据子集,然后将数据挖掘操作并行地作用于这些数据子集;另一种方式是将挖掘的操作分成多个子操作,然后分别将这些子操作并行地作用于要挖掘的数据。但单级并行数据挖掘过程难以完全并行,因为数据挖掘的操作很复杂,而且这些操作之间可能有上下级的

7、层次关系,在同一个层次上并行很难充分发挥其所有的并行性。而本文介绍的多级并行数据挖掘则可以根据数据挖掘操作的特性来将数据挖掘分级并行,基金项目:国家“八六三”高技术研究发展计划基金重大项目(2006AAOIAll4)深圳市科研项目“基于高性能计算平台的遥感数据并行处理技术研究”(0K200611)深圳市科研项目“遥感监测软件的并行化技术研究”(QK200611)2252O7年全国高性能计算学术年会可以将并行数据挖掘过程中的并行性发挥到极致,能够大大提高并行数据挖掘的效率。另一方面,单级并行数据挖掘中分发挖掘任务的进程很容易负载过重,因为它要负责分

8、发所有的挖掘任务并回收所有的挖掘结果。为了使得该进程不会成为瓶颈,要么减小挖掘的规模,要么在数据规模很大的情况下增大并行的粒度,导致单级

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。