欢迎来到天天文库
浏览记录
ID:37001528
大小:410.98 KB
页数:7页
时间:2019-05-10
《(最新)对多级并行数据挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2007年全国高性能计算学术年会对多级并行数据挖掘的研究朱定局1,”,樊建平L2,洪学海11(中国科学院计算技术研究所)2(中国科学院深圳先进技术研究院)3(中国科学院硒驾生院)(dj.zhu@siat.ac.cn摘要本文分析了并行数据挖掘的需求及现状,提出了一种新的并行数据挖掘方式一一多级并行数据挖掘。多级并行数据挖掘技术通过从不同的级别上分解数据挖掘的操作将并行数据挖掘的任务从上而下逐级细化,再通过从不同的级别上从下而上逐级融合汇总挖掘结果。实现多级并行数据挖掘时灵活地运用了HPF、MPI、OPENMP等并行编程语言的优点,进行取长补短.多级并行数据挖掘能够最大程度地提高并行数据挖掘的效率
2、和加速度,从而更好地满足遥感、气象、石油等社会重大领域对提高海量数据挖掘速度与规模的迫切需求。关键词数据挖掘;多级并行;海量数据中图法分类号TP338.6;TP301AStudyofMultilevelParallelLargeDataMiningDingjuZhu1,2,3,JianpingFanl’,XuehaiHon911(InstituteofComputingTechnology,ChineseAcademyofSciences,China)2(ShenzhenInstituteofAdvancedTechnology,ChineseAcademyofSciences,China)3
3、(GraduateSchooloftheChineseAcademyofSciences,China)AbstractInthispaper,weanalyzedthedemandandthesituationofparalleldatamining,broughtforwardanewparalleldataminingtechnologywhichwecalledmultilevelparallellargedatamining.Inthemultilevelparallellargedataminingtechnology,thedataminingtasksweredividedthr
4、oughdividingthedataminingoperationsindifferentlevelsfromuptodown,andthenthedataminingresultswerefusedindifferentlevelsfromdowntoup.WeusedtheparallelprogramminglanguagesuchasⅧ,F'MPI,OPENMPandSOontorealizethemultilevelparallellargedatamining.Itenhancedthespeedofparallellargedatamininginthebesttomeetth
5、edemandofmanyimportantdomainssuchasRS,weatherandpetroleumapplications.Keywordsdatamining;multilevelparallel;largedata在遥感、气象、石油等社会重大领域,随着数据的日积月累和更加精细化。这些领域的专家往往需要从海量的数据中挖掘出有用的信息i1.81,如果用传统串行数据挖掘的方法,需要数分钟,甚至数小时,严重影响了总体工作的进度。从而如何提高海量数据挖掘速度已成为刻不容缓、亟待解决的问题。正是这些需求刺激了并行计算在数据挖掘方面的应用[9.18]。目前并行数据挖掘还不成熟,已有的并行
6、数据挖掘采用的都是单级并行。单级并行有两种方式,一种方式是将要挖掘的数据分成多个数据子集,然后将数据挖掘操作并行地作用于这些数据子集;另一种方式是将挖掘的操作分成多个子操作,然后分别将这些子操作并行地作用于要挖掘的数据。但单级并行数据挖掘过程难以完全并行,因为数据挖掘的操作很复杂,而且这些操作之间可能有上下级的层次关系,在同一个层次上并行很难充分发挥其所有的并行性。而本文介绍的多级并行数据挖掘则可以根据数据挖掘操作的特性来将数据挖掘分级并行,基金项目:国家“八六三”高技术研究发展计划基金重大项目(2006AAOIAll4)深圳市科研项目“基于高性能计算平台的遥感数据并行处理技术研究”(0K20
7、0611)深圳市科研项目“遥感监测软件的并行化技术研究”(QK200611)2252O7年全国高性能计算学术年会可以将并行数据挖掘过程中的并行性发挥到极致,能够大大提高并行数据挖掘的效率。另一方面,单级并行数据挖掘中分发挖掘任务的进程很容易负载过重,因为它要负责分发所有的挖掘任务并回收所有的挖掘结果。为了使得该进程不会成为瓶颈,要么减小挖掘的规模,要么在数据规模很大的情况下增大并行的粒度,导致单级
此文档下载收益归作者所有