关联规则挖掘的并行化算法研究

关联规则挖掘的并行化算法研究

ID:35045670

大小:6.83 MB

页数:62页

时间:2019-03-17

关联规则挖掘的并行化算法研究_第1页
关联规则挖掘的并行化算法研究_第2页
关联规则挖掘的并行化算法研究_第3页
关联规则挖掘的并行化算法研究_第4页
关联规则挖掘的并行化算法研究_第5页
资源描述:

《关联规则挖掘的并行化算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10286blTST)-)‘八.产P3,分类号11:T.^’;—、一.L?、密级:公巧UDC:0041学号:31536’'".-,分.一1.,‘,雨甲朽麻-W..索魚雄大令舊工程硕±学位论文关联规则挖掘的并行化算法研究学位论文形式:应用研究)研究生姓名:刘鲁勇导师姓名:姜浩李国锋由谱举仿类神I专业硕±学位学化授予单位东南大学2016年S月31日T賴饰诚名称计算轨技术论义答辩日期_2016年__

2、g_祝究方向计算化应用巧术学位授予日期__呂答姑牵员矣丰席徐立揉评阅人何洁月M2016年6月1日乘兩大聲硕±学位论文关联规则挖掘的并行化算法研究专业名称;计貸机巧乂研究生姓名:刘智勇导师姓名;姜浩李国锋1PARALLELIZABLEALGORITHMSRESEARCHOFASSOCIATIONRULESMININGAThesisSubmhted化SoutheastUniversityFor

3、theAcademicDereeofMasterofgEnineeringgBYLIU-ZhionygSuervisedbpyAssociateProfessorJIANGHaoandSen-iorEnineerLIGuofenggSchoolofComputerScienceandEngineeringSoutheastUniversityMay2016东南大学学位论文独彻性声明本人声明所呈交的学位论文是我个

4、人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示了谢意。I尧曰期--.M:研巧生签名:支兹1.0ik^3/东南大学学位论文使用授权唐明东南大学、、中国科学技术信息研巧所国家图书馆有权保留本人所送交学位论文的复印件和电子文档、,可W采用影印缩

5、印或其他复制手段保存论文。本人一致电子文档的内容和纸质论文的内容相。除在保密期巧的保密论文外,允许论文被查阅和借阅,可^公布(包括;^电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的公布(包括W电子信息形式刊登)授权东南大学研巧生院办理。研究生签名.:支,/吗為导师签名:圭俘曰期:《多/摘要摘要随着信息技术的不断发展,各行各业已经积累了大量的数据,为了将送些数据转化为有用的知识,产生了数据挖掘技术。然而,传统的串行化数据挖掘技术在面对海量

6、数据时效率难W让人满意。并行化技术近年来发展迅速,可W有效提升算法效率,是处理。海量数据的利器,因此,使用并行化技术提升数据挖掘算法效率成为时下的研究热点一个重要分支关联规则挖掘技术是数据挖掘的,主要研巧的是事务数据库中有利用价值项之间的关系。频繁项集挖掘是关联规则挖掘中最重要的环节,因此本文中的关联规则挖掘算法其实也是针对如何挖掘频繁模式的频繁模式挖掘算法。关联规则挖掘中的A-riori基本算法主要有多候选产生算法(,抽样等),rowth,p,划分模式增长算法(FPg

7、HMine,FPMax,Close+等)和垂直格式算法(Eclat,CHARM等)。本文旨在将部分关联规则挖掘算法与并行计算技术相结合,介绍若干个关联规则挖掘算法的并斤化方案。本文分别探讨了基于CPU、GPU和分布式环境下的并行关联规则挖掘算法,介绍了相PU-关的并行化技术,并对本文中用到的两个重要技术GCUDA并行计算框架和Maeduce-Spark并行计算框架做了详细介绍pR。一FP-row也g算法是种基于内存的频繁模式挖掘算法。然而,当数据集很大或者支FP-持度阔

8、值太小时,构造基于主存的全局频繁模式树是不现实的。grow也算法扩展化-方案将大数据集切分成小数据集,然后通过在送些小数据集执行FPgrowth算法来解决此问题FP-rowth。本文在分析研巧g算法扩展化方案的基础上,采用并行投影的核也思一想,,介绍了种简单分组算法。在考虑节点间负载均衡的基础上对简单分组算法改进,一介绍了种负载均衡的分組算法。基于上述分狙算法,实现了基于却ark的并行一FP-rowS-FP-gth算法parkgrowth算法,该算法通过分沮算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。