欢迎来到天天文库
浏览记录
ID:52459081
大小:697.60 KB
页数:6页
时间:2020-03-27
《基于Hadoop的并行数据分析系统.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第39卷第10期湖南大学学报(自然科学版)Vol.39,No.102012年10月JournalofHunanUniversity(NaturalSciences)Oct.2012文章编号:1674-2974(2012)10-0087-06*PDM:基于Hadoop的并行数据分析系统段松青,吴斌,于乐,王柏(北京邮电大学计算机学院,北京100876)摘要:提出了一款基于Hadoop的并行数据分析系统———PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、
2、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和“多源最短路径”算法的原理和实现,其中,提出的“消息传递模型”能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的“套餐推荐”,利用并行PageRank算法实现的“营销关键点发现”等;最后通过性能测试,说明该系统适合高效地处理大规模数据.关键词:云计算;Hadoop;并行算法;数据挖掘;社会网络分析中图分类号:TP311文献标识码:APDM:A
3、ParallelDataAnalysisSystemBasedonHadoop,WUBin,YULe,WANGBaiDUANSong-qing(SchoolofComputerScience,BeijingUnivofPostsandTelecommunications,Beijing100876,China)Abstract:APDM(ParallelDataMining)systemwasbuiltbasedonHadoop.PDMcontainsalargenumberofparalleldataan
4、alysisalgorithmsbasedonMapReducecomputationalframework.Thesealgo-rithmsnotonlycontaintheclassicalgorithmsofETL,datamining,datastatisticalandtextanalysis,butalsointroduceSNA(socialnetworkanalysis)basedongraphmining.Theprincipleandimplementationoftheparallelm
5、ultiplelinearregressionalgorithmandthemulti-sourceshortestpathalgorithmwerede-scribedandthe“Message-passingmodel”proposedcaneffectivelysolvetheproblemthatMapReduceisdif-ficulttodealwiththeadjacencymatrixstructure.Thispaperalsoillustratessometypicalapplicati
6、onsoftelecommunications,suchasthe“Businessrecommendation”basedonparallelk-meansanddecisiontreealgorithms,the“Marketingkeypointsdiscovery”basedonparallelPageRankalgorithmandthelike.Fi-nally,theresultsofperformancetestshowthattheproposedsystemissuitablefordea
7、lingwithlargescaledataefficiently.Keywords:cloudcomputing;Hadoop;parallelalgorithms;datamining;socialnetworkanalysis信息爆炸式增长,企业迫切需要对海量数据进云计算集网格计算、分布计算、并行计算、效用计算、行及时、准确地处理,以获取潜在的、有价值的信息.网络存储、虚拟化、负载均衡等技术于一体,具有海*收稿日期:20120211基金项目:国家自然科学基金资助项目(90924029,60905025,
8、61074128)作者简介:段松青(1987—),男,湖南郴州人,北京邮电大学博士研究生通讯联系人,E-mail:dsq58629@163.com.88湖南大学学报(自然科学版)2012年量的存储能力和可弹性变化的计算能力,成为解决推出了CaaS;国内,中国移动提出“大云计划”,电信提该问题的有效方式.自Google提出GAE(Google出了“星云计划”,联通开发了“互联云”.AppEngine
此文档下载收益归作者所有