基于Hadoop的并行数据分析系统.pdf

基于Hadoop的并行数据分析系统.pdf

ID:52459081

大小:697.60 KB

页数:6页

时间:2020-03-27

基于Hadoop的并行数据分析系统.pdf_第1页
基于Hadoop的并行数据分析系统.pdf_第2页
基于Hadoop的并行数据分析系统.pdf_第3页
基于Hadoop的并行数据分析系统.pdf_第4页
基于Hadoop的并行数据分析系统.pdf_第5页
资源描述:

《基于Hadoop的并行数据分析系统.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第39卷第10期湖南大学学报(自然科学版)Vol.39,No.102012年10月JournalofHunanUniversity(NaturalSciences)Oct.2012文章编号:1674-2974(2012)10-0087-06*PDM:基于Hadoop的并行数据分析系统段松青,吴斌,于乐,王柏(北京邮电大学计算机学院,北京100876)摘要:提出了一款基于Hadoop的并行数据分析系统———PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、

2、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和“多源最短路径”算法的原理和实现,其中,提出的“消息传递模型”能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的“套餐推荐”,利用并行PageRank算法实现的“营销关键点发现”等;最后通过性能测试,说明该系统适合高效地处理大规模数据.关键词:云计算;Hadoop;并行算法;数据挖掘;社会网络分析中图分类号:TP311文献标识码:APDM:A

3、ParallelDataAnalysisSystemBasedonHadoop,WUBin,YULe,WANGBaiDUANSong-qing(SchoolofComputerScience,BeijingUnivofPostsandTelecommunications,Beijing100876,China)Abstract:APDM(ParallelDataMining)systemwasbuiltbasedonHadoop.PDMcontainsalargenumberofparalleldataan

4、alysisalgorithmsbasedonMapReducecomputationalframework.Thesealgo-rithmsnotonlycontaintheclassicalgorithmsofETL,datamining,datastatisticalandtextanalysis,butalsointroduceSNA(socialnetworkanalysis)basedongraphmining.Theprincipleandimplementationoftheparallelm

5、ultiplelinearregressionalgorithmandthemulti-sourceshortestpathalgorithmwerede-scribedandthe“Message-passingmodel”proposedcaneffectivelysolvetheproblemthatMapReduceisdif-ficulttodealwiththeadjacencymatrixstructure.Thispaperalsoillustratessometypicalapplicati

6、onsoftelecommunications,suchasthe“Businessrecommendation”basedonparallelk-meansanddecisiontreealgorithms,the“Marketingkeypointsdiscovery”basedonparallelPageRankalgorithmandthelike.Fi-nally,theresultsofperformancetestshowthattheproposedsystemissuitablefordea

7、lingwithlargescaledataefficiently.Keywords:cloudcomputing;Hadoop;parallelalgorithms;datamining;socialnetworkanalysis信息爆炸式增长,企业迫切需要对海量数据进云计算集网格计算、分布计算、并行计算、效用计算、行及时、准确地处理,以获取潜在的、有价值的信息.网络存储、虚拟化、负载均衡等技术于一体,具有海*收稿日期:20120211基金项目:国家自然科学基金资助项目(90924029,60905025,

8、61074128)作者简介:段松青(1987—),男,湖南郴州人,北京邮电大学博士研究生通讯联系人,E-mail:dsq58629@163.com.88湖南大学学报(自然科学版)2012年量的存储能力和可弹性变化的计算能力,成为解决推出了CaaS;国内,中国移动提出“大云计划”,电信提该问题的有效方式.自Google提出GAE(Google出了“星云计划”,联通开发了“互联云”.AppEngine

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。