基于hadoop的高效连接查询处理算法chmj

基于hadoop的高效连接查询处理算法chmj

ID:34406153

大小:1.26 MB

页数:11页

时间:2019-03-05

基于hadoop的高效连接查询处理算法chmj_第1页
基于hadoop的高效连接查询处理算法chmj_第2页
基于hadoop的高效连接查询处理算法chmj_第3页
基于hadoop的高效连接查询处理算法chmj_第4页
基于hadoop的高效连接查询处理算法chmj_第5页
资源描述:

《基于hadoop的高效连接查询处理算法chmj》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据软件学报ISSN1000-9825,CODENRUXUEWJournalofSoftware,2012,23(8):2032—2041[doi:10.3724/SEJ.100t.2012,04124】@中国科学院软件研究所版权所有.基于Hadoop的高效连接查询处理算法CHMJ木赵彦荣1,2,3+,王伟平1,一,孟丹1,.,张书彬4,李均41(中国科学院计算技术研究所,北京100190)2(中国科学院国家智能计算机研究开发中心,北京100190)3(中国科学院研究生院,北京100049)4(腾讯公司数据平台部,广东深圳518057)EfficientJoinQ

2、ueryProcessingAlgorithmCHMJBasedonHadoopZHAOYan.Ron91'2,3+,WANGWei.Pin91,一,MENGDanl”,ZHANGShu.Bin4,LIJun4E—mail:jOS@iscas.ac.cnhttp://www.jos.org.cn。Tel/FAx:+86·10-625625631(InstituteofComputingTechnology,TheChineseAcademyofSciences,Beijing100190,China)2(NationalResearchCenterforIntelli

3、gentComputingSystems,TheChineseAcademyofSciences,BeOing100190,China)3(GraduateUniversity,TheChineseAcademyofSciences,Beijing100049,China)4(DataPlatformDepartment,Tencent,Inc.,Shenzhen518057,China)+Correspondingauthor:E-mail:zhaoyanrong@ucic.ac.cnZhaoYR,WangWP,MengD,ZhangSB,LiJ.Efficient

4、JoinqueryprocessingalgorithmCHMJbasedonHadoop.JournalofSoftware,2012,23(8):2032—2041(inChinese).http://www.jos.org.cn/1000—9825/4124.htmAbstract:ThispaperproposesajoinqueryprocessingalgorithmCoLocationHashMapJoin(CHMJ).Firstthestudydesignsamulti-copyconsistencyhashalgorithm.Thealgorithm

5、distributesthedataoftablesovertheclusteraccordingtothehashvaluesofthejoinproperty,whichimprovesthedatalocalitywhileensuredataavailability.Second,basedonthemulti—copyconsistencyhashalgorithm,thestudyproposesaparalleljoinqueryprocessingalgorithmcalledHashMapJoin.HashMapJoinimprovestheeffi

6、ciencyofjoinquerysignificantly.CHMJhasbeenusedinTencent’Sdatawarehousesystem,andplaysanimportantroleinTencent’Sdailyanalysistasks.TheresultsshowthatCHMJimprovestheefficiencyofjoinqueryprocessingbyfivetimescomparingtoHive.Keywords:bigdata;Hadoop;joinqueryprocessing;HashMapJoin摘要:提出了一种并行连

7、接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.关键词:大数据;Hadoop;连接查询理;HashMapJoin中图法分类号:TP311文献标识码:A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。