主流大数据处理开源架构的分析及对比评测.pdf

ID：50231945

大小：2.11 MB

页数：7页

时间：2020-03-05

资源描述：

《主流大数据处理开源架构的分析及对比评测.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、万方数据主流大数据处理开源架构的分析及对比评测方艾，徐雄，梁冰，张玉忠，杨翊平(中国电信股份有限公司广州研究院广州510630)摘要：结合电信增值业务领域中对大数据处理的实际需求，对现有主流的分布式大数据处理架构(Hive、Impala、Spark)的核心进行分析与实测，比较它们在大数据处理过程中的优劣及适用的场景，从而为大数据分析所面临的架构适用性选型提供参考。关键词：大数据；Hive；MapReduce；Impala；Sparkdoi：lO．11959巧．issn．1000—0801．2015174C

2、omparisonofopen—SourceDistributedComputingFrameworkforBigDataFangAi，XuXiong，LiangBing，ZhangYuzhong，YangYiping(GuangzhouResearchInstituteofChinaTelecomCo．，Ltd．，Guangzhou510630，China)Abstract：Acomparisonofthreeopensourcedistributedcomputingframeworksforbigd

3、ata(Hive，ImpalaandSpark)wasconducted．Testsweremntoevaluatetheperfomanceaimingatrealbusinessdemands．Thecostofimplementationtomeetbusinessrequirementswasalsodiscussed．Keywords：bigdata，Hive，MapReduce，Impala，Spark1引言分布式并行计算是当前对大数据处理分析的主要方式，基于Google提出的分布式文件系统G

4、FS(Googlefilesystem)和M印Reduce算法，Hadoop开源实现了一个通用的计算框架⋯，通过Hadoop，各种计算需求可分解成一系列MapReduce过程，Hadoop框架具有通用、灵活方便、扩展性好、吞吐量大等优点。Had00p的M印Reduce发展到2．0版本，进一步优化了资源调度与利用，加强了容错性、可用性等。Hive等工具正是利用这一框架，将SOL类型的查询与计算转化为M叩Reduce过程，实现了对海量数据的处理。收稿日期：2014—12一12；修回日期：2015一07一08M

5、apReduce是一个批处理的过程，难以满足查询的实时性和交互性。为了应对实时要求高的计算，一些工具避开了M印Reduce过程，如Impala【2l，更适合于实时的交互式查询，给数据分析人员提供了快速实验、验证想法的大数据分析工具。为了实现高效率的计算，Spa烈3】采用了基于有向图(DAG)的计算框架。将计算任务分解成为可同时进行的任务。使用RDD(弹性分布数据集)数据模型，将中间数据放进内存并可共享，避免频繁的磁盘读写以提高处理速度。同样作为一个通用性的计算框架，Spark具有高容错、高性能等优点，特别

6、适合社交网络分析、机器学习、流处理等。论文引用格式：方艾，徐雄，粱冰等．主流大数据处理开源架构的分析及对比评测．电信科学．2015174FangA，XuX，LiangB，e￡d．Compadsonofopen—sourcedistributedcomputingframeworkforbigdata．TelecommunicationsScience，20151742015174—1皇堡壁堂兰璺堂簟●一万方数据在电信的大数据分析处理的实际需求中，考虑集群配置(包括内存、CPU、网络环境等)限制条件，这3类

7、处理框架的实际性能表现如何，各自适用于什么样的应用场景?需通过实际业务驱动的方式验证。本文以实际运营中产生的电信产品日志处理及分析为基础，紧贴实际业务需求设计案例进行测试对比，对不同场景下不同框架的吞吐量、响应时间、资源消耗等情况进行综合评价，为不同架构的适用性分析和技术选型提供参考。2核心环节对比2．1MapReduCeMapRedcue的基本原理是将任务分解成适合并行执行的m印．shume．reduce(映射一整理一归纳)过程，分布在不同机器上运行。如图1所示，mapper将输入数据映射为成对的(ke

8、y，value)格式，对key和value进行操作(计数、累加、去重等)，产生中间数据，经过重新排列组合，相同的kev被发送(shume)到同一个reducer，进行汇总，最后输出结果。由此可见，MapReduce是一个批处理过程，上一个环节结束后才能执行下一个，如果一个子任务的中间环节出错，则这个任务需重新开始。复杂的任务需要被分解为更多的MapReduce过程，因此导致了高时延，加上shume时需将数据写入文件系统，硬盘读

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

主流大数据处理开源架构的分析及对比评测.pdf

主流大数据处理开源架构的分析及对比评测.pdf

相关文章

相关标签