欢迎来到天天文库
浏览记录
ID:32376025
大小:330.03 KB
页数:11页
时间:2019-02-03
《天玑大数据处理引擎关键技术及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第11卷第3期信息技术快报Vol.11No.3InformationTechnologyLetterMay2013天玑大数据处理引擎关键技术及应用查礼程学旗1概述近年来,越来越多的国内外互联网公司和传统企业都已意识到数据资产规模化带来的潜在价值。这些呈爆炸性增长的数据资产的类型以非结构化和半结构化为主,如何低成本且高12效率地存储和处理PB至EB量级的数据成为业界面临的极大挑战。谷歌(Google)公司陆[1]3[2][3]续提出了MapReduce编程框架,GFS文件系统以及BigTable存储系统,从而成为大[4]数据处理技术
2、的开拓者和领导者。而源于这三项技术的ApacheHadoop等开源项目则成为大数据处理技术的事实标准,迅速推广应用于国内外各大互联网企业,成为PB量级大数据处理的成熟技术和系统。天玑大数据处理引擎是构建在Hadoop之上的面向大数据计算(BigDataComputing)的工具集,其中包含了很多天玑团队既有的研究成果。这些研究成果已在互联网公司实际生产系统上经受住考验,如RCFile已应用到Facebook(脸书)公司,CCIndex已应用于淘宝网的“数据魔方”,天玑Base已应用到腾讯“广点通”等。这些关键技术构成了天玑大数据处
3、理引擎的核心竞争力,软件的生态环境也借由开源社区得到良性发展。2大数据处理技术现状2.1谷歌谷歌在搜索引擎上所获得的巨大成功,很大程度上是由于采用了先进的大数据管理和处理技术,是针对搜索引擎所面临的日益膨胀的海量数据存储问题以及在此之上的海量数据处理问题而设计的。针对内部网络数据规模超大的特点,谷歌提出了一整套基于分布式并行集群方式的基础chinaXiv:201703.00229v1架构技术,利用软件的能力来处理集群中经常发生的节点失效问题。谷歌使用的大数据平台包括四个相互独立又紧密结合在一起的系统:谷歌文件系统(GFS),针对谷
4、歌应用程序的特点提出的MapReduce编程模式,分布式的锁机制Chubby以及大规模分布式数据库BigTable。GFS是一个大型的分布式文件系统,它为谷歌云计算提供海量存储,并且与Chubby、MapReduce和BigTable等技术结合得十分紧密,处于系统的底层。它与传统的分布式文件系统有许多相同的目标,例如性能、可伸缩性、可靠性以及可用性。除此之外,它的设计还受到谷歌应用负载和技术环境的影响。相对于传统的分布式文件系统,为了达到成本、可靠性和性能的最佳平衡,GFS从多个方面进行了简化:(1)采用集中式元数据管理;(2)不
5、缓存数据;(3)在用户态下实现;(4)只提供专用接口。另外,GFS将节点失效视为系统的常态,提供了极强的系统容错功能;设置三个数据块副本,以增强数据可靠性;使用了链式写和版本控制的双重保证数据一致性,即数据块的所有在线副本组成一条写更新链,用户进行11510(千万亿)字节21810(百亿亿)字节3GoogleFileSystem,谷歌公司为了存储海量搜索数据而设计的专用文件系统24天玑大数据处理引擎关键技术及应用写操作时,数据链式写入所有副本,当链上的所有副本都完成更新后,写操作才会成功,并更新对应数据块的版本号。MapReduc
6、e是处理海量数据的并行编程模式,用于大规模数据集的并行运算。MapReduce通过“Map(映射)”和“Reduce(化简)”这样两个简单的概念来参加运算。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。这一编程环境能够使程序设计人员编写大规模的并行应用程序时不用考虑集群的可靠性、可扩展性等问题。应用程序编写人员只需要将精力放在应用程序本身,关于集群的处理问题则交由平台来完成。与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,具有简单而强
7、大的接口。正是由于MapReduce具有函数式编程语言和矢量编程语言的共性,使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析等应用。Chubby是提供粗粒度锁服务的一个文件系统,它基于松耦合分布式文件系统,解决了分布的一致性问题。这种锁只是一个建议性的锁而不是强制性的锁。通过使用Chubby的锁服务,用户可以确保数据操作过程中的一致性。GFS使用Chubby来选取一个GFS主服务器,BigTable使用Chubby指定一个主服务器并发现、控制与其相关的子表服务器。大规模分布式数据库BigTable是基于GFS
8、和Chubby开发的分布式存储系统。很多应用程序对于数据的组织是非常有规则的。一般来说,数据库对于处理格式化的数据还是非常方便的。但是由于关系数据库要求很强的一致性,很难将其扩展到很大的规模。为了处理谷歌内部大量的格式化以及半格式化数据,谷歌构建了
此文档下载收益归作者所有