欢迎来到天天文库
浏览记录
ID:31366567
大小:103.50 KB
页数:4页
时间:2019-01-09
《开源模式:促进大数据发展的主导力量》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、开源模式:促进大数据发展的主导力量 从云计算、大数据、物联网、人工智能等新一代信息技术创新历程可以清晰地看出,开源模式活跃在各个领域,更为重要的是,随着全球各大科技巨头的竞相加入,开源模式正逐渐成为推动大数据等各领域技术创新的主导力量。 开源已成为大数据技术创新的主要模式 大数据源于开源,并基于开源不断演进发展,自身就已具备了开源基因。经过若干年的发展,开源软件和开源工具已经覆盖了大数据产业发展的各个环节,基于开源软件,企业可以快速构建大数据应用平台,提供丰富的大数据开发和应用工具。当前,从小型初创企业到行业科技巨头,各种规模的企业都在使用开源软件和工具做大数据处理和基于
2、数据的预测分析。由此可见,开源不仅驱动着大数据技术的创新演进,也推动着大数据产业的不断进步,对繁荣大数据应用生态起到了不可忽视的作用。 严格来说,大数据并不是一个产业或市场,而是一类问题,或者一种思维。从这些思维和问题中获得价值,需要完整的信息基础设施,并配套以相关的技术和工具,这些共同构成大数据应用的生态。因此,把大数据当作产业来看待,其生态体系的外延是非常广阔的。4 狭义来看,按照应用流程,大数据生态链包括数据采集、数据存储、数据应用和数据可视化等环节;从广义来看,大数据生态链贯穿数据的整个生命周期,包括各种基础设施和软件系统,从数据的产生到采集、传输、分享到存储,再到
3、分析挖掘,直至最终的呈现与应用。从技术的应用范围和重要性可以看出,数据的存储、数据处理、价值挖掘和数据可视化等是大数据产业环节中的重点领域。 开源技术创新引领大数据基础平台演进 对于云计算发展而言,开源基础平台如OpenStack、CloudStack的发展是推动云计算技术创新和行业应用的关键。与之类似,大数据的发展与开源软件的不断创新密切相关,在大数据处理平台这个基础性并处于核心地位的环节,开源技术的创新成为了引领其不断演进的主要动力。 Hadoop是推动大数据应用的基础平台,是基于GFS和Mapreduce的开源实现。尽管在Hadoop之前也有一些类似的分布式存储和计
4、算平台,但真正能实现工业级应用、大幅降低应用门槛、带动各行业大规模部署的无疑当属Hadoop。受益于MapReduce框架的易用性和容错性,以及对先进存储系统和计算系统的集成,Hadoop成为大数据处理平台的主要基石。 在大数据产业发展的初期,Hadoop可满足90%以上的离线存储和离线计算需求,它成为各大公司早期大数据平台的首选。可以说,没有Hadoop就没有今天的大数据产业发展。自Hadoop起,大数据平台几经升级及更替,发展出两主线、多支线的演进态势,但不管是主线亦或是支线,开源都是大数据平台技术创新的主要模式,开源软件始终是大数据基础平台的重要属性。 主线一是Had
5、oop生态,主要组成包括Hadoop、Pig、HBase、ZooKeeper、Hive、Yarn和Impala,主要组件提出于2008年之前,Yarn和Impala分别提出于20114年和2012年。Pig是一种开源编程语言,可加载数据、表达转换数据和存储最终结果,其内置操作可处理半结构化数据;HBase是一个分布式的、面向列的开源数据库,在Hadoop之上提供了类似于Bigtable的能力,是一个适合于非结构化数据存储的数据库;ZooKeeper是一个分布式的开源分布式应用程序协调服务,可提供配置维护、名字服务、分布式同步、组服务等功能;Hive是一个基于Hadoop的数据仓
6、库工具,可以将结构化的数据文件映射为数据库表,并提供简单的SQL查询功能;Yarn是一个全新的MapReduce框架,可为从根本上解决传统MapReduce框架的性能瓶颈,对促进Hadoop框架应用发展发挥重要作用;Impala可以直接为Hadoop数据提供快速,交互式的SQL查询。 主线二是Spark生态,包括Spark、Shark、SparkStreaming、Bagel、GraphX、SparkSQL等,Spark提出于2009年,主要生态组成提出于2011年至2014年。 Spark是开源类Hadoop框架,可将中间输出结果保存在内存中,因此计算速度较Hadoop有
7、几倍到几十倍的提升,在成熟之后得到了迅速普及;Shark可通过Hive的HQL解析将其翻译成Spark上的RDD操作,具有运算速度快、兼容性强等特点;SparkStreaming、Bagel、GraphX、SparkSQL等开源软件均以Spark为基础,从实时计算框架、图计算模型、图模型API、数据查询等方面对原有平台进行了优化或补充。4 除Hadoop、Spark之外,还涌现出了一批支线平台,绝大多数是开源的,主要代表有Hypertable、Cassandra、Dryad、S4、Kalk
此文档下载收益归作者所有