欢迎来到天天文库
浏览记录
ID:52546637
大小:16.57 KB
页数:4页
时间:2020-03-28
《大数据的起源.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、大数据的起源我今天给大家讲的主题是大数据,大数据是前几年特别火的一个话题,但是近两年被人工智能取代了。今天,我就跟你聊聊大数据的前生今世,大数据是怎么诞生的、怎么发展的,将来会是什么样。人们通常认为,大数据起源于谷歌的“三驾马车”:谷歌文件系统、MapReduce和BigTable,这三篇论文分别发表于2003年、2004年和2007年。2007年亚马逊也发表了一篇关于Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。为什么因为Google发表了三篇论文,就有了“大数据”的概念呢?原因众说
2、纷纭。我个人的理解是这样的:Google作为互联网泡沫破灭后第一次上市的大型IT公司,它的市值在上市之后飞速增长。原因在于,Google的广告业务做得非常成功,而广告业务成功的很大一部分原因是它用了大数据技术。当时,很多相关的互联网企业因此都认为大数据是改变自己命运的机会,因此纷纷加入大数据圈子,入局的有微软、阿里巴巴、雅虎、Facebook、LinkedIn、Twitter等公司。抱团取暖的Hadoop生态圈2008年的时候,大部分公司围绕在一个叫作Hadoop的项目周围,这个项目最初开始于20
3、06年1月,是“大数据之父”道格·卡丁(DougCutting)把他对谷歌文件系统、MapReduce的实现,从爬虫项目Nutch里独立出来形成的。Hadoop的主要贡献者是雅虎,Facebook、LinkedIn、Twitter等公司也都贡献了一些影响深远的项目。Hadoop系统,在2008年6月就比较稳定了。当时Hadoop并不是很有名,我之所以知道这个事情,是因为我那个时候正在IBM研究院实习,而我实习的组是IBM内部两个最早开始使用Hadoop做研发的组之一。当时我参加了一次Hadoop在
4、硅谷的活动,这个活动上雅虎的Hadoop开发人员非常兴奋,因为他们第一次拿到了全球排序算法的冠军。那个会场设置在雅虎,Facebook、LinkedIn和Twitter的人也都出席了。这些公司除了对Hadoop的贡献以外,雅虎贡献了Pig、Facebook贡献了Hive、LinkedIn贡献了Kafka、Twitter贡献了Storm。今天去看雅虎,你可能觉得雅虎这个公司已经算是倒闭了,一无是处。但是在2008年到2009年的时候,雅虎看起来是非常成功的。雅虎曾经是“互联网第一股”,引领了互联网门
5、户时代的发展。所以那个时候,雅虎自然成了其他互联网初创公司的中心,由它主导大家一起来“造一个轮子”,让这些互联网公司有一套可以和Google的“三驾马车”相媲美的系统。为什么这些公司没有信心单干,自己独立做一套呢?我想主要原因是,这些公司都意识到自己的技术实力和Google相比差距巨大。自己造轮子的微软和阿里巴巴Hadoop以外的系统主要有两个:一个是微软自己研发的Cosmos,中文叫作“宇宙”;另外一个系统是阿里巴巴的ODPS。微软自己研发Cosmos的原因很简单:一方面,微软当时和开源社区关系
6、不好,无法和雅虎一起合作;另一方面,微软当时虽然是“帝国没落”,但仍感觉自己很厉害,有信心凭借一己之力“造轮子”。我当时正在Cosmos组,整个Cosmos的技术架构有很多方面像谷歌。当时我们每个新人入门的时候,组内资深老人总是把谷歌的几篇论文给新人,帮助他们入门。可见微软虽然觉得自己厉害,但是没能改变参考谷歌系统的本质。阿里巴巴在决定做大数据的时候,实际上成立了两个团队:一个是在Hadoop基础上做开源系统,另一个是自研一套叫作ODPS的系统。两边都投入很多人,但是最后ODPS得到了大力支持,H
7、adoop团队衰弱了。一场大论战2008年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据库领域的元老级人物迈克尔·斯通布雷克(MichaelStonebraker)和大卫·德威特(DavidDewitt),另外一方是主导了谷歌技术发展的杰夫·迪恩(JeffDean)。这两群人就谷歌“三驾马车”之一的MapReduce是创新还是倒退,争得不可开交。传统数据库一方以一篇“MapReduce:一个巨大的倒退”(MapReduce:aStepBackward)博文掀起了这场论战。他们认为M
8、apReduce是数据库领域的人早就淘汰了的,不值一提。但是谷歌那批人觉得MapReduce是一个伟大的发明。此次事件影响深远,但是当时双方的观点都太绝对了。在我看来,两方面都有道理,但是两方面谁都没有看到对方正确的地方。业界有些人则看明白了,并经过论证和思考开发了新系统,比如Spark。Hadoop的生意经当一个开源的产品做得越来越好以后,就有人希望从开源产品里面赚钱。在Hadoop开源中赚钱的标志是Cloudera公司的诞生。2009年,几个人有感于现在的Hadoop难用,觉得
此文档下载收益归作者所有