欢迎来到天天文库
浏览记录
ID:21699547
大小:26.84 KB
页数:8页
时间:2018-10-23
《常见的hadoop十大应用误解》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方常见的Hadoop十大应用误解 1. (误解)Hadoop什么都可以做(正解)当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论“这个好像什么都能做”,然而,更深入的去想,你就会发现“好像什么都需要重头做”。对于Hadoop,我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),所
2、以厂商在销售的过程中常需要花很多的时间去告诉客户说,如果今天你有了这个数据库,你就可以做什么什么的应用,而看起来的确好像数据库什么应用都可以做,因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造,我们今天习以为常的ERP、CRM等应用系统,当时并不存在的,那都是后来的事了。今天的Hadoop,正好有点像当年database刚出来的时候,毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据,而这些东西的确都是Hadoop擅长的,所以平台的适用性其实问题不大,重点还是在应用要由谁来搭建。 2. (误解)
3、Hadoop无法扮演HPC(HighPerformanceComputing)orGridComputing的角色----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方(正解)由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC或Grid上面的任务,部分移植到Hadoop
4、集群上面,利用Hadoop兼顾高速运算与海量储存的特性,更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域,都已经有这样的应用案例,利用Hadoop集群与现有的HPC/Grid搭配、协同运作,来满足不同特性的运算任务。 3. (误解)Hadoop只能做资料分析/挖掘(DataMining/Analyst)(正解)Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的,但数据分析与挖掘是难度与深度都较高的一个应用,所需要的时间的积累也比较长,也因此让一般企业对于导入Hadoop视为畏途,甚至心怀恐惧。然而,从Etu
5、知意图团队这一两年来辅导客户的经验来看,我们发现其实更多的应用,大多都在数据处理(DataProcessing)这个部分,或者更精确地来说,Hadoop这个平台,特别适合数据预处理(Datapre-Processing)这种应用场景。无论是数据仓库的负载分流(DWOffload)、数据的汇总(DataAggregation)、甚或是我们运用协同过滤算法(CollaborativeFiltering)针对线下线上零售业所做的精准推荐应用(Recommendation),广义上来看,都可以说是属于DataProcessing的一环,毕竟,BigD
6、ata的来临,我们看data、运用data的角度与方式都必须要有所改变。----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方l BigData强调的不是对因果关系的渴求,取而代之的是关注于data之间的相关关系。l 也就是说,重点在于要知道“是什么”,反而未必需要知道“为什么”。l 所以,它要求的是所有data的处理,而不只是随机样本的分析。l 最后我们往往会发现,处理
7、BigData的简单算法所得到的来自于data呈现的事实,往往比分析smalldata的复杂算法所得到的来自data背后的原因,对企业带来的效益更大。我强烈推荐大家去看BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink这本书,里面把我们面对BigData该有的观点与看法,做了非常清楚的陈述,有简中的的翻译本,繁中的好像还没看到。 4. (误解)Hadoop就是BI(BusinessIntelligence)商业智能(正解)跟前面一样,这也是大多数人最容易误解的地方
8、,因为Hadoop特别适合来做数据分析,所以就很直觉地把它想成“那就是BI嘛”。会有这种误解,主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Da
此文档下载收益归作者所有