资源描述:
《大数据,商业智能的挑战》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据,商业智能的挑战搬运大数据的亨利2013.4.201目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考2大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)3大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法4开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2003年起发布一系列论文:1.《
2、TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代5开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户6开源大数据生态圈HadoopMapReduce不适合实
3、时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动7开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2010年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2006年.平静再次被打破8开源大数据生态圈中期:开源Ca
4、ution!在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.9开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGoogle'sAdBusiness》2.《Spanner:Google'sGlobally-DistributedDatabas
5、e》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:NoTimetoSupportSQL10开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...11开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2003年,谷歌点燃了大数据战火2.2010年,谷歌又给大数据放了一把火3.2012年,谷歌再给大数据放了第三把火12开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?13
6、商用大数据生态圈一体机数据库/数据仓库:国外IBMPureData(Netezza),OracleExadata,SAPHana等等国内Scale-out数据仓库:国外TeradataAsterData,EMCGreenPlum,HPVertica等等国内GBase等等Scale-up数据集市:国外QlikView、Tableau等等国内Scale-out数据集市:国外StyleIntelligence等等国内YonghongDataMart等等14开源前端生态圈开源:统计分析和数据挖掘R,RHadoop,Mahout等等展现分析JasperSoft,Pentaho,Open
7、i,Birt等等15商用前端生态圈统计分析和数据挖掘:国外SAS,SPSS等等国内展现分析:Cognos,BO,Microsoft,Oracle,Microstrategy等等国外QlikView,Tableau,Spotfire,StyleIntelligence等等国内SmartBI,YonghongZ-Suite,CellSoft等等16大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算17大数据BI系统的底层技术分布式计算1.OfflineMPP