大数据,商业智能的挑战

大数据,商业智能的挑战

ID:15687413

大小:20.42 MB

页数:32页

时间:2018-08-04

大数据,商业智能的挑战_第1页
大数据,商业智能的挑战_第2页
大数据,商业智能的挑战_第3页
大数据,商业智能的挑战_第4页
大数据,商业智能的挑战_第5页
资源描述:

《大数据,商业智能的挑战》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据,商业智能的挑战搬运大数据的亨利2013.4.201目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考2大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)3大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法4开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2003年起发布一系列论文:1.《

2、TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代5开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户6开源大数据生态圈HadoopMapReduce不适合实

3、时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动7开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2010年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2006年.平静再次被打破8开源大数据生态圈中期:开源Ca

4、ution!在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.9开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGoogle'sAdBusiness》2.《Spanner:Google'sGlobally-DistributedDatabas

5、e》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:NoTimetoSupportSQL10开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...11开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2003年,谷歌点燃了大数据战火2.2010年,谷歌又给大数据放了一把火3.2012年,谷歌再给大数据放了第三把火12开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?13

6、商用大数据生态圈一体机数据库/数据仓库:国外IBMPureData(Netezza),OracleExadata,SAPHana等等国内Scale-out数据仓库:国外TeradataAsterData,EMCGreenPlum,HPVertica等等国内GBase等等Scale-up数据集市:国外QlikView、Tableau等等国内Scale-out数据集市:国外StyleIntelligence等等国内YonghongDataMart等等14开源前端生态圈开源:统计分析和数据挖掘R,RHadoop,Mahout等等展现分析JasperSoft,Pentaho,Open

7、i,Birt等等15商用前端生态圈统计分析和数据挖掘:国外SAS,SPSS等等国内展现分析:Cognos,BO,Microsoft,Oracle,Microstrategy等等国外QlikView,Tableau,Spotfire,StyleIntelligence等等国内SmartBI,YonghongZ-Suite,CellSoft等等16大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算17大数据BI系统的底层技术分布式计算1.OfflineMPP

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。