移动大数据分析-2013数据库技术大会

移动大数据分析-2013数据库技术大会

ID:15575378

大小:1.67 MB

页数:36页

时间:2018-08-04

移动大数据分析-2013数据库技术大会_第1页
移动大数据分析-2013数据库技术大会_第2页
移动大数据分析-2013数据库技术大会_第3页
移动大数据分析-2013数据库技术大会_第4页
移动大数据分析-2013数据库技术大会_第5页
资源描述:

《移动大数据分析-2013数据库技术大会》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据分析在移动互联网的应用陈继东首席数据科学家人人游戏大数据研究中心2013.04邮件:chenjd@gmail.com微博:@大数据皮东主要内容•大数据分析概述–大数据整体框架–大数据关键技术和工具•移动大数据分析 –移动大数据应用需求–移动大数据特点和挑战•案例分析–移动广告分析–移动应用分析数据管理发展趋势 数据库时代大数据时代1.CRUDtoCRAPCreateCreateAppAppAppAppAppAppAppAppReadReplicateUpdateAppendDeleteProcess2.

2、ToobigforRDBMSsTXNOPSDWACIDTransactionalDataCloudData3.EnormousunstructuredinformationTransformbigdataintoactionableIntelligence大数据整体框架Presentation,collaborationandworkflow分析工具和服务BIandDataMiningDataProcessingDataAccess&MetaManagerEngineQuery软件平台Scale-outDat

3、aStorage(ContentRepository,FileSystem)StorageandNetworkComputeBackup基础架构CloudInfrastructure(Virtualized,Scale-out,Secure)横向扩展和虚拟化存储、网络和服务器大数据关键技术和工具 •数据收集–非结构化数据:Chukwa,Flume,FacebookScribe–结构化数据:Sqoop,Hiho•数据存储–分布式文件系统:HadoopHDFS–大规模并行数据库:Greenplum,Vertica

4、,…–NoSQL:Hbase,MongoDB,Neo4j–主内存数据库:Redis,VMwareGemfire,SAPHANA•数据处理(编程模型)–MapReduce:HadoopMapReduce–大规模并行数据库–BSP:ApacheHama–流式计算:TwitterStorm,YahooS4–主内存计算:Spark,Shark,Scuba大数据关键技术和工具 •数据存取–SQL:Hive–DataFlow:Pig–JAQL•数据序列化–GoogleProtocolBuffer,Avro,Faceboo

5、kThrift•元数据管理和工作流–协作:Zookeeper–工作流:Oozie,Cascading•监控与管理–集成:IronfanontopofChef,AmazonEMR–监控管理:HUE,Cacti,Ganglia,Karmasphere大数据关键技术和工具 •关键技术–大规模并行数据库–NoSQL/NewSQL–并行处理引擎(HadoopMapReduce)–流式计算(Storm,Spark)–并行数据挖掘和机器学习–分布式存储/文件系统–云计算基础架构MapReducevs并行数据库•应用于不同的

6、场景,互为补充特征 并行数据库 MapReduce模式支持(scheme)有 无 索引 有无 编程模型 DeclarativeImperative声明性(SQL)(C/C++,Java,…)可以通过Hive和Pig扩展 查询优化 有 无灵活性 无 有容错 粗粒度 细粒度可扩展性 上百个节点 上千个节点MapReducevs并行数据库•当前并行数据库的问题–扩展性:需要扩展到上千台节点–容错性:需要改进容错,更细粒度,更高效率–灵活性:需要Schemefree的处理,更好适应非结构化数据–成本:更多开源实现和外

7、围开源工具•MapReduce类方案的问题(Hive)–性能:当前为次优的实现,增加索引和查询优化–实时处理能力:实时加载,实时复杂查询能力–标准的SQL接口:应用迁移,与DW透明访问–更丰富的外围工具:OLAP工具,自助分析工具NoSQLvsSQL•NoSQL–高可扩展性和弹性,灵活数据模型,强容错,高可用性(牺牲ACID,单记录事务和最终一致性)–适用于海量数据定制化存储,高吞吐查询(如全属性选择应用)•SQL–强大的语义表达及关系表达,查询处理和优化,ACID,强一致性–扩展性和灵活性差,用于高性能查询

8、和复杂分析SparkvsHadoopMapReduce•并行流计算框架Spark–快速流处理,类似MapReduce的并行计算引擎•与Hadoop的存储API兼容(HDFS,S3,SequenceFile)•比HadoopMapReduce快100倍,即使对于磁盘数据也要快2-10倍–高性能的主内存抽象,通用的执行图,支持快速迭代类查询•Spark的In-memoryRDDcaching,将数据缓存

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。