欢迎来到天天文库
浏览记录
ID:43204813
大小:2.10 MB
页数:20页
时间:2019-10-02
《用户行为分析大数据平台的选型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、用户行为分析大数据平台的选型使用AVRO序列化数据Hadoop的子项目基于二进制传输高性能中间件支持数据密集型应用依赖模式实现数据结构定义支持二进制编码和JSON编码支持压缩功能支持数据排序功能序列化时速度快且结果内容少AVRO特点使用Parquet列式存储Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月升级为Apache顶级项目。Parquet列式存储特点可以跳过不符合条件的数据,只读取需要的数据,降低I/O吞吐量压缩编码可以降低磁盘存储空间支持向量运算,能够获取更好的扫描性能查询性能提升30倍,
2、存储空间节约75%列式存储VS行式存储传统的RDBMS提供ACID原子操作和事务,在大多数列式存储数据库上是不具备的,而大多数列式存储数据库对分布式架构支持的更好。需要了解的是列式存储以及行式存储在查询和存储上的本质,在技术选型上可以多点筹码。使用ApacheSqoopETL转换工具RDBMS<=>HDFS对某些NoSQL数据库亦提供支持使用ApacheKafkaKafka是一种高吞吐量分布式发布订阅消息系统,它可以处理消费级规模网站中的所有动作流数据。实时数据流(real-timedatastreaming)水平可扩展(horizontallyscal
3、able)容错机制(faulttolerance)支持分区(partition)出奇的快(wickedfast)Kafka特点使用ApacheSpark高性能,执行速度100倍于Hadoop支持Java、Scala、Python、R语言支持SQL、机器学习、图运算、流支持Hadoop、CAssandra、HBase支持独立部署运行LOREMIPSUMSpark基于这样的理念:当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更有效率。每个节点存储它的数据集,然后任务被提交给节点。使用DruidDruid是一个面向列式存储的高性能分布式数据仓库。
4、高速聚合,亚秒级OLAP查询流数据注入,实时多维度查询集群动态扩展,PB级数据量,每秒百万级事件注入低成本部署,与现有数据系统无缝集成Druid特点使用Impala进行离线查询Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。中间结果放在内存中,节约大量I/O开销省掉了MapReduce作业启动的开销采用数据仓库MPP设计思想C++实现,做了很多有针对性的硬件优化支持Datalocality的I/O调度机制Impala的特点Hive是基于Hadoop的一个数据仓库工
5、具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。HIVE特点支持索引,加快数据查询不同的存储类型将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。可以直接使用存储在Hadoop文件系统中的数据。支持UDF函数来完成内置函数无法实现的操作。类SQL的查询方式,将SQL查询转换为MapReduce的job在Hadoop集群上执行。Hadoop分布式文件系统(HDFS)被设计成适合运行在廉价硬件上的分布式文件系统。HDFS在最开始是作为ApacheNutch搜索
6、引擎项目的基础架构而开发的,目前是ApacheHadoopCore项目的一部分。高容错性(fault-tolerant)形式访问(streamingaccess)支持千万级别文件(tensofmillions)异构平台可移植性(heteronportablity)HDFS特点典型大数据平台架构
此文档下载收益归作者所有