MediaV聚合分析实时数据处理MediaV肖波

MediaV聚合分析实时数据处理MediaV肖波

ID:36642009

大小:1.19 MB

页数:39页

时间:2019-05-13

MediaV聚合分析实时数据处理MediaV肖波_第1页
MediaV聚合分析实时数据处理MediaV肖波_第2页
MediaV聚合分析实时数据处理MediaV肖波_第3页
MediaV聚合分析实时数据处理MediaV肖波_第4页
MediaV聚合分析实时数据处理MediaV肖波_第5页
资源描述:

《MediaV聚合分析实时数据处理MediaV肖波》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、MediaV聚合分析实时数据处理MediaVBusinessIntro肖波xiao_bo@mediav.comhttp://weibo.com/vxiaoboOutline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用聚合分析概览为独立网站的B2C电商企业打造的专业数据统计分析系统。通过分析其网站用户体验、点击流、电商绩效等指标,形成网站商业分析报表,最终实现优化其线上业务表现的目标。产品使命•我们只分析对电商有价值的数据。产品优势•可视化:信息高度图形化,解读数据更容易•准确性:对订单来源进行多渠道归因,更准确

2、•便利性:预置统计代码,一键开通,安装更便利•垂直性:针对电商贴身设计分析模型,更垂直•实时性:分钟级延迟,让商业分析变得更实时服务对象•内测阶段,面向使用商派(shopex)易开店和ECstore系统的中小电商企业。2012年4月起,开始服务独立电商B2C网站。3数据联播4流量产出分析5站内运营分析6Outline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用实时数据业务需求•报表VS实时?–实时运营:用户购买意愿的不可持续性–实时反馈:站内运营活动及时监控与调整–实时监控:流量异常及时报警•实时数据的特点–资

3、源占有度高–计算复杂度高–容错空间小8聚合分析实时业务指标•数据联播–访问数–浏览量–订单数–毛订单额–订单转化率•店铺摄像头–用户在线趋势–店内页面访问者详情9聚合分析实时数据的大数据特征•20K独立网店•单日峰值pv5亿•单日峰值处理~200G日志•单日峰值实时数据增长30G+•大量的写操作,尤其是counter类型•读相对较少10Outline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用RealtimeBigDataDBMemcachedRedisMongoDBHbaseCassandra12古希腊神话的

4、杯具预言家•Digg的Cassandra杯具–工程副总裁JohnQuinn在DiggV4中使用Cassandra取代Mysql,导致上线后网站经常宕机。–Quinn遭遇重大反对,至少遭遇了严重的短期问题,他也因此丢掉了在Digg的工作。–“Cassandra数据库速度更快,但或许它仍然处于实验期,也或者是Digg正在对Cassandra数据库进行测试,总之Cassandra的运行状况并不能令用户满意。”CEOKevinRoseTwitter摘自:http://www.slideshare.net/kevinweil/rainbird-realtime-anal

5、ytics-at-twitter-strata-2011Bestused•KristófKovácsCTO,partnerSYS–http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis•Writemorethanyouread(logging)•OnenaturalnicheisrealtimedataanalysisOutline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用Cassandra概览分布式无中心弹性可扩展高可用与容错可调节的一致性面向行

6、高性能CAP•CAP–Consistency–Availbility–PartitionToleranceCAP理论指出,同时只能具有这三个特性中的两个。Cassandra:AP,最终一致性,拥有跨DataCenter同步的能力数据模型ClusterKeyspace:数据的最外层容器,类似关系型数据库Columnfamily:容纳一组有序行的容器,每行包含一组有序列Column:最基本数据结构单元,名称、值、时钟构成的三元组Supercolumn:value是一个子列的映射(一起查询的内容放一起)五维哈希:[Keyspace][Columnfamily][Ke

7、y][Supercolumn][Column]架构设计P2P:对等结构,可用性和可扩展性Gossip:流言协议用于故障检测(增量),故障节点计入列表Anti-entropy:逆熵,副本同步机制,邻居交换Merkle树比对Memtable、SSTable、Commitlog:数据写入Commitlog则认为写成功,Commitlog可用于数据修复。Hintedhandoff:提示移交,提升弱一致性级别的写性能(ANY)Bloomfilter:判断元素是否存在于集合的超快速、不确定的判断算法,可看做查询的缓存,假阳性结果Tombstone:删除标记,合并SSTab

8、le时清理为什么写快写优化是Cassa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。