欢迎来到天天文库
浏览记录
ID:36642009
大小:1.19 MB
页数:39页
时间:2019-05-13
《MediaV聚合分析实时数据处理MediaV肖波》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、MediaV聚合分析实时数据处理MediaVBusinessIntro肖波xiao_bo@mediav.comhttp://weibo.com/vxiaoboOutline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用聚合分析概览为独立网站的B2C电商企业打造的专业数据统计分析系统。通过分析其网站用户体验、点击流、电商绩效等指标,形成网站商业分析报表,最终实现优化其线上业务表现的目标。产品使命•我们只分析对电商有价值的数据。产品优势•可视化:信息高度图形化,解读数据更容易•准确性:对订单来源进行多渠道归因,更准确
2、•便利性:预置统计代码,一键开通,安装更便利•垂直性:针对电商贴身设计分析模型,更垂直•实时性:分钟级延迟,让商业分析变得更实时服务对象•内测阶段,面向使用商派(shopex)易开店和ECstore系统的中小电商企业。2012年4月起,开始服务独立电商B2C网站。3数据联播4流量产出分析5站内运营分析6Outline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用实时数据业务需求•报表VS实时?–实时运营:用户购买意愿的不可持续性–实时反馈:站内运营活动及时监控与调整–实时监控:流量异常及时报警•实时数据的特点–资
3、源占有度高–计算复杂度高–容错空间小8聚合分析实时业务指标•数据联播–访问数–浏览量–订单数–毛订单额–订单转化率•店铺摄像头–用户在线趋势–店内页面访问者详情9聚合分析实时数据的大数据特征•20K独立网店•单日峰值pv5亿•单日峰值处理~200G日志•单日峰值实时数据增长30G+•大量的写操作,尤其是counter类型•读相对较少10Outline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用RealtimeBigDataDBMemcachedRedisMongoDBHbaseCassandra12古希腊神话的
4、杯具预言家•Digg的Cassandra杯具–工程副总裁JohnQuinn在DiggV4中使用Cassandra取代Mysql,导致上线后网站经常宕机。–Quinn遭遇重大反对,至少遭遇了严重的短期问题,他也因此丢掉了在Digg的工作。–“Cassandra数据库速度更快,但或许它仍然处于实验期,也或者是Digg正在对Cassandra数据库进行测试,总之Cassandra的运行状况并不能令用户满意。”CEOKevinRoseTwitter摘自:http://www.slideshare.net/kevinweil/rainbird-realtime-anal
5、ytics-at-twitter-strata-2011Bestused•KristófKovácsCTO,partnerSYS–http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis•Writemorethanyouread(logging)•OnenaturalnicheisrealtimedataanalysisOutline•聚合分析总体架构•实时数据业务需求•技术框架选型•Cassandra简介•性能测试•实际应用Cassandra概览分布式无中心弹性可扩展高可用与容错可调节的一致性面向行
6、高性能CAP•CAP–Consistency–Availbility–PartitionToleranceCAP理论指出,同时只能具有这三个特性中的两个。Cassandra:AP,最终一致性,拥有跨DataCenter同步的能力数据模型ClusterKeyspace:数据的最外层容器,类似关系型数据库Columnfamily:容纳一组有序行的容器,每行包含一组有序列Column:最基本数据结构单元,名称、值、时钟构成的三元组Supercolumn:value是一个子列的映射(一起查询的内容放一起)五维哈希:[Keyspace][Columnfamily][Ke
7、y][Supercolumn][Column]架构设计P2P:对等结构,可用性和可扩展性Gossip:流言协议用于故障检测(增量),故障节点计入列表Anti-entropy:逆熵,副本同步机制,邻居交换Merkle树比对Memtable、SSTable、Commitlog:数据写入Commitlog则认为写成功,Commitlog可用于数据修复。Hintedhandoff:提示移交,提升弱一致性级别的写性能(ANY)Bloomfilter:判断元素是否存在于集合的超快速、不确定的判断算法,可看做查询的缓存,假阳性结果Tombstone:删除标记,合并SSTab
8、le时清理为什么写快写优化是Cassa
此文档下载收益归作者所有