电商行业数据运营建设实践-王庆恒

电商行业数据运营建设实践-王庆恒

ID:37375239

大小:941.80 KB

页数:26页

时间:2019-05-22

电商行业数据运营建设实践-王庆恒_第1页
电商行业数据运营建设实践-王庆恒_第2页
电商行业数据运营建设实践-王庆恒_第3页
电商行业数据运营建设实践-王庆恒_第4页
电商行业数据运营建设实践-王庆恒_第5页
资源描述:

《电商行业数据运营建设实践-王庆恒》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、电商行业数据运营建设实践兰亭集势王庆恒提纲•一、对BI的思考•二、兰亭数据平台建设•三、大数据的高性能实现•四、高效的数据挖掘•五、BI的发展趋势一、对BI的思考_定义BI组成BI功能BI目的•DW•信息搜集•知识•OLAP•管理(Knowledge)•DM•分析•洞察力•查询报表•处理(Insight)•数据挖掘•辅助做出决策一、对BI的思考_数据采购渠道客服仓储回访注册系统数据用户数据销退订单下单浏览物流沟通一、对BI的思考_协作管理者物流/仓销售储BI客服财务运营/设计/推广一、对BI的思考_问题响应较慢•开发速率跟不上互联网变化的节奏;•需求变化,又得根据流程重新开发;灵活度不够

2、•不能进行数据交互、自由组合;•不能二次分析;无法支持大数据量•TB,PB级数据无法响应一、对BI的思考_解决思路快速响应•快速响应:实时数据仓库和准实时数据仓库;•需求变化:最快响应;灵活多变•人与系统交互、维度自由组合;•多样的展现方式基于云计算的大数据响应•海量数据处理:海量业务数据在线分析、云端部署二、兰亭数据平台建设_架构应用层Web数据产品API/JDBCRPC统数据服务层一报表系统:调线上服务:Mysql查询分析:Hive/Oracle主从度/Redis集群/HBase数据仓库/Kibana/Redshift、监控实时计算:、数据计算层海量数据/离线计算:Kafka分布式消

3、息系统权EMR/Hive/Spark数据挖掘/Streaming流式计算限控制文件数MysqlOracle日志源数据层据二、兰亭数据平台建设1、数据•模型分层:ODS,DW,DM,RPT•范围:流量、销售、运营三大数据模型及数据集市•推荐:个性化推荐数据、商品推荐数据•排序:根据能效值排序的数据2、架构•调度:基于Quartz开发的调度系统;•监控:判断程序执行返回状态,记录到日志表中,发送短信和邮件报警;•权限控制:数据仓库访问权限,申请、审批和授权;•线上支持:MySQL,HBase通过API接口支持线上服务二、兰亭数据平台建设2、架构•数据收集:DataExp,shell脚本,Ka

4、fka分布式消息系统,快速低成本收集日志等;•抽取与转换:存储和计算基于EMR/Hive/Spark/Oracle•存储:Oracle数据仓库存储量级较小的数据,Redshift存储量级大的数据•云存储:AmazonS3•Redis集群:支持实时推荐等3、应用•日常查询:临时查询;•报表服务:报表以web展示,或者邮件形式发送给用户;•自助服务:支持用户自定义查询,并保存为报表;•网站运营效果评估:响应时间、各指标用户数等;•流量分析:流量、点击率、转化率、跳出率等•推荐系统•搜索引擎二、兰亭数据平台建设•统一调度系统:架构ServerMysqlClientAgentClientAgen

5、tClientAgentClientAgentAWSEC2OracleHadoop其它二、兰亭数据平台建设•调度系统:运维、管理、监控、依赖二、兰亭数据平台建设•报表系统:维度分析、动态展现、权限二、兰亭数据平台建设计算与存储:EMR+Hive元数据EMR+HiveRDSMySQLOracleAmazonDataExpS3RedshiftMysql二、兰亭数据平台建设•应用CRM、其它系前端系统搜索引擎统RESTfulAPIWebService推荐服务商品排序运营数据三、大数据的高性能实现•1、Oracle读写分离–一拖二–主库写,从库实时复制–多从库用于查询、统计–硬件加速:SSD盘

6、加速三、大数据的高性能实现•2、Redshift–AmazonRedshift是一种快速、完全托管的PB级数据仓库解决方案;–列式存储;–数据压缩;–区域映射;–MPP并行处理框架:在不停机的情况下实现扩展或收缩;三、大数据的高性能实现•3、Logstash、ElasticSearch、Kibana–Logstash:日志进行收集、分析、过滤,并将其存储供以后使用;–ElasticSearch:全文搜索服务–Kibana:自定义搜索接口,页面展示四、高效的数据挖掘1、Hadoop在数据挖掘中的问题•MP模式vs复杂的机器学习算法•多次迭代问题•中间数据的处理•开发周期长四、高效的数据挖掘

7、2、SparkRDD(ResilientDistributedDataset)内存计算:计算的中间结果保存在内存中,不需要读写HDFS;快速迭代;DAGScala函数式编程(FP);Actor模型:基于线程和基于事件的Actor;并发能力;四、高效的数据挖掘•3、Spark架构SharkStreamingMllibGraphxSparkMRRDDFP本地模式独立模式EC2MesosYarnHDFSAmazonS3HB

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。