中国数据资产管理峰会-唯品会大数据.ppt

中国数据资产管理峰会-唯品会大数据.ppt

ID:50612312

大小:1.91 MB

页数:37页

时间:2020-03-12

中国数据资产管理峰会-唯品会大数据.ppt_第1页
中国数据资产管理峰会-唯品会大数据.ppt_第2页
中国数据资产管理峰会-唯品会大数据.ppt_第3页
中国数据资产管理峰会-唯品会大数据.ppt_第4页
中国数据资产管理峰会-唯品会大数据.ppt_第5页
资源描述:

《中国数据资产管理峰会-唯品会大数据.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、唯品会大数据实践CONTENT目录关于唯品会01数据平台建设02大数据应用建设03一些想法04数据平台实践离线计算分析平台演化实时计算平台演化一些技术选型和经验数据应用实践系统开发和运营业务和产品运营恶意用户识别/风控系统商品品牌推荐个性化排序

2、产品

3、系统

4、算法数据仪表盘、数据魔方、比价系统、地图服务等精准推荐基础算法库选品、分仓与预调拨数据实时接入离线计算平台实时计算平台VRC资源管理平台运维监控测试

5、数据细分人群用户Lookalike唯品会用户画像唯品会大数据VIPBigData整体规划平台服务数据服务数坊分析师平台对外服务VRC开发者平台画像计算VRESqoop/VDP/Flume/K

6、afkaJob调度/Yarn调度运维监控测试数据产品HIVEPrestoSPARKRHbaseDruidHDFSRedisClusterVRE实时算法预测MLLib实时训练分析统计任务GPStorm自助报表平台应用产品服务接入计算存储调度系统-大数据基础平台规划自助取数平台数据平台的建设离线计算分析平台选建设混合平台:Hadoop+Greenplum迁移策略和计划dailyjob,hourlyjob,minjob扩容,扩容,扩容离线和实时的混合开放平台实时计算平台的建设Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge稳定性挑战开放平台

7、碰到的问题离线平台的演化-12012年底:CDC调度+GP10节点系统稳定2013Q1:CDC调度+ETLGp+QueryGp,Tuning2013Q2:自有调度平台开发+自有抽取系统+Hadoop流量开始迁移+GP交易数据+QueryGP2013Q3:自有调度平台+抽取迁移Hadoop流量迁移结束(70),交易数据迁移开始GP交易数据+QueryGP核心数据小时级ETL2013Q4元数据管理系统,数据质量工具ETLGp完整迁移开始QueryGP扩容40节点2014Q1全部ETL@Hadoop~200nodescluster+40Ad-HocEDWHybridnodeconfiguratio

8、n离线混合平台-2Referene:Netflex,LinkedIn,eBayGreenPlum+Hadoop保护现有投资Hadoop海量数据分析ETL复杂计算权限打通Greenplum:GP擅长adhocquery速度快,分析师适应不足够scalable长期成本HadoopMassivescalable,但是单个查询慢海量ETL计算Web查询离线开放平台-3开放平台自助ETL开发自助报表开发和展现自助取数分析成本breakdown,changeback性能,实时,扩展性,成本PrestoDruid实时计算系统架构采集推荐建模打点日志binlog消息数据实时增量抽取计算模型训练效果反馈Ren

9、der&RouterLayerCandidateScanLayerCalculateLayerVRC模型训练平台Flume/VDP/VMSVRE应用开发:任务配置可视化编程EsperEPL平台组件:输入组件输出组件UDFVRCPortal:任务发布日志查看监控告警RuleLayerHbasevsRedis背景:个性化userprofile,highQPS,verytimesensitive用户信用体系userprofile,lowQPS,non-critical用户实时浏览,订单历史,hightps,highqps都是海量数据看上去Hbase更加合适,但是不放心选择:Critical的Red

10、isNon-critical的Hbase积累经验,逐渐往Hbasedualwrite其实Hbase也不便宜,就是scale不动系统Redis某种程度上也可以实现2021/7/2511RedisStorm计算用redis保存中间和结果数据流量一直增加大促流量狂涨计算复杂度一直增加不停拆分。。。每次改代码怎么办?逐个模块拆分一开始就按模块写不同instance一开始就ShardTwemproxy优化数据结构Pipeline/Batch不求100%准确hlllogRedisCluster2021/7/2512Challange实时计算作为平台离线和实时的融合离线向实时的迁移成本应用实践业务应用运营

11、分析帮助公司买帮助公司卖技术开发和运营Telescope业务监控(storm)Logview/Titan服务监控(spark)Applicationlogging(Spark)CDN日志分析(Hive)Sitespeed分析(storm)安全审计分析(impala/storm)大数据对于技术运营2021/7/2515实时业务监控7现有平台访问地址:xxxx.vipshop.com商品展示登录注册订单信息代金券

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。