欢迎来到天天文库
浏览记录
ID:52244366
大小:3.10 MB
页数:27页
时间:2020-04-03
《淘宝数据应用开发平台iData.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、淘宝数据应用开发平台泽远@数据平台与产品Weibo.com/apeks背景——进入淘宝数据平台数据规模数据产品总台架构概览——数据应用开发架构产品架构技术架构深入——关键服务介绍知识库(元数据)调度数据集成IDE成本优化生命周期展望——数据创造未来大纲每日新增数据20T累积数据14P2000+服务器的云计算平台每天处理100,000+作业任务,包括100+新增作业任务每天处理1P+数据,包括0.5%新增数据总体数据规模数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计
2、PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计数据平台ETL作业设计,实施,维护,优化数据模型建模架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构……使用、建设建设如何使用数据——传统数据仓库模式数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计培训,咨询,解决
3、方案架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构……使用、建设建设服务数据开放之路——人人都是数据专家ISV数据应用开发平台——数据工场DataIntegrationDBsyncTTHiveHadoopMapReduceHadoopHDFSDatax报表需求(淘数据)Hbase即席查询(adhoc)数据分析数据挖掘数据产品数据平台——产品架构实时计算底层平台数据开发平台数据应用GatewayServersOracle备库MySQL备库日志系统LogServerH
4、adoop开发平台GatewayServersDBSync爬虫数据MapReduceJavaJobsStreamingJobsHiveJobsTimeTunnelDataX数据流向主站服务(淘宝,B2B,广告,搜索,BOSS)HbaseHbaseMysqlOracleDataXMyfoxLoaderLzLoaderOtherSystem数据产品Adhoc报表(淘数据,BusinessPreview)回流主站应用流式计算其它数据开发平台——数据流向实时计算平台OLAPserver愿景和目标降低数据开发门槛,人人都可以方便加工和
5、获取数据提升数据项目开发效率有效控制计算存储成本沉淀最佳实践,打造数据应用开发的标准用户分类非技术背景用户技术背景用户需求分类ADHOC需求?类Excel查询工具图形化拖拽HIVEIDE数据项目/数据产品?数据应用开发平台数据应用开发平台数据字典,知识库,问答图形化辅助建模工具,自动建模数据集成(DataX,DBSync,TT3)IDE(web,RCP),代码优化器支持HIVE,map-reduce,mahout工作流编辑准入测试,持续集成,性能测试调度引擎分析工具集指标系统(Dashboard)监控告警,数据质量,生命和周
6、期数据集成,OLAP,图标引擎,可视化引擎需求分析运行时监控业务建模数据集成线上部署管理生命周期数据开发&挖掘报表配置数据质量监控结果数据导出数据可视化配置测试运行成本优化计算成本元数据center权限控制审计日志搜索引擎缓存…技术服务基础服务项目实施流程数据工场产品架构HadoopMRJob/Task级别运行日志MR级别运行日志各个环节延迟系统吞吐HadoopHDFS文件Meta目录Meta文件,目录统计信息权限属性访问记录HIVE表Schema分隔符,格式,压缩方式记录数权限信息工作流调度数据流定义,任务依赖节点级运行日
7、志系统延迟调度开销Gateway集群负载,并发度任务优先级,基线代码库代码与用户的关联数据工场关键服务——知识库(元数据管理)其它服务生成捕获/解析/处理/归一化元数据应用归一化存储HadoopMRHadoopHDFSHIVE调度系统代码J/HI/PYRACMySQLSphinxRedis需求系统收集器收集器收集器收集器解析器收集器…数据字典指标库知识库数据质量监控自动建模/模型优化SQL自动改写MetadataService……生命周期血缘分析&影响分析SQL优化监控告警…BUS数据工场关键服务——知识库(元数据)系统优化
8、宏观数据微观数据任务依赖关系/datapipeline天网调度效率Gateway并行度Jobtracker调度效率关键路径分析运行趋势分析系统关键路径点数据源监控末端监控比较重点节点运行时间等待时间同步时间算法优化集群计算效率系统吞吐瓶颈ETL元数据分析/血缘关系参数调优计算模型优化工具优
此文档下载收益归作者所有