大数据实时体系的架构和应用腾讯张文郁(I)

大数据实时体系的架构和应用腾讯张文郁(I)

ID:37383631

大小:3.51 MB

页数:33页

时间:2019-05-22

大数据实时体系的架构和应用腾讯张文郁(I)_第1页
大数据实时体系的架构和应用腾讯张文郁(I)_第2页
大数据实时体系的架构和应用腾讯张文郁(I)_第3页
大数据实时体系的架构和应用腾讯张文郁(I)_第4页
大数据实时体系的架构和应用腾讯张文郁(I)_第5页
资源描述:

《大数据实时体系的架构和应用腾讯张文郁(I)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据实时体系的架构和应用数据平台部/实时计算中心/业务开发组关于我2010年加入腾讯数据平台部负责分布式计算平台,集群调度的开发,现负责实时计算体系基础建设和基于实时计算平台的推荐系统建设和业务推广。微信:tshirt邮箱:gabyzhang@tencent.com数据平台目标-促进公司各业务数据共享QQ、手Qqzone、朋友生活化电商,微店会员、超Q、QQ秀用户行为(交易、收藏)开放平台产品类目信息微信财付通CF、DNF等几十款注册、登录付费、充值游戏内个性数据计费、营销搜索、地图LBS邮箱腾讯网网站行为输入法视频、音乐

2、新闻广告日均接入数平的数据•400亿3000亿•1.8万亿201120132015•<200G20T•~=200T数据平台部大数据体系基础架构数据IDE-集成开发LZ-任务调度TDBank应用数据精准推荐接-入TRC-实时计算TDW-离线计算MTA信鸽秒级监控HDFSPGHERMES分布式数据提取SparkHBaseTDETube存储画像分析自劣报表Gaia-资源调度……TRC的整体架构开任务配置中心开发平台运监控中心配置中心发输入逻辑IDE环境营接处理逻辑编译调试管口输出逻辑任务提交理告警服务日志中心TDBankTDProcessTDEngine计算引擎实时采

3、集路由管理数据迁移平实时滑动去重持久台算法窗口过滤化组压缩加密容灾备份一致性控制件分布式框架路由负载消息链接分发过滤劢态扩容内存管理管理均衡分发管理硬件资源管理软件资源管理资源管理资源管理资源隔离扩容管理服务调度容灾恢复权限管理数据接入主要问题主要矛盾数据总量巨大数据源种类繁多数据格式各异数据分布IDC众多核心需求秒级接入延时成本、效率、安全方便数据管理和使用特色功能自劣接入多种格式适配公网加密传输消息文件DB其他TDBank业务数据源业务管理系统Agent(binlog解析/打包/压缩…)元数据管理数据接入中心Bus(协议解析/解压/滤

4、重…)业务配置TRC数据存储中心Tube(消息订阅/推送…)权限管理……运营操作数据分拣中心Sort(协议转换/分拣…)数据存储层MySQLTDWHDFSHBase……TDProcess流式处理引擎开发可视化DataFlow建模piglatin/SQL编辑器编译调试远程提交工具代码生成器业务开发PigLatin/SQL语言适配流式I/O库语法解析:AST语言语义解析:LogicalPlan并行度优化策略通用推荐扩展语义解析:PhysicalPlan实时算法库执行引擎适配任务提交计算引擎StormEcosystemStorm-Ganglia监控Stream-ML算法

5、Storm-Cli(drpc,sql,pigStorm-Core内核和接口script,dogscript…)交互Storm-Gaia/DockerStorm-UI界面部署和资源管理Storm-Scheduler调度Storm-Example基准测试Storm-IO(storm-tubekafka,hdfs,hbase,DBs)输入输出库SchedulerImplsWhataboutresourcenegotiation?基于物理机器负荷的调度策略:按照机器的CPU/MEM资源使用百分比进行调度,理想结果是集群中每天机器的CPU/MEM使用百分比是相近的67006

6、7006700670167016702……670380%75%82%But…Gaia在腾讯–服务器8800台•–CPU~20w+核•–内存~600TB•–磁盘~52800块•–存储容量~200PB•-每天调度的container个数~1亿+基于Gaia订制storm基于Gaia的NimbusHAOnetopologyOne1.提交任务YarnContainerstormAppMasterYarnNimbusSupervisor的数ResourcesManager2.分配资UI量不受限于物理机器源3.动态调Gaia负责资源调度,Zookeepe配任务所Nimbus负

7、责任务分配心跳上需要的资r报源(task)Yarn扩容缩容逻辑由Nimbus的Containersupervirebanlance实现sorwork事务TopologiesHippoTDEZookeeper队列1队列2队列32.2写TDE持久化2Confirm队列队列4>>拉取一批数据>队列5>>队列6队列n一个事务分两个阶段完成,batch和commit,batch并发执行

8、,comm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。