陈非白-高性能数据采集

陈非白-高性能数据采集

ID:37306813

大小:1.85 MB

页数:17页

时间:2019-05-21

陈非白-高性能数据采集_第1页
陈非白-高性能数据采集_第2页
陈非白-高性能数据采集_第3页
陈非白-高性能数据采集_第4页
陈非白-高性能数据采集_第5页
资源描述:

《陈非白-高性能数据采集》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高性能数据技术陈非白Index•数据从哪来到哪去•数据采集做什么?•PHP和C++?•元数据的管理数据从哪来到哪去?来webpcphonepad?去dbbakuporaclehadoop数据从哪来到哪去?数据采集问题:1、采集什么!?2、数据采集中,有哪些类型数据!?3、流式和批量式。数据从哪来到哪去?PV/CLICK/UV/ACTIVE数据怎么行业指标数据数据模型用,在数据采集的那一决策辅刻就已经确注册/登录/使用情况助定了,包括功能性数据模型,分析指标阀值方式,指标广告数据阀值回馈用数据分析户Abtest指标数据数据从哪来到哪去?简单定义:流式:http数据接口,分钟

2、或小时级别Scribe、flume、colloctor批量式:DB或file的数据,天级别ETL、为实现从一个存储加载到另一个存储的脚本数据采集做什么?数据准备:数据采集->数据转换/清洗->数据处理/存储问题:1、采集能力?2、清洗时间?3、维护成本?4、存储格式转换?数据采集做什么?数据采集做什么?数据采集做什么?1、完善流程,控制人工修改和前端数据回传。2、采集程序标准化,支持如果后端存储挂掉,数据存储在本地或临时位置3、增加硬件级监控4、增加元数据监控php和c++?PhpC++编码难度简单普通维护难度普通困难性能中高语言类型脚本编译人力分布多少人力成本低高php

3、和c++?银弹:facebookphp-hiphopPHP代码�C++代码�webServer程序不支持复杂类,GD库等,适合计算型的程序,需要编译。相关数据:清洗程序为例,清洗速度提升100%,并发1000+元数据是什么?元数据的管理定义:描述数据的数据。案例:ebay,中国移动,银行地级完整?数据州级仓库数据仓库地级数据中央数据仓库仓库州级地级数据数据仓库仓库完整?元数据的管理作用:1、描述当前数据平台状态2、简单快速描述数据变化3、报警元数据的管理分钟采集量同步存储存储分析采集指标状态量状态时间状态同比采集同步存储分析指标同步分析分析指标天采集数据总存失败环比数吞吐

4、量量储量量采集量同步同比时间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。