中国移动省分公司数据流量与监控系统.docx

中国移动省分公司数据流量与监控系统.docx

ID:50832892

大小:77.21 KB

页数:4页

时间:2020-03-15

中国移动省分公司数据流量与监控系统.docx_第1页
中国移动省分公司数据流量与监控系统.docx_第2页
中国移动省分公司数据流量与监控系统.docx_第3页
中国移动省分公司数据流量与监控系统.docx_第4页
资源描述:

《中国移动省分公司数据流量与监控系统.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Yonghong大数据案例:中国移动省分公司数据流量与监控系统2013年5月,Yonghong收到一个电话线索,客户需要支持几十亿数据量的实时查询与分析,包括数据抓取和存储,让我们先出报价。在实时大数据分析领域,Yonghong的产品和服务是很有竞争力的。不过,当客户拿到我们的报价后,还是觉得比他们的预算贵一些,决定自己招聘Hadoop团队,实施该系统……半个月后,客户打来第二个电话,明确表示Hadoop未能满足需求,决定接受我们的报价,并愿意预付一半的费用。客户要求我们不仅出产品,还要负责实施……于是乎,开工!项目价值CMNET网间流量分析与监控系统(简称流控系统),是

2、中国移动省分公司的一个项目。项目要求能基于时间、地区、运营商、业务、App、IP分组、域名等维度对全省的上网流量进行实时分析和报告。这些分析报告能给客户带来如下好处:1.实现对接入链路和基站的全程监控。例如,一旦来自某链路或基站的流量很低,可及时对链路和基站进行检修,这将大大降低故障率。2.由于具备了对链路和基站进行全程监控的能力,客户可以对链路和基站的带宽进行动态调整,基于需求进行合理的资源配置。3.覆盖全省的全量数据,能提供基于业务/地域/App/行业/域名等维度的数据分析报告,具备100%的可信度和极高的商业价值。数据流向上网数据从硬件设备中抓取出来,形成压缩的日志

3、文件存储在服务器上,服务器每五分钟生成新的日志文件。该服务器提供FTP访问。Yonghong承担的流控系统,将通过FTP每五分钟访问一次日志文件服务器,将新生成的压缩日志文件抽取出来。这是一个典型的、增量更新的ETL过程,如下:1.Extract:定期抽取的日志文件并解压缩。2.Transform:解析出上网信息,同MySQL的维度表进行关联,生成包括业务/地域/App/行业/域名等维度的宽表。3.Load:将数据装载入Yonghong分布式集市。初期验证(POC)中国移动的日志数据分G类和A类,各取几块样本日志文件,验证数据流向的可行性以及性能。我们很快完成了ETL的整

4、个过程,宽表数据被成功地装载入Yonghong分布式集市。性能上,我们按照用户提出的每天数据量5000万条增量,计算出支持100天50亿数据量的分布式集群所需的磁盘空间、内存总量、和CPU总量。由于客户一再强调预算有限,于是配置了6台低配PCserver:1cpux4core,32G内存,1T硬盘。我们模拟了常用的用户场景,整个系统的响应能力基本满足需求。系统架构如下:系统架构图正式实施中国移动省分公司的上网数据在内网,一般不提供外网连接,需要严格申请之后才能在一定时间内提供外网连接。因而,我们先把整个系统的ETL工作开发完成之后,才正式申请了外网连接进行数据装载。从开始

5、进行上网数据的ETL工作,我们就发现数据量与预期严重不符。预期的上网数据是每天不超过5000万条,但实际上每天的上网数据在6亿条以上,100天保存的数据量将会达到惊人的六百亿条。6台低配PCserver有点小马拉大车的感觉,完全达不到“海量数据、实时分析”的设计目标。我们赶紧联系客户,确定上网数据每天6亿条以上,而不是之前预估的每天5000万条左右。怎么办?系统重构经过与客户的详细沟通和理性分析,大家一致决定进行系统重构。上网数据的日志文件是5分钟粒度的。我们将上网数据按照分析需求分为两类:1.细节数据:保留三天的细节数据(5分钟粒度),共约20亿条。这样,由于保留了细节

6、数据,客户可以对近三天的上网数据进行任意的探索式BI分析。2.汇总数据:在认真研究了流控系统的分析报告需求之后,我们将五分钟的细节数据汇总为两小时的汇总数据。这样数据量可以降到约为原来的1/10,100天的数据总量大约60亿条。重构之后的数据流如下:数据流图后期,我们陆续进行了一些系统调优,包括JVM调优、存储调优、计算调优等等。客户打开一个Dashboard的响应时间基本控制在秒级,最极端的分析报告也能在一分钟之内生成。基本实现了“海量数据、实时分析”:1.系统定期推送日报、周报和月报。2.系统支持探索式BI分析。多数分析请求达到了秒级响应。案例总结1.项目的数据量非常

7、大,100天超过600亿条日志;2.项目的预算非常有限,采购了6台低端PCServer。硬件投入不大,软件性价比也很高;3.ETL过程难度较高,随着降维的需求加入,BI层难度也相应提高;4.为达到秒级响应,以支持探索式BI的交互式分析,对系统进行了多个层面的优化。这个系统的成功实施和上线,完美诠释了Yonghong的大数据之道:大数据,小投入。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。