大数据处理技术参考架构

大数据处理技术参考架构

ID:43528310

大小:3.50 MB

页数:21页

时间:2019-10-09

大数据处理技术参考架构_第1页
大数据处理技术参考架构_第2页
大数据处理技术参考架构_第3页
大数据处理技术参考架构_第4页
大数据处理技术参考架构_第5页
资源描述:

《大数据处理技术参考架构》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据处理技术参考架构二〇一五年十二月目录1.背景12.技术目标23.技术要求24.大数据处理业务场景35.大数据处理技术对比45.1.MPP与Hadoop&Spark技术对比45.2.Hadoop&Spark技术优势65.3.Hadoop框架对比65.4.Hadoop使用情况75.5.Hadoop血缘关系85.6.行业大数据应用场景对比分析126.大数据处理参考架构136.1.参考架构136.2.与JavaEE体系对比146.3.参考架构运行状态157.总结与思考16附录:名词解释181.背景随着大数据时代的到来,数据由海量拓展为多样,在注重计算速度的同时更加关注

2、挖掘有价值的数据。以IOE体系为核心的数据计算和存储方式越来越不能满足目前大数据处理在性能和成本上的综合要求。为适应对大数据处理的要求,众多的分布式计算平台随之兴起,在对众多分布式计算平台进行权衡的同时,增强自主创新能力,以满足人民银行对信息技术安全可控的要求。在核心应用自主研发、核心知识自主掌控的氛围下,保障大数据技术达到灵活可用的目标,确保数据和信息的有效、及时,确保信息系统的可靠、灵活。同时,充分的利用开源产品透明公开的关键信息,做到对技术细节的掌控和验证,开源产品的特点也更能够激发开发者的热情并推进技术的快速变革。在“互联网+”的战略布局下,当利用信息通信技

3、术把互联网和包括金融行业在内的相关行业结合起来时,能够更加合理和充分的利用大数据技术促进互联网金融的健康发展。当前互联网金融的格局中,由传统金融机构和非金融机构组成。传统金融机构的发展方向主要为传统金融业务的互联网创新以及电商化创新、手机APP服务等;非金融机构的发展方向则主要是指利用互联网技术进行金融运作的电子商务企业、P2P模式的网络借贷平台,众筹模式的网络投资平台或掌上理财服务,以及第三方支付平台等。在金融行业新兴业态下,为促进互联网金融的健康发展,为全面提升互联网金融服务能力和普惠水平,为有效防范互联网金融风险及其外溢效应而提供技术支撑。在金融领域,新生业态

4、层出不穷,金融机构日益多样化,金融资产的流动性快速上升,金融体系的关联度、复杂度大幅提高。金融业的快速发展和创新,使货币政策操作环境、传导渠道发生重大变化。在数据的处理分析上,对原有的宏观审慎分析框架及其有效性、准确性提出了挑战。1.技术目标²获得最优系统价值,满足大数据的处理性能,节约系统建设成本。²充分利用开源产品,做到对技术细节的掌控和验证,以保障大数据技术达到灵活可用。²增强自主创新能力,满足人民银行对信息技术安全可控的要求。²有效提供技术支撑,适应金融行业新兴业态下对大数据技术的需要。2.技术要求在满足海量数据高效处理的同时,对用户的访问能够保持较高的实时

5、性,快速响应用户的请求。采用的大数据技术架构能够支持水平扩展(Scale-out),适应未来五年对大数据存储和处理的需要。采用的大数据技术架构能够支持故障的检测和自动快速恢复,确保系统的高可用性。在满足大数据业务场景性能要求的同时,采用更加经济的大数据技术解决方案。1.大数据处理业务场景以统计分析类的业务场景为例,针对大数据的处理主要经过采集、存储、校验、审核、汇总、计算、分析挖掘等过程,在数据粒度上,既要包逐笔的标准化源数据,还要包括不同层次的总量指标数据,从而实现对统计体系业务的全覆盖、无遗漏。统计分析类大数据处理、报表展现和信息发布的典型流程如下图所示:统计分

6、析类业务的特点主要包括:·在每个处理环节中,均能够为业务操作员提供实时的业务处理情况或处理结果的查询。·校验、汇总、计算等环节中,所涉及到的运算规则均定义在数据库或配置文件中,在执行处理之前,需要获取运算规则。·在报表数据生成或信息发布环节,能够提供逐笔数据、指标数据、汇总数据和报表数据的实时查询,并能够通过BI工具访问以上数据。·统计类的数据查询多为综合查询,条件通常可由用户在查询前定制,有查询响应实时性、查询条件多样性、查询多表关联性的特点。·能够灵活的通过数据挖掘技术对数据进行价值分析,例如:R语言。·能够灵活的使用数据可视化技术对数据进行互动展现,例如:EC

7、hars。统计系统业务量以每月增量40亿笔进行估算(以每笔1KB估算,约4TB/月增量数据;每笔数据平均包含20个字段),现有存量数据大约在20TB。增量数据在当月5-8日进行校验、审核等处理,数据处理过程希望在T+0完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时,一般情况当月4TB的数据全部参与计算。比较复杂场景之一是逻辑校验部分的算法,按不同的规则,有的规则会使用到当月的全部增量数据参与校验,有的规则会按金融机构维度使用当前机构的历史数据参与校验。1.大数据处理技术对比目前对海量数据进行分布式处理的技术主要分为两类:üMPP(Massively

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。