主流大数据处理技术及应用方案.pdf

主流大数据处理技术及应用方案.pdf

ID:48012704

大小:16.21 MB

页数:56页

时间:2020-01-16

主流大数据处理技术及应用方案.pdf_第1页
主流大数据处理技术及应用方案.pdf_第2页
主流大数据处理技术及应用方案.pdf_第3页
主流大数据处理技术及应用方案.pdf_第4页
主流大数据处理技术及应用方案.pdf_第5页
资源描述:

《主流大数据处理技术及应用方案.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、主流大数据处理技术及应用方案中国联合网络通信有限公司网络技术研究院王振亚2016年12月1目录一数据处理技术的演进二主流分析型数据库技术介绍、对比及选型三应用方案-网研院大数据平台2什么是大数据大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理的方法——维克托·迈尔·舍恩伯格“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产——全球领先的信息技术研究和分析公司Gartner一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流

2、转、多样的数据类型和价值密度低四大特征——麦肯锡3大数据4V特征•随时随地产生数据,数据量更大•数据具有多样性•以“低成本”的方式获得“可接受”VolumeVariety•数据来源多、类型多的数据分析结果•Multi-X:同一对象多维描述•Cheap:“廉数据”•价值密度低•对处理速度要求更高•更多高价值的数据产生•实时和在线VelocityValue•对有价值数据进行“提纯”•Swift:“快数据”•大数据的目的BigDataBigMoney4数据库技术是大数据处理的关键大数据处理流程数据获取数据ETL数据存储数据分析数据服务数据库技术是大数据的关键!5数据处理技术的演

3、进分布式技术提出实时计算技术提出谷歌提出分布式文件系统、分布式数据库和流计算、图计算、交互式分析、内存计算等分布式计算框架,奠定大数据技术基础技术不断演进19952000200520102015SQL/ACID大数据Hadoop技术提出混合技术架构兴起传统关系型数据库的崛起,提出面向企业开源ApacheHadoop逐渐兴起,大幅推Spark、Flink等新一代分析引擎融入大数应用的商业智能,面向数据仓库的数据分进互联网大数据应用据平台析(OLAP)技术兴起6数据处理框架的演进MPPRDBHadoop数据库7数据处理框架-RDB(RelationalDatabase)特点

4、单服务器、小型机集中式数据和业务处理ACID(Atomicity、Consistency、Isolation、Durability)Scale-UpOLTP(On-LineTransactionProcessing),响应时间敏感成本低缺点大数据处理性能较差容灾性较差稳定性有局限业务和数据处理规模有限扩展性和灵活性较差8数据处理框架-MPP特点MassivelyParallelProcessing多服务器、多节点,多任务并行执行数据分布式存储和计算ACIDScale-outOLAP(OnlineAnalyticalProcessing)

5、商业化缺点扩展规模有限对并发的支持有限节点增删维护工作较复杂不支持非结构化数据成本较高9Hadoop生态系统Hadoop,允许使用简单的编程模型,以跨集群分布式的方式,处理大型数据集。具有可靠、高效、可伸缩的特点。它的目的,是从单一的服务器到上千台机器进行扩展,从而利用各自的本地计算和存储资源。是一个能够让用户轻松构建和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop在应用层面检测与处理各类错误,因此能够在一个集群内实现高可用性。并且Hadoop已经成为大数据行业的标准,形成了一个健康活跃的生态系统。可靠性、高扩

6、展性、高效性、高容错性、低成本。10数据处理框架-Hadoop特点多服务器、多节点的集群架构大数据多任务的分布式处理HDFS(HadoopDistributedFileSystem)——分布式文件系统、流式访问MapReduce——曹冲称象,分而治之可靠、高效、高扩展(Scale-out)、高容错、低成本可处理多种格式数据源,非结构化、半结构化数据开源缺点对SQL的支持有限无法高效存储大量小文件不支持多用户写入及任意修改文件缺乏专业的支持服务11数据处理框架的对比支持全数据库框架分析性能扩展性容灾性数据类型业务场景异构数据整合成本SQLRDB一般较

7、差较差结构化OLTP能不支持中等MPP好局限局限结构化OLAP能不支持较高Hadoop好好较好(非)结构化OLAP部分支持低没有最好的技术,只有最合适的技术。针对业务需求“有的放矢”。12目录一数据处理技术的演进二主流分析型数据库技术介绍、对比及选型三应用方案-网研院大数据平台13分析型数据库分析型数据库是面向分析应用的数据库,可以对数据进行统计分析和即席查询等挖掘数据价值的工作。传统数据库是以事务处理为主,大数据时代的主要应用则是数据分析。数据库三大阵营:OldSQL、NoSQL、NewSQL分析NewSQL

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。