大数据的典型应用场景及展望.docx

大数据的典型应用场景及展望.docx

ID:61483310

大小:15.84 KB

页数:8页

时间:2021-02-04

大数据的典型应用场景及展望.docx_第1页
大数据的典型应用场景及展望.docx_第2页
大数据的典型应用场景及展望.docx_第3页
大数据的典型应用场景及展望.docx_第4页
大数据的典型应用场景及展望.docx_第5页
资源描述:

《大数据的典型应用场景及展望.docx》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据的典型应用场景及展望2015年1月24号,2015ChinaHadoopSummit技术峰会在北京如期举行。本次大会作为国内大数据行业最具影响力的IT大会,吸引了众多从事Hadoop研究与推广的权威技术专家、Hadoop技术爱好者和IT厂商前往参加。现任星环信息科技(上海)有限公司联合创始人兼首席技术官,曾任英特尔数据中心软件部亚太区CTO的孙元浩老师在本次大会上带来了主题为《2014年大数据的典型应用场景及展望》的分享,本文主要针对目前Hadoop主流应用场景,实时流数据的处理以及大数据技术给未来生活的设想等内容进行了

2、整理。四年前的硅谷,风投埃里森拿出一亿美金来投资大数据公司,他认为Hadoop技术在未来的若干年中会从底层的数据平台,从传统的关系型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代,可视化层和应用分析会有更多的新工具出现,并认为这个市场将达到几百亿美金的规模。过去几年,Hadoop的发展非常迅猛。我们常讲大数据的四V特征,Hadoop在大数据处理上表现出的处理量、性能、挖掘能力的提升和碎片化处理能力,使其得到越来越广泛的应用。一、Hadoop的主流应用场景:数据仓库的主要组成部分传统的企业有若干个主机,用于销售、运营管

3、理等等,产生的数据首先经过ODS层,将数据从多个业务系统中集中起来,进行清洗、转换等集成操作,然后将过加工的数据进入企业IT架构的核心——数据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传统的企业数据仓库的架构,经常采用主流的甲骨文等数据库技术来实现。Hadoop作为数据仓库组成部分的四个驱动力互联网公司早年的时候,是把Hadoop做在数据仓库的核心,比如Facebook早期的时候是从服务器采集是通过实时的日志的采集工具,经过Hadoop把Hadoop作为数据分析工具,呈现把结果放在甲骨文中做展现。互联网公司之所以

4、这么做,是因为互联网数据量大到在传统的数据库不能处理。现在传统的企业也面临同样的问题,将Hadoop作为数据仓库主要组成部分有四个驱动力:效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理的延迟从一天到了一周。成本:传统的数据架构成本动辄几千万。Hadoop可以实现成本若干倍的降低。数据来源多样:视频、音频等企业非结构化数据来源增多。MapReduce对于非结构化或半结构化数据的读取非常有效。数据分析需求的演进:数据分析不再只满足于统计。使用Hadoop的技术,能够对数据进行深度的挖掘和分析,实现对未来的预测。Had

5、oop改变企业数据仓库架构的线路图第一步:数据仓库的补充2011、2012年的时候Hadoop主要是作为数据仓库的补充在做数据的清洗。这一层Hadoop很擅长。Hadoop的优势是能够把计算任务对全要素进行统计分析,这是方式非常适合简单的场景,早年Hadoop的最佳用途是作为ETL的平台,第二步:逐渐进入核心随着Hadoop生态系统逐渐完善,有更多的数字化工具支持Hadoop,Hadoop开始进入数据仓库的核心领域。有些企业开使用Hadoop来直接做数据可视化,在有些行业中已经开始用Hadoop逐渐取代传统的关系数据库来建立数

6、据仓库。从整个的数据仓库的架构来看,有一半的架构已经开始被Hadoop覆盖了。第三步:Hadoop使资源管理变为可能,最终将取代企业完整的整据仓库在一两年之内有些企业完整的数据仓库架构都可能会被Hadoop取代掉。过去企业数据仓库的时候任务很繁重,系统效率低下。造成这种状况的重要原因是,客户把过多的负载放在数据仓库上面,数据仓库本身又没有资源配合的方式。Hadoop2.0推出了管理框架,使得资源管理变成了可能,使得数据仓库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的业务都是动态创建虚拟集群实现的,每个集群都有一定

7、的资源配额,这样的配额用时不会超过这个配额,使得用户任何的负载不会影响其他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,24小时不间断运行的保障。过去上千人在访问Hadoop的时候,也是通过调度机制实现的,随着Hadoop2.0的出现和资源管理能力的提升,通过资源管理层可以方便的配置资源。我们可以设定CPU的内存和存储资源,每个部门使用的时候有配额的最低保障。当另外一个部门的用户上线使用的时候,比如创建了一个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个用户的资源被收缩了,更多的用户进来的时候,第一个用

8、户的资源被进一步收缩,收缩到一个最低的指标。一方面充分保障了每个用户最低资源的配额,第二也保证系统整体运行的情况下可以充分有效利用整体的计算资源。二、随着云计算和物联网的逐渐兴起,实时流数据的处理将成为关注重点云计算和物联网使得数据呈现两个主要特点。首先,数据在没有人工干预的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。