大数据处理关键技术

大数据处理关键技术

ID:30800020

大小:157.02 KB

页数:4页

时间:2019-01-03

大数据处理关键技术_第1页
大数据处理关键技术_第2页
大数据处理关键技术_第3页
大数据处理关键技术_第4页
资源描述:

《大数据处理关键技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、在人数据时代.传统的数据处理方法还适用吗?大数据环境下的数据处理需求大数据环境下数据來源非常丰富4数据类世多样,存储和分析挖撇的数据量庞大,对数据展现的要求较高,并11很看重数据处理的高效性和可用性。传统数据处理方法的不足传统的数据采集來源单H.存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算捉升数据处理速度方面而言,传统的并行数据库技术迅求离度一致性和容错性,根据CAP理论,难以保证英可用性和扩展性。传统的数据处理方法是以处理器为中心,而大数据环境下.需耍采取以数据为中心的模式.减少数据移动带来的开销。因此.传统的数

2、据处理方法,已经不能适应大数据的需求!大数据的处理流程包括哪些环节?每个环节有哪些主要工具?大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在丁•:山于大数据要处理大量、非结构化的数据,所以在各个处埋环节屮都可以采用MapReduce等方式进行并行处埋。nVnVHive数据采集丿数据预处理Z数据存储./数据分析/挖屈>结果展现HDFSHBxse大数据技术为什么能提高数据的处理速度?大数据的并行处理利器一MapReduce人数据町以通过MapReduce这并行处理技术來提高数据的处理速度。MapReduce的设计初衷址通过人就廉价服务器实现大数据并行•

3、处理.对数驾•致性耍求不瓶其突出优始是具有扩展性和可用性,特别适用于海绘的结构化.半结构化及非结构化数据的混合处理。MapReduce将传统的杳询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为-•个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。MapReduce是一套软件框架,包Map(映射)和Reduce(化简)两个阶段,可以进行海虽数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。用户<1>to叭工作rMaster1—Split0Split1Split2Split3Split

4、4rworket-rvorkei•14」玄地写[T1LU厂workerII输入文件畑阶段Reduct乍'述worker辅出文件0中间文件(位于本地谜盘〉Reduce阶段输出工件MapReduce的工作原理莫实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理:Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce统计不同儿何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到故终的计算结果。MapReduce适合进行数据

5、分析、日志分析、商业智能分析、客八营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。使用Map/Reduce进行形状计数Map△,口Reduce1擬供节点间信息沟通的工貝.架掏不1确方式系疑目动选择计■节点■分布处理对用户透明支持分布式文件系统通过Map/Redixe函数实现分布开行计龍说到这电,再看一看MapReduce与传统的分布式并行计算环境MPI到底有何不同?MapReduce在其设计目的.使川方式以及对文件系统的支持等方面与

6、MPI部有很人的差异.使其能够更加适应人数据环境下的处理需求。MapReduceMPt用于互&网赧务用于科学计算便用大■厲价PC多便用专用并行机设计目的IS合度低購合度离15点失效率高15点知5率低有容!8机制以集构形式援出不支持分布式文件系蛻,姻集中存盘由高级ififi[通过调用标准函数传递荷息咒规齐行计K大数据技术在数据采集方面采用了哪些新的方法系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统H志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分伟式架拘,能满足毎秒数百MB

7、的日志数据采集和传输需求。网络数据采集方法:对非结构化数据的采集网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网贝中抽取出來.将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包會的内容之外,对于网络流屋的采集可以使用DPI或DFI等带宽管理技术进行处理。其他数据采集方法对于企业生产经营数据或学科研究数据等保'密性耍求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。