课题研究方向

课题研究方向

ID:20639823

大小:425.50 KB

页数:5页

时间:2018-10-14

课题研究方向_第1页
课题研究方向_第2页
课题研究方向_第3页
课题研究方向_第4页
课题研究方向_第5页
资源描述:

《课题研究方向》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、项目研究内容及要求一、研究领域随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Hadoop一样的框架来向数十、数百或甚至数千的计算机分配工作。Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域。Hadoop是Apache开源组织的一个分布式计算开源框架,它可以运行在

2、大型集群的廉价硬件设备上,实现对集群的控制和管理。而且Hadoop为应用程序透明的提供了一组稳定可靠的接口,屏蔽了并行应用开发的细节,实现更加便捷的构建企业级的应用,并且能够实现海量数据的管理和分布式数据处理。Hadoop最核心的设计就是分布式文件系统HDFS和Map/Reduce算法模型。分布式文件系统HDFS是专门为Map/Reduce作业所设计的文件系统。计算模型Map/Reduce是Hadoop的核心计算模型,是用于在集群上分布式处理大数据集的软件架构。它将复杂的运行于大规模集群上的并行计算过程高度的抽

3、象到了2个函数,Map和Reduce,这是一个简单而又强大的模型。Hadoop还包括对于结构化数据处理的HBase、数据仓库的基础设施Hive、并行计算的高层次数据流语言和执行框架Pig和分布式应用的高性能协调服务Zookeeper等子项目。Hadoop集群是典型的Master/Slaves结构,NameNode与JobTracker为Master,DataNodes与TaskTrackers为Slaves。NameNode与DataNodes负责完成HDFS的工作,JobTracker与TaskTracker

4、s则负责完成MapReduce的工作。Hadoop任务分配工作原理如下图所示;Hadoop中有一个作为主控的JobTracker,用于调度和管理其它的TaskTracker,JobTracker可以运行于集群中任一台计算机上。TaskTracker负责执行任务,必须运行于DataNode上,即DataNode既是数据存储结点,也是计算结点。JobTracker将Map任务和Reduce任务分发给空闲的TaskTracker,让这些任务并行运行,并负责监控任务的运行情况。如果某一个TaskTracker出故障了,

5、Job-Tracker会将其负责的任务转交给另一个空闲的TaskTracker重新运行。Map/Reduce的工作原理如下图所示;当你向Map/Reduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。Map/Reduce计算模型的核心是Map和Reduce两个函

6、数,这2个函数由用户负责实现,功能是按一定的映射规则将输入的对转换成另一个或一批对输出。Map过程通过在输入列表中的每一项执行函数,生成一系列的输出列表。Reduce过程再将Map的输出列表作为输入列表,随后生成一个聚集值,作为最后的输出,其中所有相同键值的列表被输入到同一个Reduce任务中。另外,在Map前还会对输入的数据有Split(分割)的过程,保证任务并行效率,在Map之后还会有Shuffle(混合)的过程,用于提高Reduce的效率以及减小数据传输的压力。

7、为了减少数据在网络上的传输,降低对网络带宽的需求,从而保证分布式计算的高效性。HDFS还为应用提供了将它们自己移动到数据附近的接口。HBase的服务器体系结构也是遵从简单的主从服务器架构,由HBaseMaster主服务器和Hregion服务器群构成,实现对大表的结构化数据的存储。对用户来说,每个表是一堆数据的集合,靠主键来区分。物理上,一张表是被拆分成多块,每一块称为一个Hregion。用表名+开始/结束主键,来区分一个Hregion,一个Hregion会保存一个表里面某段连续的数据,从开始主键到结束主键,一张

8、完整的表格是保存在多个Hregion上面的,HBase通过管理整个区域某部分的节点来管理整个表。HBase本质上是一个稀疏的,长期存储的(存在硬盘上),多维度的,排序的映射表。这张表的索引是行关键字,列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串,没类型。用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储的,所以同一张表里面的每一行数据都可以有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。