基于Hadoop 智能冗余服务的实现.pdf

基于Hadoop 智能冗余服务的实现.pdf

ID:52477801

大小:1010.78 KB

页数:3页

时间:2020-03-28

基于Hadoop 智能冗余服务的实现.pdf_第1页
基于Hadoop 智能冗余服务的实现.pdf_第2页
基于Hadoop 智能冗余服务的实现.pdf_第3页
资源描述:

《基于Hadoop 智能冗余服务的实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基金项目学术探讨2015年第7期基于Hadoop智能冗余服务的实现杨甫恒刘智超夏磊(成都理工大学信息科学与技术学院,四川成都610041)[摘要]随着传统互联网的进一步发展,人们对网络资源的使用需求发生了变化,快速构建稳定、易扩容的服务越来越成为服务关键。服务需求变更快,从产生、成熟到被遗忘周期更短,如何在固定且有限的资源上提供服务越来越成为研究热点。本文在现有技术的基础上,基于Hadoop平台,实现智能冗余服务,满足以上需求。[关键词]hadoop;冗余服务;可伸缩中图分类号:TP391文献标识码:A文章编号:1

2、008-6609(2015)07-0029-03据可能鲜有人问津。但可能由于社交网络的关注热点变化1课题研究背景或者地理位置不同等原因导致数据活性不断调整或者数据智能冗余服务方案研究主要针对数据爆炸式增长,解决在不同地域具有不同活性,这种情况下,需要该数据能迅速数据活性不断变化的问题。当访问量增长时,被访问数据智分发或者从各个服务器中收缩,以满足需要。能备份到各个服务器,提供更大的访问空间,当访问量缩小目前大部分解决方案集中在负载均衡研究上,负载均衡时,资源自动收缩,以节省企业在各种资源上的开销。可以很好地解决网络

3、拥塞问题,给用户提供更好的访问质Hadoop实现了一个分布式文件系统(HadoopDistribut-量,同时提高了服务器的响应速度。但是面对海量数据服edFileSystem),HDFS有着高容错性的特点,并且设计用来务,大计算量服务则难以合理分配资源。部署在低廉的(low-cost)硬件上。而且它提供高传输率面对地理信息服务、社交网络信息服务等需要大量存储(highthroughput)来访问应用程序的数据,适合那些有着超资源的服务,一个访问请求可能需要检索大量数据并需要极大数据集(largedataset)的

4、应用程序。HDFS放宽了(relax)大的计算能力,同时根据各种现实因素(例如灾难天气、交通POSIX的要求(requirements)这样可以流的形式访问(stream-状况、社会关注热点)检索热点数据将不断发生变化(例如灾ingaccess)文件系统中的数据。难天气情况发生,将有大量功能针对灾难发生地区的信息检1.1数据服务资源特点索;社交网络中出现新的社会热点也将促使更多相关信息的企业通过虚拟化来整合服务,提高资源利用率。根据虚访问),因此需要做到被访问数据和服务的自动扩展和收缩。拟化厂商数据评价一台传统服务

5、器的资源利用率只有15%2方案设计到20%,虚拟化和资源池的方式部署使硬件资源利用具有可2.1数据存储方案伸缩性。但另一方面,随着服务数据的活性不断变化,一些该数据存储方案基于Hadoop平台上HDFS文件系统,该必须服务却得不到足够的资源支持。文件系统将文件分为多个块(Block)分布到集群中存储,并1.2数据特点且结构上分为元数据节点(NameNode)和数据节点社交网络、基于地理信息的应用产生大量数据,这其中大(DataNode)。其中元数据节点用来管理文件系统,维护数据部分是非结构化数据。在商业应用中越来越

6、重视社交网络节点(DataNode)中数据的分布结构。并将系统中所有文件产生的海量数据的价值,对这些数据进行分类、存储、挖掘将和文件夹保存在树形结构中。NameNode管理全块的数据复是一个重要的商业主题。同时,可以预见的是大部分数据将制,通过和每个DataNode的心跳连接,动态同步获取各个节和地理信息产生越来越紧密的联系,对这些数据的分析可以点的状态报告,如无心跳信号,视为节点故障报警或做其它更好地作出商业决策、舆论预测及导向。处理。块状态报告包含了该节点上所有数据块信息:Na-数据活性权值不断变化,在网络中的

7、海量数据并不具有menode(Filename,numReplicas,block-ids,…)一样的活性,部分数据可能被大量索引和使用,另一部分数——————————————作者简介:杨甫恒,男,四川广元人,硕士,研究方向:大数据。基金项目:四川省科技创新苗子工程:基于Hadoop的智能冗余服务研究,项目编号:20132027。-29-学术探讨基金项目2015年第7期骤。2.2.1资源初始化算法实现(1)资源上传者上传资源。(2)通过文本挖掘热点聚合算法对资源进行收敛,获取到相关资源的关键属性。(3)将资源文件文

8、件属性标志为(key,keyword,value),其中key作为资源服务块编号,keword作为关键词组,value作为内容。将内容分类后采用maprduce分发数据到第一个DataNode节点,并在DataNode节点维护一张资源存储列表。(4)DataNode中遍历资源存储列表,将该资源分发到列表中的所有DataNode。图1Hadoop模型(5)所有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。