欢迎来到天天文库
浏览记录
ID:14201585
大小:2.11 MB
页数:31页
时间:2018-07-26
《基于hadoop和hbase的nutch分布式海量数据存储模型的研究8》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于Hadoop和Hbase的Nutch分布式海量数据存储模型的研究施磊磊,施化吉(江苏大学计算机科学与通信工程学院,江苏镇江212013)摘要:针对Nutch分布式海量数据进行存储的效率问题,现行的存储方案已经很难提供高效、可靠的服务,本文设计并实现了一种管理和存储海量数据的平台模型。该模型利用Solr分布式索引器、Hadoop分布式集群,以HDFS分布式文件系统、MapReduce并行计算模型以及Hbase分布式数据库技术作为处理和存储海量数据的方法,实验证明该模型可以很好地克服现行的存储方式存在的不足,解决了海量数据在存储当中存在的问题,同时具有良好的扩展性和可靠性
2、,能大大提高存储的效率。关键词:Hadoop集群;Nutch;Hbase;MapReduceResearchonNutchdistributedmassdatastoragemodelbasedonHadoopandHbaseSHILei-lei,SHIHua-ji(SchoolofComputerScienceandTelecommunicationEngineering,JiangsuUniversity,Zhenjiang212013,China)Abstract:Nutchdistributedformassdatastorageefficiency,theexi
3、stingstoragesolutionhasbeendifficulttoprovideefficientandreliableservice,wedesignedandimplementedamassivedatamanagementandstorageplatformmodel。ThemodelusesadistributedSolrindexer,Memcacheddistributedcachingsystem,HadoopdistributedclustertoHDFSdistributedfilesystem,MapReduceparallelcomputi
4、ngmodelsandHbasedistributeddatabasetechnologyasmassivedataprocessingmethodstoachieveefficientstorage,experimentalprovethatthemodelcanwellovercometheexistingstoragedeficiencies,massivedatatosolveproblemsinthestorageofwhich,alsohasgoodscalabilityandreliability,cangreatlyimprovestorageeffici
5、ency。Keywords:Hadoopcluster;Nutch;Hbase;MapReduce1引言Nutch是一个开源的搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择它的关键因素。此外基于Hadoop的MapReduce编程模型和分布式文件系统HDFS,都可以让我们用户可以快速高效地实现运行在数百台乃至数千数万台计算机上,能够在短时间内完成海量数据的计算与分析[1]。但是,随着科学技术的不断发展,网络上信息的规模正在以指数趋势上
6、升。整个互联网每天都会产生海量的数据,所以Nutch分布式网络爬虫每天爬取到的数据量日益剧增,怎样高效地对爬取到的海量数据进行存储已经成为人们越来越关注的问题。传统的基于单机或者集中式的数据管理模式已经不适合海量数据的存储。本文设计并实现了一种管理和存储海量数据的平台模型,该模型利用Hadoop分布式集群,以HDFS分布式文件系统、MapReduce并行计算模型以及Hbase分布式数据库技术作为处理海量数据的方法,是一种分布式处理并存储海量数据的计算模型。它主要通过网络将庞大的计算机处理程序和相关的数据资源自动拆分成无数个子程序和块,再交给多台计算机组成的庞大集群服务系统
7、进行分析处理,最后将处理结果再存储在本地集群的硬件设备中。这种模型利用大量廉价的硬件设备组成的集群来构建一个高可靠性和良好扩展性的并行分布式系统处理并存储海量数据。2Nutch海量数据存储平台模型2.1Nutch介绍Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。Nutch能够做到:*每个月取几十亿网页*为这些网页维护一个索引*对索引文件进行每秒上千次的搜索*提供高质量的搜索结果Nutch由爬虫crawler和查询searcher组成。Crawler主要用于从网络上抓取网页并为这些网页建立索引
此文档下载收益归作者所有