基于分布式的搜索引擎框架研究和实现(hdfs+lucene)

基于分布式的搜索引擎框架研究和实现(hdfs+lucene)

ID:4245913

大小:1.94 MB

页数:67页

时间:2017-11-30

基于分布式的搜索引擎框架研究和实现(hdfs+lucene)_第1页
基于分布式的搜索引擎框架研究和实现(hdfs+lucene)_第2页
基于分布式的搜索引擎框架研究和实现(hdfs+lucene)_第3页
基于分布式的搜索引擎框架研究和实现(hdfs+lucene)_第4页
基于分布式的搜索引擎框架研究和实现(hdfs+lucene)_第5页
资源描述:

《基于分布式的搜索引擎框架研究和实现(hdfs+lucene)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、西北工业大学硕士学位论文基于分布式的搜索引擎框架研究和实现姓名:蒋建洪申请学位级别:硕士专业:软件工程指导教师:张捷20070301西北工业大学硕士学位论文摘要随着互联网技术的飞速发展,网络中的信息也是呈几何级数爆炸增长,人们查阅资料已不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎也越来越普遍应用到各个层面中,大到整个互联网络的搜索,小到本地文件的搜索,本文正是基于搜索引擎的普遍化,设计并实现了一个分布式的搜索引擎框架,能够应用于不同的搜索方案。本文首先介绍了KM分布式系统所使用到的工具包,并且分析了其中的一些原

2、理和实现机制。随后重点介绍了Hadoop分布式编程框架的原理。KM分布式搜索框架是基于Hadoop实现的,所以它具有非常好的可扩展性。使用Map/Reduce技术能够高效而稳定的运行分布式的任务。本文还详细探讨了信息抓取模块中负责访问网络部分的效率分析,采用DNS预转换的方式加速网络爬虫的访问速度。采用运行在每一个节点上的分布式搜索服务器,能够提供每个分布式节点中的索引数据的搜索能力。重点阐述了KM分布式搜索系统框架的实现。不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。在本文相关模块的开发中,还尝试了使用测试驱动的开发方法,先写测试

3、代码后实现,能够快速的开发出需要的功能而又保证程序的健壮性。对于分布式的应用来说,需要多次的调试,所以这种方法也是非常有效的。关键字;Hadoop,分布式,搜索引擎,Map/Reduce西北工业大学硕士学位论文AbstractAccompanywiththeimprovementofinternettechnology,theinformationinthewebisgrowingrapidly.Peopledonotsearchtheinformationbyseveralwebsitesanymore,thereforetheyusesearcheng

4、inetomatchtheirneed.Thesearchengineisappliedinmanyways,suchassearchingthewholeorevensearchingthelocalfile.Becausethesearchenginciswidespread,thisarticleismainlydiscussedadistributedsearchframework,whichcansolvedifferentsearchrequirement.Thetool’SpackageswhichisusedbyKMdistributefr

5、ameworkareintroducedfirst,thetheoryandimplementationisanalyzed.ThethesisofHadoopframeworkismainlyintroduced.TheKMdistributeframeworkisbasedonHadoop,SOithasgoodextensibleability.ItCanrandistributetaskefficientandstable.Theefficiencyoftheinformationfetchcomponentac,ccssthenetworkisd

6、iscussed,theKMtakesDNSpre-convertmethodtoacceleratethespeedofaccesstheintemet.Byusingthedistributedsearchserverineverynode.itcanprovidesearchabilitytosearcheverynode.TheimplementationofKMdistributedsearchframeworkismainlydiscussedinthisarticle.Thisarticlenotonlyillustrateseachcomp

7、onent'srelationship,butalsoanalyzedeachcomponent,sprincipleandidea.Insomecomponent'sdevelopment,theauthortakestestdrivendevelopmentmethodtobuildthecomponent.WritingtestcodebeforeimplementtheSOurcecodecanimplementthefunctionfastandrobust.Itcanalsomakeanefforttodebugthedistributedap

8、plications.Keywords:Hadoop,Distri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。