欢迎来到天天文库
浏览记录
ID:4245913
大小:1.94 MB
页数:67页
时间:2017-11-30
《基于分布式的搜索引擎框架研究和实现(hdfs+lucene)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、西北工业大学硕士学位论文基于分布式的搜索引擎框架研究和实现姓名:蒋建洪申请学位级别:硕士专业:软件工程指导教师:张捷20070301西北工业大学硕士学位论文摘要随着互联网技术的飞速发展,网络中的信息也是呈几何级数爆炸增长,人们查阅资料已不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎也越来越普遍应用到各个层面中,大到整个互联网络的搜索,小到本地文件的搜索,本文正是基于搜索引擎的普遍化,设计并实现了一个分布式的搜索引擎框架,能够应用于不同的搜索方案。本文首先介绍了KM分布式系统所使用到的工具包,并且分析了其中的一些原
2、理和实现机制。随后重点介绍了Hadoop分布式编程框架的原理。KM分布式搜索框架是基于Hadoop实现的,所以它具有非常好的可扩展性。使用Map/Reduce技术能够高效而稳定的运行分布式的任务。本文还详细探讨了信息抓取模块中负责访问网络部分的效率分析,采用DNS预转换的方式加速网络爬虫的访问速度。采用运行在每一个节点上的分布式搜索服务器,能够提供每个分布式节点中的索引数据的搜索能力。重点阐述了KM分布式搜索系统框架的实现。不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。在本文相关模块的开发中,还尝试了使用测试驱动的开发方法,先写测试
3、代码后实现,能够快速的开发出需要的功能而又保证程序的健壮性。对于分布式的应用来说,需要多次的调试,所以这种方法也是非常有效的。关键字;Hadoop,分布式,搜索引擎,Map/Reduce西北工业大学硕士学位论文AbstractAccompanywiththeimprovementofinternettechnology,theinformationinthewebisgrowingrapidly.Peopledonotsearchtheinformationbyseveralwebsitesanymore,thereforetheyusesearcheng
4、inetomatchtheirneed.Thesearchengineisappliedinmanyways,suchassearchingthewholeorevensearchingthelocalfile.Becausethesearchenginciswidespread,thisarticleismainlydiscussedadistributedsearchframework,whichcansolvedifferentsearchrequirement.Thetool’SpackageswhichisusedbyKMdistributefr
5、ameworkareintroducedfirst,thetheoryandimplementationisanalyzed.ThethesisofHadoopframeworkismainlyintroduced.TheKMdistributeframeworkisbasedonHadoop,SOithasgoodextensibleability.ItCanrandistributetaskefficientandstable.Theefficiencyoftheinformationfetchcomponentac,ccssthenetworkisd
6、iscussed,theKMtakesDNSpre-convertmethodtoacceleratethespeedofaccesstheintemet.Byusingthedistributedsearchserverineverynode.itcanprovidesearchabilitytosearcheverynode.TheimplementationofKMdistributedsearchframeworkismainlydiscussedinthisarticle.Thisarticlenotonlyillustrateseachcomp
7、onent'srelationship,butalsoanalyzedeachcomponent,sprincipleandidea.Insomecomponent'sdevelopment,theauthortakestestdrivendevelopmentmethodtobuildthecomponent.WritingtestcodebeforeimplementtheSOurcecodecanimplementthefunctionfastandrobust.Itcanalsomakeanefforttodebugthedistributedap
8、plications.Keywords:Hadoop,Distri
此文档下载收益归作者所有