【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf

【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf

ID:32031935

大小:3.70 MB

页数:102页

时间:2019-01-30

【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf_第1页
【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf_第2页
【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf_第3页
【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf_第4页
【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf_第5页
资源描述:

《【硕士论文】基于Lucene和Heritrix构建搜索引擎的研究和示例实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎(SearchEngine)网站是指因特网上专门提供查询服务的一类网站,这螳网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及web信息量的迅速膨胀,web搜索引擎技术己经经历了三个发展阶段:集中式检索阶段、分布式检索阶段和

2、智能化检索阶段。当前搜索引擎研究主要集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。论文首先介绍了Lucene这种在丌源社区旱构建全文检索系统和搜索引擎使用得最广泛的技术,分析了它的架构以及主要工作原理。构建搜索引擎,需要使用网络爬虫对网络资源进行分析,抓取。接下来,论文就对网络爬虫Heritrix进行了深入的分析,对各个核心部件进行了详细介绍。然后,在前面研究的基础上,设计实现了一个搜索引擎示例,演示了它的功能,论文对示例的设计思路,实现细节

3、进行了阐述。论文的最后一章,在深入分析高级搜索技术的基础上,对性能提升的策略进行了总结,实现了搜索优化以及性能提升。在附录部分,对Lucene的分析器进行了分析,并且实现了一个中文分析器,加入到示例中,提高了示例搜索结果的准确度以及搜索结果的范围。关键词:搜索引擎,网络爬虫,Lucene,Heritrix,性能提升ABSTRACTABSTRACTAlongwiththerapidgro、vthofinfo肌ationonWeb,moreandmorefocusispaidtohowtoretrievepotentialanduse如lin

4、formationfromgiganticamountandef免ctiVelyplayitinmanagementanddecision.AWebSearchEngineisakindofspecial、VebpageaVailablefbrIntemetinf.ormationretrieving.ItcollectsVariouswebpagesthou曲robotscalledCrawler,andstorestheinfbn_nationintodatabasesaRertheoriginalwebpagesbeinganaly

5、zed.Whenthewebsurferinputskeywordshewantstoknow,theWebSearchEnginesearchesmeindexesinitsdatabaseandf.etchesrelatiVewebpagesfortheuser.Froml994on,WebSearchEnginehasevolvedthrou曲threestages:CentralizedismainlyfocusedonSearch,DistributedSearch,andIntelligentSearch.Nowadays,i

6、tautomationsearch,smanclassmcation,andintelligentanalysis.Inthefuture,theresearchareawillexpandtosuchextentaSmultimediasearch,specializedsearch,andinterlanguagesearchtofulnlltheWebsurfers’VariOusrequirements.ThisthesisfirstlyintroducestheLucenetechnologywhichisbroadlyused

7、intheopensourceconlmunitytoexploitSearchEngine,analyzesitsstmctureandmainlyworkingtheory.Inthefollowingcontentofthisthesis,introducesallthecorecomponentsofWebCrawlerHe“trix.Baseonthefo咖erresearch,accomplishesasearchenginedemo,demonstrateit’sfunction,thenintroducesthedesig

8、npattemandrealizationdetail.Atthelastchapterofthisthesis,deeplyanalyzestheseniorsearchtechnology

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。