基于lucene的web搜索引擎实现

基于lucene的web搜索引擎实现

ID:4245832

大小:2.57 MB

页数:61页

时间:2017-11-30

基于lucene的web搜索引擎实现_第1页
基于lucene的web搜索引擎实现_第2页
基于lucene的web搜索引擎实现_第3页
基于lucene的web搜索引擎实现_第4页
基于lucene的web搜索引擎实现_第5页
资源描述:

《基于lucene的web搜索引擎实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、西安电子科技大学硕士学位论文基于Lucene的Web搜索引擎实现姓名:姚林涛申请学位级别:硕士专业:软件工程指导教师:田玉敏;郭会侠20080101摘要随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文通过研究设计并开发实现一个小型简单的基于Lucene

2、的Web搜索引擎,来研究Lucene在搜索引擎领域的应用前景。主要工作包括:(1)分析了W,eb搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块。(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。(3)深入分析并实现了多线程网页搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于Lucene的Web搜索引擎的关键技术。关键词:搜索引擎Lueene全文检索页面优

3、先度PageRankAbstractAstlleinformationtechnologyisbeingdevelopedconstantly,Interact·Sinformationisbeingenriched,thedevelopmentofthesearchengineisfaster,thewebpagethatGoogleincludesexceeds8billionatpresent.Followingthedevelopingoftllesearchengine,someporblemsbegintoappear:Theindexdata

4、basebecominglarger,themaintenancecostneedediShigherandhigher;Thedatasourceoftheindexissingle,buttheinformationtypekindofandInteractismoreabundant;Thehadexlackscommonabilityandflexibility.Lucenebecauseitsopening,easyexpanding,therealeverygoodapplicationprospectstothesettlementofabo

5、ve.mentioned.problems.Thistextrealizesasmall—scalesimplesearchenginebasedonLucene,tostudyLuceneapplicationprospectinthefieldofsearchengine,themainworkincludes:(1)HaveanalysedthecompositionstructureandoperationprincipleofWebsearchengine,havecarriedonthewholestructuraldesignbasedonW

6、ebsearchengineofLuceneonthisbasis,anddividedintothethreepiecesaswebpageandcollectthesubsystem,indexandsearchthesubsystem,resultarrangesubsystem.(2)Havedesigneddevelopingtothefunctionofeachmodule.havingdesignedthememorymechanismofrelevantinformation,andtheonethathasrealizedbe“vI目me

7、verymoduleaccordingtotheoperationprincipleofthesearchengineismutual.(3)HaveanalysedindepthandrealizedthekeytechnologyofWebsearchenginebasedonLucene:multi-threadcollectedofwebpage,useLucenerealizeindexandsearch,thepriorityofsearchresult.Keyword:Searchengine,Lucene,Full-TextSearch,P

8、riorityofwebpage,PageRank创新性声明本人声

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。