基于dotlucene的网站搜索技术研究

基于dotlucene的网站搜索技术研究

ID:34560589

大小:2.24 MB

页数:77页

时间:2019-03-07

基于dotlucene的网站搜索技术研究_第1页
基于dotlucene的网站搜索技术研究_第2页
基于dotlucene的网站搜索技术研究_第3页
基于dotlucene的网站搜索技术研究_第4页
基于dotlucene的网站搜索技术研究_第5页
资源描述:

《基于dotlucene的网站搜索技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海交通大学硕士学位论文基于DotLucene的网站搜索技术研究姓名:朱波申请学位级别:硕士专业:电工理论与新技术指导教师:张峰20080101上海交通大学硕士学位论文基于DotLucene的网站搜索技术研究摘要搜索解决方案是搜索引擎的核心,如何有效、合理地架构出一个搜索方案是搜索引擎质量的主要标准。搜索引擎技术涵盖知识范围比较广阔,对于没有基础的中小型搜索应用,架构出一个合理的搜索引擎困难重重。面对目前市场上搜索引擎巨头公司的技术垄断,中小企业中的搜索业务更多选择了依赖于大公司的搜索服务,而很少有企业独立为自己开发一套合适的搜索引擎。搜索引

2、擎技术中有几大难点:网络蜘蛛模块、索引器模块、搜索器模块和中文环境下的中文分析模块。以上几大模块正是本文要解决的搜索引擎问题的关键。对于网络蜘蛛模块,要求有一个可靠的程序从互联网中抓取信息,作为搜索引擎的信息来源,其中包括了网页的抓取,信息的归档和处理。索引器模块解决的是搜索引擎索引建立的问题,即从收集到的网页中通过信息倒排技术,制作出词为单位的索引,并且随着新信息资源的加入,如何维护和扩充这些索引。搜索引擎检索器模块解决的是如何处理用户的搜索,即如何访问索引,从中找到用户检索的信息。对于中文企业的应用,还伴随着中文分析模块。分析中文语句和段

3、落,找出句子中的中文词,才能为词做出有实际含义的索引,这也是本文要解决的一大问题。本文首先介绍了Web搜索引擎的基本原理、核心技术和处理流程,并以上海交通大学网站为目标,利用DotLucene搜索包,在.Net探索小型搜索引擎的架构方案。本文重点是开发Web站内信息搜索系统,详细说明了Web网站站内信息搜索系统的开发过程和方法。关键词:DotLucene,网络蜘蛛,中文分词上海交通大学硕士学位论文RESEARCHONDOTLUCENEBASEDWEBSEARCHENGINEABSTRACTSearchsolutionisthecoreofse

4、archengines,buildaneffectiveandreliableframeworkforasearchengineisaveryimportanttaskinsearchapplication.Searchenginetechnologycoversmanykindsofknowledge,soitbecomeshardforsmallcompanytobuildtheirownsearchengine.Thecommonreplacesolutionisbuysearchservice,butitisnotagoodwayfo

5、rlongrangestrategy.Searchenginetechnologyhasmanytechnicalbarriers.Suchasnetspidermodule,indexingmodule,searchmoduleandinChineseapplicationitalsoneedsChineseanalysismodule.Thosemodulesabovearekeyproblemthispaperwantstosolve.Fornetspidermodule,itneedareliablerobotprogramgetwe

6、bpageinformationformtheinternet,itsjobincludepagevisit,downloadandstore.Indexingmodulewilltaketheroleforinformationrearrangement.Itmakeindexformeaningfulwords.Searchmoduleuseindexandfindthosedocumentcontainhitsofsearchkeyword.AndinChineseapplication,inordertogetmeaningfulwo

7、rdformChinesesentence,itwillcutChinesesentenceintowords,andhelpindexertobuildwordsbasedindex.Thispaperfirstlyintroducesthebasicprincipleofwebsearchengine,andsometechnologydevelopmenthistory.ThenitillustratewebsearchengineaccordingarealworkbasedonDotLucene,Thirdlyitgetsomete

8、stresultformShanghaiJiaoTongUniversity’sintranet.KEYWORDS:DotLucene,NetSpider,Chin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。