资源描述:
《基于dotlucene的网站搜索技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、上海交通大学硕士学位论文基于DotLucene的网站搜索技术研究姓名:朱波申请学位级别:硕士专业:电工理论与新技术指导教师:张峰20080101上海交通大学硕士学位论文基于DotLucene的网站搜索技术研究摘要搜索解决方案是搜索引擎的核心,如何有效、合理地架构出一个搜索方案是搜索引擎质量的主要标准。搜索引擎技术涵盖知识范围比较广阔,对于没有基础的中小型搜索应用,架构出一个合理的搜索引擎困难重重。面对目前市场上搜索引擎巨头公司的技术垄断,中小企业中的搜索业务更多选择了依赖于大公司的搜索服务,而很少有企业独立为自己开发一套合适的搜索引擎。搜索引
2、擎技术中有几大难点:网络蜘蛛模块、索引器模块、搜索器模块和中文环境下的中文分析模块。以上几大模块正是本文要解决的搜索引擎问题的关键。对于网络蜘蛛模块,要求有一个可靠的程序从互联网中抓取信息,作为搜索引擎的信息来源,其中包括了网页的抓取,信息的归档和处理。索引器模块解决的是搜索引擎索引建立的问题,即从收集到的网页中通过信息倒排技术,制作出词为单位的索引,并且随着新信息资源的加入,如何维护和扩充这些索引。搜索引擎检索器模块解决的是如何处理用户的搜索,即如何访问索引,从中找到用户检索的信息。对于中文企业的应用,还伴随着中文分析模块。分析中文语句和段
3、落,找出句子中的中文词,才能为词做出有实际含义的索引,这也是本文要解决的一大问题。本文首先介绍了Web搜索引擎的基本原理、核心技术和处理流程,并以上海交通大学网站为目标,利用DotLucene搜索包,在.Net探索小型搜索引擎的架构方案。本文重点是开发Web站内信息搜索系统,详细说明了Web网站站内信息搜索系统的开发过程和方法。关键词:DotLucene,网络蜘蛛,中文分词上海交通大学硕士学位论文RESEARCHONDOTLUCENEBASEDWEBSEARCHENGINEABSTRACTSearchsolutionisthecoreofse
4、archengines,buildaneffectiveandreliableframeworkforasearchengineisaveryimportanttaskinsearchapplication.Searchenginetechnologycoversmanykindsofknowledge,soitbecomeshardforsmallcompanytobuildtheirownsearchengine.Thecommonreplacesolutionisbuysearchservice,butitisnotagoodwayfo
5、rlongrangestrategy.Searchenginetechnologyhasmanytechnicalbarriers.Suchasnetspidermodule,indexingmodule,searchmoduleandinChineseapplicationitalsoneedsChineseanalysismodule.Thosemodulesabovearekeyproblemthispaperwantstosolve.Fornetspidermodule,itneedareliablerobotprogramgetwe
6、bpageinformationformtheinternet,itsjobincludepagevisit,downloadandstore.Indexingmodulewilltaketheroleforinformationrearrangement.Itmakeindexformeaningfulwords.Searchmoduleuseindexandfindthosedocumentcontainhitsofsearchkeyword.AndinChineseapplication,inordertogetmeaningfulwo
7、rdformChinesesentence,itwillcutChinesesentenceintowords,andhelpindexertobuildwordsbasedindex.Thispaperfirstlyintroducesthebasicprincipleofwebsearchengine,andsometechnologydevelopmenthistory.ThenitillustratewebsearchengineaccordingarealworkbasedonDotLucene,Thirdlyitgetsomete
8、stresultformShanghaiJiaoTongUniversity’sintranet.KEYWORDS:DotLucene,NetSpider,Chin