资源描述:
《基于lucene_net校园网搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第16卷第11期计算机技术与发展Vol.16No.112006年11月COMPUTERTECHNOLOGYANDDEVELOPMENTNov.2006基于Lucene.Net校园网搜索引擎的设计与实现蔡建超,郭一平,王亮(华中科技大学控制科学与工程系,湖北武汉430074)摘要:在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Ne
2、t环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。关键词:搜索引擎;爬虫;索引中图分类号:TP391.3文献标识码:A文章编号:1673-629X(2006)11-0073-03DesignandImplementationofSchoolSearchEngineBasedonLucene.NetCAIJian2chao,GUOYi2ping,WANGLiang(Dept.ofControlSci.andEng.,HuazhongUniv.ofSci.
3、andTechn.,Wuhan430074,China)Abstract:InthevastseaoftheinformationresourcesonInternet,searchenginehadbecomeapowerfultooltolookforwhatthepeopleneed.Butifyouwanttosearchsomethinginaportalsiteorinalimiteddomain,existingsearchenginescan’tdowellwithit.Forexam2pl
4、e,thesesearchenginescan’tcoverallpagesintherequesteddomain,soifyouwanttosearchpagesinaschoolnetwork,itwillbeverydifficult.WehavedesignedasearchenginebasedonLucene.Net,whichcanbeusedin.Netenvironment.Itcanshowitsparticularad2vantageindomainsearch.Keywords:s
5、earchengine;Webspider;index0引言到方便、快捷、全面。搜索引擎在当今的网络资源应用中扮演着重要的角色,从Baidu和Google的业绩强势增长中也可以看到这1搜索引擎及Lucene.Net概述点。有了搜索引擎,网络资源得以集中地管理和分类,从当今的搜索引擎大多采用集中式的搜索方式。所谓而使人们不用直接去网络上盲无目的地寻找自己需要的集中式就是通过很多服务器把网络资源全部下载到本地,东西。搜索方法和结果较以前也便利、快捷并且更加有然后做一些处理,为搜索做准备。搜索引擎结构大致分为[2
6、]效。但是随着技术的发展,人们发现现在的搜索引擎并不搜索器、索引器和检索器等几部分组成,搜索器就是人能满足自己的特定要求,大众的搜索引擎也很难实现一个们所说的网络蜘蛛(WebSpider)或者叫网络机器人。通域范围内全面快速的搜索。比如说,在一个大学之内搜过这种Spider程序,可以从一个网页出发,通过提取其中索,Baidu和Google就不可能提供校园网所有网页这一特的URL,在遵从RobotExclusion协议的前提下,不断地提定范围的搜索功能,并做到快速地更新。取得到的URL,并且下载本URL的资源
7、;而索引器的主文中提出了一种基于Lucene.Net的校园网搜索引擎要工作则是利用下载的网络资源,提取索引项,用于生成[1]文档库的索引表;检索器主要是通过理解用户的查询需设计方法,通过该方法,可以较轻松地做出基于.Net和Windows平台下适合自己的搜索引擎。具体的原理是先求,在文档库中检索出文档并且进行快速匹配,然后进行通过网络爬虫下载所有的网络资源,通过Lucene.Net索相关性排序,通过链接网页提供给用户检索结果。至此,引,入库;然后定制网页,根据用户的查询要求排序输出。完成搜索。当然,还涉及到
8、了更新、排序等一系列问题。通过此搜索可以看出,一个优秀的搜索引擎只要把这几个部分做引擎的设计,一些门户网站和一个域内资源的搜索可以做好,就可以满足用户的需求。为了在校园网内实现资源的有效检索,在Lucene.Net的基础上设计了这个搜索引擎。收稿日期:2006-02-19其实Lucene.Net并不是一个独立的开源项目,它是基于作者简介:蔡建超(1980-),男,河南新密人,硕士研究生,研究方向APACHE基金会