资源描述:
《基于lucene的企业级搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《现代图书情报技术》2007年第8期应用实践总第154期应用实践基于Lucene的企业级搜索引擎的设计与实现陈艳春(石家庄铁道学院经济管理学院石家庄050043)李双平(北京易维博科科技有限公司北京100010)【摘要】针对企业文档信息资源丰富而又缺乏有效搜索工具的问题,提出构建企业级搜索引擎。首先分析企业级搜索引擎应具有的功能和总体架构,在实现中,对Lucene索引器进行深入研究;在抓取器的体系设计中,采用插件设计思想,来对不同的文档类型解析、抽取;在任务调度方面,实现一套多任务并行的调度机制;在用户接口设计上,采
2、用Yui-ext组件和DWR远程对象调用框架,实现Web方式下的异步通信,提升用户体验。【关键词】搜索引擎Lucene插件抓取器【分类号】TP393DesignandImplementationofEnterpriseSearchEngineBasedonLuceneChenYanchun(Economic&ManagementInstitute,ShijiazhuangRailwayInstitute,Shijiazhuang050043,China)LiShuangping(EwaybokeCorporation
3、Limited,Beijing100010,China)【Abstract】Theenterprise-levelsearchengineisproposedtosolvetheproblemthatenterprisehaveabundantdocumentinformationresourcesbutlackofeffectivesearchtools.Thefunctionandtheoverallframeworkoftheenter2prise-levelsearchengineareanalyzedfir
4、stly.Luceneindexerisstudiedindepthduringimplementationsecondly.Thentheplug-inunitisusedtocarryouttheanalysisandextractionofdifferenttypesofdocumentsiindesign.Asetofpar2allelmulti-taskschedulingmechanismisestablishedinthetaskscheduling.Whentheuserinterfaceisdesi
5、gned,Yui-extcomponentsandDWRremoteobjectinvocationframeworkisappliedtoimplementasynchronouscommunicationbytheWeb,whichcanpromotetheusers’experience.【Keywords】SearchengineLucenePlug-inCrawler员没有办法搜寻到必要的文件;另一方面,则是大量的资1研究背景与内容源无法被利用,导致工作效率低下。因此,在企业内部网1.1研究背景建立搜索引擎
6、已成为当务之急,也是提升资源利用水平[1]目前,企业内部存在很多业务数据库和大量的文档,的关键手段。这些资源散落在各个应用系统中和服务器上,很多资源1.2研究内容没有得到有效的整理和利用,一方面,需要获取资源的人在研究企业搜索引擎的背景和现状的基础上,提出收稿日期:2007-07-06了企业搜索引擎应具有的总体架构,并结合国家地震局收修改稿日期:2007-07-19的项目工程以Myeclipse为开发工具对系统进行实现。·63·《现代图书情报技术》2007年第8期应用实践总第154期该系统分为抓取器、分词器、索引器、
7、搜索器、用户接口5操作储存过程的数据访问对象(DAO)。部分,在抓取器部分深入研究了不同数据对象的插件体持久层采用了Hibernate中间件,实现了ORM映射,即实系结构;在索引器、搜索器部分深入研究了Lucene;在分现了对象与关系数据库之间的映射,从而在使用面向对象的词方面改进了基于词典的最大长度匹配分词算法;在用编程语言Java中依然可以用对象的方式来存储对象信息。户接口部分采用了面向对象方式的三层结构对数据源管理、任务调度、插件管理、词库管理、统计管理、日志管理以及用户搜索等模块进行实现。2技术路线2.1总体
8、架构企业搜索引擎可以针对企业内部多种数据源及外部行业网站进行综合搜索,便于用户检索行业信息并协助其它信息系统的应用。此搜索引擎系统的总体架构如图1所示:图2系统MVC模式三层架构图3关键技术3.1基于Lucene的索引Lucene是一个高性能、可伸缩的信息搜索(IR)库。图1企业级搜索引擎的总体架构它可以为应用程序添加索引和搜索能力,把复杂的索