主题搜索引擎的研究

主题搜索引擎的研究

ID:34574290

大小:436.85 KB

页数:6页

时间:2019-03-08

主题搜索引擎的研究_第1页
主题搜索引擎的研究_第2页
主题搜索引擎的研究_第3页
主题搜索引擎的研究_第4页
主题搜索引擎的研究_第5页
资源描述:

《主题搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据综述与评话胁叭andc。mmen。主题搜索引擎的研究李瑞芳,杨娜(沈阳化工学院计算机科学与技术学院,辽宁沈阳110142)摘要:介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求。并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较。关键词:Lueene;全文检索技术;主题搜索引擎;索引;中文分词中图分类号:TP393文献标识码:AResearchofthematicsearchengin

2、eLIRuiFang,YANGNa(DepartmentofComputerScienceandTechnology,ShenyangInstituteofChemicalTechnology,Shenyang110142,China)Abstract:IrIordertomeettherequireofdevelopingthematicsearchengine,thispaperintroduedthemethodtoembedopen—flourceLucenesearchtoolkitintoits

3、ownsearchengine.BecauseoftheinadequacyofChinesewordsegmentationbasedonLucene,thepaperdesignedamoreperfectChinesesegmentation,thenemployeditintheapplication,andcomparedwithtraditionalsearchengineintermsofperformance.KeywOrds:Lucene;full-textretrievaltechnol

4、ogy;thematicsearchengine;index;Chinesewordsegmentation国际互联网的迅速发展使得以Internet为载体的中文电子信息愈来愈多,传统搜索引擎采集索引查询内容不断扩大,这不但使搜索引擎面临巨大的困难,而且越来越不能满足主题用户的需求。例如,为了获取数条相关信息,用户不得不在大量的失效信息、甚至垃圾信息中费力寻找。目前人们对搜索引擎的首要关注点已经从如何找到更多的信息转向如何快速找到准确、有用的信息。因此,人们希望在企业应用中或者个人产品中加入自己的搜索功能。

5、这样不仅可以对企业发布的信息建立索引,也可以对企业计算机内长期积累的电子文档资料建立索引,实现方便快速查找。在LuceneAPI的基础上开发面向主题的搜索引擎⋯是一种有效、低成本的选择,因为Lucene全文数据库采用倒排文件索引技术121,所以查询速度优于关系型数据库,而且可以免费下载。基于Lucene的优势已有很多企业将其应用到自己的搜索引擎中,如Eclipse开发环境的内部搜索引擎就是用Lucene构建的。但由于Lucene自带的中文分词只能将中文切成单字不能实现词语的切分,因此,符合需求的中文分词器有

6、待人们去《微型机与应用》2009年第19期开发,并将其加入中文分词模块来实现更高效的检索。1全文检索引擎Lucene1.1Lucene简介Lucene是apache软件基金会jakarta项目组的一个子项目131,是一个开放源代码的全文检索引擎工具包,它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,它为数据访问和管理提供了简单的函数调用接口,可以方便地嵌入到各种应用中,实现针对应用的全文索引/检索功能。Lucene的API接口设计得可以通用,输入输出结构都很像数据库

7、的表哥记录j字段,所以很多传统的应用文件、数据库等都可以方便地映射到Lueene的存储结构/接口中。总体上看,可以先把Lucene当成一个支持全文索引的数据库系统。1.2Lucene系统结构Lucene系统结构t2J女n图l所示。从图l中可以看到,Lucene的系统由基础结构封装、索引核心、对外接口三大部分组成。其中,直接操作索引文件的索引核心又是欢迎网上投稿WWW.pcachina.cornl万方数据系统的重点。Lucene将所有源码分为7个模块f在Java语言中以包来表示),各个模块所表示的系统部分见图

8、l。需要说明的是:org.apache.1ucene.queryPaser是org.a—pache.1ucene.search的语法解析器,不被系统之外实际调用,因此没有当作对外接口看待。从面向对象的观点来考虑,Lucene应用了最基本的一条程序设计准则:引入额外的抽象层以降低耦合性。首先,引入对索引文件的操作org.apache.1ucene.store的封装,然后将索引部分的实现建立在org.apache.1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。