欢迎来到天天文库
浏览记录
ID:33698685
大小:519.07 KB
页数:4页
时间:2019-02-28
《基于lucene的中小型web应用全文检索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于Lucene的中小型WEB应用全文检索引擎的研究贾桂霞,等基于Lucene的中小型WEB应用全文检索引擎的研究*111,2贾桂霞,李祥林,马宏锋(1兰州工业高等专科学校电子信息工程系甘肃兰州,730050)(2兰州交通大学电子与信息工程学院甘肃兰州,730070)摘要:基于Lucene实现了一种高效的WEB全文检索框架Qlucene。该框架针对中小型WEB应用的硬件资源和数据量的实际情况,通过缓存机制和IndexReader无缝替换机制,在不丧失索引检索性能的同时,可以相对实时地进行索引的添加与更新。实践证明,Qlucene是一套Lucene在中小型WEB应用中的优
2、秀解决方案。关键词:全文检索技术;Lucene;检索引擎;索引Abstract:Anenhancedfull-textretrievalframeworkbasedonLucene,namedQlucene,isdevelopedhere.Thisframeworkcanaffordwebinformationretrieval.Givenconsiderationtotherealitiesofhardwareresourceanddatacapacityonsmallandmedium-sizedwebsites,cachemechanismandseamlesss
3、ubstitutionmechanismofIndexReaderareappliedtothisframework,bymeansofwhichindexcanbecreatedandupdatedrealtimerelatively.Meantime,Retrievalcapabilitiesofluceneindexcanbeavoidedloss.PracticeimprovesthatQlucenederivedfromLuenceisthegoodsettlementinthesmallandmedium-sizedwebapplications.Keywo
4、rds:Full-textretrievaltechnique;Lucene;Searchengine;Index中图分类号:TP393.09文献标识码:A文章编号:1001-9227(2011)02-0022-040引言(2)建立索引,索引可以大大提高信息检索的速度。[1]Lucene是apache软件基金会Jakarta项目组的子项采用何种方式取决于检索系统的规模,大型的检索系统通目,是一个开放源代码的全文检索引擎工具包,提供了完常采用倒排的方式来建立索引。整的查询引擎和索引引擎。针对于不同的应用背景,大多(3)索引建立之后,就可以开始进行搜索。通常由用数情况下需要
5、根据实际情况进行二次开发,才能使Lucene户提交请求,请求分析后,然后利用文本操作进行处理。[2-5]正确、高效地工作。比如对中小型WEB应用而言,它所(4)对结果进行过滤和排序,再将过滤排序后的结果处理的数据量相对较小,本身硬件资源有限,加之其要求返回给用户。一定并发性和实时性,要在这样的系统中以Lucene为基础全文检索系统的结构如图1所示。全文检索系统核心架设全文检索功能,就需要一套合理、高效的解决方案。具有索引引擎、查询引擎、文本分析引擎、对外接口等,加针对这些问题,本文提出了Qlucene,并在此基础上实现上各种外围应用系统共同构成了全文检索系统,具有建立了
6、某交易信息分享平台的全文检索功能。索引、处理查询返回结果集、增加索引、优化索引结构等核心功能。1相关知识简介1.1什么是全文检索全文检索技术是20世纪50年代末产生的一种新的信息检索技术。它以各类数据,诸如文字、声音、图像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。它能快速帮助人们进行大量文档资料的整理和管理工作,并使人们能够快速方便地查到他们想要的任何信息。全文检索的过程如下:(1)首先构建一个文本库,这个文本库用来保存用户可能检索的信息,在这些信息的基础上确定检索系统中的图1全文检索系统结构文本模型。文本模型就是被系统认可的一种信息格式,
7、一旦确定之后,不应对其再进行大的变动。1.2Lucene概述Lucene是一个用Java写的全文检索引擎工具包,可以收稿日期:2010-12-01作者简介:贾桂霞(1972-),硕士,讲师,主要研究方向为数据方便地嵌入到各种应用中实现针对应用的全文索引/检索挖掘,软件工程。*基金项目:甘肃省自然科学基金项目(096RJZA084),甘肃功能。Lucene有两个主要的服务,即索引和检索,两者任省教育厅研究生导师科研计划项目(0914-02),兰州市科技计划务是相互独立的。这使得开发人员可以根据需要对它们进项目(NO.2010-1-225)。
此文档下载收益归作者所有