欢迎来到天天文库
浏览记录
ID:42811373
大小:130.26 KB
页数:4页
时间:2019-09-23
《关于Lucene索引工具的性能优化研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第21卷第5期2011年5月计算机技术与发展COMPUTERTECHNOLOGYANDDEVELOPMENT关于Lucene索引工具的性能优化研究张春燕,刘发升(江西理工大学信息工程学院,江西赣州341000)摘要:随着计算机的发展,为了能更好地搜索到所需的内容,全文检索引擎已经变得越来越飯要。Scene作为当前最流行的开源Java索引工具包,索引性能的提升是非常关键也是值得研究的,同时索引过程快慢是衡曲一个搜索引擎的車耍指标。在Java的基础匕,通过更改Lucene提供的内锐参数来适应不同计算机的硬件达到
2、性能调节的作用。其次,更足提出了一种修改源代码的方法,主要是对Hits进行改进,提出了一种在结果非常多的怖况下加速査询的方法,通过对索引过程和Hil结果集进行炳方面的设置和改进达到性能提高的双朿效果。仿真实验结果表明该改进方法不仅提岛了索引工具性能的优化,同时滅少了负戟'通过这阴方面的改进,可以使Lucene开发的捜索引箏达到更高的效率。关键词:搜索引擎;Lucene;索引;Hits中图分类号:TP3I1文献标识码:A文章编号:1673-629X(2011)05-0121-03LuceneIndexingT
3、oolsResearchBasedonOptimizationofPerformanceZHANGChun-yan丄IUFa-shcng(CollegeofJnfo.Eng.9JiangxiUniversityofScienceandTechnology9Ganzhou341000fChina)Abstract:Withthedevelopmentofthecomputertinordertobettersearchtothedesiredcontent9full-textsearchengineshave
4、becomeincreasinglyimportant.LuceneasthemostpopularopensourceJavatoolkiiindex9theindexiscriticaltoenhanceperformanceisworthyofstudy9whilethespeedoftheindexingprocessisanimportantmeasureofasearchengineindexes・BasedonJava.Luceneprovidedbychangingthebuilt-inpa
5、rameterstoadapttodifferentcomputerhardwaretotheroleofperformancetuning.Secondlytproposedamethodofmodifyingthesourcecode,mainlyforHitstoimprovetalotofcasesintheresultstoacceleratethequerymethod,theresultsoftheindexingprocessandHitbothsetsofsettingsandimprov
6、ementtothedualeffectofimprovingperformance.Thesimulationresultsshowthattheimprovedmethodnotonlyimprovestheoptimizationperformanceindextoolfwhilereducingtheload.Thesetwoimprovements,canmakeLucenesearchenginedevelopedtoachievehigherefficiency.Keywords:search
7、engine;Lucene;index:Hits0引言说到底搜索引華的原理是很简单的,在J2se中就知道如何在一篇String类型组成的文本进行正则表达式的匹配工作,或者使用String类型的indexOf方法去寻找要搜索的内容。这个方法对于一两篇文章来说是可行的。因为就算去搜索10篇文章也不会使用掉太多的时间。可是现在,如果冇50亿篇文章去搜索的话,那么这种方式就变得极为不可行了。可能每查找一次都要用掉几十个小时。于是采用另外一种方法,那就是使用索引。收稿日期:2010-11-03;修回日期:2011-0
8、1-23基金项目:江西省科技攻关项目(㈱财教!2005]132号);江西省教育科技计划项目(GJJ08283)作者简介:张春燕(1987・),女,江西瞰州人.硕士研究生,研究方向为数据挖掘9数据库;刘发升,教授•博上,研究方向为数据挖掘与数据库°搜索引繁貌似很复杂,实际上核心就是这个索引。索引的结构很简单,类似一张数据库表⑴。基本结构就足:第一个字段是keyword,第二个字段是在出现了keyword的文章的标题
此文档下载收益归作者所有