web搜索引擎的缓存策略分析

web搜索引擎的缓存策略分析

ID:28378546

大小:9.01 MB

页数:56页

时间:2018-12-09

web搜索引擎的缓存策略分析_第1页
web搜索引擎的缓存策略分析_第2页
web搜索引擎的缓存策略分析_第3页
web搜索引擎的缓存策略分析_第4页
web搜索引擎的缓存策略分析_第5页
资源描述:

《web搜索引擎的缓存策略分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、摘要摘要查询处理过程是Web搜索引擎中消耗时间最多的一个过程。缓存技术是一种用于优化查询处理过程的通用方法。而在缓存技术中,对缓存策略的研究显得尤为重要。针对Web搜索引擎的缓存策略这一问题,本文分析了当前的几种基于规则的算法,提出了改进的基于规则的算法-DDC算法,有效地提升了缓存的性能。接着,本文进一步挖掘查询日志中的其他信息,提出了基于特征的缓存算法,更进一步地提升了缓存的性能。具体来说,本文的主要研究内容如下:本文首先介绍和分析了查询日志数据的特性,并对基于规则的基本方法做了简要分析和实验结果的对比,验证了静

2、态.动态相结合的SDC算法是当前性能最优的算法。接着,本文分析了SDC算法的不足,提出了DDC算法。在SDC算法中,缓存被分为两个部分,静态部分和动态部分。动态部分保留了最近被请求的查询结果,静态部分保留了全局被请求频数最多的查询结果。而因为这部分是静态的,所以该部分数据只是对前一阶段的统计,不能及时更新,这让后来被请求的频数很高的查询结果没有机会加入静态缓存部分,因此本文提出的DDC算法将这部分也改成动态的,但仍然以保留全局被请求频数最高的查询结果为目标。在这部分缓存中,使用累计频数的算法更新此部分缓存,如LFU算

3、法。本文通过实验论证了DDC算法在两个评价指标上都取得了较优的性能。然后,本文进一步分析查询日志的其他特征,发现查询被再次请求的概率不仅与查询本身的查询时间和次数相关,它与查询词和查询用户也相关,这在之前的基于规则的缓存算法中并没有涉及。本文从距离、频数、用户数等方面考虑,提出基于特征的缓存算法。本文给出了数据的九大特征,具体算法描述和实验结果。与基于规则的缓存算法实验结果对比,基于特征的缓存算法取得了更进一步的性能的提升。最后,本文将提出的这两种缓存算法应用于IRIS搜索引擎的查询日志中,取得了较为理想的应用结果。

4、本文提出的两种缓存算法具有较好的应用性。关键词:缓存策略查询日志规则特征lAbstractAbstractQueryprocessingisthemosttimeconsumingstepinwebsearchengines.Caching,oneofthemaintechniques,isusuallyusedtooptimizethequeryprocessingperformance.Researchoncachingstrategiesisverynecessaryinthistechnique.Tosolv

5、etheproblemofcachingstrategiesinwebsearchengines,thisdissertationproposesDDC,animprovedstrategybasedonrules,inspiredbySDC.DDCimprovestheperformance.Second,weproposethecachingstrategybasedonfeatures,obtainingbetterperformance,byconsideringotherfeaturesinthesearc

6、hengine'squerylogbesidesthefeaturesofdistanceandtimes.Specifically,themainworkisasfollows:First,thispaperintroducesandanalysisthecharacteristicsofthequerylogdata.Basiccachingpoliciesbasedonrulesandexperimentalresultsarealsodescribedandcomparedinthispaper.Theres

7、ultisthatSDCisthebestcachingstrategycurrently.Second,researchesaredoneonSDC,whichisthemostefficientcachingstrategy.DDCisproposedmotivatedbySDC.CacheisdividedintotwopartsinSDC.Oneisstatic,andtheotherisdynamic.Whilethedatainstaticpartishistoricaldata,thedatacan't

8、bereplacedtonewqueryresultswhicharerequestedoftenrecently.DDCreplacesthestaticpartbydynamicpartaimedtoavoidthetoooldhistoricaldata.DDCisintroducedtogetthebestperformanceonhi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。