基于日志分析的搜索引擎 查询结果缓存研究

基于日志分析的搜索引擎 查询结果缓存研究

ID:259268

大小:430.00 KB

页数:17页

时间:2017-07-15

基于日志分析的搜索引擎 查询结果缓存研究_第1页
基于日志分析的搜索引擎 查询结果缓存研究_第2页
基于日志分析的搜索引擎 查询结果缓存研究_第3页
基于日志分析的搜索引擎 查询结果缓存研究_第4页
基于日志分析的搜索引擎 查询结果缓存研究_第5页
资源描述:

《基于日志分析的搜索引擎 查询结果缓存研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于日志分析的搜索引擎查询结果缓存研究马宏远王斌ICTIR1引言网民增多,对搜索引擎的使用日益频繁。同时互联网网页的规模也在不断膨胀。搜索引擎需要尽可能多的索引网页并迅速提供查询结果。缓存通过复制频繁请求的数据到速度较快的存储层次,使后续相同的请求得以快速访问,并减少服务器的系统负载。21.主要工作对sogou搜索引擎一个月的用户查询日志进行分析,研究其面向缓存应用的工作负载特性。通过实验和分析,研究缓存设置对搜索引擎系统优化的贡献。这是在中文商业搜索引擎环境下,第一次对搜索引擎缓存特性进行分析。

2、32.搜索引擎查询结果缓存特性分析本文中性能特性的衡量指标是命中率(Hit)Hit=Requstcache/Requst#4命中缓存的查询所有查询2.搜索引擎查询结果缓存特性分析系统平均访问时间Taccess=Hit*T1+(1-Hit)*T2T1为缓存访问时间,T2为磁盘访问时间有T1<

3、志的分析7查询频率(次数)查询词按照查询频率的排序频率最高的20%查询占据了80.45%的查询请求量8查询频率(次数)查询词按照查询频率的排序用搜狗实验室中,sogou搜索引擎2008.8.26的53万查询数据实验,也能得出相同结果2.2查询结果缓存策略分为静态策略和动态策略静态策略是离线方法。通过对用户查询日志的频率统计,将频率最高的一部分查询结果放到缓存中。动态策略是在线方法。缓存的容量是固定的,随着时间推进,当所存的内容超过缓存容量时,就需要到替代算法。最常用的算法即为LRU(最近最少使用算

4、法)9102.2查询结果缓存策略命中率(%)缓存容量(千个查询词)以8月23日的用户查询日志作为历史信息8月24日的用户查询日志作为测试集动态策略静态策略实验:112.2查询结果缓存策略命中率(%)缓存容量(千个查询词)结论1:随着缓存容量的增大,无论静态策略还是动态策略,都会获得较好的命中率。结论2:动态LRU策略比基于历史信息的静态策略具有更好的命中率,因为8月23日的查询集合和8月24日的查询集合重复度不高。动态策略静态策略12在《Oncachingsearchenginequeryresu

5、lts》(Markatos,2001)中,则有如下结果命中率(%)缓存容量(MB)LRU静态策略SLRU两种缓存策略的对比静态缓存策略只存下热门的查询;而动态缓存策略存的是最近所发生的查询,也许这些查询并不是很热门。查询热点瞬息万变,而静态缓存里的查询都提取自历史信息,时效性可能会跟不上,在查询热点词时效果不好。如近期搜索“斯巴达”、“张高丽”等热点词,如果静态缓存所依赖的历史信息不够新,则可能无法命中。132.2查询结果缓存策略更好的策略:静态和动态混合的缓存策略。将缓存分割为两块空间:静态缓存

6、依然基于历史信息;动态缓存依然采用动态替换算法。当一个查询请求到达,首先在静态缓存中查找;如果没有命中,则到动态缓存中查找。142.2查询结果缓存策略152.2查询结果缓存策略继续试验,查询日志同上一个试验命中率(%)静态缓存的比例(从0到1)缓存容量大缓存容量小结论1:混合缓存策略相比纯动态策略和纯静态策略,命中率都会得到一定幅度的提升。162.2查询结果缓存策略继续试验,查询日志同上一个试验命中率(%)静态缓存的比例(从0到1)缓存容量大缓存容量小结论2:对于大容量缓存,采用混合策略,命中率几

7、乎没有提升。对于容量相对较小的缓存,则具有明显的效果,如10K的缓存容量,命中率会比动态策略提升4.45个百分点。172.2查询结果缓存策略继续试验,查询日志同上一个试验命中率(%)静态缓存的比例(从0到1)缓存容量大缓存容量小结论3(来自《Oncachingsearchenginequeryresults》):适中的缓存容量已经能够得到比较好的命中率,一味扩增缓存容量(如大于160K),命中率并不会有太大提高,而且内存中的缓存区也很有限。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。