搜索引擎及其性能改进方法研究

搜索引擎及其性能改进方法研究

ID:9622057

大小:51.50 KB

页数:3页

时间:2018-05-04

搜索引擎及其性能改进方法研究_第1页
搜索引擎及其性能改进方法研究_第2页
搜索引擎及其性能改进方法研究_第3页
资源描述:

《搜索引擎及其性能改进方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、搜索引擎及其性能改进方法研究搜索引擎及其性能改进方法研究引言  随着的迅速发展,网上的信息也飞速膨胀。用户的主要问题不是信息不够,而是信息过剩(Informationoverload)。如何帮助人们有效利用的海量信息资源成为当务之急,其首要任务便是发现信息人们迫切需要有效的导航工具,以协助用户找到所需信息。搜索引擎是一种信息检索工具,衡量其查询质量有两个重要标准:查全率和查准率<sup>[1]</sup>。查全率在信息检索领域的定义是:系统在进行某一检索时,检出的相关从这些调查数据中不难看出,目前的搜索引擎仍然存在不少局限。造成上述信息检索困难的实质原因在于,

2、传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也即搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识等。而搜索引擎从根本上说是为用户提供服务,就需要研究用户行为,从中获取用户使用搜索引擎的一般性规律,这就等于学到一些用户认同的普遍常识,并用这些规律来对搜索引擎进行有针对性的改进。对于某些用户(譬如经常访问搜速引擎的用户),可以考察其特性,为其提供量身订做的服务。搜索引擎的用户日志中记录了用户访问搜索引擎的大量数据,对其进行分析可以得到用户访问搜索引擎的一般性规律和某些用户的特性。  3性能改进及测试  3

3、.1日志分析  Google是搜索引擎的典型代表<sup>[2]</sup>,它提供对30亿文档(其中包括2073418204张网页)的访问,利用高效的算法和庞大的机器资源,向用户提供高质量的检索服务。国内搜索引擎中,具代表性的是北京大学网络与分布式实验室研究开发的天网(Tianwang)搜索引擎。自1997年10月正式在CER上提供查询服务以来,受到学术界和用户的广泛好评。本研究对天网系统一个月的日志进行实验性分析,统计用户访问天网系统的查询、翻页、点击行为,希望从中找到用户查询行为的一些规律。并且,针对搜索引擎的cache设计了一系列实验,验证其可行性,并

4、且测试了几种替换算法,得到如下结论:  (1)在使用天网的用户中,有一些是属于长期的固定用户,他们经常使用天网,大约占天网用户的20%,他们的查询占到了80%。而有30%以上的用户只是偶尔使用一下天网,他们在一个月的时间内只使用了一次天网。  (2)对天网用户的翻页点击行为进行分析发现,80%以上的查询用户只浏览了第一页内容,这说明第一页内容对于搜索引擎的形象至关重要。60%以上的查询用户没有在结果中点击页面,这表示用户对于天网搜索引擎的返回结果满意度不高。  (3)用户的查询一般都不长,4个汉字以下(8byte)的查询词占到60%以上,而用户的查询词一般都被切成2~4个单词,99%

5、以上的查询词都不在词典中出现。  (4)用户的查询词、用户点击url、用户查询词切词得到的单词序列,全部具有很强的集中性、一定的短期相关性和长期稳定性,可以考虑在查询端对查询词和索引端对单词进行cache,以提高响应速度,并对未在查询cache中命中的查询进行切词得到的单词序列进行分析,考察索引cache的可行性。分析发现,该单词序列的集中性非常强烈,不到10%的单词占到了80%以上。由此可知,索引端的cache也是非常可行和必要的。  (5)对FIFO、LRU、LFU3种cache替换策略进行模拟实验,考察这3种替换算法的命中率。结果表明,LRU和LFU不分高下,FIFO略低于二者

6、,而时间性能方面,FIFO和LRU要远好于LFU。因此,从时间效率和命中率两个角度考虑,LRU是最适合的替换算法。对于LRU,其命中率随cache容量的增加而提高,当cache容量超过5000后,其增长趋于缓和。由此可知,根据目前情况,天网搜索引擎的查询cache大小在5000比较合适。  3.2位置相关性分析  在分析用户查询行为时,发现这样两个规律:  (1)用户的查询词一般都很短,2~4个汉字的查询词居多,8个字节长度以下的查询词占到总查询词的61.2%。  (2)用户的查询词往往都不是一个单词,只有不到1%的查询词是字典里的单词,其它绝大部分查询词都被切分成多个单词。  一般

7、而言,如果用户输入的查询词是2~4个汉字,他们应该是把该输入作为一个整体提交给搜索引擎,比如用户提交频率很高的大鸿米店,用户希望返回的结果页面一定是包含大鸿米店的页面,但是经过切词,大鸿米店被切成了四个字大+鸿+米+店,索引子系统会提取大、鸿、米、店4个字出现的文档,进行合并后排序。这样返回的结果只是包含了这4个字,并不一定全部是用户想要的文档;而且,如果其排序只是考虑各个词出现的多少,这样排在前面的更不一定是用户所需要的。因此在处理用户查询时,必须考虑用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。