搜索引擎及其性能改进方法研究

搜索引擎及其性能改进方法研究

ID:11688160

大小:31.00 KB

页数:9页

时间:2018-07-13

搜索引擎及其性能改进方法研究_第1页
搜索引擎及其性能改进方法研究_第2页
搜索引擎及其性能改进方法研究_第3页
搜索引擎及其性能改进方法研究_第4页
搜索引擎及其性能改进方法研究_第5页
资源描述:

《搜索引擎及其性能改进方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎及其性能改进方法研究  引言   随着WWW的迅速发展,网上的信息也飞速膨胀。用户的主要问题不是信息不够,而是信息过剩。如何帮助人们有效利用WWW的海量信息资源成为当务之急,其首要任务便是发现信息——人们迫切需要有效的WWW导航工具,以协助用户找到所需信息。搜索引擎是一种信息检索工具,衡量其查询质量有两个重要标准:“查全率”和“查准率”[1]。查全率在信息检索领域的定义是:系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来

2、。查准率是指在返回结果中相关页面占返回结果页面总量的比率。其中查全率主要通过分布抓取、抓取动态网页来改进。对于查准率,由于判断网页是否相关是用户的主观感受,因而改进查准率并没有普适的方法。用户访问搜索引擎的基本操作包括:提交查询、浏览结果页面和在结果页面中点击相关网页。用户的查询意图以及对结果的满意程度都体现在这些行为中,而这些行为都记录在搜索引擎的用户日志中。分析联盟用户日志可以得到用户使用搜索引擎的基本特征,以这些基本特征为依据改进搜索引擎,可以提高搜索引擎的服务质量。  1搜索引擎分类   尽管目前存在

3、数量众多的搜索引擎,但根据它们所基  于的技术原理,可以将它们分成三大主要类型:基于机器  人的搜索引擎、目录式搜索引擎和元搜索引擎。  这三类搜索引擎中,元搜索引擎是基于第一类和第二类搜索引擎。第一类搜索引擎与第二类搜索引擎各有如下特点:   基于Robot的搜索引擎自动收集、分析和处理网页,因而它索引的网页数多、信息量大,并且能够定期重新收集网页,更新索引库的内容,向用户提供最新的Web网页信息。一般要定期访问大多数以前搜集的网页来刷新索引,以反映出网页的更新情况,同时还要去除一些死链接和镜像网页。网页部

4、分内容的变化情况将反映到用户查询的结果中,这是基于Robot的搜索引擎的一个重要特征。但它只提供基于关键词的检索,用户只有确切地知道自己感兴趣的网页含有哪些关键词时,查询效果才比较理想。否则,返回的结果很可能和用户的实际需求“风马牛不相及”。这类搜索引擎的代表,国外有Google、AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos等,国内有天网、百度、悠游等。  目录式搜索引擎支持基于分类目录的查询。目录式搜索引擎对收集的网页采用人工分类,这种

5、人工方式对网页内容的理解比较准确。目录式搜索引擎的数据库依靠专职编辑或志愿人员建立起来。这些编辑人员在访问某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在该类别中。信息大多面向网站,提供目录浏览服务和直接检索服务。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以按照目录结构层层向下访问,直至找到自己感兴趣的类别。另外,

6、用户也可以利用目录提供的搜索功能直接查找一个关键词,该类搜索引擎因为加入了人的智能,因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值。缺点是需要人工介入、维护量大、信息量少、信息更新不及时。当用户对某个领域感兴趣但并不熟悉该领域的关键词时,这种查询方式能为用户提供更好的服务。由于人工分类效率低,网页更新困难,目录式搜索引擎在索引网页的规模上受到了很大限制。这类搜索引擎的代表有Yahoo、AOL等。   由于目录式搜索引擎完全采用人工进行网页的搜集和分类,其网页规模和更新速度与

7、Internet的网页总量和网页更新速度相差太远,其涵盖的范围无法满足用户的需要,已经逐渐被基于Robot的搜索引擎所代替。同时,基于Robot的搜索引擎在用户的抱怨声中不断成长,不断改进检索质量,目前已经成为Web用户发现网上信息必不可少的工具。  目前搜索引擎存在的不足   目前正处于第3代搜索引擎的研发阶段,这代搜索引擎没有某个单一的目标。它需要跟上WWW的发展速度,为用户提供更快、更准确的查询结果。智能化、个性化、专业化成为其追求的目标。同第一代搜索引擎技术相比,第二代搜索引擎在各方面都得到了很大提高

8、,但是现有的搜索引擎技术仍然不能满足用户的需求。之前在RoperStarch的调查中指出,36%的互联网用户一个星期花了超过2个小时在网上搜索;71%的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟后发现搜索受挫,搜索受挫中46%都是因为链接错误;86%的互联网用户感到应当出现更有效、更准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有4个问题需要从外界获取答案;其中31%的人使用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。