基于web的搜索引擎综述

基于web的搜索引擎综述

ID:33619394

大小:137.41 KB

页数:7页

时间:2019-02-27

基于web的搜索引擎综述_第1页
基于web的搜索引擎综述_第2页
基于web的搜索引擎综述_第3页
基于web的搜索引擎综述_第4页
基于web的搜索引擎综述_第5页
资源描述:

《基于web的搜索引擎综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn基于Web的搜索引擎综述马安香孙猛东北大学信息科学与工程学院,沈阳(110004)E-mail:max8025@163.com摘要:近年来,随着互联网用户数量的增加,网上的信息迅速膨胀,在纷繁复杂的网络信息中要找到用户关心的信息极为困难。在这种背景下搜索引擎诞生并迅速发展。本文致力于说明基于Web的搜索引擎的当前发展现状,简述了搜索引擎的分类和工作机制,重点分析了搜索引擎的检索技术及页面排序方法。最后简单介绍了搜索引擎的性能评价。关键词:搜索引擎信息检索排序算法1引言互联网上庞大的数据量给用户的信息查询带来的极大的困难,鉴于此,搜

2、索引擎应运而生。搜索引擎的主要功能是迅速从互联网上浩如烟海的信息中筛选出符合用户需求的信息,起到了网络导航的作用。据统计,网络上90%的用户是通过搜索引擎来获得所需信息的。按照信息搜集方法和工作方式的不同,可将搜索引擎系统分为三大类:1)目录式搜索引擎:以人工方式进行主体归纳和分类,由人工形成信息摘要,并将信息归类于事先确定的分类目录中。信息大多面向网站,提供目录浏览服务和直接检索服务,用户可将查询限定在某一目录范围下进行。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、信息不全面、信息更新不及时。这类搜索引擎的代表是:Yahoo、Magella

3、n等。2)机器人搜索引擎:是面向网页的全文检索服务。由一个称为蜘蛛(Spider)的机器人程序以深度优先(或广度优先)策略自动地在Internet中搜集信息,将搜集到的信息存入数据库并由索引器为其建立索引,由检索器根据用户的查询请求检索索引库,将相对应的查询结果返回给用户。该类搜索引擎的优点是不需人工干预、信息量大、更新及时,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是Altavista、NorthernLight、Excite、Google等。3)元搜索引擎:元搜索引擎不对Web进行遍历分析,也没有自己的数据,而是将用户的查询请求同时向

4、多个搜索引擎递交,然后将各搜索引擎返回的结果进行合并、去重,重新排序等统一处理后,返回给用户。这类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类索引擎的代表是MetaCrawler、InfoMarket等。2搜索引擎的结构和工作机制目前,互联网上绝大多数搜索引擎的结构和工作机制相似,一般包括搜索器,索引器和检索器三个部分。搜索引擎系统的结构如图1所示:-1-http://www.paper.edu.cnInternetRobot索引器索引数据库检索器查询请求返回结果用户用户图1搜索引擎的结构图搜索引

5、擎的工作机制:采用高效的蜘蛛程序(Robot),从指定url开始顺着网页上的超链接,采用某种策略(深度优先算法,广度优先算法或启发式循环算法)对整个Internet进行遍历,将网页信息抓取到本地数据库。然后使用索引器对数据库中的重要信息单元,如标题,关键字及摘要等或者全文进行索引,以供查询导航。最后,检索器将用户通过浏览器提交的查询请求与索引数据库中的信息以某种检索技术(全文索引检索技术,以模型为基础的检索技术或概念检索等检索技术)进行匹配,再将检索结果按某种排序方法返回给用户。3搜索引擎的检索技术本节首先介绍了两种传统的检索技术,全文检索技术和基于模型的检索技术。互联网上的

6、信息每天都在以指数级数增长,传统检索技术的简单匹配策略往往返回大量无用信息,鉴于此,一些智能检索技术成为现在的研究热点,例如基于概念的检索技术,相关度反馈技术等,旨在将人工智能,自然语言处理等技术运用到信息检索当中,使检索更加智能化,知识化,本节将详细介绍这几种智能检索技术,最后介绍一些新兴的检索技术P2P检索,多媒体检索技术等。3.1全文检索技术全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术,全文检索引擎的数据库中保存的是互联网上各网站的每一个网页全部内容。例如,Google就支持全文检索的核心技术是文档的索引,即如何将原文档中所有基本元素的出现信息以适当的

7、形式记录到索引库中。在中文文档中,基本元素可以是字,词或词组,因此可以将全文检索分为基于字索引的检索和基于词索引的检索两大类。-2-http://www.paper.edu.cn全文检索的优势信息量大,响应速度快,但由于它的工作原理是将用户提交的关键词同数据库中的信息进行匹配,所以导致了它的缺陷—返回的信息量大,而用户关心的信息只是其中的一小部分。同时它还存在着一些潜在的问题,一个是用户很难精确地用关键词来表示他要检索的内容,导致了检索困难;另一个是同义词和多义词问题,例如用户想要查询“计算机“,尽管“

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。