搜索引擎——网络时代信息检索系统

搜索引擎——网络时代信息检索系统

ID:7256065

大小:35.54 KB

页数:11页

时间:2018-02-09

搜索引擎——网络时代信息检索系统_第1页
搜索引擎——网络时代信息检索系统_第2页
搜索引擎——网络时代信息检索系统_第3页
搜索引擎——网络时代信息检索系统_第4页
搜索引擎——网络时代信息检索系统_第5页
资源描述:

《搜索引擎——网络时代信息检索系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、搜索引擎——网络时代信息检索系统  (佳木斯大学图书馆,黑龙江佳木斯154007)   摘要:本文详细阐述了网络信息的检索系统——搜索引擎及其分类、原理与不足等,并对未来的发展趋势进行了展望。 关键词:搜索引擎;信息检索;网络信息   中图分类号:G252.7文献标识码:A文章编号:1007—6921(XX)07—0081—02   人类的信息检索方式大致经历了四个阶段:手工检索,通过目录、索引等工具对图书馆内的印刷型文献进行检索;机械检索,用一些简单的机械装置(如打孔机)来进行信息的记录与检索;计算机检索。通过计算机对数据库、光盘等存储设备内

2、的信息进行检索;网络检索,通互联网对全球数以亿计的web服务器上的数据进行检索。   时代发展到今天,人们足不出户,就可以在瞬间检索到互联网上海量的数据,真正实现了“秀才不出门,能知天下事”的梦想。互联网上的数据是庞大的、无序的,要想真正利用好互联网上的数据,就必须利用好网上信息的检索工具——搜索引擎。本文对搜索引擎进行一个全面的阐述,以期读者对这个网络时代的检索系统有一个全面的了解。 1搜索引擎及其分类   搜索引擎是一组对网络信息资源进行采集、标引,并根据用户检索要求进行查找的软件。搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Fu

3、llTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。 1.1全文搜索引擎   全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。   

4、从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 1.2目录索引   目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Y

5、ahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。 1.3元搜索引擎   元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有“搜星搜索”引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。 2搜索引擎的工作原理   一个搜索引

6、擎由搜索器、索引器、检索器和用户接口等四个部分组成。 2.1搜索器   搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:   从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!);

7、将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。   搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。 2.2索引器   索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(LinkP

8、opularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。