资源描述:
《搜索引擎原理及存在问题》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、图书情报论坛2006年第4期(总第72期)图书情报论坛2006年第4期(总第72期)·佘正平搜索引擎原理及存在问题文摘搜索引擎是一个集多种技术于一体的综合性系统。从检索方式将搜索引擎分为独立型搜索引擎和元搜索引擎,分别阐述了其各自的工作原理及它们存在的问题,指出了未来搜索引擎的发展趋势将以用户为中心,提供更加个性化的用户服务。关键词搜索引擎独立型搜索引擎元搜索引擎信息检索1引言一搜索引擎,其显著特点是,都有一个与数据库绑在网络信息的飞速增长极大地改变了人们获取一起的检索系统,有一个自动检索程序经常搜集信息的方式,面对浩如烟海的网络信息,如何才能Internet的内容,并将找到的
2、信息资源送回集中管理迅速、方便地获取有效信息,日益成为人们关心的的数据库。独立型搜索引擎系统一般由三部分构成:问题,搜索引擎的出现极大地缓解了这一矛盾。搜信息搜集模块、分析索引模块和检索服务模块。索引擎是一种应用在Web上的软件系统,它以一定信息搜集模块采用一种像真人一样可以浏览网的策略在Web上搜集和发现信息,并对信息进行分页的Robot程序,这类程序能自动地在网上漫游,从析、提取、组织等处理后形成供检索用的数据库。目一个或一组URL开始访问,然后下载相应的网页,前,各类搜索引擎层出不穷,且不断地完善发展。了抽取页面中的链接,按照某种算法决定下一步要访解和掌握搜索引擎最基本的
3、原理及存在的问题,不问的URL地址,常用的算法有广度优先和深度优仅可为网络检索工具的开发设计,提供有益的参考先。Robot程序不停地重复这个访问过程,搜集信息意见,而且可为网络用户利用好搜索引擎提供良好资料,存储到本地数据库,直至再没有满足条件的新的帮助。的URL地址或超出了某些条件限制。有些搜索引擎采集网页的策略是无限制采集,比如AltaVista、2搜索引擎的工作原理FAST、Google都属于无限制地采集。有些则是抽样1990年加拿大麦吉尔大学计算机学院的师生采集,即有选择性地采集网页信息,例如:Excite、Go开发了一个软件Archie,提供查找分布在各个FTP(In
4、foSeek)、Loycos就属于这一类。搜索引擎除了采用主机中文件的服务,该软件被公认为现代搜索引擎主动搜寻方式外,还可接受用户网站自行向搜索引的鼻祖。由此以后,各种搜索引擎应运而生,比较著擎提交的URL,将信息加入到搜索引擎数据库中。名的Google、Yahoo!、Lycos、Overture、Metacrawler、百因此,信息搜集模块的主要功能是完成信息掘取工度、搜狐、新浪、网易、天网、万纬、搜星等。根据技术作,以期为将来的检索服务提供数据。原理,就检索方式而言,搜索引擎可分为独立型搜分析索引模块将Robot程序采集的信息进行比索引擎和元搜索引擎。较分析,删除那些内容基
5、本相似的转载网页,以及未2.1独立型搜索引擎加任何修改,内容完全相同的镜像网页,然后,对留独立型搜索引擎(singlesearchengine)又称为单存的网页信息,剔除HTML等的标志符号,提取出代20佘正平:搜索引擎原理及存在问题表网页源文件内容特征的关键词,汇集成索引数据的频度。检索词在文中出现的位置,标题和靠前的文库,并随时顺着链接跟踪网上新加入的主页,为其字往往具有较高的权值。建立索引。索引数据库就是一个很大的查询表,主独立型搜索引擎的工作原理简言之,即信息搜要的字段有:网站的名称、标题、URL地址、摘要等。集系统从一个或一组已知的URL开始访问互联网,各搜索引擎标引
6、方法因系统不同而存有差异,因下载相关的网页信息及新的链接,以一定的策略遍此,使得相同的检索请求在不同的搜索引擎中会得历新链接,并读取新链接的信息内容,将它们加入到出差别很大的检索结果,但大多数均采取自动标引本地数据库。然后,由分析索引模块对这些数据进行技术。有的是对Web页面内容进行全文索引,即对处理组织后,形成索引数据库。用户通过检索模块提Web页中每一个单词进行标引。有的从文章中按某交查询服务,在搜索框中输入检索式,系统就会自动些分类或特征对信息进行抽取。例如:Lycos仅标引完成,并按一定的排列方式返回检索结果。因此,独文件名、文件标题和全文前20行的内容。而Al-立型搜
7、索引擎实用、方便。taVista的索引处理则最为全面,不仅对网页的所有2.2元搜索引擎文本、图像及链接等进行索引,而且还记录单词之为了实现搜索引擎之间的优化组合,元搜索引间的相对位置。一般来说,标引的索引词越多,检索擎(Meta—searchEngine)由此而产生。元搜索引擎与的全面性越高,分析索引模块是搜索引擎提供检索独立型搜索引擎的最大不同之处就在于它没有自己服务的基础。的资源数据库,它充当的是一个中间代理角色。元搜检索服务模块主要分为四个内容:第一,检索索引擎又称为集合式搜索引擎、索