资源描述:
《搜索引擎的设计剖析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、CN4321258/TP计算机工程与科学2002年第24卷第4期ISSN10072130XCOMPUTERENGINEERING&SCIENCEVol124,No14,2002文章编号:10072130X(2002)0420018203X搜索引擎的设计剖析AnalysisofSearchEngineDesign张汛涞ZHANGXun2lai(解放军体育学院计算机教研室,广东广州510502)(DepartmentofComputerScience,PLAInstituteofPhysicalEducation,Guangzhou510502,China)摘要:本文介
2、绍了搜索引擎的四个组成部分:搜索器、索引器、检索器和用户接口,并分析其工作原理;给出搜索引擎中包含的关键技术算法:分词技术、多路归并算法和大文件处理技术;最后结合当前最新的几种搜索引擎,探讨搜索引擎在多语言处理、专业化和有效性等方面的技术改进目标。Abstract:Inthispaperweintroducethefourcomponentsofasearchengine:spider,indexer,searcherandUI,andanalyseitsworkingmechanism.Wealsogivethekeyalgorithmsincludedinthe
3、searchengine:theword2splitalgorithm,themergesortalgorithmandthelargefileprocessingtechnology.Withseveralmajorsearchengineswepointouthowtoimproveintheaspectsofmultilingualprocessing,specializationandefficiency.关键词:搜索引擎;搜索器;索引器;检索器;分词技术Keywords:searchengine;spider;indexer;searcher;word2s
4、plitalgorithm中图分类号:TP393.09文献标识码:A的算法排序后展现给用户。这种基于网页的全文1引言检索系统能够适应大信息量查询的需要,具有很强的实用性。本文将对此类搜索引擎的结构组根据CNNIC的统计,搜索是互联网上仅次于成、关键算法、技术改进目标进行探讨。电子邮件的应用。搜索引擎一般使用两种技术来实现:一是使用网站分类技术,即把网站进行树状2搜索引擎的结构组成归类,登录的网站属于至少一个类别,对每个站点都有简略的描述。早期版本的雅虎搜索即是如一个搜索引擎由搜索器(Spider)、索引器(In2此。从严格意义上说,它不算搜索引擎,只是一种dexer
5、)、检索器(Searcher)和用户接口(UI)等四个目录检索,它的缺陷是需要人工介入,维护量大,部分组成。系统首先由Spider即自动的收集程序信息量少,信息更新不及时。二是使用全文检索收集网页的内容;然后由Indexer将收集回来的内技术,收集因特网上几千万到几亿个网页,并对网容进行分析,建立一个索引;再由Searcher响应用页中的每一个词进行索引。当用户查找某个关键户的检索请示,用户输入关键字后,搜索器要用这词的时候,所有在页面内容中包含了该关键词的个检索词与建立的索引器匹配,匹配后作相关性网页都将作为搜索结果被提交出来,在经过复杂排序;最后通过UI将排序结
6、果送给用户。系统结X收稿日期:2001206220;修订日期:2001210222作者简介:张汛涞(1970-),女,上海人,讲师,研究方向为Internet技术和现代远程教育技术。通讯地址:510502广东省广州市解放军体育学院52栋401室;Tel:(020)87021173;E2mail:zhangxunlai@163.netAddress:Room401,Building52,PLAInstituteofPhysicalEducation,Guangzhou,Guangdong510502,P.R.China18©1994-2009ChinaAcademic
7、JournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net构如图1所示。则不能够跟上信息量急剧增加的速度。索引算法2.1搜索器对索引器的性能(如大规模峰值查询时的响应速搜索器俗称蜘蛛,度)有很大的影响。一个搜索引擎的有效性在很其功能是日夜不停地在大程度上取决于索引的质量。互联网中漫游“,耙”回2.3检索器信息。它要尽可能多、检索器的功能是根据用户的查询在索引库中尽可能快地搜集各种类快速检出文档,进行文档与查询的相关度评价,对图1搜索引擎系统结构型的新信息,还要定期将要输出的结果进行