the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]

the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]

ID:25155240

大小:370.50 KB

页数:18页

时间:2018-11-17

the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]_第1页
the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]_第2页
the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]_第3页
the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]_第4页
the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]_第5页
资源描述:

《the-anatomy-of-a-large-scale-hypertextual-web-search-engine[译文]》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大型超文本网络搜索引擎的剖析SergeyBrin和LawrencePageComputerScienceDepartmentStanfordUnversity,Stanford,CA94305,USAsergey@cs.stanford.edu和page@cs.stanford.edu摘要:本文介绍了一个在超文本中广泛应用的大型搜索引擎Google的原型。Google的设计使之能够高效地抓取网络信息并为之建立索引,它的查询结果比现存的其它系统都要更令人满意。这个原型的全文和至少含有2千4百万个页面的

2、超链接数据库可以从http://google.stanford.edu/下载。设计一个搜索引擎是一项富有挑战性的工作。搜索引擎要为上百亿包含等量的不同词汇的网页建立索引。它们每天要接受上亿次的查询。尽管大型的搜索引擎在网络上是非常重要的,但是在学术上却没有多少对它的研究。另外,由于技术的突飞猛进和网页量的剧增,在今天要搭建一个网络搜索引擎比起三年前是大有不同的。本文对我们的大型网络搜索引擎提供了一份深层次的介绍──据我们所知,这是公开发表的论文中第一篇描述得如此详尽的。除了在把传统搜索技术应用到如此

3、数量级的数据中遇到的问题以外,还有一些新的技术上的挑战,比如利用超文本中的附加信息来改善搜索结果。本文将着手解决这个问题,如何搭建一个实用的大型系统来发掘超文本中的附加信息。我们还将要关注如何有效地处理无组织的任何人都能随意发布任何信息的超文本数据集。关键词万维网,搜索引擎,信息检索,PageRank算法,Google1绪论(注意:这篇论文有两个版本──一个长一些的全文版本,一个精简一些的打印版本(http://infolab.stanford.edu/~backrub/google.html)。全

4、文版本可以在网上下载,也可以在研讨会的CD-ROM上找到。)万维网给信息检索带来了新的挑战。万维网上的信息量在飞速增长,同时网络研究艺术中一些缺乏经验的新用户的数量也在激增。人们一般利用网络上的超链接来网上冲浪,一般都是从高质量人工维护的索引开始,比如Yahoo!或者搜索引擎。人工维护的目录虽然有效地包含了流行的话题,但是它具有主观性、搭建和维护的代价高、升级缓慢,并且无法涵盖所有严肃深奥的主题。基于关键词匹配的自动搜索引擎有经常返回一些低质量结果。更糟的是,有些广告商专门设法误导自动搜索引擎来吸引

5、人们的注意。我们已经建立了一个大型搜索引擎能解决现存系统中的很多问题。它专门利用了超文本中的附加信息来提高搜索结果的质量。我们选择Google作为我们系统的名字,取自一个俗语googol的谐音,意思是10的100次方,这和我们建立一个大型搜索引擎的目标是相当吻合的。1.1网络搜索引擎——升级:1994—2000搜索引擎技术不得不经常调整以跟上网络的增长。1994年,第一批网络搜索引擎中的WorldWideWebWorm(WWWW)索引了110′000篇网页和有效的网络文件。到了1997年11月,顶级

6、搜索引擎声称索引了两百万(WebCrawler)至十亿篇网络文件(来自SearchEngineWatch)。可以预见到2000年,一个全面的网络索引将会包含一百亿个文件。与此同时,搜索引擎处理的查询量也在爆增。1994年3月和4月,WorldWideWebWorm平均每天要接受1500次查询。1997年11月,Altavista声称它每天要处理大约两亿次查询。随着网络用户和查询搜索引擎的自动系统数量的增长,估计到2000年顶级的搜索引擎每天要处理上十亿次的查询。我们的系统的目标就是要着手解决这些问题

7、,无论是质量还是在将搜索引擎技术扩展到如此程度中引入的可扩展性的概念。1.2Google:与网络同步要搭建一个哪怕是能和现今网络规模相适应的搜索引擎都会遇到很多挑战。要想搜集网络文件并保持更新就需要快速的抓取技术。还要有效地利用磁盘空间索引和部分文件本身。索引系统必须能高效地处理上百G的数据。还要迅速地处理每秒钟成百上千次的查询。随着网络的不断增长,这项工作变得越来越困难了。但是,硬件性能和费用问题的改善也部分地削减了困难度。然而在这个进度中还有几个明显的例外,比如磁盘的寻道时间和操作系统的健壮性。

8、在Google的设计中,我们同时考虑到了网络的增长速度和技术的变更。Google的设计使之能够很好地扩展到能处理极大量的数据。它有效地利用了存储空间来储存索引文件。优化的数据结构使之能够支持快速高效的数据访问(见4.2节)。进一步地,我们希望建立索引和存储文本文件或HTML文档的代价会相对于它们实际的大小而不断减小。对于象Google这样的集中式系统来说,这些措施换来的是可观的可扩展性。1.3设计目标1.3.1提高搜索质量我们的首要目标是提高网络搜索引擎的质量。在19

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。