大规模超文本网络搜索引擎剖析

大规模超文本网络搜索引擎剖析

ID:25395613

大小:180.00 KB

页数:13页

时间:2018-11-20

大规模超文本网络搜索引擎剖析_第1页
大规模超文本网络搜索引擎剖析_第2页
大规模超文本网络搜索引擎剖析_第3页
大规模超文本网络搜索引擎剖析_第4页
大规模超文本网络搜索引擎剖析_第5页
资源描述:

《大规模超文本网络搜索引擎剖析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大规模超文本网络搜索引擎剖析SergeyBrinandLarrypage概述在这篇文章中,我们介绍Google,一个大规模搜索引擎的原型。Google被设计成未可以进行有效的网络抓取和索引并返回比现行系统更加让人满意的搜索结果。我们的这个原型包括索引了2千4百万页面的全文本和超链接的数据库,你可以通过http://google.standford.edu来进行访问。对于一个计算机工程师来说,建立一个搜索引擎可以说是一项具有挑战性的任务,因为搜索引擎索引成百上千万页面的同时也涉及到了相同数量级别的关键词(Terms)。并且每天要回答超过1千万个查询请求。虽然,在当今网络中,

2、搜索引擎的重要程度正越来越突出的显现出来,但是真正学术上的相关研究却很少。而且,随着科技的飞速发展和网络规模的不断扩大,在今天建立一个搜索已经和三年前大不相同了。这篇论文提供了关于如何创建一个大规模搜索引擎的深层次描述,这也是到目前为止我们所知道的第一篇在这一领域的论文。除了一些传统的数据级别相同的搜索引擎的技术,还有一些新的运用在超文本中旨在创建更为优化的搜索结果的技术。如何建立一个可以深度挖掘利用超文本中信息的大规模搜索引擎?这是本文提出的一个问题。同时,我们关注的另外一个问题是:对于那些不受传统格式限制的超文本,我们如何来进行处理?关键词:万维网(WorldWide

3、Web),搜索引擎(SearchEngines),信息检索(InformationRetrieval),PageRank,Google1.介绍网络(Web)给信息检索领域带来了新的挑战。就像飞速增长的对Web搜索毫无经验的新用户一样,互联网上的信息量也在疾速地扩充。人们习惯于利用网页上的链接结构来进行网上冲浪。通常他们的网上旅程都是从高质量的人工维护索引的网站比如说Yahoo或者搜索引擎开始的。人为维护的列表可以有效地包含一些热点流行的话题但是带来的问题是:建立和维护这样一个引用表上的成本过于昂贵和主观化、难以及时的进行改进、不能包括所有深入的主题。依赖于关键词匹配的自动

4、化搜索引擎通常会返回一些低质量的结果给用户。更加恶劣的是,一些广告商为了吸引用户的眼球,不惜误导这些搜索引擎来返回错误的结果给用户。我们建立了一个能够解决这些现存系统中问题的大规模搜索引擎。这套系统能够利用超文本中的信息来返回高质量的搜索结果给用户。我们把系统取名为Google,这个名称来源于Googol,意思是1后面100个0。这个名字能够更好的反映出我们建立这个系统的目标。1.1.Web搜索引擎:规模的扩大:1994-2000为了适应互联网络的飞速发展,搜索引擎技术这些年来有了质的飞跃。在1994年,万维网虫(WorldWideWebWorm),作为一个最早期的互联网

5、搜索引擎在当时索引了11万个Web页面和可以访问的Web文档。到了1997年的11月,顶级的搜索引擎(WebCrawler)号称已经索引了1亿个Web文档。可以预见的是,到2000年,可以索引的Web文档数量将会超过10亿个。与此同时,搜索引擎所要应付的查询请求也在以难以置信的速度增长。1994年的3,4月间,WorldWideWebWorm每天大概接受1500个请求。在1997年的11月,Altavista声称其每天处理约2千万个请求。随着互联网用户和自动请求搜索引擎的系统的增加,到2000年底,一些顶尖搜索引擎很有可能达到日处理2千万个请求的数量级。我们系统的目标是在

6、质量和规模上解决所有由上述趋势所带来的问题。1.2Google抓取网络建立一个搜索引擎抓取目前的互联网带来了很多挑战,为了能够收集网络文档并保持他们的时效性,一种快速的抓取技术是必须的。存储空间必须被合理利用来存储索引和文档本身;索引系统必须能够有效地处理海量数据;请求必须能够以每秒几百甚至几千次的速度被快速地处理。这些问题随着互联网规模的扩大将会变得越来越困难。然而,硬件性能的改进和成本的降低部分地解决了一些困难。但是,这些硬件的发展也带来了一定程度的副作用。比如说磁盘定位时间和操作系统的健壮性。在设计Google的过程中,我们充分考虑到了互联网增长的速率和技术的变化。

7、Google被设计成可以有效地适应海量的数据集。Google能够有效地利用存储空间来存储索引。为了快速有效地对其数据进行访问,我们优化了它的数据结构。除此以外,我们设想,Google索引和存储文档和Html的消耗将最终减少到一个可以接受的数量级。这将为一个像Google一样的中心化系统带来可观的抓取特性。1.3设计目标1.3.1改进的搜索质量我们的主要目的是为了改进Web搜索引擎的质量。在1994年,一些人相信一个完全索引的搜索引擎将能够很容易的为我们找到所需要的内容。根据数据显示,1997年的Web已经大不相同了。这些年来,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。