大规模超文本网络搜索引擎new

大规模超文本网络搜索引擎new

ID:21841240

大小:63.50 KB

页数:10页

时间:2018-10-25

大规模超文本网络搜索引擎new_第1页
大规模超文本网络搜索引擎new_第2页
大规模超文本网络搜索引擎new_第3页
大规模超文本网络搜索引擎new_第4页
大规模超文本网络搜索引擎new_第5页
资源描述:

《大规模超文本网络搜索引擎new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大规模超文本网络搜索引擎http://www.hngsmuye.com/在本文中,我们提出了谷歌,一个大型的搜索引擎,这使得大量使用的超文本结构目前的原型。谷歌抓取和索引的网页效率和生产比现有系统更满意的搜索结果。一个完整的文本和至少24万页的超链接数据库的原型是可用对工程师的搜索引擎是一项艰巨的任务。搜索引擎的索引几十亿万涉及不同方面的相当数量的网站页面。他们回答查询每天百万计。尽管大型搜索引擎对网页的重要性,非常小的学术研究已经做了他们。此外,由于快速推进,在技术和网络的扩散,创造一个网络搜索引擎从三年前的今天是非常不同的。本文提供了一个深入的描述-我们的大型网络搜索引擎

2、,除了第一次如此详细的公开描述,我们知道,迄今为止从缩放传统的搜索技术,这种规模的数据问题,也有新的技术挑战涉及额外的信息,目前使用的超文本,以产生更好的搜索结果。本文针对这个问题,如何建立一个实用的大型系统,可利用的其他信息目前在超。此外,我们看问题,如何有效地处理与失控的超集合,任何人都可以发布任何他们想要的。1。介绍在网络上的信息的数量正在迅速增长,以及网络研究的艺术经??验的新用户数量。人们很可能使用它的连接图,经常与高素质的人力维护,如指数开始搜索引擎雅虎或与网上冲浪。人类保持列表有效覆盖的热门话题,但主观的,昂贵的建立和维持,缓慢改善,并不能涵盖所有深奥的主题。依

3、靠关键字匹配的自动搜索引擎通常返回太多的低质量的比赛。更糟的是,一些广告主试图采取措施,为了误导自动搜索引擎,获得人们的关注。我们已经建立了一个大型的搜索引擎,它解决了现有系统的许多问题。尤其是重使用额外的结构目前在超提供更高质量的搜索结果。我们选择了我们的系统名称,谷歌,因为它是一个天文数字,或10100常见的拼写,以及适合与我们建立非常大型的搜索引擎的目标。1.1网络搜索引擎-扩大:1994-2000搜索引擎技术有显着扩展,以保持与网络的发展。1994年,第一个Web搜索引擎之一,万维网蠕虫(WWWW)[McBryan94]有11万个网页和网络访问的文件的索引。截至199

4、7年11月,顶级的搜索引擎声称指数从2万元(WebCrawler)至100万的网页文件(搜索引擎观察)。可以预见的是网络的一个综合指数,到2000年,将有超过一亿的文件。在同一时间,查询搜索引擎手柄的数目已令人难以置信的增长。万维网蠕虫在1994年三月和四月,平均每天约1500查询。1997年11月,AltaVista的声称它每天处理大约20万查询。随着越来越多的用户,在网络上查询搜索引擎的自动化系统,它可能是顶级的搜索引擎将处理由2000年的亿万每天查询。我们系统的目标是解决许多问题,无论在质量和可扩展性,这种不寻常的数字缩放搜索引擎技术引入。1.2。谷歌:缩放与Web创建

5、一个搜索引擎,甚至到今天的网络规模提出了许多挑战。需要快速抓取技术来收集网页文件,并使其保持最新。必须使用的存储空间,有效地存储索引和可选的文件本身。索引系统必须有效处理数百千兆字节的数据。查询必须迅速处理,速度在每秒数十万次。这些任务变得越来越困难,随着网络的发展。然而,硬件的性能和成本已显着改善,部分抵消了困难。有,但是,这种进展,如磁盘的几个显着的例外,寻求时间和作业系统的鲁棒性。谷歌在设计中,我们已经考虑了网络的速度增长和技术变革。谷歌的设计很好地扩展到非常大的数据集。这使得高效利用的存储空间来存储索引。它的数据结构优化,快速,高效的访问(见4.2节)。此外,我们期望

6、最终会下降,索引和存储文本或HTML的成本相对的金额,这将是可用的(见附录B)。这将导致有利于像谷歌这样的集中式系统的缩放属性。1.3设计目标1.3.1改进搜索质量我们的主要目标是提高网络搜索引擎的质量。1994年,一些人认为,一个完整的搜索索引可以很容易地找到任何。根据1994年的Web最佳-航海家,“最好的导航服务,应该很容易地找到几乎任何在网络上(一旦所有的数据输入)。”然而,1997年的网络是完全不同的。任何人使用了搜索引擎最近,可以很容易地证明,该指数的完整性,是不是在搜索结果的质量的唯一因素。“垃圾成果”经常洗出用户感兴趣的事实上的任何结果,截至1997年11月,

7、四大商业搜索引擎只有一个发现自己(在其名称中的十大返回自己的搜索页面结果)。这个问题的主要原因之一,是该指数中的文件数量已增加几个数量级,但还没有用户的能力,看文件。人们仍然在结果的第一几十只愿意看。正因为如此,作为集合的大小的增长,我们需要的工具,具有很高的精度(返回有关文件说,在顶端几十结果)。事实上,我们希望我们的“有关部门”的概念,只包括最好的文件,因为可能有成千上万略有有关文件。这个精度非常高,是重要的,甚至在召回的费用(有关文件的总数,该系统能够返回)。有相当最近乐观地认为,使用更多的超文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。