复杂的1秒图解google搜索技术

复杂的1秒图解google搜索技术

ID:22473242

大小:1.10 MB

页数:12页

时间:2018-10-29

复杂的1秒图解google搜索技术_第1页
复杂的1秒图解google搜索技术_第2页
复杂的1秒图解google搜索技术_第3页
复杂的1秒图解google搜索技术_第4页
复杂的1秒图解google搜索技术_第5页
资源描述:

《复杂的1秒图解google搜索技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、复杂的1秒图解Google搜索技术·摘要:在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内,它做了什么?大家不妨看看谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。·标签:Google搜索技术·限时报名参加“甲骨文全球大会·2010·北京”及“JavaOne和甲骨文开发者大会2010”谷歌(Google),一个非常成功,但又十分神秘,而且带有几分理想化色彩的互联网搜索巨人,它还是一家相当了不起的广告公司,谷歌首页上的那个搜索按钮是其年赢利200亿美元的杀手级应用,也是Int

2、ernet首屈一指的商业和技术神话。近日国外一家网站(PPCblog)精心绘制了一张谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内,它做了什么?互联网上的内容如何被谷歌找到?什么样的内容会被收录?想必大家一定都想知道谷歌搜索按钮背后的秘密吧。别急,开始之前我们先来看一下神秘的谷歌数据中心。谷歌自家设计服务器谷歌的数据中心高度机密,我们所能得到的信息十分有限。我们先来看几个数据:谷歌在美国本土的数据中心有19个以上,另有17个

3、分布在美国以外的世界各地;每个数据中心有50万平方英尺(46450平方米),建造一个数据中心要花费约6亿美元;谷歌的数据中心是世界上最高效的设施之一,非常环保;数据中心使用50-100兆瓦的电力,考虑到冷却问题,通常建在便于用水的地方;谷歌的服务器被安置在标准的海运集装箱中,每个集装箱可容纳1160台服务器。关于谷歌的数据中心,我们就只知道这么多了。图1谷歌自家设计的服务器 图2服务器自备电池谷歌拥有的数十万台服务器都是自己设计的,它们认为这是公司的核心技术之一(51CTO推荐文章:Google要出服务器?英特尔要小心了)。每台服务器都配有一颗12伏电池,确保万一

4、主电源断电时还可持续供电。至于为什么为每台服务器配备电池,谷歌的回答是成本。一般数据中心多依赖UPS(不间断电源系统),这基本上算是大电池,会在主电力失效而发电机还来不及启动时暂时协助供电。而谷歌认为直接把电力内建到服务器更便宜,而且成本能直接跟服务器数量相符合,如此便不会浪费多余的容量。另一个原因是效率,大型UPS可达92-95%的效率,这意味着许多电力还是被浪费掉了,但谷歌采用的内建电池作法效率超过99.9%。 图3谷歌的服务器被安装在集装箱中,每个集装箱容纳1160台图4工作中的谷歌员工谷歌如何找到并收录你上传的内容?图5发生在用户搜索之前谷歌使用它的"爬虫

5、"工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库供用户检索这一过程,其中第2、3、5步又有许多分支,所有这些都是为了建立一个信息"集汇池",这是第一个阶段的工作,第二个阶段才是从这个"池"中为用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。1、网友上传内容,比如博客、微博或其它类型的WEB内容被更新到网上。2、Google的"爬虫"发现了这一更新。在这一步,谷歌加入了许多判断机制,主要包括以下几点:2.1、Google的"爬虫"沿着链接路径(URL)周游互联网,但如果没

6、有URL指向某一站点,则这一站点将不会被索引。2.2、如果你在robots.txt中设置了不许索引(部分或全部),Google的"爬虫"将不会抓取你站点上的相应内容。2.3、如果指向你站点的连接上有nofollow标签,Google的"爬虫"将不会从这些URL路径来到你的站点。如下图:图6 图7 网页原代码中的nofollow标签URL就像是Google"爬虫"周游互联网时的路标,谷歌当然希望收录有价值的网页,所以必须采取一种机制分辨哪些URL是垃圾信息,nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL,但它们往往大量出现在评

7、论跟帖和论坛中,就像上图中的例子,这些URL对于谷歌来讲是没有意义的,为了防止"爬虫"经由这些URL到达某一站点,在源代码中它们都会自动被加上nofollow标签。2.4、Google也能通过blog软件或xml站点地图找到你的网站。2.5、从权威性越高的网站链接到你网站的URL越多,你的网站的权威性也就越高,但Google"爬虫"始终会忽略被加上了nofollow标签的URL。上面这几点大概就是谷歌在收录信息时对内容提出的"准入"要求,看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注,这一小伎俩是没有什么效果的。以上是信息被谷歌收录之前所发生的事,一

8、旦信息被谷

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。