google搜索引擎的工作原理

google搜索引擎的工作原理

ID:31707854

大小:57.92 KB

页数:5页

时间:2019-01-17

google搜索引擎的工作原理_第1页
google搜索引擎的工作原理_第2页
google搜索引擎的工作原理_第3页
google搜索引擎的工作原理_第4页
google搜索引擎的工作原理_第5页
资源描述:

《google搜索引擎的工作原理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Google搜索引擎的工作原理2010-07-050&41推荐:PJ4浏览:24,665views我要评论(6条)字号:左出尘分亨到:新浪微博腾讯微博QQ空间Gmail邮箱豆瓣网搜狐微博开心网摘要:PPCblog.com呈现给我们一幅由JessBachman(在WallStats.com工作)精心描绘的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这是我刚付印的最新示意图,这张流程…PPCblog.com呈现给我们一幅由JessBachman(在WallStats.comT作)精心描绘的示意图

2、,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这是我刚付印的最新示意图,这张流程图演示了在你点击Google搜索按钮后,在Google返回查询结果前那一眨眼的功夫里,Google是如何处理你的搜索请求的?这可是搜索巨人Google年赢利额高达200亿美元的杀手级应用,也是Internet首屈一指的商业和技术神话,大家肯定都想知道Google这棵摇钱树背后的秘密。一、Google官方对其搜索技术的叙述我们搜索技术的后端软件会在服务器侧触发一系列执行时间不到1秒的并行计算,Google问世前的传统搜索引

3、擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其屮包括我们拥有专利的PagcRank页面等级加权算法)用来检查万维网的链接结构(佩奇和布林最初的想法是把万维网的链接结构用图论的有向无环图来建模)并决定网页的重要程度,我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文屮的引用指数一样,重要的论文总是会被很多其他论文引用。然后我们再根据搜索条件进行超文本匹配分析(对bot抓取的页面内容进行关键词倒排索引检索)确定跟搜索请求最相关的网页。综合最重要的网页和跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关

4、程度把查询结果排序后呈现给我们的用户。二、数据中心:Google用来索引世界的塔Google的数据中心高度机密,我们能了解到的不多:1.在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。2.每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。3.Google数据中心是世界上最高效的设施之一,而且也非常环保,儿乎没有碳排放。4.数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。5.Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。三、处理流程:1.你写博客、

5、或在Twitter±推微博、更新站点等诸如此类往web上添加内容的操作2.Google爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容(1)Googlebots程序沿链接路径周游万维网,如果没有http路径到你的站点,你的站点将不会被索引(2)如果你在robots,txt中设置不许索引,Googlebots程序将不会抓取你的网页(3)如果链接到你站点的html链接上有nofollow标签,Googlebots将不会从这些链接路径周游到你的站点。(4)Google也能通过blog软件或xml站点地图找到

6、你的网站(5)从PageRank越高的网站链接到你的网站的链接越多,你的网站的PageRank就越高。(6)Google爬虫将周游所有未标注为nofollow的链接3.一旦被Google爬虫访问到,网页几秒内就被索引了(1)网页内容被存储在一个倒排索引中①网页标题和链接数据被保存在一个索引中,用于广度优先搜索②网页内容保存在另一个索引中,以用于检索频率不高的长尾、个性化、深度优先搜索(2)当你用Google搜索时,你并没有在检索时时更新的万维网,而是在检索Google的缓存,Google定期更新其索引库,在Twitter实时搜索等的竞争下,Google的索引库更

7、新周期趋短。4.Google基丁•链接评估域名和网页的总体PageRank值。5.检查网页以防止作弊行为(1)Google的搜索质量和反垃圾信息审查和优化算法(1)1万多远程测试用户评价搜索结果的质量(2)Google征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报(3)Google接到(美国)数字千年版权法案的通知,要求Google把盗版行为记录备案1.在对页面做了损害分析后,现在毎个页面都有很多用于辅助用户搜索的数据片(比如检索关键词)反向引用着它2.用户发出搜索请求(1)Google搜索质量工程师PatrickRiley:在大多数Google搜索中,

8、你的搜索处于许多并行的控

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。