欢迎来到天天文库
浏览记录
ID:39222659
大小:192.71 KB
页数:3页
时间:2019-06-27
《PageRank算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、PageRank算法[编辑]简单的假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。换句话说,根据链出总数平分一个页面的PR值。最后,所有这些被换算为一个百分比再乘上一个系数q。由于下面的算法,没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值。所以一个页面的PageRank是由其他页面的
2、PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于正常和稳定。这就是搜索引擎使用它的原因。[编辑]完整的这个方程式引入了随机浏览的概念,即有人上网无聊随机打开一些页面,点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解,这里假设上网者不断点网页上的链接,最终到了一个没有任何链出页面的网页,这时候上网者会随机到另外的网页开始浏览。为了对那些有链出的页面公平,(这裡的被称为阻尼系数(dampingfactor)
3、,其意义是,在任意时刻,用户到达某页面后并继续向后浏览的概率。就是用户停止点击,随机跳到新URL的概率)的算法被用到了所有页面上,估算页面可能被上网者放入书签的概率。所以,这个等式如下:是被研究的页面,是链入页面的数量,是链出页面的数量,而N是所有页面的数量。PageRank值是一个特殊矩阵中的特征向量。这个特征向量为R是等式的答案如果不链向,而且对每个j都成立时,等于0这项技术的主要缺點是旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。这就是PageRank需要多项算法结合的原因。PageRank似乎倾向于维基
4、百科页面,在条目名称的搜索结果中总在大多数或者其他所有页面之前。原因主要是维基百科内相互的链接很多,并且有很多站点链入。Google经常处罚恶意提高PageRank的行为,至於其如何区分正常的链接交换和不正常的链接堆积仍然是商业机密
此文档下载收益归作者所有