欢迎来到天天文库
浏览记录
ID:41028564
大小:107.04 KB
页数:11页
时间:2019-08-14
《pagerank和HIts算法总结材料》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、实用文案摘要当前其应用主要体现在网络信息检索、网络计量学、数据挖掘、Web结构建模等方面。作为Google的核心技术之一,链接分析算法应用已经显现出巨大的商业价值。在链接分析算法中,最有名对的当属PR算法和HITS算法搜索引擎是如何进行网页的相关性排序的呢?除了看网页本身的关键词密度和关键词位置外,还要看一个更重要的要素,就是链接流行度(或称之为链接分析),几个方面结合起来就能让排序更加精确。链接流行度的原理是,一个网页拥有的反向链接越多,就越有可能是高质量网页,不然也不会有更多人愿意为其做链接。因此,在其他因数相同的条件下,反向链接越多的网页排名更靠
2、前。你可以在百度或Google搜索“SEO”这个词,返回的搜索结果有上亿之多,显然不能说排名靠前的网页就是含有“SEO”这个词多的网页,或在标题标签等重要位置出现这个词的网页。网页自己单方面怎么说并不能说明你这个网页就是最好的,重要的是其他网页怎么评价你——链接流行度。链接流行度分析并不是等于简单的链接数相加,因为链接重要性各不相同,链接向你的网页越权威,效果就会越好。比如PR7的老站和PR3的新站,给你站的权威值贡献是有巨大差别的。那么搜索引擎又是如何判断是否权威网站呢?被大量高权威值的网站链接着的站点就是权威网站。但仅仅链接本身还不足以让网页获得好
3、的排名,因为这些链接可能并非与用户搜索的关键词相关。于是,链接的相关性便成为链接流行度分析的重要部分,除了网站主题是否相关之外,锚文本出现关键词也是非常重要的。关键词:链接分析PageRankHITS网页排名文案大全实用文案PR算法简介一、问题背景在互联网时代,网络运营商众多,但是绝对不可忽略的必定有一家公司—自1998年问世以来,在极短的时间内声名鹊起,并且打败了所有的及竞争对手,成为世界上首屈一指的搜索引擎:Google。Google的成功有很多关键性因素,其中之一就是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时
4、提出的链接分析算法。在谷歌主导互联网搜索之前,多数搜索引擎采用的排序方法,是以被搜索词语在网页中的出现次数来决定排序——出现次数越多的网页排在越前面。这个判据不能说毫无道理,因为用户搜索一个词语,通常表明对该词语感兴趣。既然如此,那该词语在网页中的出现次数越多,就越有可能表示该网页是用户所需要的。但是很明显,这种搜索算法容易造成的后果是,一旦某个网页在自己的链接中不断重复某个字段,就很容易在该字段的搜索中排到前排,这种垃圾网页的出现极大地拉低了搜索结果的质量,也带来不好的搜索体验。这是在这种情况下,1996年初,谷歌创始人开始了自己对于网页搜索排序的研
5、究。PageRank即网页排名,又称网页级别,Google左侧排名或者佩奇排名。二、算法研究从早期的网页搜索来看,单单根据关键字的重复次数来进行网页排名是不现实的,无法有效地剔除垃圾网页。佩奇和布林根据学术界评判论文的通用方法,即查看论文的引用次数来判定论文的重要性。而网页的链接与论文的引用相类似。因此,布林和佩奇萌生根据网页链接来进行网页排序的思路。一个网站被链接的次数越多,它的排序就越靠前。但是仅仅如此还不够,也可能会被恶意利用,因此在评估的过程中增加了权重比例,即文案大全实用文案一个网页越是被排序靠前的网页所链接,它的排序就也应该越靠前。这一条的
6、意义也是不言而喻的,就好比一篇论文被诺贝尔奖得主所引用,显然要比被普通研究者所引用更说明其价值。依照这个思路,网页排序问题就跟整个互联网的链接结构产生了关系。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)
7、。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。一、算法步骤在问题的解决中,有一个关键因素,即初始条件是什么。想要知道一个网页wi的排序,不仅要知道有多少网页链接了它,而且还得知道那些网页各自的排序——因为来自排序靠前网页的链接更有分量。但作为互联网大家庭的一员,wi本身对其它网页的排序也是有贡献的,而且基于来自排序靠前网页的链接更有
8、分量的原则,这种贡献与wi本身的排序也有关。这样一来,我们就陷入了一个“先有鸡还是先有蛋”的循
此文档下载收益归作者所有