Pagerank算法与网页排序方法的建模

Pagerank算法与网页排序方法的建模

ID:40561882

大小:169.23 KB

页数:11页

时间:2019-08-04

Pagerank算法与网页排序方法的建模_第1页
Pagerank算法与网页排序方法的建模_第2页
Pagerank算法与网页排序方法的建模_第3页
Pagerank算法与网页排序方法的建模_第4页
Pagerank算法与网页排序方法的建模_第5页
资源描述:

《Pagerank算法与网页排序方法的建模》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Pagerank算法与网页排序方法的建模摘要随着互联网的飞速发展,各种杂乱无章的信息充斥其中,如何对数以亿记的相关网页进行排序成为搜索引擎的核心问题。针对这个现象本文根据题目要求建立了两个模型:模型一:结合Google的Pagerank算法,建立了网上冲浪模型,得到Pagerank算法定义:用迭代算法通过MATLAB编程计算出网页的PR值;模型二:由于传统PR值算法仅考虑网页的外链和内链数量,偏重于旧网页;另外,传统算法不能区分网页中的链接与网页的主题是否相关,容易产生主题漂移现象;考虑其算法存在的缺陷,在此基础上为给出对搜索网页进行排序的方法,着重考虑搜索出的网页以下几个方面

2、:外链,内链,时间反馈因子和相关度,对PR值进行改进,得到以下公式:以PR值的高低来对搜索网页进行排序;对于如何使新网站在搜索引擎中排名靠前,从影响网页的PR值的因素:內链、外链、时间反馈因子和相关度出发对提高网页的PR值以使其在搜索引擎中排名靠前给出了稳健的建议。关键词Pagerank迭代算法MATLAB时间反馈因子相关度一、问题重述随着互联网的发展,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题。一个搜索引擎的算法,要考虑很多的方面。主要是“域名、密度、内链、外链、相关度、服务器稳定、内容更新、域名时间、内容数量”这些方面。不同的搜索引擎

3、侧重点也不同,比如Google,它对收录的网站有一个重要性排名的指数,被称为Pagerank,作为对搜索网页排序的重要参数。根据搜索引擎与Pagerank,考虑如下问题:1.考察Google的Pagerank算法,建立数学模型,给出合理的Pagerank的计算方法;2.如果你是搜索引擎的建设者,请考虑你会侧重考虑搜索网页的那些方面,给出你对搜索网页进行排序的方法;3.如果你是某新网站的建设者,请考虑使你的网站在第2题中你建立的搜索引擎中排名靠前的方法。二、问题分析互联网的迅速发展,使现有的搜索引擎面临着巨大的挑战,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索

4、引擎算法的核心问题,因此,搜索引擎排序算法也就称为众多搜索引擎关注的关键问题之一。对于问题1,根据题目要求,结合Google的Pagerank算法,PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接,由此建立了网上冲浪模型,用迭代算法计算出网页的PR值。

5、对于问题2,经过对Google的Pagerank算法的分析,发现该算法仅考虑了搜索出的网页的外链和内链的数量,以此来确定网页的PR值偏重于旧网页,即越旧的网页排名越靠前;对一个刚放到网上不久的新网页,指向它的网页就很少,通过计算后的PR值就很低,在搜索结果中也就被排在了靠后的位置。然而在有些时候,比如新闻类网页和商务性信息,用户当然是希望先看到新的网页,因此我们在计算PR值时考虑加入时间反馈因子,使得在网络上存在时间比较长的网页被沉下去,在搜索结果中被排在靠后的位置;存在时间短的网页就会浮上来,在搜索结果中被排在较靠前的位置,方便用户查看。时间反馈因子利用搜索引擎的搜索周期来表

6、征,即如果一个网页存在时间较长,它将在每个搜索周期中都能被搜到,对网页采取在同一个周期里不管搜到该网页几次,都算一次处理的方法,网页的存在时间正比于搜索引擎搜到该网页的次数,时间反馈因子与网页的存在时间成反比关系。另外,Google的Pagerank算法是基于网页链接结构进行分析的算法,不能区分网页中的链接与网页的主题是否相关,这样就容易出现搜索引擎排序结果中大量与查询主题无关的网页的现象,即产生主题漂移现象。为解决这个问题,引入主题相关度这个概念。主题相关度就是搜索出的网页与其链入和链出网页的相似度,可用余弦相似度来度量计算。在加入了时间反馈因子和相关性因素后,改进网页的PR

7、值的算法,以PR值高低的来对搜索的网页进行排序。对于问题三,主要通过模型二的结果,加强有力的因素,避免不利的方面二、模型假设与符号说明3.1模型假设3.1.1问题1的模型假设 (1)假设网页集合的主体之间有相关性,并且体现在他们的相互链接上; (2)假设用户一开始随机访问网页集合中的一个网页,以后跟随网页的外向连接向前浏览网页,不考虑他们后退的情况;(3)假设用户的大部分浏览具有相关性,或者说连贯性,当然也不排除用户直接跳转到无关网页的可能性;(4)假设用户顺序浏览网页,不考虑他们在网页上驻

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。