基于网页链接和内容分析的改进PageRank算法

基于网页链接和内容分析的改进PageRank算法

ID:38263832

大小:258.98 KB

页数:5页

时间:2019-05-25

基于网页链接和内容分析的改进PageRank算法_第1页
基于网页链接和内容分析的改进PageRank算法_第2页
基于网页链接和内容分析的改进PageRank算法_第3页
基于网页链接和内容分析的改进PageRank算法_第4页
基于网页链接和内容分析的改进PageRank算法_第5页
资源描述:

《基于网页链接和内容分析的改进PageRank算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1602007,43(21)ComputerEngineeringandApplications计算机工程与应用基于网页链接和内容分析的改进PageRank算法1121钱功伟,倪林,MIAOYuan,曹荣1121QIANGong-wei,NILin,MIAOYuan,CAORong1.中国科学技术大学电子工程与信息科学系,合肥2300272.澳大利亚维多利亚大学计算机科学与数学系,澳大利亚1.DepartmentofElectronicEngineeringandInformationScience,UniversityofScienceandTechnologyofChina,Heifei

2、230027,China2.SchoolofComputerScienceandMathematics,VictoriaUniversity,AustraliaE-mail:qgw@mail.ustc.edu.cnQIANGong-wei,NILin,MIAOYuan,etal.ExtendedPageRankalgorithmbasedonWeblinkandcontentanalysis.Com-puterEngineeringandApplications,2007,43(21):160-164.Abstract:AnExtendedPageRank(EPR)algorithmispr

3、esented,combiningWeblinkandWebcontentanalysis.TherelevanceandauthorityalgorithmdemandsaremetbyanalyzingthesimilarityofthecontentsofWebpagesandthelinkstructurerespectively.TheEPRalgorithmprovideslargespacetoextendPageRankalgorithm,andthroughexperiment,betterresultsetcanberetrievedbyadjustingappropri

4、ateparameters.Keywords:PageRank;Webpageranking;linkanalysis;similarityanalysis摘要:结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(ExtendedPageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。关键词:PageRank;网页排序;链接分析;相关性分析文章编号:1002-8331(2007)21-0160

5、-05文献标识码:A中图分类号:TP3111引言是被大量高质量网页引用(链接)的网页也是高质量网页。构造随着Web数据的急剧增长,搜索引擎成为用户获取信息有向Web图G=(V,E),其中顶点V为所有网页集合,边E为网的重要工具。对于特定的查询请求,用户总是希望最先获得最页间的链接集合,网页A中有指向网页B的链接表示顶点A、B权威、和查询最相关的网页,如何将最权威、和查询最相关的网间存在一条边。假设Fu为被网页u链接的网页集合,Bu为链接页排在搜索结果的最前列便是网页排序算法要解决的问题。解网页u的网页集合,令N(u)=

6、Fu

7、,则网页u的权值PR(u)为:决此问题的关键在于充分利用Web的各

8、种信息,包括网页链PR(v)PR(u)="(1)接、网页内容以及用户访问Web留下的信息,如访问模式等个v∈BuN(v)性化信息。目前流行的传统PageRank[1]和HITS[2]算法单纯从链式(1)可以用网页的随机漫游模型进行描述。用户根据当接分析的角度入手进行网页排序,而忽略了Web的其它信息,前网页的链接等概率的访问其它网页,当到达其它网页时同样因此难以取得更好的排序结果。本文将结合网页链接分析和网跟随链接浏览下去,网页的权值反映的就是被访问的概率,因页内容相关性分析提出一种改进的PageRank算法,分别从链此被大量链接的网页(入度大)或被权值较大的网页链接的网接分析角度解决权威性

9、需求,从内容相关性分析角度解决相关页具有较大的权值。性需求。对于随机访问模型,存在另外两种情况,一是存在这样一文章第二部分简要介绍传统PageRank算法及其改进算类网页,它们没有链向其它网页的链接,仅在小范围内相互链法。第三部分详细说明改进的PageRank算法,第四部分介绍实接;另一种是存在一类出度为零的网页。当用户访问到这两类验系统及实验结果分析,第五部分总结全文。网页时,按照上述模型访问将终止或仅在某

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。