资源描述:
《基于网页链接和内容分析的改进PageRank算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1602007,43(21)ComputerEngineeringandApplications计算机工程与应用基于网页链接和内容分析的改进PageRank算法1121钱功伟,倪林,MIAOYuan,曹荣1121QIANGong-wei,NILin,MIAOYuan,CAORong1.中国科学技术大学电子工程与信息科学系,合肥2300272.澳大利亚维多利亚大学计算机科学与数学系,澳大利亚1.DepartmentofElectronicEngineeringandInformationScience,UniversityofScienceandTechnologyofChina,Heifei
2、230027,China2.SchoolofComputerScienceandMathematics,VictoriaUniversity,AustraliaE-mail:qgw@mail.ustc.edu.cnQIANGong-wei,NILin,MIAOYuan,etal.ExtendedPageRankalgorithmbasedonWeblinkandcontentanalysis.Com-puterEngineeringandApplications,2007,43(21):160-164.Abstract:AnExtendedPageRank(EPR)algorithmispr
3、esented,combiningWeblinkandWebcontentanalysis.TherelevanceandauthorityalgorithmdemandsaremetbyanalyzingthesimilarityofthecontentsofWebpagesandthelinkstructurerespectively.TheEPRalgorithmprovideslargespacetoextendPageRankalgorithm,andthroughexperiment,betterresultsetcanberetrievedbyadjustingappropri
4、ateparameters.Keywords:PageRank;Webpageranking;linkanalysis;similarityanalysis摘要:结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(ExtendedPageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。关键词:PageRank;网页排序;链接分析;相关性分析文章编号:1002-8331(2007)21-0160
5、-05文献标识码:A中图分类号:TP3111引言是被大量高质量网页引用(链接)的网页也是高质量网页。构造随着Web数据的急剧增长,搜索引擎成为用户获取信息有向Web图G=(V,E),其中顶点V为所有网页集合,边E为网的重要工具。对于特定的查询请求,用户总是希望最先获得最页间的链接集合,网页A中有指向网页B的链接表示顶点A、B权威、和查询最相关的网页,如何将最权威、和查询最相关的网间存在一条边。假设Fu为被网页u链接的网页集合,Bu为链接页排在搜索结果的最前列便是网页排序算法要解决的问题。解网页u的网页集合,令N(u)=
6、Fu
7、,则网页u的权值PR(u)为:决此问题的关键在于充分利用Web的各
8、种信息,包括网页链PR(v)PR(u)="(1)接、网页内容以及用户访问Web留下的信息,如访问模式等个v∈BuN(v)性化信息。目前流行的传统PageRank[1]和HITS[2]算法单纯从链式(1)可以用网页的随机漫游模型进行描述。用户根据当接分析的角度入手进行网页排序,而忽略了Web的其它信息,前网页的链接等概率的访问其它网页,当到达其它网页时同样因此难以取得更好的排序结果。本文将结合网页链接分析和网跟随链接浏览下去,网页的权值反映的就是被访问的概率,因页内容相关性分析提出一种改进的PageRank算法,分别从链此被大量链接的网页(入度大)或被权值较大的网页链接的网接分析角度解决权威性
9、需求,从内容相关性分析角度解决相关页具有较大的权值。性需求。对于随机访问模型,存在另外两种情况,一是存在这样一文章第二部分简要介绍传统PageRank算法及其改进算类网页,它们没有链向其它网页的链接,仅在小范围内相互链法。第三部分详细说明改进的PageRank算法,第四部分介绍实接;另一种是存在一类出度为零的网页。当用户访问到这两类验系统及实验结果分析,第五部分总结全文。网页时,按照上述模型访问将终止或仅在某