欢迎来到天天文库
浏览记录
ID:34556209
大小:182.08 KB
页数:3页
时间:2019-03-07
《基于pagerank和hits的web搜索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、维普资讯http://www.cqvip.com第18卷.第7期计算机技术与发展Vo1.18No.72008年7月.COMPUTERTECHNOLOGYANDDEVELOPMENTJu1.2008基于PageRank和HITS的Web搜索常庆,周明全,耿国华(西北大学可视化研究所,陕西西安710127)摘要:介绍了目前应用较为广泛的两种算法——PageRaIlk算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强
2、关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。关键词:PageRank;HITS;特征向量;检索主题;链按分析中图分类号:11P3O1.6文献标识码:A文章编号:1673—629X
3、(2008)07—0077一O3PageRankandHITS。-’BasedWebSearchCHANGQing,ZHOUMing-quan,GENGGuo-hua(InstituteofVisualizationTechnology,NorthwestUniversity,Xi’an710127,China)Abstract:Introducethewiderapplicationofthepresenttwoalgorithms:PageRankalgorithmandHITSalgorithm.P
4、ageRanka~orithmisbasedonrand~userSbrowsethewebsiteaheadofintuitiveknowledge.HITSalgorithmconsideredisAuthoritiveandHubwebsiteh)r】嘲ethestrengtheningofrehtiom.PageRankalgorithm’Sbasicidea:ifapageisusedinmanyotherpages,thispageislikelytObeimport~tP~es;althou
5、ghnoonepage吣repeatedlyquoted,butitwasanimportantquotepages,thispagemayalsobeimportantpage;theimportanceofapagearetransferedtothepageswhichitcites.HITSalgorithmfocusonimprovingthegenericthemeofthesearchresults,throughsomecaledation(iterative)methodinordert
6、Ogetaresponsetoasearchofthemostvaluablepages,theh~hestn~angauthority.Keywords:PageRank;HITS;eigenveetor;searchtheme;linkanalysis1PageRank算法PageRank值,这可以用迭代方法计算[¨。PageRank算法描述如下:U是一个网页,F(U)是如果有两个相互指向的网页a,b,它们不指向其U指向的网页集合,B(U)是指向U的网页集合,N(U)它任何网页,另外有某个网页C,指向
7、a,b中的某一是U指向外的链接数,显然N(U)=IF(U)I,C是一个,比如a,那么在迭代计算中,a,b的rank值因为不个用于规范化的因子(Google通常取O.85,这种表示法分布出去而不断地累计,如下图:也适用于以后介绍的算法),则U的Rank值计算如下:、R(“)=cR()/N()口∈B(q)这就是算法的形式化描述,也可以用矩阵来描述为了解决这个问题,SergeyBrin和LawrencePage此算法,设A为一个方阵,行和列对应网页集的网页。改进了算法,引入了衰退因子E(“)[,E(U)是对应如
8、果网页有指向网页的一个链接,则A=1/Ni,网页集的某一向量,对应rank的初始值,算法改进如否则A=o设是对应网页集的一个向量,有V=下:cAV,V为A的特征根为C的特征向量。实际上,只需要R(“)=c∑R()()+cE(“)求出最大特征根的特征向量,就是网页集对应的最终其中,IIR,JJl=1,对应的矩阵形式为V’=c(AV’+E)。收稿日期:2007—1O一11基金项目:国家自然科学基金(F020503)作者简介:常庆(
此文档下载收益归作者所有