基于pagerank和hits的web搜索

基于pagerank和hits的web搜索

ID:34556209

大小:182.08 KB

页数:3页

时间:2019-03-07

基于pagerank和hits的web搜索_第1页
基于pagerank和hits的web搜索_第2页
基于pagerank和hits的web搜索_第3页
资源描述:

《基于pagerank和hits的web搜索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com第18卷.第7期计算机技术与发展Vo1.18No.72008年7月.COMPUTERTECHNOLOGYANDDEVELOPMENTJu1.2008基于PageRank和HITS的Web搜索常庆,周明全,耿国华(西北大学可视化研究所,陕西西安710127)摘要:介绍了目前应用较为广泛的两种算法——PageRaIlk算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强

2、关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。关键词:PageRank;HITS;特征向量;检索主题;链按分析中图分类号:11P3O1.6文献标识码:A文章编号:1673—629X

3、(2008)07—0077一O3PageRankandHITS。-’BasedWebSearchCHANGQing,ZHOUMing-quan,GENGGuo-hua(InstituteofVisualizationTechnology,NorthwestUniversity,Xi’an710127,China)Abstract:Introducethewiderapplicationofthepresenttwoalgorithms:PageRankalgorithmandHITSalgorithm.P

4、ageRanka~orithmisbasedonrand~userSbrowsethewebsiteaheadofintuitiveknowledge.HITSalgorithmconsideredisAuthoritiveandHubwebsiteh)r】嘲ethestrengtheningofrehtiom.PageRankalgorithm’Sbasicidea:ifapageisusedinmanyotherpages,thispageislikelytObeimport~tP~es;althou

5、ghnoonepage吣repeatedlyquoted,butitwasanimportantquotepages,thispagemayalsobeimportantpage;theimportanceofapagearetransferedtothepageswhichitcites.HITSalgorithmfocusonimprovingthegenericthemeofthesearchresults,throughsomecaledation(iterative)methodinordert

6、Ogetaresponsetoasearchofthemostvaluablepages,theh~hestn~angauthority.Keywords:PageRank;HITS;eigenveetor;searchtheme;linkanalysis1PageRank算法PageRank值,这可以用迭代方法计算[¨。PageRank算法描述如下:U是一个网页,F(U)是如果有两个相互指向的网页a,b,它们不指向其U指向的网页集合,B(U)是指向U的网页集合,N(U)它任何网页,另外有某个网页C,指向

7、a,b中的某一是U指向外的链接数,显然N(U)=IF(U)I,C是一个,比如a,那么在迭代计算中,a,b的rank值因为不个用于规范化的因子(Google通常取O.85,这种表示法分布出去而不断地累计,如下图:也适用于以后介绍的算法),则U的Rank值计算如下:、R(“)=cR()/N()口∈B(q)这就是算法的形式化描述,也可以用矩阵来描述为了解决这个问题,SergeyBrin和LawrencePage此算法,设A为一个方阵,行和列对应网页集的网页。改进了算法,引入了衰退因子E(“)[,E(U)是对应如

8、果网页有指向网页的一个链接,则A=1/Ni,网页集的某一向量,对应rank的初始值,算法改进如否则A=o设是对应网页集的一个向量,有V=下:cAV,V为A的特征根为C的特征向量。实际上,只需要R(“)=c∑R()()+cE(“)求出最大特征根的特征向量,就是网页集对应的最终其中,IIR,JJl=1,对应的矩阵形式为V’=c(AV’+E)。收稿日期:2007—1O一11基金项目:国家自然科学基金(F020503)作者简介:常庆(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。