具有时间反馈的pagerank改进算法

具有时间反馈的pagerank改进算法

ID:4145293

大小:32.50 KB

页数:11页

时间:2017-11-29

具有时间反馈的pagerank改进算法_第1页
具有时间反馈的pagerank改进算法_第2页
具有时间反馈的pagerank改进算法_第3页
具有时间反馈的pagerank改进算法_第4页
具有时间反馈的pagerank改进算法_第5页
资源描述:

《具有时间反馈的pagerank改进算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、具有时间反馈的PageRank改进算法第33卷第3期2005年6月浙江工业大学J0URNALOFZHEJIANGUNIVERSITYOFTECHNOLOGYVo1.33No.3Jun.20050具有时间反馈的PageRank改进算法戚华春,黄德才,郑月锋(浙江工业大学信息工程学院,浙江杭州310014)摘要:针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验结果表

2、明,改进后的算法在计算这类与发布时间相关的网页的PageRank值时,符合人们的一般期望,是有效的.Seidel迭代算法有利于提高算法效率.关键词:PageRank;Seidel迭代;时间反馈;搜索引擎中图分类号:G202文献标识码:A文章编号:1006-4303(2005)03—0272—04AnimprovedPageRankalgorithmwithtimefeedbackingQIHua—chun,HUANGDe—cai,ZHENGYue—feng(CollegeofInformationEngineering,ZhejiangUniversity

3、ofTechnology,Hangzhou310014,China)Abstract:PageRankisawebpagerankingalgorithmproposedbyGoogle,awellknownsearchengine.Thealgorithmisaniterativeprocessthatdetermineswebpagerankingbasedonpagelinkstructure,orco—citation.PageRankisasuccessful,butnotaperfectalgorithm.Forinstance,anolder

4、pageisalwaysanimportantpagebecausethemoreolderitis,themorelink—inpagesithas.Soanewpageisusuallynotimportant.Forthis,wefirstintegratedpagetimeinformationwithPageRankcalculation,andthenemployedSeidel'smethodtospeeduptheconvergenceoftheit—erationprocess.Experimentalresultsshowthatthe

5、newalgorithmisgoodandreasonable.Keywords:PageRank;Seideliteration;timefeedbacking;searchengine引言随着互联网技术日益深人生活,使我们面对的信息出现了爆炸式的增长.1994年,最早的搜索引擎WorldWideWebWorm标引了11万网页,到1997年,搜索引擎所标引的网页已达2~100M,2000年可标引的网页已超过1O亿张.着名的搜索引擎Google拥有1O亿个网址,3O亿个网页,3.9亿张图像,而且,今天仍然以每天超过100万张的速度在增长.面对互联网如此巨大

6、的信息量,人们开始注意到如何对网络数据进行挖掘是一个重要的问题,并对此展开了大量的研究.本文的论述集中在如何对网络的组织结构和链接关系进行挖掘,以产生我们需要的信息.目前基于网络的组织结构和链接关系进行挖掘的主要算法有两种L1]:(1)PageRank算法[2]:该算法提取网页的超链接信息,进行离线计算,得出网页的PR值,并进行排序,以发现网络中最主要的页面.收疆日期:2004—10—13作者简介:戚华春(1979一),男,浙江杭州人,硕士研究生,主要研究方向为网络应用,数据挖掘和遗传算法.第3期戚华春,等:具有时间反馈的PageRank改进算法(2)HI

7、TS算法[3]:该算法将网页分为锚页(Hub)和权威页(Authority),并通过这两种网页相互增强,进行迭代,以最终的网页权威值为依据对结果进行排序,以发现网络中最主要的页面.上述两种算法各有优缺点,本文就主要针对PageRank算法的一些不足,提出一个校正的算法PageRank—Times算法.1PageRank算法与缺陷1.1PageRank算法传统情报检索理论中的引文分析方法是确定学术文献权威性的一个重要方法,即根据引文的数量来确定文献的权威性.PageRank算法的发明者对网络的超链接结构和文献引文机制的相似性进行了研究,借鉴引文分析思想计算网

8、络文档的重要性,利用网络自身的超链接结构给所有的网页确定一个重要性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。