基于页面相似度的链接分析算法研究

基于页面相似度的链接分析算法研究

ID:33166811

大小:2.88 MB

页数:60页

时间:2019-02-21

基于页面相似度的链接分析算法研究_第1页
基于页面相似度的链接分析算法研究_第2页
基于页面相似度的链接分析算法研究_第3页
基于页面相似度的链接分析算法研究_第4页
基于页面相似度的链接分析算法研究_第5页
资源描述:

《基于页面相似度的链接分析算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文基于页面相似度的链接分析算法研究姓名:范鑫鑫申请学位级别:硕士专业:软件工程指导教师:江贺20081205大连理工大学硕士学位论文摘要Web为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给Web资源的挖掘造成了相当的难度。由于Web信息是自组织和半结构化的,经典的信息检索和数据库技术很难得到有效的应用。超链接是Web特有的组成部分,是联系w曲上数据资源的纽带。链接分析是提高w曲资源挖掘质量的重要途径。本文详细分析了Web数据挖

2、掘方法及Web搜索引擎的结构,分析了Web链接结构的特征及主流的链接分析算法的特点及存在的问题。Pagerank算'法$OHITS算法是两种典型的基于链接分析的页面排序算法。但是PageRank算法同等对待网页间的链接,没有考虑网页更新时间的重要性、导航网页的影响等;HITS算法忽略了主机之间的多重加强关系,容易发生主题偏移产生不合理结果以及不能满足用户站点粒度的信息需求等。根据Web链接特征以及网络冲浪者的浏览过程,可以发现网络冲浪者的随机游走过程受当前页面内容的影响,通常会跳转到与当前页面内容相

3、关性很大页面,而不是等概率地沿着出链跳转。在此基础上,本文引入了SimRank算法来定义网页之间的相似性,从而给出了一种基于网页间相似度权值分配模式,对相关性大的页面间的链接赋予较大的跳转概率。利用此分配模式我们提出了一种基于分配因子排序算法RAD(RankingAlgorithmBasedonDistributedFactor)。本文阐述了RAD算法平台设计,包括实验数据集的获取、数据库设计、剪枝处理、SimRank算法实现及RAD算法实现。实验结果表明,该算法在获得相关性网页以及宏平均准确率方面

4、比标准的PageRank算法更加有效。关键词:链接分析;PageRank算法;随机游走;RAD算法基于页面相似度的链接分析算法研究ResearchofLinkAnalysisAlgorithmBasedonDistributedFactorAbstractAbundant1nformationsourcesareprovidedbyweb,whichhavemadethewebsourceminingfairlydifficultbecauseofhugevolumeofdataanditscomp

5、lexity,extremedynamicandallkindsofclientsandSOon.Owingtotheself-organizedandsemi—structuredcharacteristicsofweb,classicalinformationretrieveanddatabasetechnologiescarlnotappliedeffectively.Hyperlinkisthespecialcomponentandthebondoflinkingdatasourcesofw

6、eb.Linkanalysisisanimportantapproachtoimprovetheequalityofwebsourcemining.Thispaperanalyzeswebdataminingmethods,structureofwebsearchengine,characteristicsofweblinkstructureandcharacteristicsandrelevantquestionsofmainlinkanalysisalgorithmsindetail.PageR

7、ankandHITSalgorithmsaletwoclassiclinkanalysisrankingalgorithms.ButPageRanktreatsalllinksequallywithoutconsideringtheimportanceofupdatingtimeofoldwebpagesandtheinfluenceofnavigationwebpages.AndHITSe)(istSthemultiplereinforcementrelationship,thephenomeno

8、noftopicdrift,theunreasonableresultsandtheunsatisfiedinformationreqmrememofusersitegranularityandSOon.Accordingtothelinkcharacterofwebandbrowsingprocessofwebwalker,itCanfoundthatrandomwalkerwilljumptothesimilarpagesinfluencedbythecurren

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。