试论互联网噪链的识别过滤及其在web spam研究上的应用

试论互联网噪链的识别过滤及其在web spam研究上的应用

ID:34804211

大小:2.96 MB

页数:47页

时间:2019-03-11

试论互联网噪链的识别过滤及其在web spam研究上的应用_第1页
试论互联网噪链的识别过滤及其在web spam研究上的应用_第2页
试论互联网噪链的识别过滤及其在web spam研究上的应用_第3页
试论互联网噪链的识别过滤及其在web spam研究上的应用_第4页
试论互联网噪链的识别过滤及其在web spam研究上的应用_第5页
资源描述:

《试论互联网噪链的识别过滤及其在web spam研究上的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学硕士学位论文互联网噪链的识别过滤及其在WebSpam研究上的应用姓名:褚静波申请学位级别:硕士专业:计算机软件与理论指导教师:汪卫20090410·互联网噪链的识别过滤及其在WebSpare研究上的应用.摘要目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经不是万能的了。网页与网页之间不再是“投票”的关系,有各种各样其他角色的链接(即噪链)充斥其中,噪链的存在降低了基于链接的排序算法的准确性,如何识别和处理这些噪链是当今国外研究的新热点。本文根据

2、噪链本身的分布特性,提出了一种只基于链接关系就能自动识别和过滤噪链的方法,并进行了详细的真实数据集实验验证,结果表明该方法对噪链的识别和过滤非常有效,而且提高了基于链接关系的排序算法的准确性,我们将P@20(排序前20个结果中的相关结果个数)从平均11.8提高到了16.4。而后,我们进一步把这种方法应用在Webspam的研究上。通过国外公开的公用数据集验证,我们过滤了大多数spam站点,相比一些比较著名的算法来看,我们的方法也非常有竞争力。从而验证了识别和过滤噪链的方法在Webspare研究上应用的可行性。关键词:搜索引擎;排序;噪链;w曲Spam:互联网中图法

3、分类号tTP311复且大学硕十学位论文互联网噪链的识别过滤及其在WebSpare研究上的应甩AbstractNowadays,thelink-basedalgorithmsforsortingwebpagesoccupyacrucialroleintheworkofsearchengine.Suchalgorithmsusethe”link勰voting”hypothesisaStheprerequisite.ButwiththedevelopmentoftheIntemetformoretha玎=10years,thisassurnptionisnotapan

4、acea.Andwebpagesarenolongersimply¨voting”eachother.Withtheexistenceofavarietyofotherlinks(i.e.noisylinks),theaccuracyoflink-basedsortingalgorithmshaSbeenreduced.Howtoidentifyanddealwiththesenoisylinksisoneofthehotspotsintheforeignresearcharea.Inthispaper,asolelylinks-basedmethodispro

5、posedtoidentifyandfilternoisylinksautomatically,andweusedetailedexperimentstoverifyourapproach.Theresultsshowthatwecanidentifyandfilterthenoisylinkseffectivelyandimprovetherankingconsiderably.P@20(thenumberofrelevantresultsoftop20)isincreasedfromanaverageof“.8t016.4.n咄wefurtherapplyt

6、hismethodinthestudyofWebspare.Throughtheexperimentalverificationofforeignpublishedcommondatasets,wesucceedinfilteringoutthemajorityofspamsites.Comparedtosomewell-knownalgorithms,ourapproachisalsoverycompetitive.Therebythemethodofidentificationandfilteringnoisylinksisverifiedintheappl

7、icationofantiWebsparestudy.Keywords:SearchEngine;Sorting;NoisyLink;WebSpam;ⅥWnV复旦人学硕士学位论文互联网噪链的识别过滤及其在WebSpain研究上的应用1.1研究背景第一章绪论今年是国际互联网(www)诞生20周年,它的出现成了人类社会历史发展进程中的另一座里程碑。有人认为,它是继工具的使用、蒸汽机的出现之后第三次技术和社会革命,是继工具、机器之后第三种将使人类文明发生突变的因素【l】。不管怎样评价,互联网确实极大地改变了现代人的生活方式,人们从来没有可以如此不分地域时差地互相沟通和

8、联系,从来没有如此自由地

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。