欢迎来到天天文库
浏览记录
ID:34804211
大小:2.96 MB
页数:47页
时间:2019-03-11
《试论互联网噪链的识别过滤及其在web spam研究上的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、复旦大学硕士学位论文互联网噪链的识别过滤及其在WebSpam研究上的应用姓名:褚静波申请学位级别:硕士专业:计算机软件与理论指导教师:汪卫20090410·互联网噪链的识别过滤及其在WebSpare研究上的应用.摘要目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经不是万能的了。网页与网页之间不再是“投票”的关系,有各种各样其他角色的链接(即噪链)充斥其中,噪链的存在降低了基于链接的排序算法的准确性,如何识别和处理这些噪链是当今国外研究的新热点。本文根据
2、噪链本身的分布特性,提出了一种只基于链接关系就能自动识别和过滤噪链的方法,并进行了详细的真实数据集实验验证,结果表明该方法对噪链的识别和过滤非常有效,而且提高了基于链接关系的排序算法的准确性,我们将P@20(排序前20个结果中的相关结果个数)从平均11.8提高到了16.4。而后,我们进一步把这种方法应用在Webspam的研究上。通过国外公开的公用数据集验证,我们过滤了大多数spam站点,相比一些比较著名的算法来看,我们的方法也非常有竞争力。从而验证了识别和过滤噪链的方法在Webspare研究上应用的可行性。关键词:搜索引擎;排序;噪链;w曲Spam:互联网中图法
3、分类号tTP311复且大学硕十学位论文互联网噪链的识别过滤及其在WebSpare研究上的应甩AbstractNowadays,thelink-basedalgorithmsforsortingwebpagesoccupyacrucialroleintheworkofsearchengine.Suchalgorithmsusethe”link勰voting”hypothesisaStheprerequisite.ButwiththedevelopmentoftheIntemetformoretha玎=10years,thisassurnptionisnotapan
4、acea.Andwebpagesarenolongersimply¨voting”eachother.Withtheexistenceofavarietyofotherlinks(i.e.noisylinks),theaccuracyoflink-basedsortingalgorithmshaSbeenreduced.Howtoidentifyanddealwiththesenoisylinksisoneofthehotspotsintheforeignresearcharea.Inthispaper,asolelylinks-basedmethodispro
5、posedtoidentifyandfilternoisylinksautomatically,andweusedetailedexperimentstoverifyourapproach.Theresultsshowthatwecanidentifyandfilterthenoisylinkseffectivelyandimprovetherankingconsiderably.P@20(thenumberofrelevantresultsoftop20)isincreasedfromanaverageof“.8t016.4.n咄wefurtherapplyt
6、hismethodinthestudyofWebspare.Throughtheexperimentalverificationofforeignpublishedcommondatasets,wesucceedinfilteringoutthemajorityofspamsites.Comparedtosomewell-knownalgorithms,ourapproachisalsoverycompetitive.Therebythemethodofidentificationandfilteringnoisylinksisverifiedintheappl
7、icationofantiWebsparestudy.Keywords:SearchEngine;Sorting;NoisyLink;WebSpam;ⅥWnV复旦人学硕士学位论文互联网噪链的识别过滤及其在WebSpain研究上的应用1.1研究背景第一章绪论今年是国际互联网(www)诞生20周年,它的出现成了人类社会历史发展进程中的另一座里程碑。有人认为,它是继工具的使用、蒸汽机的出现之后第三次技术和社会革命,是继工具、机器之后第三种将使人类文明发生突变的因素【l】。不管怎样评价,互联网确实极大地改变了现代人的生活方式,人们从来没有可以如此不分地域时差地互相沟通和
8、联系,从来没有如此自由地
此文档下载收益归作者所有