免疫克隆选择算法垃圾网页检测

免疫克隆选择算法垃圾网页检测

ID:37327426

大小:296.83 KB

页数:5页

时间:2019-05-21

免疫克隆选择算法垃圾网页检测_第1页
免疫克隆选择算法垃圾网页检测_第2页
免疫克隆选择算法垃圾网页检测_第3页
免疫克隆选择算法垃圾网页检测_第4页
免疫克隆选择算法垃圾网页检测_第5页
资源描述:

《免疫克隆选择算法垃圾网页检测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第32卷第6期计算机应用与软件Vol.32No.62015年6月ComputerApplicationsandSoftwareJun.2015基于免疫克隆选择算法的垃圾网页检测杨凡朱焱唐寿洪(西南交通大学信息科学与技术学院四川成都610031)摘要垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的Web信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上

2、提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。关键词搜索引擎垃圾网页克隆选择分类中图分类号TP391文献标识码ADOI:10.3969/j.issn.1000-386x.2015.06.006WEBSPAMDETECTIONBASEDONIMMUNECLONALSELECTIONALGORITHMYangFanZhuYanTangShouhong(SchoolofInformationScie

3、nceandTechnology,SouthwestJiaotongUniversity,Chengdu610031,Sichuan,China)AbstractWebspamreferstothoseWebpageswhichmisleadsearchenginesthroughimpropermeanstogethigherrankingthantheydeserve,sotheymaygetmoreaccess.TheWebspammingnotonlyreducesthequalityofWebpage,butalsoleadstos

4、erioussecurityproblemsofWebinformation.TraditionalWebspamdetectionusuallyusesclassicalmachinelearningapproachesincludingNaveBayes,SVM,C4.5,etc.,theyareeffectivetosomeextentfordetectingWebspam.Weproposeanovelimmuneclonalselection-basedWebspamdetectionaccordingtopreviousstud

5、ies.Itusesadaptiveandself-learningabilityofartificialimmunesystemtodetecttheWebspamutilisingnewfraudtechnology,andiscomparedwithNaveBayeswhichiswidelyusedtodetectWebspam.ExperimentrevealsthatthisapproachisabletoeffectivelyandreliablydetectWebspam.KeywordsSearchengineWebspa

6、mClonalselectionClassification[4]网页作弊技术分为两大类,分别是提高评分技术和隐藏0引言技术。提高评分的作弊技术可分为内容作弊和链接作弊,隐藏作弊分为掩盖作弊和重定向作弊。随着互联网的发展,网页作随着互联网的高速发展,网络上的信息也成指数增长,为了弊技术也越来越先进,给垃圾网页的检测带来更大的难度。本从海量的Web信息中获取用户所需要的信息,人们主要是借助文研究提出的使用基于克隆选择分类算法CSCA(ClonalSelec-[1]tionClassificationAlgorithm)[5]的垃圾网页检测技术,

7、利用人工于搜索引擎。CNNIC2013年7月发布的报告称:中国网民中使用搜索引擎的比例为79.6%,使用搜索引擎的用户规模达免疫系统的识别、学习、记忆、自适应等特点,在数据集WEBS-[6]47038万人。在各类网络应用中,搜索引擎的使用在各类网络PAM-UK2006的实验结果表明该技术能有效地检测垃圾应用中稳居第二。而85%的搜索引擎使用者只会查看返回结网页。[2,3]果的第1页的内容,也就是排名前10的查询结果。而在检1相关工作索结果中靠前的网站能得到更大的访问量,增加网站的知名度,增加广告等收入等。早在2002年Henzinger等人就

8、指出,网页作弊是搜索引擎因此,有些网站就会采用不正当的手段来提高网页在搜索[7]面临的主要挑战之一,为此,国内外学者对垃圾网页的检测引擎中的排名,这种以欺骗搜索引擎

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。