欢迎来到天天文库
浏览记录
ID:35068486
大小:5.55 MB
页数:63页
时间:2019-03-17
《基于社区发现的搜索引擎反作弊方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、乂连禮^大聲DALIANUNIVERSITYOFTECHNOLOGY破±享恆巧文MASTE民ALDISSERTATION基于社区发现的搜索弓[擎反作弊方法软粒S学科专业作者姓名指导教师2016年6月2曰答辩日期硕i学位论文基于社区发现的搜索引擎反作弊方法CombatinSearchEngineSpamUsingCommunityDiscovergy作者姓名:冯亚飞学科、专业:软件工程学号:21317023指导教师:张宪超2016年31
2、0完成日期:月日大追巧义乂嗦DalianUniversityofTechnology大连理王大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中&经注明引用巧容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:某于社区发现的搜索引樂反作龄方法0作者签《:
3、7复立日期:7/(年^月參日f大连理工大学硕:f:学位论文摘要一如今,人们越来越倾向于通过搜索引擎来获取自己所需要的信息,由于与某查询词相关的网页数量非常之多,因此搜索引擎采用不同的排名算法来评估页面权重。基于一链接的排名算法(比如PageRank)就是基于这样的个假设:网页中的超链接代表该一思想进行排序网页对目标网页的推荐,基于链接的捜索排名算法主要采用这。传统的信任传播算法被应用于搜索引擎反作弊,该类算法W等概率的方式传播信任,,但是这类算法没有考虑邻居网页是否值得信任值均等地将其信任值传播给邻居网页。考虑
4、到作弊网页之间通常会紧密链接,本文提出了基于社区发现的信任值区分传播算一一法,。算法第步将些已知的作弊网页作为种子通过这些种子和相应的社区发现算法,找到大量的作弊社区,这些作弊社区中的网页大部分都被验证是作弊网页。本文采用了两种社区发现算法,全局社区发现和局部社区发现分别进行作弊社区的提取。由于不加区分地传播信任值会使得部分作弊页面排名得到提升,,因此算法第二步需要采用相应的降权方法来区分对待不同邻居。在本文框架中,利用发现的可疑作弊社区来实现限制跨社区信任传播,也就是说,当有信任值从非社区网页传播到作弊社区网页中时,对该条链接
5、的权值进行降级,通过该方法实现带区分的信任传播,使得正常页面指向作弊页面的链接得到了限制,同时,该惩罚机制可W与大部分信任传播算法相结合。在真实数tRLCRank、CPVR据集上的实验结果表明,本文所提出的框架对比传统Trusank、和TD等基于信任传播算法,反作弊效果会有显著提升。关键词:网页作弊;信任传播;社区发现;区分传播--I基于巧区发现的搜索引擎反作弊方法CombatinSearchEnineSamUsinCommunitDiscoverggpgyyAbstractAskingasearch
6、engineisthedominantwayforpeopleto行nduse扣1informationontheWeb.Sincethereareusuallymassesofaesrelatedtoauerallsearcheni打esemloapgqy,gpy-ransctoevaluatethevalueofwebaes.Linkbasedrankinalorithmseki打ghemep呂gg.g.(,PaeRankwhchareasedonthea
7、ssumtonthatnksmrecommentonstothetaretg)ibpiliiplydaig,aesarethedominatinrankinschemes.pg,ggTi-rustroaatontechnihavebeenwidellinkbasedwebsamdemotionuesusedfor.ppgqyp-Traditionalsuchalorithmsroaatetrustinnondifferentialwasi.e.aaeroaatesitsg
8、ppgy,,pgppgtrustscoreuniform
此文档下载收益归作者所有