web spam检测技术研究与实现

web spam检测技术研究与实现

ID:33482495

大小:4.53 MB

页数:72页

时间:2019-02-26

web spam检测技术研究与实现_第1页
web spam检测技术研究与实现_第2页
web spam检测技术研究与实现_第3页
web spam检测技术研究与实现_第4页
web spam检测技术研究与实现_第5页
资源描述:

《web spam检测技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、WebSpam检测(申请工学硕士学位论文)技术研究WebSpam检测技术研究与实现与实现吕越培养单位:计算机科学与技术学院武学科专业:计算机应用技术汉理研究生:吕越工大指导教师:胡燕教授学2014年05月万方数据分类号密级UDC学校代码10497学位论文题目WebSpam检测技术研究与实现英文ResearchandImplementationofWebSpamDetection题目Technology研究生姓名吕越姓名胡燕职称教授学位博士指导教师单位名称计算机科学与技术学院邮编430070申请学位级别硕士学科专业名称计算机应用技术论文提交日期

2、2014年4月论文答辩日期2014年5月学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年5月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有

3、关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期:万方数据摘要搜索质量是搜索服务的核心,决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面,同时也要针对低质量,甚至是人为“高质量”的作弊页面进行甄别和处理。本文主要针对

4、页面作弊分类检测中基于内容的作弊分类检测技术方法进行了研究,并将文本分类中朴素文本分类和KNN分类方法应用于页面的二值分类检测上。论文将作弊页面的甄别看作是正常和作弊的二值分类过程。首先论文将页面的四个组成元素(标题、关键字、描述和正文)之间的相似度作为网页的文本特征并构建向量空间,然后应用朴素文本分类方法,在相似度的计算和阈值的确定上分别采用余弦值及欧式距离和迭代取值的方式,来达到最好的分类效果,实验结果说明采用类朴素文本分类方法正负样本无法同时取得较理想的召回率。为解决上述问题,论文分析了样本中部分特征之间的2维散列图,发现正负样本的局部

5、交错分布导致无法根据某一个阈值来明确页面的类别归属,为此采用基于有监督的KNN分类方法,并增加了页面的特征维度,而且对页面特征进行了标准化,以降低特征度量单位差异化导致的分类偏差问题,最终通过实验结果表明该分类方法相比于类朴素文本分类方法在正负样本召回率上能够同时取得更满意的效果。应用上述分类方法,论文构建了一个新闻类的垂直搜索作弊分类检测原型系统,并针对系统的各个模块,如页面爬取模块、页面特征抽取模块、二值分类模块等的设计和实现进行了简略性的叙述。并对系统在使用分类检测前后,spam页面比例差异性情况,以及不同的页面元素,如标题、关键字等激

6、励权重大小情况下的spam比例,进行了相关测试和分析。结果表明使用分类检测搜索质量明显好于不使用分类检测。论文最后对研究工作做了简要性的总结,并对文中未充分考虑的问题进行了讨论和展望。关键词:作弊检测,WebSpam,文本相似度,KNN,LuceneI万方数据AbstractSearchqualityisthecoreofthesearchservice,whichdecidesthequalityofthesearchengine.Notonlydoessearchenginesearchouttheresultsthataremostre

7、levanttothekeywordsandsatisfyuser'srequirement,butalsoidentifiesandtreatsthelowquality,orevenartificial"highquality"cheatpage.Thisthesismainlyresearchesthecontentbasedtechnologyandmethodofpagecheatingdetection,andappliesthenativetextclassificationandKNNclassificationmethodt

8、othebinaryclassificationdetection.Thethesistreatedthedetectionofpageasbinaryvaluec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。