搜索引擎反作弊方法研究

搜索引擎反作弊方法研究

ID:9645847

大小:52.00 KB

页数:3页

时间:2018-05-04

搜索引擎反作弊方法研究_第1页
搜索引擎反作弊方法研究_第2页
搜索引擎反作弊方法研究_第3页
资源描述:

《搜索引擎反作弊方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、搜索引擎反作弊方法研究搜索引擎反作弊方法研究搜索引擎通过提取网页中主要信息进行索引构建,用户的检索请求提交给搜索引擎后,搜索引擎通过索引系统筛选出符合条件的待选集,然后根据内部的排序算法对待选集进行排序输出。网站的盈利模式主要通过流量,网站流量越大意味着网站可以拉到更到广告投放从而实现大面积盈利。因此存在一些网站站长为了提高自身网站的流量进行作弊,通过非正常的手段来提升自身网站搜索引擎内部的排名,搜索引擎出于公平性的考虑保证排名的合理性需要对网站站长这些作弊行为进行检测并极大程度上降低因作弊行为而导致的排名不正确性。  搜索引擎的排名的

2、依据很大程度上依赖于用户的输入字符串和网站内容的匹配程度,网站站长在自身网站上堆砌大量的关键词从而期望提高网站的排名,实际诸如此类的关键词堆砌没有实际的含义,甚至和网站内容无任何关联,这极大的拉低了网站本身的质量,搜索引擎在内容识别时需要识别当前是否存在无关关键词的大量无关使用,对此类作弊行为需要打压查询字符串和网站本身内容之间的相似度。另外还有如链接作弊等,本文主要就网站作弊中常用手段进行分析,阐释搜索引擎反作弊中常用手段。  1搜索引擎排序策略  搜索引擎排序中常用的做法是LTR(learningtorank)算法,LTR算法是一种

3、机器学习算法,它在传统相似度算法的基础上融合多种排序时的相关特征进行排序学习,LTR算法如图1所示。LTR是一种基于有规则性的学习监督(supervisedlearning)排序方法。LTR已经在诸多领域有着大量的应用,以文本挖掘领域为例,搜索引擎的返回结果排序、IR中召回文档的排序、推荐系统中对候选商品的选择以及机器翻译中文字的顺序等。  早期的信息检索系统在排序时方法比较单一,通常按照用户检索字符串和网页内容的匹配度来排序,这样在很大程度上只能采用单一的相似度计算方式,实际上有多种因素会影响排序的效果,如经典的TF-IDF,DL等,

4、VSM和布尔模型都可以完成这些功能,这些传统的排序方式是无法融入多种排序因素,假设用向量空间模型来表征对象,向量空间模型中各个维度以TF-IDF来计算权值,相应的无法再利用其他额外的信息了,如果模型参数过多对模型本身的参数调节也是一个很大的挑战,参数过多也会导致过拟合和现象。则自然地联想到采用机器学习的手段来解决上述的问题,于是就产生了LTR(learningtorank)。机器学习很容易拟合多种特征来进行模型训练,而且具有非常丰厚的理论基础,有着成熟的理论和技术来解决稀疏和过拟合的问题。  模型训练的过程实际上一个参数学习的过程,选定

5、合理的真实数据作为训练数据集合,对于特定的模型,选择合适的损失函数,通过对损失函数进行优化可以得到当前模型下最优的参数,这即是模型训练的过程,预测的过程即将需要预测的数据作为输入数据传入到模型得到模型预测分,利用该结果分即可进行相关的排序分析。  LTR一般说来有三类方法:单文档方法(Pointiddot;增加目标作弊词词频来影响排名;  增加主题无关内容或者热门查询吸引流量;  关键位置插入目标作弊词影响排名;  详细来说,可以分为如下几种方式:  2.1关键词重复  关键词重复是作弊中常用的手段,通过设置大量的关键词在网站中。关键词

6、的词频信息是排序时重要的排序因子,关键词重复的本质就是通过关键词的词频来影响网站在展现时的排列顺序。  2.2无关查询词作弊  为了提高网站在搜索时的展本文由.L.收集整理现次数,尽可能多的通过增加关键词来提高和用户搜索时的匹配度,作弊时增加很多和当前网站页面主题无关的关键词也是一种词频作弊,即将原来词频为0的单词词频增加为词频大于等于1,通过提高来搜索时的匹配度来吸引流量。有些网站站长则会在网页的末尾处以隐藏的方式加入一些关键词表,也有一些作弊者在正文内容中插入一些热搜词。更有甚者,有些网站页面的内容完全是采用机器的方式生成毫无阅读性

7、可言。  2.3图片alt标签文本作弊  alt标签作为图片的描述信息,通常不会在用户浏览网页时展示,当用户鼠标点选获得焦点时才会展示,搜索引擎会利用这一信息进行分析,因此部分网站作弊人员会利用这一信息用关键词进行填充,从而达到吸引流量的目的。  2.4网页标题作弊  网页本身的标题信息作为网站内容的重要的组成部分,对于判断一个网页的主题具有非常重要的意义,搜索引擎在计算相似度时增大这一部分的比例,作弊作者会利用这一特点,将与网站无关的关键词堆砌在网站标题处达到作弊的行为。  3反作弊研究  搜索引擎作弊手段五花八门,层出不穷,但是从最

8、根本的作弊技术进行分析,还有能够发现一些共通的内容。从基本的思路角度,可以将反作弊手段大致划分为以下三种:信任传播模型、不信任传播模型和异常发现模型。其中前两种技术模型可以进一步抽象归纳为链接分析中子集传播

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。