基于支持向量机的搜索引擎垃圾网页检测研究

基于支持向量机的搜索引擎垃圾网页检测研究

ID:9555649

大小:53.50 KB

页数:4页

时间:2018-05-02

基于支持向量机的搜索引擎垃圾网页检测研究_第1页
基于支持向量机的搜索引擎垃圾网页检测研究_第2页
基于支持向量机的搜索引擎垃圾网页检测研究_第3页
基于支持向量机的搜索引擎垃圾网页检测研究_第4页
资源描述:

《基于支持向量机的搜索引擎垃圾网页检测研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于支持向量机的搜索引擎垃圾网页检测研究基于支持向量机的搜索引擎垃圾网页检测研究  研究显示,大多数用户在查看搜索引擎返回的结果时,一般不会超过3页[1].很多的网站管理者会通过提高网站质量和更新频率等搜索引擎优化(SEO)[2]手段提升网站在搜索引擎搜索结果中的排名.而有些网站则通过一些不道德的方式来提升在搜索引擎的搜索结果中的排名,如手动或自动地制造一些网页,这些网页没有提供给用户任何有效的信息,是直接针对搜索引擎的,却在搜索引擎的搜索结果中获得了较高的排名,当用户查询某些关键词的时候,就有可能访问这些搜索引擎垃圾网页(又称垃圾网页或作弊网页)[3].垃圾网

2、页的目标是吸引搜索引擎的用户访问某些搜索结果中列出的网页链接,故此垃圾网页的制造者希望通过在搜索的搜索结果里进行作弊以骗取用户的点击.  虽然人工可以识别出垃圾网页,但是由于搜索引擎索引网页数量巨大,手工识别将会产生巨大的费用和时间.故此构造一个机器自动识别或者人工少量参与的半自动识别系统将会很好地解决这一问题,国内外的学者提出了各种基于机器学习的检测模型.大多数基于机器学习的检测方法将垃圾网页的检测视为一个二元分类问题,首先需要学习出一个网页分类器,这个网页分类器可以预测网页的类别:正常网页或垃圾网页.首先模拟搜索引擎的网络爬虫从)已经成为一种应用广泛的分类

3、技术.根据已经选取的网页的内容特征,可以基于支持向量机建立一个分类器,学习到支持向量机的最优分类面,最优分类面不但能将2类正确分开,即训练错误率为0,并且分类间隔最大.但是正常网页与垃圾网页分类问题一般为线性不可分的情况,针对这种情况可以采用2种方法构造支持向量机,一种方法是将线性SVM拓展为软间隔分类器(SoftMarginClassifier)[7],另一种方法是构造非线性的SVM.前者通过引入松弛因子,允许分类错误;后者通过核函数将一个非线性问题转化为高维特征空间的线性问题.  本文主要讨论线性不可分的情况下,通过引入松弛因子,构造软间隔分类器.假设要学

4、习出一个线性分类器f(x)=iddot;x,其目标函数为:  Ω(;R(iddot;xi,yi)+λiddot;bda;为参数,目标函数用来保证ax(0,1-uy)来表示训练集的损失[8],还需要加入某些凸损失函数,iddot;in∑mi=1ξi+λmξ≥0.[JY](2)  对网页的分类问题来说,网页之间的链接关系包含了一些对分类有用的信息.网页之间的链接可以视作有向图的边,数据集中所有网页的链接结构就可以用一个边集合E来表示.网页之间的链接结构是不能被忽略的,至少它们表示了链

5、接起来的网页之间具有一定的相似性这一信息,基于这样的假设,可以在目标函数中加入一个额外的正则化因子:  Ω(;li=1R(iddot;xi,yi)+λiddot;ma;∑(i,j)∈EαijΦ(iddot;xi,iddot;xj),[JY](3)  其中αij为网页i指向网页j的链接的权重,公式(3)中的前2项为1个标准的具有正则化因子的支持向量机的目标函数,第3项为新加入的正则化因子,函数Φ表示惩罚函数,本文的惩罚函数与网页的链接结构有关.公式(1),(

6、2),(3)已经被Zhang等[9]证明,其中惩罚函数Φ为:  Φ(u,v)=(u-v)2.[JY](4)  公式(4)表示相互链接的网页之间有一定的相似性,Zhang等采用公式(3),(4)构建网页分类器.本文主要针对垃圾网页的检测问题[10],将网页视作图中的结点,网页之间的链接视作图中的边,整个链接结构视作一个非对称图,只考虑网页中的出链接,这样考虑是因为垃圾网页经常指向正常网页,而正常网页几乎不指向垃圾网页.即可以假定:正常网页的出链接只指向正常网页,正常网页的出链接几乎不指向垃圾网页.本文将惩罚函数Φ改进为:  

7、Φ(u,v)=max(0,v-u).[JY](5)  如果特征空间不丰富的话,可能学习出来的分类器会不够灵活,为此可加入一个变量zi,对每一个网页结点i学习出一个分类器,这个新加入的变量可以视作额外的松弛因子,使得学习出来的分类器更具有灵活性,目标函数就变化为:  Ω(;li=1R(iddot;xi,yi)+λ1iddot;bda;2zz+γ∑(i,j)∈EαijΦ(iddot;xi,iddot;xj).[JY](6)  公式(6)中引入2个正

8、则化因子λ

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。