网页指纹查重技术的研究

网页指纹查重技术的研究

ID:35439767

大小:56.25 KB

页数:4页

时间:2019-03-24

网页指纹查重技术的研究_第1页
网页指纹查重技术的研究_第2页
网页指纹查重技术的研究_第3页
网页指纹查重技术的研究_第4页
资源描述:

《网页指纹查重技术的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、网页指纹查重技术的研究网页指纹查重技术的研究摘要:网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关键词在网页中出现的频率来判断网页是否重复,如果关键词相近,可能造成查重误判的情况。本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率。Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation・Thetraditionalmethodofw

2、ebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit'sduplicate,thesimilarkeywordsmaymisleadtheduplicatedetection・Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpage

3、featureoffingerprint,thepapercompletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.关键词:网页指纹;网页查重;位置向量Keywords:webpagefingerprint;webpageduplicatedetection;positionvector中图分类号:TP393.0文献标识码:A文章编号:1006-4311(2014)15-0225-020引言当今世界处于互联网信息时代

4、,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题。用户浏览不同网站目的是查找需耍的信息,实际情况是大量信息在各网页间转载,存在数量众多内容重复的网页,用户要获取的信息中存在许多近似网页,既增加了时间又加重了用户的负担,降低了搜索和浏览的效率。因此,在搜索网页信息的过程中,要增加一项对网页内容的查重步骤,去除内容重复网页,这就需要设计一种有效的网页查重检测算法,便于准确有效检测出近似网页。早期的SCAM查重技术,主要技术是通过待检测网页中某些字词的出现次数,可

5、称Z为关键词,把这些关键词及对应出现频率与库存特征库中的信息进行比对,如果相近似的程度超过一个设定的阈值,则可判定此网页是重复或已浏览过的重复网页。在传统查重技术中,如果选定的关键词名称及数量不合适,可能出现关键词非常近似,网页被误判成重复网页,造成网页被筛除而不能被用户浏览,不能得到所需信息,也就不能满足用户的准确需求。设想对提取的关键词加以改进,不是简单依赖网页的某些关键词,而是对被检网页提取它的独特结构,称之为网页指纹,使其具有本网页唯一性,通过与网页指纹特征库中的指纹比较,通过相似度来判断网页是否重复,减少了传

6、统检测中只依赖关键词产生误判的情况发生,提高检测准确率。1查重原理互联网上的站点数量众多,实际情况是,有很多网站是转载信息,用户要通过网上区获取信息,理想要求是准确快速进行搜索定位到有用信息,由于重复网页的大量存在,用户搜索到所想要的信息浪费了大量时间和精力。要缩短时间提高搜索信息效率,网页查重是搜索领域的关键技术问题。网页查重的一般过程如图1所示。①提取特征关键词,对网页进行预处理,设关键词用Ki(Q)(i=l,2,・・・N)表示,N为选取信息特征关键词的个数,用Ki(D)(i=l,2,・・・N)表示网页特征库的特征

7、信息。②将Ki(Q)与Ki(D)比较计算,得到关键词数据的相似度s,即:s=l(1)③设定合适的相似度阈值①,则有:①网页重复s〈①非重复可以看出,传统的SCAM技术的算法简单,判断网页是否重复的操作步骤的关键是如何选取合适的网页特征信息作为关键词。如果用户浏览了相近似的网页,关键词就会非常相近,相似度会接近1,出现误判为相似网页,结果是网页被查重掉,用户不能浏览到此网页。如何完善改进传统方法存在的不足,设想把依赖网页关键词改为网页的独特结构,就好比指纹•样具有唯•性。因此,把网页中的关键词、位置向量、出现次数作为该网

8、页的特征信息,称Z为网页指纹,在与特征库中的指纹进行比较,通过比较提高查重的准确率及效率,避免了只依赖关键词查重而造成误判的情况发生。2网页指纹算法网页重复主要是指网页中的正文内容,不包括网页导航栏、视频、图片、广告信息等条冃。如果网页中的止文可能存在转载方式,与原网页内容一致,就容易误判为重复。2.1网页预处理查重之前的工作是对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。