欢迎来到天天文库
浏览记录
ID:46190088
大小:63.00 KB
页数:5页
时间:2019-11-21
《网页网站相似度判别方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网页网站相似度判别方法研究【摘要】当今时代是一个以信息技术为代表的知识经济时代,各种先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改变了我们的生活方式。以计算机技术和网络通信技术为代表的信息科技改变着我们的生活。在这个信息高速传播的时代,互联网已经成为用户浏览信息,搜索信息的主要来源,然而搜索引擎再采集网页时会出现许多相同或者近似的网页,这样不仅降低了用户在检索屮的效率,同事也增加哦了存储空间,并且减少了用户的体验。我们就这个问题进行了讨论。【关键词】相似度;搜索引擎;算法一、引言现代搜索引擎屮的爬行程序在
2、巨大的网络屮采集网页时会搜集到许多相同或者是近似的网页,这样不仅降低了用户在检索过程中的效率,同时也增加了存储空间,并且减少了用户的体验。因此,判别网站页面的相似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点问题。本文所研究的是网站页面相似度判别的方法,文中第一章分析了研究该课题的目的和意义,然后在第二章简单介绍了当前最好的检测网站页面相似度的儿种算法以及它们各自的优点和缺点,对前人的研究成果作进一步的分析和学习,接着在第三章提出了一种相对先进的相似网页检测的算法,这种比较先进的算法采用的是基于最长
3、公共子序列的相似性度量方法去判别网站页面的相似度,它能够很好地去度量出网页之间的相似程度和它们的包含关系,并能够获得较为理想的准确度。这个方法中同时也设计了一个有效的检测过程框架,此框架包含有三个步骤,可以用来保证算法运行时候的效率。二、日的与意义互联网诞生到现在,从共亨性和开放性等特点以及对人类社会生活和工作等方面的影响來说,它无可厚非地已经成为了新世纪最伟大的创造之-O但是在网络迅猛发展的同时也给人们带来了一系列难题,最明显的就是现在的网络中已经存在着很多经过转载的网页,即一•篇网页文档的内容会以相同的或者是以近似的形
4、式去出现在其他的网页文档当中。而在这些重复的网页文档中有的是没有经过任何改动的粘贴复制,有的在内容上稍微做了一些改动,而有的则仅仅只是网页文档的格式不同而已。因为这个缘故,搜索引擎在收集网页文档时肯定会收集到很多主题内容相同或者是内容近似的网页文档,对这些相同或近似的网页文档如果不去进行处理,不仅会造成大量的存储资源浪费、索引的效率降低,而且也会造成最终用户检索困难和阅读困难的不良后果。所以,判别网站页面的相似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点问题。在此,我们所指的“相似度”是指不同两个
5、网页之间相同部分的代码字节数占两个网页总字节数的百分比。合理降低网页相似度是网站优化中重要的一步。网页相似度顾名思义就是不同网页的相似程度,如果你的网站转载了其他网站的文章,那么可以说你这个网页和之前原创文章的网页是“相彳以”的。而对于那些重复度相対比较低的网页文档,比如以聚类的形式去呈现给用户的同一主题的新闻资源,如腾讯资讯、Google资讯等,我们却可以根据用户的个人喜好去进行显示。所以,对那些在内容上相同或者是近似的网站页面作一定的处理是一项非常有实际意义和价值的工作。三、算法的优点与缺点在网络的发展历程中,关于如何
6、检测那些相似网页的方法始终是学者们研究的一个热点问题。用于检测相似网站页面的方法在那些与Web信息有关系的应用方面长期來都扮演着非常重要的角色。也正是因为这样,这些年来有许许多多检测相似网页的方法不断被提出来,并且被应用于实践,还都得到了有关专家的评估。不过在这些诸多方法中,比较具有权威性的当属由美国人Broder所研究提出的shingling算法[3]和由Charikar所研究提岀的simhash算法[4]以及由Chowdhury所研究提出的Hatch算法[10],这三个算法被人们公认是目前对相似的网站页面进行检测时比较
7、实用的算法。虽然说是比较实用,但这三种算法中也都存在着这样或那样的不足:一方面,这三种算法都只是采用了基于语法和基于语义的方法去评估两篇网页文档之间的相似度,而不是采用基于文档内容的匹配;另一方面,虽然高的评估分数可以代表很高的相似率,但是它并不代表很高的相似程度。完全可以这样说,就算存在两个网页文档,它们的内容是一点都不相同的,但这两篇文档仍然有可能会被判定为相似的两个网页文档。针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分
8、网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除兀余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。四、先进算法对于如何检测网络中存在的相似网页文档,这方面的研究早期只是针对那些比较大型的文件系统,但后来很快就被投入应用到搜索
此文档下载收益归作者所有