基于元搜索的网页消重方法研究

基于元搜索的网页消重方法研究

ID:43768494

大小:259.82 KB

页数:5页

时间:2019-10-14

基于元搜索的网页消重方法研究_第1页
基于元搜索的网页消重方法研究_第2页
基于元搜索的网页消重方法研究_第3页
基于元搜索的网页消重方法研究_第4页
基于元搜索的网页消重方法研究_第5页
资源描述:

《基于元搜索的网页消重方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、7/0年第0期计算机系统应用基于元搜索的网页消重方法研究!**#$%&'”()*#+,・・/")$0)12/3)4*)”).”・&'5,3&6・”(78-M(9)7!)/6.(:S)谢!蕙!秦!杰!(河南工业大学信息科学与工程学院河南郑州”#$$$%)摘!要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提岀一•种基于元搜索的网页消重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。关键词;消重特征码元搜索引擎网页元数据摘要相似度%!引言随着网络技术的飞速发展,网络提供给人们的信的相同指纹,则认为这两个文档

2、的内容重叠性较高,也即二者是重复网页。对于234相同的网页,为了避免重复搜集同234网页,主要使川排除相同234的方法:网络蜘蛛把息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了雨要作用。但是现在的搜访问过的网页地址变成信息指纹存放到哈希表屮,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,索引擎技术并不完善,存在一些亟待解决的问题,最主耍的问题之一是存在大量的重复网页[%]0对用户而言,如果査询到的是重复信息,学空响杳询效率。对刁••联网系统而言,如凋诩智珥砂用扌進

3、腹軒j网页,既浪费信息检索时间乂浪费存瀨1'祥肖络机*W然那谍要億帀沧咏能产4"爲S网址指器人(&,()*+)采集互联网中的相关信息,采集信息的针对内容相同的网页,当前比较成功的搜索引擎数量非常巨大,采集结果的处理,需要进行消重系统大多是基丁•关键词匹配和结合向量空间向量模型处理后,才能作为冇效的信息。若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要。为了解决这些问题,网页消巫成为搜索引擎所研究的一项重要技术。來完成消重任务的。典型的系统包括56607*和天网系统门。通常这类系统的消重工作过程大致是:在对网

4、络蜘蛛己抓取冋來的网页进行分析时,首先对网贞进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、止文、相关链接等信息,根据网页的关键词、摘耍、止文等信息提取网页的特征项,构造评价函网页消重技术入严、网页消重技术是指对内容匝翕潇血•行羸V是*w•处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程LIo!”#网页消觅技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都皐于这样一个基本思想[-]:根据一定的算法为每个文档

5、计重复。!“!现有主流网页消重技术⑷89:;算法计算出每篇文档各个单词的词频,将文档用词频向虽的方法表示出來,计算,个词频向量Z间的距离,在一定的范围Z内就判断为相似的文档。<89()(0(1=7&>/!=?!(??7@&1*+(/0)算法,首先将一篇算出一组指纹(.(/()"+(/1),若两个文档拥有一定数量文档分成由/个字组成的&A(/07*&,-•篇文章就可以山-/个&A(/07*&來表示,再按照一定的过滤规则将过滤出"!应用技术!mm&•%()*$+,%.//0年第0期计算机系统应用的!”#$%&,!作为该篇文档的代表,参加比较的

6、就是这些被选出来的!”#$%&'!。()*+,・”算法是对70算法的一种改进,它从过滤!“#$%&'!这方面着手,尽量过滤掉尽可能多的重复次数较多的!”#$%&,!。北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予毎个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页。并以关键词作为网页的4^征项。清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串。哈工大使用的方法是在文章中各个句号的前后各取2个汉字。虽然提取汉字的方法不同,但是都是以标点作为文屮的提取标记,这

7、种方法效率较高,因为提取字符冷是线性时间的,就是把一个3($')时间复杂度的问题转变成T3($)时间复杂度的问题,不失为一种好方法。!“#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中杳全率是指左重算法所发现的转载网页占总网页的1T分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页。文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种悄况最难识别。考虑到元搜索引象的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等。因

8、此,该网页消重算法选择结果网页集合中每条记录的网页地址,判断网页重复性分析方案如下:(:)网页元数据提取元搜索引擎模型调用网页标题,网页摘要作为的依据。算法具体设计源搜索引擎,得到搜索结当前提

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。