浅议基于布尔模型的网页查重算法研究

浅议基于布尔模型的网页查重算法研究

ID:34804207

大小:1.74 MB

页数:62页

时间:2019-03-11

浅议基于布尔模型的网页查重算法研究_第1页
浅议基于布尔模型的网页查重算法研究_第2页
浅议基于布尔模型的网页查重算法研究_第3页
浅议基于布尔模型的网页查重算法研究_第4页
浅议基于布尔模型的网页查重算法研究_第5页
资源描述:

《浅议基于布尔模型的网页查重算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学院计算技术研究所硕士学位论文基于布尔模型的网页查重算法研究姓名:连浩申请学位级别:硕士专业:计算机软件与理论指导教师:白硕20060601基于布尔模型的网页查重算法研究;摘要摘要随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,其中所包含的各种信息越来越多,互联网已经成为了人们获取信息的一个主要渠道。然而,用户有的时候只是知道自己所要寻找信息的关键词,而不知道具体的网页链接(uRL)。因此,开发出一种工具来帮助用户寻找自己需要的信息成为了自然语言处理的一个研究方向。于是,受到信息检索的启发,有研究机构发明了搜索引擎,以方便用户从网络中搜索

2、到自己所需要的信息。搜索引擎的出现大大的方便了用户从互联网上查找信息的过程,节约了用户的处理时间,受到了互联网使用者的欢迎。互联网上也出现了很多著名的搜索引擎,如针对多种语言的Google搜索引擎和针对汉语的Baidu搜索引擎等。然而,受到商业利益的驱使,有些网站为了提高自己的点击率,经常大量转载别的网站的文章:除此之外,各大网站也会争相报道发生的热门事件和大众感兴趣的焦点话题,这样不仅增加了搜索引擎处理的负担,也使得搜索引擎经常返回很多内容相同但是只是链接不同的结果,降低了搜索引擎返回结果的有效性,也增加了用户查找到自己需要的信息的时间。去除重复的网

3、页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了两种较为有效的网页查重算法:基于高频词的网页查重算法和基于布尔模型的网页查重算法。基于高频词的网页查重算法根据特征的频率选择特征,组成特征串,来判别重复网页。而基于布尔模型的网页查重算法则是选择布尔模型来表示文本,同时将其运用到了文本的汉明距离计算之中,有效的减少了文本之间两两互相比较的次数。本文主要进行了以下几个方面的工作:1分析了重复网页产生的原因,并且总结了针对各种不同的重复,所提出的各种不同的网页查重算法。2在分析比较各种关于‘重复’定义的基础上,根据PIl曲的定

4、义设计了基于布尔模型的网页查重算法。3.实际验证了基于布尔模型的网页查重算法,并且进行了测试,证明该算法取得了较好的结果。‘关键字网页查重布尔模型特征串汉明距离毕于布尔模型的嗣页查荤算法研究:AbstractResearchonDetectionofDuplicatedWebPageswith13001一ModelWiththedevelopmentofinformationtechnology,moreandmoreinformationappearsintheintemet.Internethasalreadybeenakindofmeansfor

5、peopletogettheinformationtheyneed.ButsometimesinteHletusersonlyknowthekeywordsoftheinformationtheywanttofind.theyevendon'tknowthelinkofthewebpage.sodevelopingatooltohelptheuserstofindtheinformationtheyneedbecamearesearchfieldinnaturallanguageprocessing.Inspiredbytextretrievaltec

6、hnology,searchenginewasdevelopedbysomeagency,makingitconvenientforintemetuserstogettheinformationtheyneed.1nheappearanceofsearchenginebroughtgreatconveniencetotheprocessoffindinginformation舶mtheintemet.Anditiswarmlywelcomedbyintemetusers.Afterthat.moresearchenginesappeared.sucha

7、sGoogieformulti·languageandBaiduforChinese.However,promptedbybusinessinteresttogetahighrank,manywebsitesoftencopymessagesfromotherwebsites.SothesearchengineoftenreturnsmanydifferentlinJ【swithsamecontents.Thisnotonlyheaviestheburdenofthesearchengine'sprocessor,butalsoreducestheef

8、fectivenessoftheretrievalresults.Also.thisrequi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。