基于正文结构树的近似网页去重研究

基于正文结构树的近似网页去重研究

ID:35066956

大小:2.05 MB

页数:60页

时间:2019-03-17

基于正文结构树的近似网页去重研究_第1页
基于正文结构树的近似网页去重研究_第2页
基于正文结构树的近似网页去重研究_第3页
基于正文结构树的近似网页去重研究_第4页
基于正文结构树的近似网页去重研究_第5页
资源描述:

《基于正文结构树的近似网页去重研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文MASTER’SDISSERTATION论文题目基于正文结构树的近似网页去重研究作者姓名马月学位类别工程硕士指导教师黄国言教授2016年5月中图分类号:TP393学校代码:10216UDC:654密级:公开工程硕士学位论文(工程设计型)基于正文结构树的近似网页去重研究硕士研究生:马月导师:黄国言教授副导师:刘志海高级工程师申请学位:工程硕士工程领域:计算机技术所在单位:信息科学与工程学院答辩日期:2016年5月授予学位单位:燕山大学ADissertationinComputerTechnologyRESEARCHONDETECTIONOFSIMILARW

2、EBPAGESBASEDONTEXTSTRUCTURETREEbyMaYueSupervisor:ProfessorHuangGuoyanYanshanUniversity2016.5燕山大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于正文结构树的近似网页去重研究》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字:日期:年月日燕山大学硕士学位论文使用授

3、权书《基于正文结构树的近似网页去重研究》系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕山大学,可以采用影印、缩印或其它复制手段保存论文,可以公布论文的全部或部分内容。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日摘要摘要随着Internet的不断发展,网络信息呈

4、指数级的增长。大量信息一方面带来更多的消息渠道,另一方面重复网页也带来了检索困难。重复网页不但浪费时间、使索引质量降低,而且还会使排序靠后。因此面对日益增长的网页信息,如何快速、准确的网页去重,成了互联网的一个重要问题。首先,针对各大网站网页互相转载、复制时,转载网页仅仅在内容上进行增删操作,而在网页正文结构上很少作调整这一普遍的现象,分析重复网页产生的原因并阐述传统网页去重算法的优缺点,在其基础上提出基于正文结构树的去重算法,可有效地提高去重的准确率和召回率。其次,结合网页正文结构树的特点,提出基于正文结构树和关键句的去重算法。对网页进行预处理,引入前缀过滤算法初

5、步去重,对保留网页建立正文结构树;采用TFIDF统计方法对关键字分析时引入标签权重,同时为了避免标签权重过大使得最后的分词权重可比性降低,对标签权重标准化;关键句提取时,采用根据段落长短按比例进行关键句提取的方法;之后用MD5算法进行相似性“指纹”比较。再次,结合网页正文结构树的特点,提出基于正文结构树的布隆过滤去重算法。对预处理后的网页建立正文结构树;网页特征串提取时,采用首1尾2个汉字的提取方法;利用BloomFilter算法,计算并比较正文结构树的每层结点的“指纹”相似度,该算法能够在允许一定误差的情况下,有效地降低时间和空间复杂度。最后,对提出的算法在去重

6、结果和去重时间方面进行实验验证和分析。关键词:网页去重;前缀过滤;正文结构树;网页指纹相似度;布隆过滤器-I-燕山大学工程硕士学位论文AbstractWiththecontinuousdevelopmentofInternet,networkinformationincreasesexponentially.Ononehandalargeamountofinformationbringsmorenewschannels,ontheotherhandalsobringsthedifficultyofretrievingonduplicatedwebpages.Dupl

7、icatedwebpagesnotonlyisawasteoftime,makesthequalityofindexreduced,butalsocanmakethesortinglow-ranking.Sointhefaceofthegrowingwebinformation,howtoremoveduplicatedwebpagesrapidlyandaccuratelybecomesanimportantproblemoftheInternet.Firstly,whenbigwebsitesreprintorcopypageseachother,there

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。