欢迎来到天天文库
浏览记录
ID:34547108
大小:1.05 MB
页数:84页
时间:2019-03-07
《网页消重技术的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、论文题目网页消重技术的研究与实现工程领域软件工程指导教师祁康成副教授作者姓名祁琛万方数据学号201091050136万方数据分类号密级注1UDC学位论文网页消重技术的研究与实现(题名和副题名)祁琛(作者姓名)指导教师姓名祁康成副教授电子科技大学成都刘兆宏副教授成都东软软件有限公司成都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2012.04论文答辩日期2012.05学位授予单位和日期电子科技大学答辩委员会主席评阅人年月日注1:注明《国际十进分类法UDC》的类号万方数据II万方数据独创性声
2、明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索
3、,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘要摘要随着Internet的发展及其广泛应用,网络信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了能帮助人们快速找到所需要的信息,于是便有了搜索引擎技术。方便了人们查找信息,节省了时间,已经成为了人们经常使用的一项网络服务。但是据中国互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,Internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引
4、擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。本文研究了网页消重的起源、及其发展现状,进行了以下几方面的研究工作:(1)高质量的网页消重都是基于网页正文文本的,本文首先研究了网页的内部结构,提出了基于DOM的网页正文抽取算法,通过将网页分块,聚合,过滤,得到网页的正文文本,将其作为消重的对象。实验证明该算法具有较高的准确率。(2)设计了一个在线网页消重系统,实现了两种消重算法:摘要消重和全文消重。该系统通过对
5、搜索引擎的检索结果进行消重处理,提高了检索质量。(3)提出了两种网页消重算法:基于字频特征的消重算法和基于分段特征的消重算法。(4)基于字频的消重算法抽取网页正文文字的字频作为网页主特征串,同时将字频的附加信息作为网页的辅特征串。算法使用编辑距离树对特征串进行比较,减少了两两比较的次数,与传统算法相比提高了算法效率。(5)基于分段的消重算法将网页正文分段,提取每段中最长的句子作为其特征串,运用HASH算法进行消重。该算法的准确率较高且效率非常理想。(6)最后将上述两种算法与基于标点的消重算法从算法效率,准确率,召回率三方面进行了严格的比较,并分析了三
6、种算法的缺陷和优点。关键词:网页消重,字频,分段,编辑距离,特征串I万方数据AbstractAbstractWiththedevelopmentandextensiveapplicationofInternet,theinformationontheWebhasincreasedexplosively.Internethasbecomethemaininformationsourceforpeople.Inordertoquicklyfindtheinformationthatpeopleneed,thetechnologyofsearchengin
7、eappears.Thetechnologyofsearchengineprovidesconvenienceforpeopletosearchinformation,andsavescustomers'time.Ithasbecomeapopularonlineservice.ButaccordingtothereportfromCNNIC,thesearchresultwithtoomanyduplicateweb-pagesisthemainproblemthatpeoplemeetwhenusingthesearchengine.Accord
8、ingtothestatistics,thereareabout30%duplicateweb-pageso
此文档下载收益归作者所有