覆盖深度网的主题爬虫的设计与实现

覆盖深度网的主题爬虫的设计与实现

ID:36798919

大小:3.17 MB

页数:73页

时间:2019-05-15

覆盖深度网的主题爬虫的设计与实现_第1页
覆盖深度网的主题爬虫的设计与实现_第2页
覆盖深度网的主题爬虫的设计与实现_第3页
覆盖深度网的主题爬虫的设计与实现_第4页
覆盖深度网的主题爬虫的设计与实现_第5页
资源描述:

《覆盖深度网的主题爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南开大学硕士学位论文覆盖深度网的主题爬虫的设计与实现姓名:陈磊申请学位级别:硕士专业:计算机应用技术指导教师:邵秀丽20080501中文摘要现今通用搜索引擎仅能收录Web上通过链接可以爬行到的页面部分。然而对于大量的深度网资源,由于搜索引擎的爬虫无法通过链接爬行到这些页面,因而搜索引擎无法索引到这部分信息。据统计,目前深度网资源量是普通可索引到的资源的500倍左右。这些信息隐藏在web页面的查询表单(深度网入口)后面,保存在大型的动态数据库中。如此庞大的信息资源如果没有合理的、高效的方法去获取,无疑将是巨大的损失。此外,深度网的研究涉及数据集成、中文语义识别等多个领

2、域。因此,对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。目前的研究表明,深度网资源涉及的领域广泛且深度网入口形式缺乏统一规格,因而深度网资源不可能做到统一的集成,只能针对某一领域进行研究。基于此,本文设计并实现了一种结合深度网爬行技术在内的主题领域爬虫系统。系统旨在对某一领域进行包括深度网资源在内的全方位的爬行,以获得更全面、更优质的主题资源。系统采用基于本体域的入口定位及基于网页标签距离及语义判别的方法抽取入口模式。并且对主题特征词的学习采用一种在线学习的特征词训练方法。实验表明,爬虫可以较好地发现深度网资源,实现了对包含深度网信息在内的主题资源的大量

3、获取,获得更多更丰富的信息。关键字主题爬虫,搜索策略,深度网,入口模式(schema),本体域AbstractNowadaysgeneralsearchenginesCallonlyindexpagesthatcanbecrawledthroughlink.However,asto.thegreatamountofdeepwebresources,searchenginesCannotindexthembecausecrawlersneverreachthesepages.Accordingtostatistics,thetotalamountofdeepwebre

4、sourcesisabout500timesthatofwebwhichCanbecrawledbycrawlers.Thisinformationishiddenbehindthequeryformsofwebpages(deepwebinterface)andisstoredinlargedynamicdatabases.ThereisnodoubtahugelossifnorationalandefficientwaysCanbeusedtoobtaintheseresources.Inaddition,deepwebresearchesinvolvedata

5、integration,ChineselanguagesemanticrecognitionandSOon.Forthisreason,theresearchofdeepwebcrawlingtechnologyhasextremelyimportantpracticalsignificanceandtheoreticalvalue.Currentlyresearchesshowthatitisimpossibletointegratealldomainsofdeepwebresourcesbecauseofbroad.areasofthenlandlackofun

6、iforminterfaceschemas.Basedonthis,wedesignedandimplementedathemedomaincrawlercontainingcrawlingthedeepwebresources.Thesystemaimstocrawlallresourcescontainingdeepwebinformationinthedomainandtoobtainmorecomprehensiveandhighqualityofthethemeresources.Amethodofdeepwebinterfacelocationbased

7、onontologyandanotheroneofinterfaceschemasextractionbasedonthedistancesbetweenwebpagetagsandsemanticrecognitionareadoptedinthecrawler.Inaddition,amethodofthemefeaturesonlinelearningisalsousedinit.Experimentsindicatethatthecrawlercandiscoverdeepwebresourceseffectivelyandobtainagreatamo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。