面向主题的网络爬虫——网页信息抽取---毕业论文

面向主题的网络爬虫——网页信息抽取---毕业论文

ID:29831325

大小:1.80 MB

页数:53页

时间:2018-12-24

面向主题的网络爬虫——网页信息抽取---毕业论文_第1页
面向主题的网络爬虫——网页信息抽取---毕业论文_第2页
面向主题的网络爬虫——网页信息抽取---毕业论文_第3页
面向主题的网络爬虫——网页信息抽取---毕业论文_第4页
面向主题的网络爬虫——网页信息抽取---毕业论文_第5页
资源描述:

《面向主题的网络爬虫——网页信息抽取---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文面向主题的网络爬虫——网页信息抽取Subject-orientedcrawler—Webinformationextraction姓名:学号:学院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要随着Internet的迅猛发展,网络资源急剧增加,信息更加多元化,同时给通用搜索引擎带来了极大的挑战。因为通用搜索引擎是面向所有的Web信息检索者的,庞大的网络信息规模和高速响应要求,使其检索结果不尽人意。主题搜索引擎,是为了进一步提高搜索结果相关度的新一代搜索引擎。它提供了分类更准确、数据更全面、更新更及时的因特网搜索服务。主题

2、搜索引擎中的信息采集,以及主题爬虫系统的搜索策略的研究,对主题搜索引擎的应用与发展都具有非常重要的作用。本文在对搜索引擎的演变和发展进行全面的综述以后,对通用搜索引擎和主题搜索引擎进行了性能的比较。引出主题搜索引擎的重要组成部分——主题爬虫,并分析了主题爬虫的基本结构和工作原理。随后,对网络爬虫的一些经典页面相似度算法进行了评价。同时,重点讨论了URL搜索策略,介绍了我们的网络爬虫系统对Web页面的信息采集,并加以实现。最后,展示了我们实现的网络爬虫。论文主要研究了以下4个问题:(1)对主题爬虫的工作原理,功能模块及基本技术进行了研究。(2)讨论了

3、主题爬虫经典的页面相似度算法:基于链接的页面相似度算法和基于内容的页面相似度算法;讨论了URL搜索策略算法。(3)研究并实现了基于HTML的网页的信息抽取。(4)实现了本系统的界面。关键词:网络爬虫;URL搜索策略;Web信息抽取VIAbstractWiththerapiddevelopmentofInternet,networkresourcesincreasesharply,andinformationbecomesmorediversitythanbefore.Atthesametime,generalsearchenginesarefaci

4、ngaseverechallenge.Becausethegoalofgeneralsearchenginesisinformationoftheentireweb,largescaleofnetworkinformationandrequirementofhigh-speedresponse,whichmakesthesearchresultcan'tmeetouranticipation.Thesubject-orientedsearchengine,anew-generationsearchengineaimingforincreasingt

5、hecorrelationdegreeofsearchingresults,makesimprovementoftheinternetsearchingservicewithbetterdivision,moredata,andhigherspeed.Theresearchofinformationcollectionandsearchingstrategyofthesubject-orientedsearchengineplaysagreatroleinthedevelopmentofthesubject-orientedsearchengine

6、s.Inthispaper,afteracomprehensiveoverviewoftheevolutionanddevelopmentofsearchengines,wecomparedtheperformanceoftraditionalandsubject-orientedsearchengines.Afterthat,subject-orientedspiderisraisedasthemostimportantpartofsearchengines.Weanalyzedbasicstructureandworkingprinciplea

7、boutit.Afterintroducingtheclassicnetworkpagesimilarityalgorithms,weevaluatethem.IntheaspectofURLsearchingstrategy,wefoundanimprovementanddiscussedaboutit.Atthesametime,weanalyzedthestrategyofpageinformationextractionbasedonHTML.Thepaperdoesresearchmainlyinfollowingfouraspects:

8、Firstly,westudiedtheworkingprinciple,functionalmodulesandbasi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。