面向主题的网络爬虫——网页信息抽取---毕业论文

ID：29831325

大小：1.80 MB

页数：53页

时间：2018-12-24

资源描述：

《面向主题的网络爬虫——网页信息抽取---毕业论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、本科毕业论文面向主题的网络爬虫——网页信息抽取Subject-orientedcrawler—Webinformationextraction姓名：学号：学院：软件学院系：软件工程专业：软件工程年级：指导教师：　年月摘　要随着Internet的迅猛发展，网络资源急剧增加，信息更加多元化，同时给通用搜索引擎带来了极大的挑战。因为通用搜索引擎是面向所有的Web信息检索者的，庞大的网络信息规模和高速响应要求，使其检索结果不尽人意。主题搜索引擎，是为了进一步提高搜索结果相关度的新一代搜索引擎。它提供了分类更准确、数据更全面、更新更及时的因特网搜索服务。主题

2、搜索引擎中的信息采集，以及主题爬虫系统的搜索策略的研究，对主题搜索引擎的应用与发展都具有非常重要的作用。本文在对搜索引擎的演变和发展进行全面的综述以后，对通用搜索引擎和主题搜索引擎进行了性能的比较。引出主题搜索引擎的重要组成部分——主题爬虫，并分析了主题爬虫的基本结构和工作原理。随后，对网络爬虫的一些经典页面相似度算法进行了评价。同时，重点讨论了URL搜索策略，介绍了我们的网络爬虫系统对Web页面的信息采集，并加以实现。最后，展示了我们实现的网络爬虫。论文主要研究了以下4个问题：(1)对主题爬虫的工作原理，功能模块及基本技术进行了研究。(2)讨论了

3、主题爬虫经典的页面相似度算法：基于链接的页面相似度算法和基于内容的页面相似度算法；讨论了URL搜索策略算法。(3)研究并实现了基于HTML的网页的信息抽取。(4)实现了本系统的界面。关键词：网络爬虫；URL搜索策略；Web信息抽取VIAbstractWiththerapiddevelopmentofInternet,networkresourcesincreasesharply,andinformationbecomesmorediversitythanbefore.Atthesametime,generalsearchenginesarefaci

4、ngaseverechallenge.Becausethegoalofgeneralsearchenginesisinformationoftheentireweb,largescaleofnetworkinformationandrequirementofhigh-speedresponse,whichmakesthesearchresultcan'tmeetouranticipation.Thesubject-orientedsearchengine,anew-generationsearchengineaimingforincreasingt

5、hecorrelationdegreeofsearchingresults,makesimprovementoftheinternetsearchingservicewithbetterdivision,moredata,andhigherspeed.Theresearchofinformationcollectionandsearchingstrategyofthesubject-orientedsearchengineplaysagreatroleinthedevelopmentofthesubject-orientedsearchengine

6、s.Inthispaper,afteracomprehensiveoverviewoftheevolutionanddevelopmentofsearchengines,wecomparedtheperformanceoftraditionalandsubject-orientedsearchengines.Afterthat,subject-orientedspiderisraisedasthemostimportantpartofsearchengines.Weanalyzedbasicstructureandworkingprinciplea

7、boutit.Afterintroducingtheclassicnetworkpagesimilarityalgorithms,weevaluatethem.IntheaspectofURLsearchingstrategy,wefoundanimprovementanddiscussedaboutit.Atthesametime,weanalyzedthestrategyofpageinformationextractionbasedonHTML.Thepaperdoesresearchmainlyinfollowingfouraspects:

8、Firstly,westudiedtheworkingprinciple,functionalmodulesandbasi

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 53



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

面向主题的网络爬虫——网页信息抽取---毕业论文

面向主题的网络爬虫——网页信息抽取---毕业论文

相关文章

相关标签