资源描述:
《面向主题的网络爬虫——网页信息抽取---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文面向主题的网络爬虫——网页信息抽取Subject-orientedcrawler—Webinformationextraction姓名:学号:学院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要随着Internet的迅猛发展,网络资源急剧增加,信息更加多元化,同时给通用搜索引擎带来了极大的挑战。因为通用搜索引擎是面向所有的Web信息检索者的,庞大的网络信息规模和高速响应要求,使其检索结果不尽人意。主题搜索引擎,是为了进一步提高搜索结果相关度的新一代搜索引擎。它提供了分类更准确、数据更全面、更新更及时的因特网搜索服务。主题
2、搜索引擎中的信息采集,以及主题爬虫系统的搜索策略的研究,对主题搜索引擎的应用与发展都具有非常重要的作用。本文在对搜索引擎的演变和发展进行全面的综述以后,对通用搜索引擎和主题搜索引擎进行了性能的比较。引出主题搜索引擎的重要组成部分——主题爬虫,并分析了主题爬虫的基本结构和工作原理。随后,对网络爬虫的一些经典页面相似度算法进行了评价。同时,重点讨论了URL搜索策略,介绍了我们的网络爬虫系统对Web页面的信息采集,并加以实现。最后,展示了我们实现的网络爬虫。论文主要研究了以下4个问题:(1)对主题爬虫的工作原理,功能模块及基本技术进行了研究。(2)讨论了
3、主题爬虫经典的页面相似度算法:基于链接的页面相似度算法和基于内容的页面相似度算法;讨论了URL搜索策略算法。(3)研究并实现了基于HTML的网页的信息抽取。(4)实现了本系统的界面。关键词:网络爬虫;URL搜索策略;Web信息抽取VIAbstractWiththerapiddevelopmentofInternet,networkresourcesincreasesharply,andinformationbecomesmorediversitythanbefore.Atthesametime,generalsearchenginesarefaci
4、ngaseverechallenge.Becausethegoalofgeneralsearchenginesisinformationoftheentireweb,largescaleofnetworkinformationandrequirementofhigh-speedresponse,whichmakesthesearchresultcan'tmeetouranticipation.Thesubject-orientedsearchengine,anew-generationsearchengineaimingforincreasingt
5、hecorrelationdegreeofsearchingresults,makesimprovementoftheinternetsearchingservicewithbetterdivision,moredata,andhigherspeed.Theresearchofinformationcollectionandsearchingstrategyofthesubject-orientedsearchengineplaysagreatroleinthedevelopmentofthesubject-orientedsearchengine
6、s.Inthispaper,afteracomprehensiveoverviewoftheevolutionanddevelopmentofsearchengines,wecomparedtheperformanceoftraditionalandsubject-orientedsearchengines.Afterthat,subject-orientedspiderisraisedasthemostimportantpartofsearchengines.Weanalyzedbasicstructureandworkingprinciplea
7、boutit.Afterintroducingtheclassicnetworkpagesimilarityalgorithms,weevaluatethem.IntheaspectofURLsearchingstrategy,wefoundanimprovementanddiscussedaboutit.Atthesametime,weanalyzedthestrategyofpageinformationextractionbasedonHTML.Thepaperdoesresearchmainlyinfollowingfouraspects:
8、Firstly,westudiedtheworkingprinciple,functionalmodulesandbasi