研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文

研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文

ID:15674489

大小:1.17 MB

页数:63页

时间:2018-08-04

研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文_第1页
研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文_第2页
研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文_第3页
研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文_第4页
研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文_第5页
资源描述:

《研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文研究面向服务的网络爬虫系统——网络爬虫系统的设计和构建ResearchNetCrawleronService-Oriented——DesignandConstructionofNetCrawler姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要网络的发展彻底改变了我们的生活和工作方式,它让我们在更容易获取信息的同时,也将自己抛弃在无边无际的信息海洋中。快速发展的现代互联网在带给人们大量信息的同时,也不可避免地产生了难以让用户快速获得有效信息的问题。那么在巨大的网络信息世界里,怎样才能找到需

2、要的数据呢?这就要依靠搜索引擎。作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注并得到广泛的使用。主题搜索引擎中的信息采集,即主题爬虫系统的搜索策略的研究,对于主题搜索引擎的应用与发展具有非常重要的作用。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。本文首先对搜索引擎的基本功能进行了简单介绍,引出搜索引擎的重要组成部分——主题爬虫,并分析了主题爬虫的基本结构及工作原理。然后对网络爬虫的搜索策略进行了讨论。在深入分析主题页面在Web上的分布特征与主题相关性判别算法的

3、基础上,提出了一个面向主题搜索的,可定制的,可扩展的网络蜘蛛模型,并对模型的组织结构进行了详细阐述。重点介绍了基于Web超链接结构和基于网页文本内容进行抓取的启发式搜索策略,以及使用这两种方式的队列维护策略,并对它们进行了实现和定制。设计并初步实现了一个可定制爬虫,介绍了该爬虫的结构以及相关设计细节。最后对该爬虫的性能进行了测试,同时给出了搜索结果。该爬虫抓取页面,并提供给Lucene,并使用中文分词,建立索引,供用户界面搜索信息用,根据相关度并给出搜索结果。关键词:搜索引擎;网络爬虫;Web链接分析AbstractThedevelo

4、pmentofnetworkhascompletelychangedthewaysweliveandwork,whichnotonlyenablesustohavemucheasieraccesstoinformationbutalsomakeusimmerseourselvesintheboundlessinformationocean.Then,intheenormousworldofnetworkinformation,howcanonefindthemessageneeded?Itdependsonthesearchengin

5、e.Asacommontooforwebinformationretrieval,searchengineshavebeenanincreasingconcernandextensiveuse.Theinformationcollectionofthesubjectofsearchengine,thatisthestudyofthesearchstrategyofwebspider,playsanimportantroleintheapplicationanddevelopmentofthesubjectofsearchengine.

6、Thedynamic,heterogeneityandcomplexityofWebachievethatthewebspidercanextractwebinformationefficiently,whichguaranteesthesimultaneityandeffectivenessofinformation.Inthisthesis,theauthormakesabriefintroductionofthebasicfunctionsofthesearchengines,thenleadstotheimportantpar

7、tofsearchEngine--webspider,andmakesanalysesofthebasicstructureandworkingprincipleofreptilesubject.Andthen,theauthordiscussesthesearchstrategyofwebspider.Basedonthedeepanalysesofthedistributionfeaturesanddiscriminationalgorithmrelevanttothethemepagesintheweb,theauthorbri

8、ngsforthasubject-orientedsearch,scalableandextendablewebspidermodel,whoseorganizationalstructuresaredescribedi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。