欢迎来到天天文库
浏览记录
ID:32344775
大小:2.02 MB
页数:51页
时间:2019-02-03
《互联网信息采集系统的分析和设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文摘要摘要:随着Intemet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展。如何在成千上万的网站中快速有效地获取所需信息,是Intemet发展过程中的一个重要问题,而搜索弓}擎(SearchEngine)正是为解决用户的查询问题而出现的一种有效工具。通过搜索弓}擎,用户可以穿梭于放置在不回地点、隶属于不同网络的www网页中,获取所需要的各种信息。而在整个搜索引擎系统中,网络爬虫起着至关重要的作甩,它是Intemet搜索引擎的数据来源,决定着整个系统的内容是否丰富、完整,信息是否能够得到及时更新。本论文首先从搜索引擎种类和组成出
2、发,对搜索引擎的内部运行机制进行了分析研究,并对现在一般的网络爬虫的运行过程给予了整体性的介绍,对网络爬虫的搜索策略和所面临的主要技术问题进行了简要的分析。在此基础上,研究了开源的搜索引擎——Nutch的工作原理,并设计了一个主题爬虫。主题爬虫的目标是有选择地查找与预定主题相关的网页,而不象通用搜索引擎一样,搜集和索引所有可访问的网页,这样可以避免访问其他不相关的网页,同时也有助于节省硬件和网络资源。论文的主要仓q新性工作如下:1、分析并设计了一个主题网络爬虫;2、使用正则表达式对URL队列的过滤方法进行了重新设计,并给出了URL的
3、数据结构定义、URL距离度量和计算方法、URL的划分、聚合和抽取等算法;3、研究了与页面抓取与处理相关的方法,实现了基于代理的增量更新和页面内容的分析;.4、应用排队论的理论,对并行式与单一网络爬虫的性能进行了分析比较。关键词:搜索引擎;网络爬虫;主题爬虫ABSTRACTWiththefastdevelopmentofIntemet,informationavailablefromthewebisincreasingandextendinginanexplosiverate.Howtofindtheusefulinformation
4、quicklyandeffectivelyfromtheOCeanofwebsitesisanimportantissueintheevolutionprocessofIntemet.SearchEngineistheefficienttooltoaddressthisissue.UsingSearchEngines,userscanshuttlethroughwebpagesofdifferentsitesandlocations,obtainingdiverseusefulinformation.WebCrawlerplaysa
5、veryimportantroleinthewholeSearchEnginesystem.BeingthedatasourceofIntemetSearchEngines,itdeterminesthecontentdiversityandtimelyinformationupdateofthesystem.ThisthesisfirstintroducesthecategoriesandconstitutionofSearchEngines,andthengivesabriefoverviewoftheirinneroperat
6、ionalmechanism.ThenwegiveanoverallintroductiontotherunningprocessofcommonWebSpiders.Next,weanalyzethesearchstrategiesandprimarytechnologicalproblemsfacedbyWebSpidersbriefly.Basedontheprincipleoftheopen—sourceNutchthisthesisrealizesatopic-basedspiderthattakessearchingth
7、epre—determinedsubjectcorrelationpageasagoal,notlikethegeneralWebspidertocollectandindexa11日=j眙availablepage.TheyCanavoidvisitothernon-correlatedpages,simultaneouslyCansavehardwareandnetworkresources.Themaininnovationsinthethesisareoutlinedasfollowing:1.Analyzeanddesig
8、natopic-basednetworkspider,2.Re-designafiltermethodofURLqueuebyusingregularexpressionandpresentadefinitionofdatastruc
此文档下载收益归作者所有