互联网信息采集系统的分析和设计

互联网信息采集系统的分析和设计

ID:32344775

大小:2.02 MB

页数:51页

时间:2019-02-03

互联网信息采集系统的分析和设计_第1页
互联网信息采集系统的分析和设计_第2页
互联网信息采集系统的分析和设计_第3页
互联网信息采集系统的分析和设计_第4页
互联网信息采集系统的分析和设计_第5页
资源描述:

《互联网信息采集系统的分析和设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要摘要:随着Intemet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展。如何在成千上万的网站中快速有效地获取所需信息,是Intemet发展过程中的一个重要问题,而搜索弓}擎(SearchEngine)正是为解决用户的查询问题而出现的一种有效工具。通过搜索弓}擎,用户可以穿梭于放置在不回地点、隶属于不同网络的www网页中,获取所需要的各种信息。而在整个搜索引擎系统中,网络爬虫起着至关重要的作甩,它是Intemet搜索引擎的数据来源,决定着整个系统的内容是否丰富、完整,信息是否能够得到及时更新。本论文首先从搜索引擎种类和组成出

2、发,对搜索引擎的内部运行机制进行了分析研究,并对现在一般的网络爬虫的运行过程给予了整体性的介绍,对网络爬虫的搜索策略和所面临的主要技术问题进行了简要的分析。在此基础上,研究了开源的搜索引擎——Nutch的工作原理,并设计了一个主题爬虫。主题爬虫的目标是有选择地查找与预定主题相关的网页,而不象通用搜索引擎一样,搜集和索引所有可访问的网页,这样可以避免访问其他不相关的网页,同时也有助于节省硬件和网络资源。论文的主要仓q新性工作如下:1、分析并设计了一个主题网络爬虫;2、使用正则表达式对URL队列的过滤方法进行了重新设计,并给出了URL的

3、数据结构定义、URL距离度量和计算方法、URL的划分、聚合和抽取等算法;3、研究了与页面抓取与处理相关的方法,实现了基于代理的增量更新和页面内容的分析;.4、应用排队论的理论,对并行式与单一网络爬虫的性能进行了分析比较。关键词:搜索引擎;网络爬虫;主题爬虫ABSTRACTWiththefastdevelopmentofIntemet,informationavailablefromthewebisincreasingandextendinginanexplosiverate.Howtofindtheusefulinformation

4、quicklyandeffectivelyfromtheOCeanofwebsitesisanimportantissueintheevolutionprocessofIntemet.SearchEngineistheefficienttooltoaddressthisissue.UsingSearchEngines,userscanshuttlethroughwebpagesofdifferentsitesandlocations,obtainingdiverseusefulinformation.WebCrawlerplaysa

5、veryimportantroleinthewholeSearchEnginesystem.BeingthedatasourceofIntemetSearchEngines,itdeterminesthecontentdiversityandtimelyinformationupdateofthesystem.ThisthesisfirstintroducesthecategoriesandconstitutionofSearchEngines,andthengivesabriefoverviewoftheirinneroperat

6、ionalmechanism.ThenwegiveanoverallintroductiontotherunningprocessofcommonWebSpiders.Next,weanalyzethesearchstrategiesandprimarytechnologicalproblemsfacedbyWebSpidersbriefly.Basedontheprincipleoftheopen—sourceNutchthisthesisrealizesatopic-basedspiderthattakessearchingth

7、epre—determinedsubjectcorrelationpageasagoal,notlikethegeneralWebspidertocollectandindexa11日=j眙availablepage.TheyCanavoidvisitothernon-correlatedpages,simultaneouslyCansavehardwareandnetworkresources.Themaininnovationsinthethesisareoutlinedasfollowing:1.Analyzeanddesig

8、natopic-basednetworkspider,2.Re-designafiltermethodofURLqueuebyusingregularexpressionandpresentadefinitionofdatastruc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。