网络爬虫的设计与实现.doc

网络爬虫的设计与实现.doc

ID:55552165

大小:1.14 MB

页数:66页

时间:2020-05-16

网络爬虫的设计与实现.doc_第1页
网络爬虫的设计与实现.doc_第2页
网络爬虫的设计与实现.doc_第3页
网络爬虫的设计与实现.doc_第4页
网络爬虫的设计与实现.doc_第5页
资源描述:

《网络爬虫的设计与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间

2、,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。关键词:网络爬虫,定向爬取,多线程,MongodbABSTRACT  Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocess,whichrequiretomeetdifferentperformanceandrelatedtothevariousdetailsofthet

3、argetedwebcrawlerandapplicationindetail.Searchengineisatooltohelppeopleretrieveinformation.However,thesegeneralsearchenginesalsohavesomelimitations.Usersindifferentfieldsandbackgroundstendtohavedifferentpurposesandneeds,andtheresultsreturnedbygeneralsearchenginescontain

4、alargenumberofwebpagesthatusersdon'tcareabout.Inordertosolvethisproblem,itisofgreatsignificanceforaflexiblecrawler.Webcrawlerapplicationofintelligentselfconstructiontechnology,withthedifferentthemesofthesite,youcanautomaticallyanalyzethestructureofURL,andcancelduplicate

5、part.Webcrawlerusemulti-threadingtechnology,sothatthecrawlerhasamorepowerfulabilitytograb.Settingconnectionandreadingtimeofthenetworkcrawleristoavoidunlimitedwaiting.Inordertoadapttothedifferentneeds,thewebcrawlercanbaseonthepresetthemestorealizetofilchthespecifictopics

6、.What’smore,weshouldstudytheprincipleofthewebcrawler,realizetherelevantfunctionsofreptiles,savethestolendatatothedatabaseaftercleaningandinlateachievethevisualdisplay.Keywords:Webcrawler,Directionalclimb,multi-threading,mongodb目  录第一章  概述11.1 课题背景11.2 网络爬虫的历史和分类1第二章文献综述

7、72.1 网络爬虫理论概述72.2 网络爬虫框架介绍8第三章研究方案163.1 网络爬虫的模型分析163.2 URL构造策略193.3 数据提取与存储分析19第四章网络爬虫模型的设计和实现214.1 网络爬虫总体设计214.2 网络爬虫具体设计21第五章  实验与结果分析395.2 结果分析42参考文献36致谢37附录138附录247第一章  概述1.1 课题背景网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对

8、内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人。但是,这些通用性搜索引擎

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。