资源描述:
《网络爬虫的设计与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间
2、,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。关键词:网络爬虫,定向爬取,多线程,MongodbABSTRACT Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocess,whichrequiretomeetdifferentperformanceandrelatedtothevariousdetailsofthet
3、argetedwebcrawlerandapplicationindetail.Searchengineisatooltohelppeopleretrieveinformation.However,thesegeneralsearchenginesalsohavesomelimitations.Usersindifferentfieldsandbackgroundstendtohavedifferentpurposesandneeds,andtheresultsreturnedbygeneralsearchenginescontain
4、alargenumberofwebpagesthatusersdon'tcareabout.Inordertosolvethisproblem,itisofgreatsignificanceforaflexiblecrawler.Webcrawlerapplicationofintelligentselfconstructiontechnology,withthedifferentthemesofthesite,youcanautomaticallyanalyzethestructureofURL,andcancelduplicate
5、part.Webcrawlerusemulti-threadingtechnology,sothatthecrawlerhasamorepowerfulabilitytograb.Settingconnectionandreadingtimeofthenetworkcrawleristoavoidunlimitedwaiting.Inordertoadapttothedifferentneeds,thewebcrawlercanbaseonthepresetthemestorealizetofilchthespecifictopics
6、.What’smore,weshouldstudytheprincipleofthewebcrawler,realizetherelevantfunctionsofreptiles,savethestolendatatothedatabaseaftercleaningandinlateachievethevisualdisplay.Keywords:Webcrawler,Directionalclimb,multi-threading,mongodb目 录第一章 概述11.1 课题背景11.2 网络爬虫的历史和分类1第二章文献综述
7、72.1 网络爬虫理论概述72.2 网络爬虫框架介绍8第三章研究方案163.1 网络爬虫的模型分析163.2 URL构造策略193.3 数据提取与存储分析19第四章网络爬虫模型的设计和实现214.1 网络爬虫总体设计214.2 网络爬虫具体设计21第五章 实验与结果分析395.2 结果分析42参考文献36致谢37附录138附录247第一章 概述1.1 课题背景网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对
8、内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人。但是,这些通用性搜索引擎