网络爬虫的设计与实现.doc

ID：55552165

大小：1.14 MB

页数：66页

时间：2020-05-16

资源描述：

《网络爬虫的设计与实现.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、摘要本课题的主要目的是设计面向定向网站的网络爬虫程序，同时需要满足不同的性能要求，详细涉及到定向网络爬虫的各个细节与应用环节。搜索引擎作为一个辅助人们检索信息的工具。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。网络爬虫应用智能自构造技术，随着不同主题的网站，可以自动分析构造URL，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间

2、，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库，后期可视化显示。关键词：网络爬虫，定向爬取，多线程，MongodbABSTRACT　　Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocess,whichrequiretomeetdifferentperformanceandrelatedtothevariousdetailsofthet

3、argetedwebcrawlerandapplicationindetail.Searchengineisatooltohelppeopleretrieveinformation.However,thesegeneralsearchenginesalsohavesomelimitations.Usersindifferentfieldsandbackgroundstendtohavedifferentpurposesandneeds,andtheresultsreturnedbygeneralsearchenginescontain

4、alargenumberofwebpagesthatusersdon'tcareabout.Inordertosolvethisproblem,itisofgreatsignificanceforaflexiblecrawler.Webcrawlerapplicationofintelligentselfconstructiontechnology,withthedifferentthemesofthesite,youcanautomaticallyanalyzethestructureofURL,andcancelduplicate

5、part.Webcrawlerusemulti-threadingtechnology,sothatthecrawlerhasamorepowerfulabilitytograb.Settingconnectionandreadingtimeofthenetworkcrawleristoavoidunlimitedwaiting.Inordertoadapttothedifferentneeds,thewebcrawlercanbaseonthepresetthemestorealizetofilchthespecifictopics

6、.What’smore,weshouldstudytheprincipleofthewebcrawler,realizetherelevantfunctionsofreptiles,savethestolendatatothedatabaseaftercleaningandinlateachievethevisualdisplay.Keywords：Webcrawler,Directionalclimb,multi-threading,mongodb目　　录第一章　　概述11.1　课题背景11.2　网络爬虫的历史和分类1第二章文献综述

7、72.1　网络爬虫理论概述72.2　网络爬虫框架介绍8第三章研究方案163.1　网络爬虫的模型分析163.2　URL构造策略193.3　数据提取与存储分析19第四章网络爬虫模型的设计和实现214.1　网络爬虫总体设计214.2　网络爬虫具体设计21第五章　　实验与结果分析395.2　结果分析42参考文献36致谢37附录138附录247第一章　　概述1.1　课题背景网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对

8、内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现，而有了网络机器人。但是，这些通用性搜索引擎

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 66



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网络爬虫的设计与实现.doc

网络爬虫的设计与实现.doc

相关文章

相关标签