网络爬虫论文

ID：23352095

大小：629.79 KB

页数：39页

时间：2018-11-07

资源描述：

《网络爬虫论文》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、摘要网络爬虫(WebCrawler),通常被称为爬虫，是搜索引擎的重要组成部分。随着信息技术的飞速进步，作为搜索引擎的一个组成部分——网络爬虫，一直是研究的热点,它的好坏会直接决定搜索引擎的未来。0前，网络爬虫的研究包括Web搜索策略研究的研究和网络分析的算法，两个方向，其中在Web爬虫网络搜索主题是一个研究方向,根据一些网站的分析算法，过滤不相关的链接，连接到合格的网页，并放置在一个队列被抓取。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网贞的链接地址来寻找网贞，从网站某一个页面(通常是首页)开始，读取网页的内容，找到在网页中的

2、其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所冇的网贞都抓取完为止。如果把整个互联网当成一个网站，那么网络爬虫就可以用这个原理把互联网上所冇的网贞都抓取下来。关键词：网络爬虫；LinuxSocket；C/C++;多线程；互斥锁AbstractWebCrawler，usuallycalledCrawlerforshort,isanimportantpartofsearchengine.Withthehigh-speeddevelopmentofinformation,WebCrawler—thesearchenginecannotl

3、ackof--whichisahotresearchtopicthoseyears.ThequalityofasearchengineismostlydependedonthequalityofaWebCrawler.Nowadays，thedirectionofresearchingWebCrawlermainlydividesintotwoparts:oneisthesearchingstrategytowebpages;theotheristhealgorithmofanalysisURLs.Amongthem,theresearchofTopic-Focuse

4、dWebCrawleristhetrend.Itusessomewebpageanalysisstrategytofiltertopic-lessURLsandaddfitURLsintoURL-WAITqueue.Themetaphorofaspiderwebinternet，thenSpiderspideriscrawlingaroundontheInternet.Webspiderthroughweblinkaddresstofindpages，startingfromaonepagewebsite(usuallyhome)，readthecontentsoft

5、hepage,findtheaddressoftheotherlinksonthepage,andthenlookforthenextWebpageaddressesthroughtheselinks，sohasbeenthecyclecontinues，untilallthepagesofthissitearecrawledexhausted.IftheentireInternetasasite，thenyoucanusethisWebcrawlerprincipleallthepagesontheInternetarecrawlingdown..Keywords:

6、Webcrawler；LinuxSocket；C/C++;Multithreading;MutexI胃11.1课题背景11.2网络爬虫的历史和分类11.2.1网络爬虫的历史11.2.2网络爬虫的分类21.3网络爬虫的发展趋势31.4系统开发的必要性31.5本文的组织结构3第二章相关技术和工具综述52.1网络爬虫的定义52.2网页搜索策略介绍52.2.1广度优先搜索策略52.3相关工具介绍62.3.1操作系统62.3.2软件配置6第三章网络爬虫模型的分析和概要设计83.1网络爬虫的模型分析83.2网络爬虫的搜索策略83.3网络爬虫的概要设计10第四章网络爬虫模型的设计与

7、实现124.1网络爬虫的总体设计124.2网络爬虫的具体设计124.2.1URL类设计及标准化URL124.2.2爬取网页134.2.3网页分析144.2.4网页存储144.2.5Linuxsocket通信164.2.6EPOLL模型及其使用204.2.7POSIX多线程及其使用22第五章程序运行及结果分析255.1Makefile及编译255.2运行及结果分析26第六章总结与展望30&3132第一章1.1课题背景网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还冇蚂蚁，自动索引，模拟程序或者蠕虫。网络检索功

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 39



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网络爬虫论文

网络爬虫论文

相关文章

相关标签