欢迎来到天天文库
浏览记录
ID:23352095
大小:629.79 KB
页数:39页
时间:2018-11-07
《网络爬虫论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要网络爬虫(WebCrawler),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术的飞速进步,作为搜索引擎的一个组成部分——网络爬虫,一直是研究的热点,它的好坏会直接决定搜索引擎的未来。0前,网络爬虫的研究包括Web搜索策略研究的研究和网络分析的算法,两个方向,其中在Web爬虫网络搜索主题是一个研究方向,根据一些网站的分析算法,过滤不相关的链接,连接到合格的网页,并放置在一个队列被抓取。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网贞的链接地址来寻找网贞,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的
2、其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所冇的网贞都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所冇的网贞都抓取下来。关键词:网络爬虫;LinuxSocket;C/C++;多线程;互斥锁AbstractWebCrawler,usuallycalledCrawlerforshort,isanimportantpartofsearchengine.Withthehigh-speeddevelopmentofinformation,WebCrawler—thesearchenginecannotl
3、ackof--whichisahotresearchtopicthoseyears.ThequalityofasearchengineismostlydependedonthequalityofaWebCrawler.Nowadays,thedirectionofresearchingWebCrawlermainlydividesintotwoparts:oneisthesearchingstrategytowebpages;theotheristhealgorithmofanalysisURLs.Amongthem,theresearchofTopic-Focuse
4、dWebCrawleristhetrend.Itusessomewebpageanalysisstrategytofiltertopic-lessURLsandaddfitURLsintoURL-WAITqueue.Themetaphorofaspiderwebinternet,thenSpiderspideriscrawlingaroundontheInternet.Webspiderthroughweblinkaddresstofindpages,startingfromaonepagewebsite(usuallyhome),readthecontentsoft
5、hepage,findtheaddressoftheotherlinksonthepage,andthenlookforthenextWebpageaddressesthroughtheselinks,sohasbeenthecyclecontinues,untilallthepagesofthissitearecrawledexhausted.IftheentireInternetasasite,thenyoucanusethisWebcrawlerprincipleallthepagesontheInternetarecrawlingdown..Keywords:
6、Webcrawler;LinuxSocket;C/C++;Multithreading;MutexI胃11.1课题背景11.2网络爬虫的历史和分类11.2.1网络爬虫的历史11.2.2网络爬虫的分类21.3网络爬虫的发展趋势31.4系统开发的必要性31.5本文的组织结构3第二章相关技术和工具综述52.1网络爬虫的定义52.2网页搜索策略介绍52.2.1广度优先搜索策略52.3相关工具介绍62.3.1操作系统62.3.2软件配置6第三章网络爬虫模型的分析和概要设计83.1网络爬虫的模型分析83.2网络爬虫的搜索策略83.3网络爬虫的概要设计10第四章网络爬虫模型的设计与
7、实现124.1网络爬虫的总体设计124.2网络爬虫的具体设计124.2.1URL类设计及标准化URL124.2.2爬取网页134.2.3网页分析144.2.4网页存储144.2.5Linuxsocket通信164.2.6EPOLL模型及其使用204.2.7POSIX多线程及其使用22第五章程序运行及结果分析255.1Makefile及编译255.2运行及结果分析26第六章总结与展望30&3132第一章1.1课题背景网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还冇蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功
此文档下载收益归作者所有