网站采集器如何实现网站数据采集

网站采集器如何实现网站数据采集

ID:20356356

大小:40.50 KB

页数:5页

时间:2018-10-09

网站采集器如何实现网站数据采集_第1页
网站采集器如何实现网站数据采集_第2页
网站采集器如何实现网站数据采集_第3页
网站采集器如何实现网站数据采集_第4页
网站采集器如何实现网站数据采集_第5页
资源描述:

《网站采集器如何实现网站数据采集》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网站采集器如何实现网站数据采集Ø入门篇网站采集,就是从网站页面中抽取指定的数据,人工方式就是打开网页然后开始Ctrl+CCtrl+V的进行拷贝粘贴。人工方式采集数据最为准确,但效率最低。所以,期望计算机可以自动化的将人工操作执行,完成数据采集的工作。计算机将人工的Ctrl+CCtrl+V自动化执行,需要一定的指导操作,譬如:计算机需要打开那个页面,拷贝哪些信息,将拷贝的信息又要粘贴到哪里?这些都是人工操作时必须制定的操作,转化到计算机,也必须知道计算机这样来进行。所以,需要配置一些规则来指导计算机的操作,这个规则的组

2、合在网络矿工中我们称之为“采集任务”。通过上面的描述,我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。网页的地址很容易理解,每次我们打开一个网站时,首先都是要输入一个地址,这个地址称之为“Url”,输入Url后,我们就可以浏览一个页面了。拷贝数据的规则:人工拷贝数据很简单,人工智能么,很容易识别需要采集的数据,但对于计算机,就会有些难度,计算机不知道想要采集什么数据?必须由人工告诉计算机采集数据的规则,譬如:我们需要采集文章标题,那么就需要告诉计算机如何在一个网页中识别文章标题,并准确的采集下来。在这个指

3、导的过程中,有两种方式计算机可以理解(当然不排除还有其他的方式,譬如:计算机智能化):1、按照字符串获取的规则来指导计算机采集数据:一个网页是由浏览器对一个大字符串进行解析后展示的结果,这个大字符串就是网页源码,任何浏览器都可查看网页源码,打开网页源码后,在网页源码中通常(注意:是通常)都可以找到网页显示的内容,自然文章标题也可以找到,找到文章标题后,告诉计算机要采集这个标题数据,规则就是:从哪个字符开始获取到那个字符结束,举个简单例子:“

今天的天气很好啊

”这样一个字符串,我们要获取“今天的天气很好

4、啊”,就是告诉计算机从“

”后面开始获取到“

”结束,将中间的字符采集下来,计算机就会对这个字符串进行识别,并按照定制的规则将所需要的数据获取。采集数据,就是要配置这样的规则来指导计算机将网页数据逐一采集下来;1、还有第二种方式来指导计算机采集数据:通常(注意:又是通常)情况网页的源码是一个XML文档。XML定义:用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言(摘自:百度百科)。这我们就知道了,网页源码是一个结构化的、具有标记识别

5、的一种文档。这样,我们就可以通过一种方式来标记我们需要采集的数据,让计算机自动寻找并获取数据,这种方式也就是我们常见的可视化采集。可视化采集的核心是XPath信息,XPath是XML路径语言(XMLPathLanguage),它是一种用来确定XML文档中某部分位置的语言。用XPath来制定文档某个位置的数据,让计算机来采集,这样也实现了我们指导计算机采集数据的需求;综上所述,我们也就可以理解网络采集器是如何采集数据的了。不过上面所讲,只是一个入门,因为我们只是在很常见常见的情况,指导计算机完成了一个页面数据的采集,这

6、与我们实际的应用差距还很大,譬如:成批采集数据。后面我们还会逐步是深入进行讲解。Ø中级篇前面已经所讲,我们已经指导计算机完成了一个网页数据的采集,但对于我们实际需要来讲,我们肯定不止采集一个页面,而是要采集N多页面,对于N多个页面而言,使用计算机自动执行才有意义。对于N多个网页,我们不可能一个一个的去把Url告诉计算机,比如我们要采集上万个网页,难道要输入上万个Url,这也太不现实了。所以,我们只能找到这N多个网页的规则,用一种规则来让计算机自动解析完成N多个网页的构成。这种解析可以由集中方式:1、按照一个可识别的规

7、则解析,譬如:数字递增,字母递增或日期递增,举个例子:http://www.******.com/article.aspx?id=1001,这是一个文章的Url,比较容易理解,id是url提交的参数,1001是一个参数值,代表一篇文章,那么我们就可以通过数字递增的形式来替代它,http://www.******.com/article.aspx?id={Num:1001,1999,1},这样就完成了998篇文章url的构成,系统会自动将url解析出来,{Num:1001,1999,1}是一个数字递增的参数,从1001

8、开始递增,每次递增加1,直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成;1、有些Url并不一定可以通过一定可识别的规则来构成,那该如何?譬如:http://www.******.com/s.aspx?area=北京,这是一个带入了地区参数的Url,全国有众多的城市,总不能一个一个输入。针对这种Url,我们可以用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。