欢迎来到天天文库
浏览记录
ID:20356356
大小:40.50 KB
页数:5页
时间:2018-10-09
《网站采集器如何实现网站数据采集》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、网站采集器如何实现网站数据采集Ø入门篇网站采集,就是从网站页面中抽取指定的数据,人工方式就是打开网页然后开始Ctrl+CCtrl+V的进行拷贝粘贴。人工方式采集数据最为准确,但效率最低。所以,期望计算机可以自动化的将人工操作执行,完成数据采集的工作。计算机将人工的Ctrl+CCtrl+V自动化执行,需要一定的指导操作,譬如:计算机需要打开那个页面,拷贝哪些信息,将拷贝的信息又要粘贴到哪里?这些都是人工操作时必须制定的操作,转化到计算机,也必须知道计算机这样来进行。所以,需要配置一些规则来指导计算机的操作,这个规则的组
2、合在网络矿工中我们称之为“采集任务”。通过上面的描述,我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。网页的地址很容易理解,每次我们打开一个网站时,首先都是要输入一个地址,这个地址称之为“Url”,输入Url后,我们就可以浏览一个页面了。拷贝数据的规则:人工拷贝数据很简单,人工智能么,很容易识别需要采集的数据,但对于计算机,就会有些难度,计算机不知道想要采集什么数据?必须由人工告诉计算机采集数据的规则,譬如:我们需要采集文章标题,那么就需要告诉计算机如何在一个网页中识别文章标题,并准确的采集下来。在这个指
3、导的过程中,有两种方式计算机可以理解(当然不排除还有其他的方式,譬如:计算机智能化):1、按照字符串获取的规则来指导计算机采集数据:一个网页是由浏览器对一个大字符串进行解析后展示的结果,这个大字符串就是网页源码,任何浏览器都可查看网页源码,打开网页源码后,在网页源码中通常(注意:是通常)都可以找到网页显示的内容,自然文章标题也可以找到,找到文章标题后,告诉计算机要采集这个标题数据,规则就是:从哪个字符开始获取到那个字符结束,举个简单例子:“
4、啊”,就是告诉计算机从“
5、的一种文档。这样,我们就可以通过一种方式来标记我们需要采集的数据,让计算机自动寻找并获取数据,这种方式也就是我们常见的可视化采集。可视化采集的核心是XPath信息,XPath是XML路径语言(XMLPathLanguage),它是一种用来确定XML文档中某部分位置的语言。用XPath来制定文档某个位置的数据,让计算机来采集,这样也实现了我们指导计算机采集数据的需求;综上所述,我们也就可以理解网络采集器是如何采集数据的了。不过上面所讲,只是一个入门,因为我们只是在很常见常见的情况,指导计算机完成了一个页面数据的采集,这
6、与我们实际的应用差距还很大,譬如:成批采集数据。后面我们还会逐步是深入进行讲解。Ø中级篇前面已经所讲,我们已经指导计算机完成了一个网页数据的采集,但对于我们实际需要来讲,我们肯定不止采集一个页面,而是要采集N多页面,对于N多个页面而言,使用计算机自动执行才有意义。对于N多个网页,我们不可能一个一个的去把Url告诉计算机,比如我们要采集上万个网页,难道要输入上万个Url,这也太不现实了。所以,我们只能找到这N多个网页的规则,用一种规则来让计算机自动解析完成N多个网页的构成。这种解析可以由集中方式:1、按照一个可识别的规
7、则解析,譬如:数字递增,字母递增或日期递增,举个例子:http://www.******.com/article.aspx?id=1001,这是一个文章的Url,比较容易理解,id是url提交的参数,1001是一个参数值,代表一篇文章,那么我们就可以通过数字递增的形式来替代它,http://www.******.com/article.aspx?id={Num:1001,1999,1},这样就完成了998篇文章url的构成,系统会自动将url解析出来,{Num:1001,1999,1}是一个数字递增的参数,从1001
8、开始递增,每次递增加1,直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成;1、有些Url并不一定可以通过一定可识别的规则来构成,那该如何?譬如:http://www.******.com/s.aspx?area=北京,这是一个带入了地区参数的Url,全国有众多的城市,总不能一个一个输入。针对这种Url,我们可以用
此文档下载收益归作者所有