资源描述:
《火车头采集教程2010sp3采集必备教程》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、火车头采集教程2010SP3采集必备教程下载地址:http://www.locoy.com/Down/我们下载免费版。。。。注意:想用火车,就必须得安装.NETFrameWork2.0框架或更高版本.netframework2.0下载地址:请百度那么,火车我们也下载到本地了,。net框架,我们也安装了。。。那么,我们把新下载的火车采集软件,解压下。。。看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。上图中,用红线圈住的LocoySpider.exe是主程序,我们双击打开。。。ps:这里说下,
2、上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。我们先补习一下,火车头采集软件的工作原理。。。因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。。。
3、"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">-------这些蓝色的东西,对于新手,我们不需要知道!网页的标题----红色的是网页的标题。。。如下图(1)4、ody>内容 在这个
和之间的,是网站的内容部分。。如下图(2)