【精选资料】火车头采集器菜鸟使用手册

【精选资料】火车头采集器菜鸟使用手册

ID:36014094

大小:4.32 MB

页数:56页

时间:2019-04-29

【精选资料】火车头采集器菜鸟使用手册_第1页
【精选资料】火车头采集器菜鸟使用手册_第2页
【精选资料】火车头采集器菜鸟使用手册_第3页
【精选资料】火车头采集器菜鸟使用手册_第4页
【精选资料】火车头采集器菜鸟使用手册_第5页
资源描述:

《【精选资料】火车头采集器菜鸟使用手册》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、www.okyanli.com——OK眼力精准分享论坛火车头采集教程火车头采集器使用说明下载地址:http://www.okyanli.com/forum.php?mod=viewthread&tid=4&extra=www.okyanli.com——OK眼力精准分享论坛下载地址:http://www.locoy.com/Down/我们下载免费版。。。。注意:想用火车,就必须得安装.NETFrameWork2.0框架或更高版本.netframework2.0下载地址:那么,火车我们也下载到本地了,。net框架,我们也安装了。。。那

2、么,我们把新下载的火车采集软件,解压下。。。看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。上图中,用红线圈住的LocoySpider.exe是主程序,我们双击打开。。。www.okyanli.com——OK眼力精准分享论坛ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。我们先补习一下,火车头采集软件的工作原理。。。因为我们浏览到的网页,最后都是通过html输出的,那么意

3、味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。。。

4、tf-8"/>-------这些蓝色的东西,对于新手,我们不需要知道!网页的标题----红色的是网页的标题。。。如下图(1)内容          在这个和之间的,是网站的内容部分。。如下图(2)www.okyanli.com——OK眼力精准分享论坛----------这里是网站的结尾。。。。如果想查看一个网页的html源文件,之需要点击浏览器上的查看,源文件即可。。。。(1)(2)那么,我们知道了一个网页最基本的架构,那

5、么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢?我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。。。

6、/1999/xhtml">网页的标题内容www.okyanli.com——OK眼力精准分享论坛我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是,结束标签就是明白了么?呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例,在好好巩固下就OK。。。OK。。那么我们开始一步一步教大

7、家设置采集规则。。。首先第一个。。我们的目标站。。discuz!x1.5架构的网站。。。http://www.yq90.cn/forum-60-1.html我们要把这个版块的内容以及回复都采集到我们的网站上去。。。首先我们打开火车,新建一个站点。。。点击火车左上角上的新建按钮,选择新建站点。。。如下图我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!然后。。。在这个站点下,新建一个任务。。。选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。。。如下图www.okyanli.com——OK眼力精准分享论坛其

8、中1,是任务的名字,必须填写。。。2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。。。5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!OK。就这些,那么,我们一步一步的来!首先我们给我们的任

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。