火车头采集器-采集与发布带图片的文章

火车头采集器-采集与发布带图片的文章

ID:11714145

大小:1.54 MB

页数:10页

时间:2018-07-13

火车头采集器-采集与发布带图片的文章_第1页
火车头采集器-采集与发布带图片的文章_第2页
火车头采集器-采集与发布带图片的文章_第3页
火车头采集器-采集与发布带图片的文章_第4页
火车头采集器-采集与发布带图片的文章_第5页
资源描述:

《火车头采集器-采集与发布带图片的文章》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、10如何使用火车头采集器火车头采集器7.6免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采集程序下载到本地,放在一个约定好名字的文件夹中,最后人工上传到服务器DZ程序运行目录下的pic目录下。下载火车头采集器7.6版本LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET环境。程序是Discuz!X2.5GBK版本。核心工作有两部分:1、采集,2、发布。本文重点说如何发布(带图片、排版),简单说如何采集。一、新建

2、一个使用UBB格式的Web在线发布模块因为采集下来的文章内容是HTML格式,如:

正文

这样带有HTML标签的文本。而DZ论坛使用的是UUB格式,如:[p]正文[/p],所以在发布时要做一个自动转换。下面就是设置这个自动转换功能。如果你的文章发布的DZ门户,就不需要转换为UBB.1、打开发布模块配置:2、以软件里自带的Discuz!X2.0论坛为模板进行修改。我试过了可以正常住Discuz!X2.5发布文章。3、设置为:对[标签:内容]做UBB转换,如下图中的样子:最后,另存为一个新的“

3、发布模块”,起一个新名字,后面要使用。104、在“内容发布参数”选项卡中修改:[标签:内容]的值可以用使用{0}来替代。如下图:黄色框内的[标签:内容]替换成{0},如下图10第一部分工作就完成了。二、使用Web在线发布模块前面我新建了一个新的Web在线发布模块,下面就是使用它。第一步:新一个“发布”,操作如下图:10注意:请到论坛的后台修改设置,要求登录时不需要输入验证码,才能登录成功,才能测试成功,记得以后要改回来啊。最后保存时要起个新名字。三、准备采集这里以火车自带的采集演示来说明。鼠标右击

4、“腾讯新闻”—“编辑任务”,打开如下窗口。如下图设置,使用前一步建立的“发布模块”,可以把采集到的内容发布到论坛的某个栏目中。设置如下图:10下面还有图:1010对于采集工作,还有一些重要的设置,很重要。如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。下面的设置,是对采集的文章正文进行的设置。10“开始字符串”,“结束字符串”是所有设置中最重要的内容,它用来分析页面的HTML源码,找出文章正文的开始点与结束点。下图中使用的是火车头为腾讯准备默认值,不需要修改。如果你不

5、采集腾讯而采其它网站,这个就要你自己看HTML源码来人工分析了。采集时,可选择性的过滤掉一些HTML标签,如