火车头采集器介绍与使用流程说明ppt课件.pptx

火车头采集器介绍与使用流程说明ppt课件.pptx

ID:58569692

大小:934.04 KB

页数:28页

时间:2020-10-21

火车头采集器介绍与使用流程说明ppt课件.pptx_第1页
火车头采集器介绍与使用流程说明ppt课件.pptx_第2页
火车头采集器介绍与使用流程说明ppt课件.pptx_第3页
火车头采集器介绍与使用流程说明ppt课件.pptx_第4页
火车头采集器介绍与使用流程说明ppt课件.pptx_第5页
资源描述:

《火车头采集器介绍与使用流程说明ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、火车头采集器介绍及使用流程说明目录一、软件介绍二、创建任务三、采集网址四、采集内容五、字段处理一、软件介绍《火车采集器》能为您做些什么呢?1、网站内容维护:可以定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。2、Internet数据挖掘:可以从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。3、网络信息监控:通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周

2、期最长的智能采集程序。一、软件介绍火车采集器数据发布原理:在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对种据进行处理。1.不做任何处理。因为数据本身是保存在数据库的(access或是db3),您如果只是想看一下,直接用相关软件查看就可以了。2.web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。3.直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。4.保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。二、创建任务打开火车头软件,界面如下:二、创建任务1.新建分组填写分

3、组名称二、创建任务2.新建任务填写任务名称添加采集网址三、采集网址点击“添加”按钮出现如下界面三、采集网址切换至“批量/多页”选项卡,可以批量添加网址网址通用序号用通配符(*)替换这添加方式主要用来处理分页网址三、采集网址切换至“其他网址格式”选项卡,也可以批量添加网址网址通用序号用通配符(*)替换这添加方式主要用来处理含有日期的网址日期格式三、采集网址多级网址采集点击‘添加’按钮网址过滤条件三、采集网址手动采集配置链接地址规则:手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理。而且可以用这方法采集需要的字段,如:公告新闻类的标

4、题、日期等。点击单选按钮来切换配置网址采集规则三、采集网址点击完成之后,则出现如下情况:完成采集网址步骤之后,点击“测试网址采集”按钮。会出现如下界面:采集网址规则展示配置网址采集规则网址全部采集完成后,可以双击网址进行内容采集;如需修改则点击“返回修改设置”四、采集内容双击网址或者点击‘测试该页’就能跳转到采集内容界面在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题五个初始标签,可以对标签进行添加、删除和编辑等操作。四、采集内容编辑字段规则以深交所的为例:现在要提取标题,日期和信息内容。四、采集内容打开页面并查看该页的HTML

5、源代码。在源代码中可以找到页面中的标题部分,如图:复制这段代码以及前后的相关html代码,将标题内容设为”参数”之后,通过正则匹配的方式获取:如图:匹配规则测试效果情况四、采集内容同样可以用这类似的方式来采集信息内容:还是先通过内容附近的关键字段:采集效果:前后匹配字符串四、采集内容通过之前的方式采集可以看到内容包含了很多的html标签,这些并不是所需要的,因此需对其进行处理。在数据处理项点击添加,选中html标签过滤:点击‘全选’再按‘确定’即可。处理之后的效果四、采集内容备注:前后字符串截取与正则提取是火车头最基本、最常用的两种采集方式,其原理就是通过网页源代码中的前后关键字来获

6、取所要采集的内容,通常这类前后的关键字在网页源代码中具有一定的唯一性。五、字段处理火车头采集器除了有最基本的采集截取之外,还有大量的对数据自动作特殊处理的功能。内容替换:内容替换功能是将采集后的字段中的一些内容替换成需要的格式,如有时采到的日期为xxxx年xx月xx日,而我们需要xxxx-xx-xx的格式,就可以采取这个功能。五、字段处理网页编码设定:每个网站都有一个相对应的编码:如UTF-8。如果选错编码,则采集出来的数据就会呈现一种乱码格式。大多数的网页编码火车头都可以自动识别,如不能则需要手动指定一个编码格式。(网页对应的编码格式通常会在源代码的里)五、字段处理循环

7、采集处理循环采集就是在一个页面中用相同的采集方式获取字段:以为例:如果要获取深交所法规的所有标题字段。配置采集规则后,只需勾选在“该标签循环匹配”即可。选中即可五、字段处理采集记录筛选有时有些记录不需要怎么办?火车采集器的记录筛选功能可以完成这个工作。火车采集器记录筛选有以下几个处理方法:选中“内容过滤”就可对数据进行相关的过滤,如不得为空、不得重复等。标签组合有时我们会需要取几个字段来做数据的唯一性判断时就会用到标签组合采集。注:标签组合时需注意标签的前

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。