网络矿工采集器v2012sp1图文使用教程

网络矿工采集器v2012sp1图文使用教程

ID:14836755

大小:1.29 MB

页数:12页

时间:2018-07-30

网络矿工采集器v2012sp1图文使用教程_第1页
网络矿工采集器v2012sp1图文使用教程_第2页
网络矿工采集器v2012sp1图文使用教程_第3页
网络矿工采集器v2012sp1图文使用教程_第4页
网络矿工采集器v2012sp1图文使用教程_第5页
资源描述:

《网络矿工采集器v2012sp1图文使用教程》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络矿工采集器V2012SP1使用教程(图文版)使用IE或Firefox浏览器,打开www.soukey.com,进入下载频道,下载网络矿工V2012SP1软件注意:网络矿工的运行需要.NetFramework2.0环境,如果您的计算机中不具备此环境,请到下载->工具软件中下载。网络矿工下载后是一个ZIP压缩文件双击打开压缩文件,可以看到一个SoMinerV2012Sp1专业版目录,全部解压出来即可,解压完成后,在此目录中我们可以看到有三个exe文件,同时还可看到一个“第一次使用请先读我”的文本文件,如果第一次使用,可以查看这个文件。Souk

2、eynetget.Exe是网络矿工的主程序文件,双击启动即可打开网络矿工。如果您是试用用户,启动后,系统会显示试用版,及剩余试用的期限,通常情况下试用期限为30天,试用版没有任何功能限制,所以不必担心。我们以一个简单的配置例子,来介绍网络矿工的使用,采集某网站的新闻数据。启动网络矿工,我们首先先建立一个“新闻”的分类用来存储将要配置的采集任务,建立分类的目的是便于管理。建立分类:在属性菜单中,点击鼠标右键,选择“添加采集分类”,系统弹出添加分类窗体,如下:输入“新闻”点击确定退出,系统会自动建立新闻的分类选中“新闻”分类,点击鼠标右键,选择“

3、新建采集任务”开始添加采集任务首先我们可以给此采集任务填写一个易记的采集名称“新闻采集”,下一步我们开始添加要采集的网址信息,采集网址为:http://news.qq.com/newssh/shwx/shehuiwanxiang.htm采集的数据是从这个新闻列表页中,找到每一篇新闻,点击进入新闻的详细页,采集新闻的正文、发布时间、标题。所以,这个采集网址是属于导航采集,入口地址为:http://news.qq.com/newssh/shwx/shehuiwanxiang.htm。点击“增加采集网址”选中“导航采集”,并点击“增加”配置导航规则

4、,导航的目的就是让软件自动根据这个新闻列表页打开每一篇新闻。所以配置规则为这个列表页的列表新闻信息,我们可以通过两种方式进行配置:可视化和采集规则配置可视化配置导航规则打开导航配置窗口后,点击“配置导航规则”,打开配置页面,选择“可视化配置”,点击“可视化提取”按钮,打开可视化配置器输入网址http://news.qq.com/newssh/shwx/shehuiwanxiang.htm打开网页,因为是一个新闻列表页,导航是多条数据,所以,需要选中“多条记录请通过鼠标捕获第一条和最后一条记录”,然后点击工具栏“开始捕获”,鼠标在页面滑动式,会

5、出现一个蓝色的边框,用蓝色的边框选中第一条新闻,点击,然后再选中最后一条新闻,点击,系统会自动捕获导航规则,如下:确定退出即可。配置完成后,选中刚才配置的网址,点击“测试网址解析”,可以看到系统已经将需要采集的新闻地址解析出来了,表示我们配置正确。刚才我们使用可视化方法进行的配置,也可以用规则配置进行导航规则的解析,在刚才的配置导航规则页中,选择“自定义配置”,在网页源码中,找到需要导航的网址,荧光笔标出的就是前后标志,输入规则,确定退出。然后,我们再进行导航规则测试,可以看到测试没有问题。下面我们开始配置采集数据的规则,因为我们要采集新闻的

6、正文、标题、发布时间,所以,可以用三种方式来完成:1、智能采集;2、可视化采集;3、规则配置。我们逐个讲解智能采集我们在采集任务配置窗体中,选择“采集数据”,并点击“配置助手”,打开配置助手页,在地址栏输入一个采集的地址,系统也会自动输入此网址,同时点击“生成文章采集规则”,可以看到系统已经将文章的智能规则输入到系统中,点击“测试”可以检查采集结果是否正确确定退出,这样就完成了配置。点击“应用”保存,测试采集,可以看到采集没有问题,正文首先是张图片。如果需要去掉网页符号,可以编辑正文的数据加工规则,选择“输出时去掉网页符号”再次测试网页符号已

7、经去掉,因为图片是一个网页代码,所以也被去掉了,一般情况下,采集正文我们期望保留格式,所以,不用去掉网页代码,这样可以保留文章原始格式进行输出。下面我们来看可视化配置我们在采集任务配置窗体中,选择“采集数据”,并点击“增加”,采集数据规则配置页,选择“可视化配置”,并点击“可视化提取”按钮,打开可视化配置页面输入我们需要采集数据的网址,并点击匹配,开始进行采集数据的可视化配置,同样,点击“开始捕获”时,鼠标在网页滑动时会出现一个蓝色边框,用蓝色边框选中需要采集的数据,点击即可。点击“测试”可以看到测试结果,测试结果正确后,确定退出,在采集数据

8、规则配置页,输入一个名称,保存退出,即可重复以上过程,将正文、时间、标题配置好即可。可以看到规则类别为XPath保存采集任务,测试即可。下面我们来看第三种配置方法:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。