6-侠客站群抓取模块制作过程图文详解

6-侠客站群抓取模块制作过程图文详解

ID:6320854

大小:1.86 MB

页数:31页

时间:2018-01-10

6-侠客站群抓取模块制作过程图文详解_第1页
6-侠客站群抓取模块制作过程图文详解_第2页
6-侠客站群抓取模块制作过程图文详解_第3页
6-侠客站群抓取模块制作过程图文详解_第4页
6-侠客站群抓取模块制作过程图文详解_第5页
资源描述:

《6-侠客站群抓取模块制作过程图文详解》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、侠客软件-http://www.xiake.net柳州侠客科技有限公司侠客站群V3抓取模块制作过程图文详解友情提示:可以点击左侧导航快速定位到所需内容新建侠客站群抓取模块侠客站群可以轻松抓取任意网站的内容,本部分属于侠客站群V3的高级部分操作,如果您不愿意制作模块,可以直接获取模块市场中的免费模块使用即可,如果您想自己动手制作自己需要的模块,您可以参照下面的流程。1.点击模块,进入模块市场2.点击左上角的制作新模块,选择新建抓取模块点击后可以看到抓取模块管理的界面。通过这个界面可以制作侠客站群的四种抓取模式的模块。设置完成之后,可以保存数据,然

2、后修改下模块的信息,建议修改下模块名称,方便自己区分侠客软件-http://www.xiake.net柳州侠客科技有限公司修改名称之后,点击提交到侠客平台,提交前会提示是否备份到本地,如果担心上传失败,可以备份到本地,如果不担心,可以直接上传上传之后,会提示是否成功,如果提示成功,就可以开始在任务里使用该模块侠客站群四种抓取模式的特点关键词智能抓取模式:可以通过任意网站的搜索接口根据关键词搜索目标网站的内容。比如:想通过百度新闻(http://news.baidu.com/)索与侠客站群相关的新闻,或者通过侠客软件论坛(http://bbs.x

3、iake.net)搜索与侠客站群相关的所有内容,都可以通过关键词智能抓取模式来抓取,只需针对不同的网站制作对应的关键词抓取模块即可。简单概括:只要能搜索,就可以抓取。侠客软件-http://www.xiake.net柳州侠客科技有限公司自定义抓取模式特点:可以精确的抓取指定网站、指定栏目、指定页面的内容,可以精确的对目标网站进行内容抓取蜘蛛抓取模式特点:可以模拟蜘蛛爬行模式,只需要一个入口地址,只要文章页有相关文章内链链接,就可以轻松抓取整站内容。同步追踪模式特点:可以同步目标网站,可以指定页面,指定栏目进行同步,只要别人更新,你的网站就可以同

4、步更新内容。四种不同抓取模块制作方法侠客软件-http://www.xiake.net柳州侠客科技有限公司关键词智能抓取模式根链接取得参数1、在侠客站群软件模块配置信息里选择抓取模式为关键词智能抓取模式然后点击流程1根链接取得参数点击根链接取得参数之后,在关键词搜索设置里可以选择网页的编码,搜索格式,来路也地址,分页处理等选项。默认编码为自动识别,不进行分页处理。第一步:设置编码:(自动识别编码会比较消耗资源,也不是百分百精确,可以根据目标网站选择对应的编码,如果不想指定,也可以自动识别)第二步,搜索地址格式:这个与目标网站的搜索方式有关,需要

5、先到一个可以搜索的页面输入关键词手动搜索,然后获取网页搜索的结果地址。(为了便于识别,建议选用英文或者字母作为测试关键词)例如下图。注:该方法适用于所有可以搜索内容的目标网站,只要更改下搜索的地址即可,这里只是用百度新闻作为示例为大家讲解,侠客站群可以用关键词抓取模式抓取任何可以搜索内容的网站侠客软件-http://www.xiake.net柳州侠客科技有限公司第三步,获取到地址之后,将地址复制到软件的搜索地址格式中,然后替换为对应的变量。如果不知道编码,可以在浏览器中右键,查看网页源码,来识别网站的编码,一般,如果GBK乱码了,就是UTF8第

6、四部:测试结果。设置完侠客站群的第一步关键词获取格式之后,可以点击右侧的开始测试按钮进行测试,检测设置是否正确。测试默认使用的关键词为“侠客”,可自定更改;在结果预览区可以看到返回的页面结果,如果有返回相对应的内容,就说明第一步已经设置正确,如果没有相关内容,需要再检查下设置。如果页面内容比较多,可以点击右侧滚动条拖动,显示不同区域的内容,也可以点击新窗口查看,在新页面更方便的查看页面的内容(新窗口显示的页面内容更多)侠客软件-http://www.xiake.net柳州侠客科技有限公司一般的,到这里测试正确之后,根链接取得参数就写好了,默认的

7、只提取一个关键词第一页的搜索结果,(因为第一页的相关性比较好)如果想根据关键词采集更多的内容,比如第二页,第三页,就可以采用分页采集,比如采集百度新闻后面几页的内容:只要在分页处理里开启进行分页处理,然后就可以点击编辑分页提取规则,右侧可以设置最多分页数(默认为1),控制最多提取的页数,避免程序一直提取分页,避免侠客站群软件采集不相关内容,设置如下图点击查看分页提取规则:内容链接取得参数测试完毕之后,记得点击左上角“保存数据”侠客软件-http://www.xiake.net柳州侠客科技有限公司按钮保存设置,然后点击流程2,内容链接取得参数,进

8、入第二步点击第二步之后,会看到如下图界面:点击未命名规则进入内容链接提取页点击后会打开侠客站群的网页信息提取引擎,可以在这个页面提取所有符合要求的链接

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。