如何设置采集规则

如何设置采集规则

ID:17269737

大小:2.26 MB

页数:11页

时间:2018-08-29

如何设置采集规则_第1页
如何设置采集规则_第2页
如何设置采集规则_第3页
如何设置采集规则_第4页
如何设置采集规则_第5页
资源描述:

《如何设置采集规则》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、信息采集管理系统的作用:能帮忙企业在信息采集,资源整合方面节约大量的人力与资金。广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科研等领域。今天我们这节以采集腾讯网站的各地新闻列表为例,一步步教您如何来运用采集系统,如何设置采集规则。点击内容管理-->信息采集管理,如下图:点击“新建项目”,所属模型选择文章,所属栏目即您要采集的信息是要放到哪个栏目下,我们选择国内新闻栏目,如下图:点击“下一步”进入设置列表索引和开始结束标记,如下图:20currencydeposit,weprescribeapassonaregular

2、basis,qilucardaccountonaregularbasis),certificatebondsandsavingsbonds(electronic);3.notdrawnonabanksavingscertificate,certificatebondsapplyformortgageloans,acceptingonlythelender这时我们要打开采集的信息页面第一页,并将网址复制粘贴到列表索引页面:http://news.qq.com/newsgn/gdxw/gedixinwen.htm下面的标记需要我们查看网页生成的源代码,

3、如下图:搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:再到底部分页上找列表结束标记:20currencydeposit,weprescribeapassonaregularbasis,qilucardaccountonaregularbasis),certificatebondsandsavingsbonds(electronic);3.notdrawnonabanksavingscertificate,certificatebondsapplyformort

4、gageloans,acceptingonlythelender填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:我们看到列表截取测试中我们已经成功截取了一些信息列表。还是查看刚才的源代码去找,如下图:我们看到链接开始是:填上后,如下图:点击“下一步”继续设置文章简短标题标记,如下图:20currencydeposit,weprescribeapassonaregularbasis,qilucardaccountonaregularbasis),certific

5、atebondsandsavingsbonds(electronic);3.notdrawnonabanksavingscertificate,certificatebondsapplyformortgageloans,acceptingonlythelender此时,我们看到”上一步”“下一步”按钮下方有分析列表链接测试,我们可以试试是否链接是正确的。如下图:接下来,我们就打开一篇文章查看其源代码,如下图:20currencydeposit,weprescribeapassonaregularbasis,qilucardaccountonareg

6、ularbasis),certificatebondsandsavingsbonds(electronic);3.notdrawnonabanksavingscertificate,certificatebondsapplyformortgageloans,acceptingonlythelender搜索文章标题,然后找到代码,如下图:将

填到简短标题开始和结束标记中,下面再找到文章内容开始和结束标记,如下图:将标题开始结束标记填上,并找出文章内容的开始和结束标记填上,如下图:20currencydeposit,weprescrib

7、eapassonaregularbasis,qilucardaccountonaregularbasis),certificatebondsandsavingsbonds(electronic);3.notdrawnonabanksavingscertificate,certificatebondsapplyformortgageloans,acceptingonlythelender此时如果是提示截取列表错误,那么您可能是没有找到惟一性,需要继续测试。我们如果前面设置的没有问题那么继续点击“下一步”,如下图:看到上面这个界面,欢呼吧,我们采集成功

8、了。继续点击“下一步”作一些相关的采集设置。如果我们需要采集的文章中有图片的让它自动转为图片文章则勾选,如下图:20cur

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。