动易sitefactory文章采集管理教程

动易sitefactory文章采集管理教程

ID:6038372

大小:725.00 KB

页数:11页

时间:2017-12-31

动易sitefactory文章采集管理教程_第1页
动易sitefactory文章采集管理教程_第2页
动易sitefactory文章采集管理教程_第3页
动易sitefactory文章采集管理教程_第4页
动易sitefactory文章采集管理教程_第5页
资源描述:

《动易sitefactory文章采集管理教程》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、动易SiteFactory文章采集管理教程1.采集管理概述系统提供强大的采集功能。采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。系统提供的采集功能具有以下特点:·大量应用AJAX技术,采集设置即截即用,以可视化预览的方式截取代码。·以字段为中心,每个字段都既可以设置采集规则,也可以应用私有过滤和公有过滤的规则。·每个字段都可以预览采集后的结果。对系统每一种字段类型都提供了十几种采集规则,采集规则与

2、字段类型相挂钩(如“文本类型”设置采集规则界面和“时间规则”设置采集规则界面不同)。·采集应用了线程技术,用户可以在采集操作进行过程中进行其他管理操作,系统会采集所指定的项目内容。·采集使用了缓存技术,系统在收集所有列表页链接后再进行采集,从而极大地节省系统资源。·采集可以选择图片、软件等任意模型类型,从而支持采集多种类型的信息。依次点击“内容管理”->“采集管理”功能链接,在出现的下拉式导航菜单中显示了开始采集、采集管理、采集历史记录、采集过滤管理、查看采集进度等功能链接。14.1 采集管理依次点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现

3、的管理界面中,左侧为采集管理操作导航区,显示了开始采集、添加采集项目、采集项目管理、采集历史记录和查看采集进度等管理功能链接。·开始采集:用于采集设置好的采集项目。·添加采集项目:用于添加新的采集项目。·采集项目管理:用于管理和复制采集项目。·采集历史记录:查询和显示已采集的记录历史,避免重复采集。·查看采集进度:查看相应采集任务的执行进度。依次点击“内容管理”->“采集管理”->“采集过滤管理”功能链接,在出现的管理界面中,左侧为采集过滤操作导航区,显示了添加采集过滤、管理采集过滤等管理功能链接。·添加采集过滤:添加采集中所需过滤标题和正文的字符。·管理采集

4、过滤:管理采集中所需过滤的字符。14.2.1 采集流程第一步本节将以采集动易官方网站“公司动态”栏目为例讲解添加采集项目并进行信息采集的全过程。如果您第一次接触采集功能,请认真阅读操作步骤及并理解相关说明,按以下步骤一一操作以建立所需采集的项目。14.2.1第一步:采集项目设置依次点击“内容管理”->“采集管理”->“采集管理”功能链接,在出现的管理界面中,单击左侧管理操作导航中“添加采集项目”功能链接,系统出现“添加采集项目设置”管理界面,以设置所需新建的采集项目的名称、采集网站、编码等基本设置信息。重要参数说明:·项目名称:填写自定义采集项目的名称(如“动

5、易公司动态”)。·对应本站栏目:点选设置所采集的数据保存到本站所对应的栏目节点名(如“文章中心”)。·对应内容模型:点选设置对应栏目的模型(如“文章模型”)。温馨提示:若后续在采集项目完成后,再更改了所对应的模型,系统将自动删除采集第三步所有字段的规则。·采集网站:填写所需采集目标网站的名称(如“动易官网”)。·采集URL:填写采集网页的网址(以http://开头,如“http://www.powereasy.net/Announce/index.html”)。·编码选择:提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,若采

6、集香港、台湾的网站请选择Big5编码,若采集海外网站则选择UTF-8编码(如“动易技术中心”选择“GB2312”编码)。·指定采集数量:指定采集的数量,不指定为采集全部数据。·采集顺序:设置按倒序或正序方式进行采集(系统默认为倒序采集)。·采集简介:填写本采集项目的简要介绍信息(如“动易官方网站动易公司动态信息”)。设置好相关选项后,单击页面底部“下一步”功能按钮进行采集列表项目信息设置。温馨提示:若目标网站的信息需要登录后才可查阅与采集,请参阅动易技术中心(http://tech.powereasy.net/)中的相关说明以进行设置。14.2.2第二步:列表

7、页采集设置采集功能重要是用以批量采集的方法获取目标网站中的列表信息,在列表页采集设置的步骤中将对采集网站列表页获取列表区域代码和设置分页选项。在出现的界面中,左侧默认显示所需采集目标列表页的源代码,右侧以书签式面板显示列表设置和分页设置选项。重要参数说明:1.在“列表设置”书签式面板中,设置所需采集列表代码的区域。·列表开始代码和列表结束代码:填写采集目标源码框中显示的采集列表代码的开始和结束的代码。在动易官方网站公司动态列表页(http://www.powereasy.net/Announce/index.html)的源代码中,找到以下代码:

8、s=“c_main_box”>

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。